DeepFuture

커먼보이스, 음성인식 자료 수집 프로젝트

42-the-answer 2023. 11. 12. 12:29

여러분의 에스페란토 목소리를 기부하세요. 특히 여성 목소리가 더 많이 필요합니다.

모질라(Mozilla) 재단은 오픈소스 소프트웨어를 만드는 유명한 재단입니다. 이 재단에서, '음성인식'을 위한 소리를 채집하고 있습니다. 에스페란토도 많은 언어 중에 포함되어 있습니다.

수집 방식은 이렇습니다. 크게 세가지가 있습니다. 1.문장읽기, 2.듣고판단하기, 3.새문장쓰기.

1.문장읽기(Paroli)는 다섯개의 문장이 순서대로 주어집니다. 녹음 버튼을 누르고 읽으면 됩니다. 다섯개가 끝나면, 각각 다시 들어보고 잘못 녹음된 것은 그것만 다시 녹음하실 수 있습니다. 됐다 싶으면, 다섯개를 한꺼번이 업로드 합니다. 계속 새로운 문장을 반복하시면 됩니다.

2.듣고판단하기(Auxskulti)는 다섯 문장 단위로, 이미 다른 사람이 녹음해 놓은 것을 하나씩 들어보고, 적당하면 Yes, 훈련시킬 재료로 부적합하다 판단하면 No로 분류하여 업로드 하는 것입니다.

3.새문장쓰기는 15단어 이하의 문장과 저작권 오픈 여부 및 출처를 입력하는 것입니다.

음성인식을 위한 것이라 약간의 배경잡음이 있어도 명확히 알아 들을 수만 있으면 괜찮습니다.

많은 한국인 목소리가 들어가야 한국인들의 에스페란토도 더 잘 알아 듣겠죠. 좀 틀려도 다른 사람들이 들어보고 아니다 싶은 것은 걸러 내니까, 어려워하지 말고, 많은 참여 부탁드립니다. 별도 가입도 없이 휴대폰으로 바로 할 수 있습니다.

현재 에스페란토 음성데이터 통계는 1700여명의 참가자, 1900여시간분의 목소리, 18만여 문장, 75% 검증완료입니다.

챗GPT가 이미 상당히 잘 알아 듣지만, 안드로이드, 윈도우, 아이폰 등 범용 컴퓨터가 에스페란토를 알아먹으려면 아직 갈길이 멉니다. 이런식의 데이터가 있기에 챗GPT가 가능한 것이고, 앞으로 더 발전하는 겁니다.

음성생성 데이터는 음성인식용 데이터와 성격이 좀 다릅니다. 음성인식은 잡음도 섞여 있는 무작위 음성을, 가리지 않고 누구의 목소리라도 알아들어야 하기 때문에, 이런 식의로 수많은 사람들이 품질이 낮은 마이크로 녹음하는 것을 모아서 활용하는 것이 옳은 것입니다.

반면 음성생성은 특정한 사람(또는 몇명)의 발음이 매우 또렷한 사람에게, 10~100시간 분량의 텍스트를 매우 품질좋은 마이크로 정제해서 녹음하는 방식을 취합니다. 보통은 성우를 데려다가 녹음스튜디오에서 작업을 합니다. 에스페란토에서도 폴란드인 Spomenka Stimec 여사의 모범적인 목소리로 음성생성기를 만든 예가 있으나, 데이터가 퍼블릭하게 공개되진 않은 것 같습니다.

누군가 작업을 할 만도 한데 말입니다. UEA협회차원에서 할 만도 한데 ... UEA에 연줄이 닿는 사람이라면 힘좀 써봐 주세요.



주)

에스페란토 음성기부하기:
https://commonvoice.mozilla.org/eo/

Mozilla Common Voice

commonvoice.mozilla.org


음성생성용 목소리는 이 사람이 제일 적합해 보입니다.
https://youtu.be/cv7Rvu9otx0?si=GyIaL1rTBgxF4ONO