정원조 선생님의 챗GPT 에스페란토 대화, 매우 인상적이네요. 하지만 아쉽게도...
나는 오랫동안 에스페란토 학습기를 만들고자 하는 욕구가 있었습니다.
특히 핌슬러(Pimsleur) 교육법이라고, 사람이 누구나 가지고 있는 유추능력과 발성연습을 이용해서 빠르게 효과적으로 학습시킨다고 알려진 교습법이 오랫동안 내머릿속에서 맴돌고 있었습니다. 거의 25년을.
핌슬러 교습법에서 선생은 항상 학습자가 알고 있는 것과 모르는 것의 경계를 명확히 알고, 약간의 새로운 것을 설명해주고 학습자가 유추능력을 이용해서 새로운 것을 활용해 말을 하게 만드는 식입니다. 문자 없이 100% 말로만 하는 것도 특징적입니다. 한적하고 평화로운 곳에서, 나를 매우 잘아는 특급 개인강사가 말로만으로 나에게 에스페란토를 말시켜가면서 가르쳐주는 알흠다운 장면을 상상해 보시면, 그게 핌슬러 교습법입니다.
이걸 소프트웨어로 구현하자면 몇가지 인공지능이 필요합니다. 1.학습자모델링, 2.상황별텍스트생성, 3.음성생성, 4.음성인식, 5.진척모델링이 그것입니다. 1.학습자모델링과 5.진척모델링은 상당량의 날코딩이나 휴리스틱으로 어느정도 커버가 가능한데, 2.상황별텍스트생성, 3.음성생성, 4.음성인식은 상당한 수준의 전문적인 팀만이 할 수 있고, 결정적으로 실제 에스페란토 데이터를 상당량 모아야 하는 것이라 엄두를 못내고 있었습니다. (업계추산 데이터구축 비용으로 따지면 각각 1억을 훨씬 초과하는 견적이 나오는 수준)
다른 메이저 언어들은 공짜로 풀린 데이터셋이 있어서, 그나마 좀 할 수 있는데, 에스페란토에는 불행히도 체계적으로 쌓인 데이터가 없죠.(소수 언어의 비애 ;)
멤링고 만들때 에스페란토 음성 생성기가 없어서, 그나마 발음법이 비슷한 언어를 찾으니 폴란드어가 나와서, 구글 폴란드어 음성생성기에 에스페란토를 폴란드어에서 유사한 발음이 나도록 글자를 변조해서 음성을 녹음했습니다. 특히 끝에서 두번째 오는 독특한 에스페란토 강세를 살리지 못하면 영 이상해져서, 수천개의 예제를 일일이 들어보고 고치고 해서 매우 노가다스럽게 했습니다. 교재내의 단어들은 다 들어 보고 한땀한땀 교정할 수 있다 치지만, 새로운 텍스트를 넣어보면, 여전히 발음퀄리티가 너무 떨어져서, 시험삼아라도 공개할 수 없는 수준입니다. 한땀한땀 교정한 결과가 단어 단위로 97~8% 정확도입니다. 100단어당 두세단어는 어색한 발음입니다. 교정하지 않으면 85%정도나 될까...
일전에 정원조 쌤이 올려 주신 챗GPT 대화를 들어보고 갑자기 '야, 이제 때가 되었구나. 꿈에 그리던 학습기를 만들수 있겠다. 어쩌면, 이미 늦었나? 멤링고 같은 구태의연한 것은 집어 치워야 하나?' 라고 생각하면서, 득달같이 OpenAI 사이트 들어가서 개발자용 API를 찾아 봤습니다. 음성인식 API가 있는데, 지원하는 47개 언어에는 에스페란토가 없었습니다만, 학습에 포함되는 언어가 97개라고 하니 그냥 무시하고, 마소리스님의 목소리로 녹음해서 시험해 보니 글자 단위로 대략 95%정도의 정확도였습니다. 20글자당 하나씩 틀리는 것입니다.
기대했던, 음성생성 API는 아직 미공개입니다.
챗GPT는 온갖 언어를 가리지 않으니 에스페란토도 '꽤' 잘하는 것 같습니다. 특히, 2.상황별텍스트생성은 단어별 99% 정도의 정확도를 보이네요. 99%면 매우 좋아 보이지만... 100 단어마다 하나씩 틀린다고 생각해 보세요. 대략 열문장당 한단어 틀리는 수준이면, 뭐랄까, 선생으로는 써먹기엔 탈락이죠.
기대를 했습니다만, 아직 멀었나 봅니다. 당연하죠, 에스페란토 커뮤니티에서 정제된 데이터를 만든 적이 없는데, 걔네들이 무슨 수로 학습시키겠어요?
에스페란토 코무누모에서 정제된 음성데이터를 만들지 않고 있으니 당분간은 어려울 것입니다.
얼핏 듣기에 에스페란토를 그럴듯하게 하는데, 그건 뭐냐? 라는 의문이 들 겁니다. 그건 이런 겁니다.
텍스트는 양질의 에스페란토 데이터가 많습니다. 커뮤니티 크기에 비하면 비정상적으로 에스페란토 텍스트 양이 많습니다. 반면 음성은 아예 없는 수준입니다. 따라서 텍스트는 꽤 잘하죠.
음성은, 에스페란토를 전혀 모르는 유럽인들에게 에스페란토를 읽어보라고 시켜서 나오는 소리들을 모아서 평균적으로 만든 것입니다. 그럴듯 하지만, 액센트가 영 어색하고, 음소도 여기저기 틀립니다. 기특한 친구로 말벗 삼을 수는 있겠으나, 선생으로 써먹기는 힘든... 상황입니다.
주)
핌슬러교육법설명: https://m.blog.naver.com/lch0206/220685151346
핌슬러 어학교재 리뷰
Pimselur(핌슬러)라고 들어본적 있는가요? 한국분들에게는 꽤 생소한 사람일텐데 외국에서는 외국어를 공...
blog.naver.com
예제로 배우는 멤링고 에스페란토: http://memlingo.esperanto.or.kr/
Memlingo - Learn Esperanto by Examples
memlingo.esperanto.or.kr
'DeepFuture' 카테고리의 다른 글
Memlingo sercxas kontribuantojn (0) | 2024.01.21 |
---|---|
죽다 살아난 멤링고(Memlingo) 프로젝트 (3) | 2023.11.22 |
사업아이디어: "한국어 AI쌤" (0) | 2023.11.15 |
Memlingo - Lernilo por Azianoj (0) | 2023.11.13 |
커먼보이스, 음성인식 자료 수집 프로젝트 (1) | 2023.11.12 |