본문 바로가기

Education

[제로베이스 수강생 프로젝트 소개] 사투리로 된 문장의 유사도 계산

제가 활동하고 있는 제로베이스의 수강생들 중 한 팀의 프로젝트를 소개하려고 합니다. 제로베이스는 아주 많은 프로젝트를 유도하고 있는데요. 이 중 오늘 소개해드릴 내용은 저희끼리는 머신러닝 프로젝트라고 해서 머신러닝을 배우고 아직 딥러닝을 들어가기전 지식만 가지고 프로젝트를 수행하는 것입니다.

사투리와 알파고의 합성일까요?^^ 팀 이름은 사파고입니다.^^.

이 팀은 AI HUB에서 제공하는 데이터를 대상으로 프로젝트를 수행했습니다.

먼저 사투리가 들어오면, 음성데이터를 가지고 주파수 영역의 데이터로 변환한 후 랜덤포레스트를 이용해서 사투리인지 표준어인지, 사투리도 지역별로 분류를 합니다. 그리고 STT API를 이용해서 텍스트로 변환하고, 가장 가까운 표준어를 찾아서 변환해 주는 것입니다. 음.. 이렇게 쓰고 보니 사투리 변역기일까요?^^

MFCC를 사용하기 위해 주파수로 변환하는 방법에 대한 공부를 많이 수행한 것으로 보입니다.

그리고 발표에서 실제 음성들을 들려주며 많은 이해를 돕고 있습니다.

이렇게 사투리와 가장 유사한 표준어를 찾아 주는 모델을 만들었네요^^

요즘 나오는 GPT등 거대 모델은 알고 있지만, 저는 이 팀이 기초적인 머신러닝의 절차와 데이터 전처리등을 익히는데 주력한 것을 높게 평가합니다. 특히 주파수 변환에 대해 학습하기 쉽지 않았을텐데 잘 수행해서 프로젝트 발표까지 마쳐 주었네요.^^.

반응형