본문 바로가기
Professional Engineer/AI

자연어 음성인식(Speech-to-Text)

by 코드네임피터 2024. 9. 20.
반응형

정의

- 자유발화 음성을 가독성 있는 텍스트로 자동변환하는 인공지능 기술로, 머신과의 커뮤니케이션을 인간의 언어로 실현하는 궁극의 인터페이스 또는 인터랙션 기술

 

키워드

- 끝처리, 전처리, 후처리, 음향모델, 발음사전, 언어모델

 

메커니즘

 

기술요소

주요 기술
EPD : 음성신호만의 고유한 특성을 처리하기 위해서, 발화 음성의 시작과 끝을 자동으로 검출하는 끝점검출 기술
전처리 기술 : 음성신호의 주파수 특성을 잡음환경에서도 뚜렷하게 분석 추출하는 기술
후처리 기술 : 숫자나 영문, 문장부호를 복원하는 기술

 

주요 모델
음향모델  :  화자의 음성이 어떤 소리인지 분별 능력을 학습하는 모델
발음사전  :  단어의 다양한 발음패턴을 기억하는 사전
언어모델  :  단어 간의 관계 또는 문법을 학습하는 모델

반응형

댓글