Professional Engineer/AI
자연어 음성인식(Speech-to-Text)
코드네임피터
2024. 9. 20. 11:29
반응형
정의
- 자유발화 음성을 가독성 있는 텍스트로 자동변환하는 인공지능 기술로, 머신과의 커뮤니케이션을 인간의 언어로 실현하는 궁극의 인터페이스 또는 인터랙션 기술
키워드
- 끝처리, 전처리, 후처리, 음향모델, 발음사전, 언어모델
메커니즘

기술요소
주요 기술
EPD : 음성신호만의 고유한 특성을 처리하기 위해서, 발화 음성의 시작과 끝을 자동으로 검출하는 끝점검출 기술
전처리 기술 : 음성신호의 주파수 특성을 잡음환경에서도 뚜렷하게 분석 추출하는 기술
후처리 기술 : 숫자나 영문, 문장부호를 복원하는 기술
주요 모델
음향모델 : 화자의 음성이 어떤 소리인지 분별 능력을 학습하는 모델
발음사전 : 단어의 다양한 발음패턴을 기억하는 사전
언어모델 : 단어 간의 관계 또는 문법을 학습하는 모델
반응형