'음성인식' 태그의 글 목록

음성인식

2020. 6. 15. 16:57

음성인식기 음향 모델 중 뛰어난 성능을 내고 있는 FSMN 에 대한 논문들을 리뷰해 보았다.
신호처리 이론 중 IIR filter는 High order FIR filter로 근사가 가능하다.
RNN 계통에서 recurrent layer는 개념적으로 first order IIR filter와 유사하다고 볼 수 있다.
핵심 아이디어는 recurrent layer를 대신할 수 있는 High order FIR filter와 같은 DNN 구조를 제시한다는 것
feedforward neural network (FNN)에서 Memory block을 둬서 현재 프레임의 앞뒤의 long context information을 인코딩 해서 그 정보를 사용하여 현재의 FNN을 update 해 나간다.
RNN 계통보다 모델이 light하고, 학습 시 안정적이다.
scalar FSMN, vector FSMN, compact (vector) FSMN, Deep-FSMN

[Kaldi Decoding] 칼디 디코딩 그래프 구성 (0)	2020.06.18
[Kaldi Decoding] Finite State Transducer algorithms (FST) (0)	2020.06.18
[speech recognition] Audio augmentation (0)	2020.06.13
[E2E ASR] RNN-Transducer for ASR (0)	2020.06.13
[E2E ASR] Improved RNN-T Beam search decoding (Facebook) (0)	2020.06.13

PREV 1 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`