- 음성인식기 음향 모델 중 뛰어난 성능을 내고 있는 FSMN 에 대한 논문들을 리뷰해 보았다.
- 신호처리 이론 중 IIR filter는 High order FIR filter로 근사가 가능하다.
- RNN 계통에서 recurrent layer는 개념적으로 first order IIR filter와 유사하다고 볼 수 있다.
- 핵심 아이디어는 recurrent layer를 대신할 수 있는 High order FIR filter와 같은 DNN 구조를 제시한다는 것
- feedforward neural network (FNN)에서 Memory block을 둬서 현재 프레임의 앞뒤의 long context information을 인코딩 해서 그 정보를 사용하여 현재의 FNN을 update 해 나간다.
- RNN 계통보다 모델이 light하고, 학습 시 안정적이다.
- scalar FSMN, vector FSMN, compact (vector) FSMN, Deep-FSMN
[1] https://arxiv.org/abs/1803.05030
'Speech Signal Processing > Speech Recognition' 카테고리의 다른 글
[Kaldi Decoding] 칼디 디코딩 그래프 구성 (0) | 2020.06.18 |
---|---|
[Kaldi Decoding] Finite State Transducer algorithms (FST) (0) | 2020.06.18 |
[speech recognition] Audio augmentation (0) | 2020.06.13 |
[E2E ASR] RNN-Transducer for ASR (0) | 2020.06.13 |
[E2E ASR] Improved RNN-T Beam search decoding (Facebook) (0) | 2020.06.13 |