General challenges in incorporating microphones

 

제품에 들어가는 엔지니어링 마이크는 일반적으로 마이크와 그 어플리케이션에 내재된 문제로 복잡하다.

 

대부분의 마이크에 내재된 한 가지 문제는, 낮은 신호 대 잡음 비율(SNR)이다.

우리는 보통 오디오 전자장치로 90dB 이상의 SNR을 예상하지만, 일반적인 마이크는 60dB의 범위에서 SNR을 가진다.

 

이 문제를 복잡하게 만드는 것은 마이크가 종종 큰 dynamic range를 커버해야 한다는 것이다. 마이크에 30dB SPL만큼 조용한 소리가 들어갈 수도 있고, 1초 후에 2cm 거리에서 110dB SPL로 소리치는 인간의 목소리 또는 가까운 거리에서 130dB만큼 크게 울리는 드럼을 다룰 수 있다. 이 높은 dynamic range는 가장 큰 peak를 수용하지만, 과도한 소음을 발생시키지 않는 gain level을 달성하는 것이 어려울 수도 있다. 대부분의 마이크로폰에 필요한 high-level preamp 회로도 과도한 소음을 발생시킬 수 있다.

 

 

음원과 관련된 마이크의 위치는 스피커폰이나 디지털 카메라와 같은 어플리케이션에서는 예측할 수 없으며, 소스는 1cm 또는 100m까지 떨어져 있을 수 있다. 환경은 때때로 예측할 수 없다; 그것은 40dB SPL의 조용한 방일 수도 있고 100dB SPL의 붐비는 클럽일 수도 있다. 종종, 같은 브랜드와 모델이 수많은 어플리케이션에 걸쳐 지정될 수도 있다. 따라서 이러한 모든 조건과 그 이상을 수용해야 한다.

 

마이크를 위한 어플리케이션의 대부분은 휴대용 장치에 있으며, 이것은 추가적인 문제를 야기한다. 포터블 제품은 소형인 경향이 있으며, 폼 팩터가 설계자의 마이크로 배치 옵션을 제한하기 때문에 성능이 저하되는 경우가 많다. 이 제품들은 대부분 배터리로 구동되며, 한 자릿수 전압 공급만 수중에 있고 종종 몇 시간만 작동한다.

 

 

Specific challenges in incorporating microphones

 

위에서 언급한 일반적인 과제 외에도, 많은 특정 마이크 설계와 애플리케이션은 오디오 엔지니어에게도 도전 과제를 제시한다. 여기에는 다음이 포함된다.

 

- DC offset: 많은 마이크, 특히 MEMS와 콘덴서 유형은, 출력 시 정상 상태 DC 전압을 발생시키며, 이는 다운스트림 구성 요소에 손상을 줄 수 있기 때문에 제거해야 한다.

 

 

 

 

- Non-flat frequency response: 많은 마이크로폰은 높은 주파수 및/또는 낮은 주파수에서 상당한 롤오프 또는 부스트를 나타내며, 인클로저에 장착된 마이크는 큰 비선형성을 발생시키는 경향이 있으며, 그 중 다수는 미드레인지에 있으므로 쉽게 들을 수 있다.

 

 

 

- Output mismatch with multiple mics: 제조 분산으로 인해 마이크는 샘플 간 출력 전압에 상당한 차이를 보일 수 있다. 단일 마이크를 사용할 경우, 이것은 완제품의 성능 차이를 야기할 수 있다. 출력 불일치는 또한 소음/풍력 취소 및 다중 마이크에 의존하는 방향성 음향 수신과 같은 기술의 유효성을 감소시킨다.

 

- Environmental noise: 마이크로폰은 소음 환경에서 작동해야 하는 경우가 많으며, 원하는 소음에 미치는 영향이 최소화된 환경 소음을 제거해야 하는 경우가 많다.

 

- Essing and popping: 근거리 음성 애플리케이션은 downstream circuit에서 왜곡을 일으킬 수 있는 sebilant and plosive sounds (문자 B, D, G, K, P, T)의 높은 공기 속도를 처리할 수 있는 능력을 필요로 한다.

 

- Wind Noise: 대부분의 모바일 애플리케이션에서, 공기는 종종 마이크 바람이나 움직임 때문에 마이크를 가로질러 흐른다. 이것은 원하는 소리를 가릴 수 있는 저주파수 럼은 물론 중, 고주파수 노이즈를 발생시킨다.

 

- Interference from nearby speakers: 마이크로폰은 종종 스피커 시스템과 근접하거나 스피커 시스템과 연계하여 작동해야 하는데,이들의 소리는마이크로폰으로 새어나와 방해나 피드백을 만들어 낼 수 있다.

 

 

Solutions to problems encountered with microphones

 

위에서 인용한 각각의 문제는 신호 처리를 통해 해결할 수 있다. 대부분의 경우, 각각은 고유의 특정한 해결책을 필요로 한다.

 

DC offset

DC 오프셋은 오디오 범위에 영향을 미치지 않을 정도로 낮은 주파수로 설정된 고역 통과 필터를 사용하여 차단할 수 있다. 일반적으로 필터는 2차 순서(12dB/octave) 또는 steeper가 되며, 일반적으로 -3dB point가 10Hz 전후가 된다. 필터는 용도에 맞게 조정되어야 한다. deep bass response 이 문제가 아닐 경우 더 higher frequencies and gentler slopes 를 사용할 수 있다. 일부 base response을 희생하면서 마이크 핸들링 소음과 저주파수 rumble을 reject하기 위해 필터는 오디오 대역의 주파수(일반적으로 80Hz)로 설정할 수도 있다.

 

Non-flat frequency response

마이크 또는 마이크 인클로저에 내재된 주파수 응답 비선형성은 필터를 사용하여 제거할 수 있다. 저역 통과 및/또는 고역 통과 필터는 상승 또는 하강 베이스 또는 트레블 응답을 교정할 수 있다. 밴드패스 및 밴드 제거 필터는 인클로저의 음반사 및/또는 공명 때문에 발생하는 반응 피크 및 딥을 교정할 수 있다.

 

필터는 또한 많은 다른 목적에도 도움이 된다. 예를 들어, 음성 수신 및 인지도를 높이기 위해 미드레인지 부스트 필터(일반적으로 약 2kHz 중심 밴드패스 필터)를 사용하는 경우가 많다. 필터는 또한 주관적인 음질을 최적화하도록 조정될 수 있다.

 

또한 특정 가수의 특성에 맞는 베이스 축소 또는 트레블 응답과 같은 선택 가능한 사운드 모드를 만들 수 있다. 재생산 체인을 알면 필터는 소형 스피커를 사용할 때 베이스 응답을 줄이는 등 재생 장치의 기능에 맞게 마이크 응답을 최적화하도록 조정할 수 있다.

 

 

Output Level Mismatch

제조상의 불일치로 인한 마이크 출력 수준의 불일치는 신호 처리를 통해 보정 또는 자동 게인 제어의 두 가지 방법으로 해결할 수 있다.

 

공장 교정은 마이크를 포함하는 완제품에 가장 적합하다. 테스트 톤을 재생하고, 각 마이크의 출력을 측정하고, 해당 마이크에 대한 적절한 이득을 계산한 다음, 해당 마이크가 설치된 제품의 펌웨어에 해당 게인 설정을 로드하는 것을 포함한다. 현장 교정은 종종 별도로 구매하는 여러 대의 마이크를 사용하는 음향 보강 및 홈 씨어터 애플리케이션에 적합하다. 마이크를 함께 놓고, 테스트 톤을 재생하고, 각 마이크의 출력이 처리되어 모두 일치한다.

 

자동 게인 제어는 각 마이크에서 나오는 신호 레벨을 모니터링하고 모든 마이크가 원하는 평균 또는 피크 레벨을 생성하도록 게인을 조정한다. 특히 멀티채널 사운드 레코딩과 같이 수신할 소리의 환경 및/또는 특성을 알 수 없는 애플리케이션에 적합하다.

 

다이나믹 레인지 관리 앞에서 설명한 것처럼 마이크와 그에 수반되는 전자제품이 전체 다이나믹 레인지를 포착하기 어려운 상황이 많다. 게인이 너무 높게 설정되면 예상치 못한 큰 소리가 왜곡을 일으킬 수 있다. 게인을 너무 낮게 설정하면 마이크에 연결된 아날로그-디지털 변환기(ADC)는 최대 비트 수를 사용할 수 없으므로 필요 이상으로 많은 노이즈를 발생시킨다.

 

 

 

동적 범위 관리를 위한 한 가지 해결책은 이전 섹션에서 설명한 자동 게인 제어다. 마이크로폰의 레벨은 모니터링되고 자동으로 조정되어 소음이 최소화될 수 있을 정도로 레벨이 높지만 0dBFS를 초과해서는 안 되며 따라서 클리핑이 발생하지 않는다.

 

관련 솔루션은 압축기/한계기로, 고정 신호 처리를 사용하여 음질과 녹음 품질을 최적화한다. 리미터에서 미리 결정된 임계값을 초과하는 신호는 레벨에서 감소되어 임계값을 초과하지 않거나, 임계값을 한 번 초과하면 상승 속도가 특정 비율로 감소하는데, 이는 보통 조절이 가능하다. 압축기는 약한 신호의 수준을 높이는 기능과 리미터와 결합한다. 이 조합은 ADC 과부하 위험성이 훨씬 적은 동적 범위를 가진 신호를 발생시킨다.

 

압축기/제한기를 사용하여 마이크가 집는 소리의 품질을 최적화할 수도 있으며, 예를 들어, 소음이 심한 환경에서 음성을 듣고 이해하는 데 도움이 되는 평균 신호 레벨을 생성할 수 있다. 마이크 신호 운하를 압축하면 자체 압축기/제한기 처리가 없는 소형 스피커와 같이 다운스트림 구성 요소에 대한 응력을 줄이고 출력을 최대화할 수 있다.

모든 압축기/제한기는 필터를 추가함으로써 주파수에 따라 달라질 수 있다. 예를 들어, 큰 베이스 소음을 제어해야 하지만 미드레인지 및 트레블 소리가 제어되지 않는 경우, 저역 통과 필터를 압축기/제한기보다 먼저 사용할 수 있으며, 압축기/제한기 출력은 고역 통과 필터링 및 비압축 신호와 재결합된다.

 

Noise / Hiss

소음과 소음은 낮은 SNR과 환경 소음을 발생시키는 경향이 있기 때문에 마이크의 일반적인 문제들이다. 이 소음은 주의를 산만하게 할 수 있다. 듣는 사람에게 귀찮은 이 문제를 완화하거나 제거하기 위해 소음 게이트를 사용할 수 있다. 소음 게이트는 일반적으로 레벨이 일정 수준 이하로 떨어질 때 오디오 신호를 음소거한다. 신호에 중요하거나 청각적인 소리가 없는 경우. 소음 게이트의 문턱값(신호가 음소거되는 아래의 신호 수준)은 불필요한 소리를 차단하거나 음소거 또는 과도한 소음을 허용하지 않도록 조정해야 한다.

 

 

 

 

압축기/제한기와 마찬가지로 소음 게이트는 필터로 신호 체인에 선행함으로써 주파수에 따라 달라질 수 있다. 예를 들어 기계류에서 발생하는 저주파 웅성거림이 소음 게이트를 부적절한 시간에 열어두기에 충분할 경우 저주파 구성요소는 소음 게이트의 수준 감지 입력에서 걸러낼 수 있으므로 게이트의 작동은 고주파 음에만 영향을 받는다.

 

Environmental and wind noise

많은 다른 마이크 신호 처리 기술은 시끄러운 환경 또는 바람 소음에서 원하는 소리를 쉽게 들을 수 있도록 한다. 이러한 기법에는 단순한 필터링부터 노이즈 취소, 고급 멀티 마이크로폰 어레이에 이르기까지 모든 것이 포함된다.

 

필터링은 예상되는 소음 유형을 거부하도록 조정할 수 있다. 예를 들어, 실외 애플리케이션(즉, 작용 캠)을 위한 마이크는 바람과 도로 소음의 저주파 성분을 줄이기 위해 고역 통과를 필터링할 수 있다. 의 범위가

원하는 소리는 상당히 좁다. 예를 들어 대부분 100Hz에서 3kHz까지의 범위인 인간의 음성이나 1kHz를 중심으로 한 대부분의 소닉 에너지를 가진 총성과 같이, 밴드 패스 필터를 사용하여 그 범위를 강조할 수 있다.

 

여러 대의 마이크를 사용하면 소음을 더 효과적으로 취소할 수 있다. 두 개의 마이크(두 번째 마이크로 더 멀리 떨어져 있는 피사체 근처에 위치한 기본 마이크)가 스피커폰에 사용될 때, 두 개의 음량 모두 동일한 음량으로 나타난다.

마이크는 감쇠될 수 있고, 따라서 원하는 소리의 상대적 수준을 증가시킬 수 있다.

 

마이크와 관련된 피사체의 위치가 알려지면, 복수의 마이크를 배열하면 피사체를 환경으로부터 분리하는 데 도움이 되는 방향 픽업 패턴을 생성할 수 있다. 소리는 약간 다른 시간에 배열의 다양한 마이크에 도달한다. 올패스 필터를 사용하여 배열의 특정 마이크에서 위상을 이동시킴으로써 특정 방향에서 도달하는 소리는 증폭되고 다른 방향에서 오는 소리는 감쇠된다.

 

Essing and popping

보컬 어플리케이션에서 Essing과 poping 하는 것은 일반적으로 두 가지 방법을 사용하여 최소화된다. 즉, 플롯과 시빌리언트 사운드가 내는 큰 피크를 줄이는 압축기/제한기와 성가신 주파수에서 출력을 줄이는 필터 또는 필터를 사용한다. 약 100Hz의 고역 통과 필터는 음성 품질에 큰 영향을 미치지 않고 "팝스"의 베이스 성분을 플롯 사운드로 줄일 수 있다. 2에서 밴드 제거 필터

3kHz 범위를 사용해 형성을 줄일 수 있다. 이 두 필터 모두 음질을 크게 줄이지 않고 효과를 극대화하도록 조정해야 한다.

 

Interference from speakers

확성기 앞에서 마이크를 사용해야 하는 경우, 스피커에서 나오는 소리의 픽업은 확성기 공급 신호가 알려진 경우(예: P.A. 시스템 또는 Bluetooth 스피커) 상당히 감소할 수 있다. 스피커에 공급되는 신호는 위상 역전된 다음 마이크에서 나오는 신호와 적절한 수준에서 결합되어 음향 에코 취소 기능을 만든다. 그런 다음 스피커에서 나오는 소리는 감쇠되거나 취소되므로 원하는 소리를 마이크가 집어드는 데 방해가 되지 않는다.

 

Difficulties in implementing microphone processing

최적의 성능을 위해 마이크를 사용하는 대부분의 어플리케이션은 위의 기법의 조합을 필요로 한다. 오디오 엔지니어에게 이러한 조합은 구현하기 어려울 수 있다.

 

아날로그 회로를 사용하여 여러 개의 마이크로 신호 처리 단계를 만드는 것은 대개 비현실적이다. 왜냐하면 아날로그 프로세싱의 여러 단계가 과도한 소음을 발생시키는 경향이 있기 때문이다. 회로의 개발과 튜닝은 너무 많은 시간이 소요되며, 결과 제품은 너무 비쌀 수 있기 때문이다.

 

디지털 신호 처리(DSP)는 이러한 문제를 해결할 수 있지만, 위에서 설명한 많은 기능들은 DSP 칩을 위한 주식 프로그래밍 인터페이스에서 사용할 수 없는 정교한 알고리즘을 필요로 하며, 구현하기 위해서는 상당한 DSP 코딩 스킬이 필요하다. 또한 이러한 처리 기법을 실행하는 데 필요한 정교한 알고리즘은 강력한 DSP 칩을 필요로 하며, 가급적 32비트 처리 능력을 갖추고 있어야 한다.

 

이러한 알고리즘을 실행하는 DSP 칩은 대부분의 경우 배터리 또는 에너지 효율적인 전원 공급 장치에서 저전압으로 작동할 수 있어야 한다. 일부 애플리케이션은 보안 및 건강 모니터링 장비, TV와 Amazon Echo 스마트 Bluetooth 스피커와 같은 자동차 및 가전 제품에 사용되는 음성 명령 시스템 등 DSP를 항상 실행해야 한다. 이러한 애플리케이션에서 제품의 핵심 오디오 프로세싱 구성 요소는 항상 켜져 있어야만 제품을 최대 전원으로 끌어올 수 있는 사용자의 트리거 단어를 감지하고 명령을 실행할 수 있다. 에너지 효율에 대한 우려 때문에, 전력 소비량을 매우 낮은 수준으로 유지하는 것이 바람직하다. 종종 단지 몇 밀리와트에 지나지 않는다.

 

 

마이크를 사용하는 제품의 설계와 튜닝은 DSP 프로그래밍에 사용되는 것과 상당히 다른 기술을 필요로 한다. 소수의 DSP 엔지니어만이 오디오 제품을 설계하고 성능을 최적화할 수 있는 엔지니어링 지식과 경험을 보유하고 있다. 그러나 DSP 코딩 기술을 보유한 오디오 엔지니어는 거의 없다.

 


 

[1] https://dspconcepts.com/sites/default/files/digital_microphone_processing_paper.pdf

 

 

여기에서는 정상적인 그래프 생성 접근 방식과 관련된 특정 data-preparation stages를 단계별로 설명합니다.

 

이 방법에 대한 대부분의 세부 사항은 우리 tools에 하드 코딩되어 있지 않습니다. 우리는 단지 현재 어떻게 done 되어 있는지 설명하고 있습니다. 이 섹션이 혼란 스러우면 가장 좋은 해결책은 Mohri et al.의 "Speech Recognition with Weighted Finite-State Transducers" 을 읽는 것입니다. 경고 : 그 Paper는 꽤 길며, FST에 익숙하지 않은 사람들에게는 적어도 몇 시간이 걸릴 것입니다. 또 다른 좋은 자료는 OpenFst website 로서 심볼 테이블과 같은 것들에 대한 더 많은 컨텍스트를 제공합니다.

 

Preparing the initial symbol tables

우리는 OpenFst symbol tables words.txt 및 phones.txt를 준비해야합니다. 이것들은 우리 시스템 안의 integer id's 를 모든 단어와 phones에 할당합니다. OpenFst는 epsilon을 위해심볼 0을 예약합니다. An example of how the symbol tables look for the WSJ task is:

 

## head words.txt

<eps> 0
!SIL 1
<s> 2
</s> 3
<SPOKEN_NOISE> 4
<UNK> 5
<NOISE> 6
!EXCLAMATION-POINT 7
"CLOSE-QUOTE 8
## tail -2 words.txt
}RIGHT-BRACE 123683
#0 123684
## head data/phones.txt
<eps> 0
SIL 1
SPN 2
NSN 3
AA 4
AA_B 5

 

words.txt 파일에는 단일 명확성(disambiguation)기호 "#0"(used for epsilon on the input of G.fst))이 포함되어 있습니다. 이것은 레시피에서 마지막으로 번호가 매겨진 단어입니다. 사전에 단어 "#0"이 포함되어 있으면 주의하십시오. phones.txt 파일에는 명확성 기호가 포함되어 있지 않지만 L.fst를 만든 후 명확성 기호가 포함 된 phone_disambig.txt 파일을 만듭니다 (디버깅에 유용함).

 

Preparing the lexicon L

먼저 처음에는 명확성 기호가없는 텍스트 형식의 lexicon을만듭니다. 우리의 C ++ 툴은 이것과 상호 작용하지 않으며, lexiconFST를 생성하는 스크립트에 의해서만 사용될 것입니다. WSJ lexicon의일부는 다음과 같습니다.

 

## head data/lexicon.txt

!SIL SIL
<s>
</s>
<SPOKEN_NOISE> SPN
<UNK> SPN
<NOISE> NSN
!EXCLAMATION-POINT EH2_B K S K L AH0 M EY1 SH AH0 N P OY2 N T_E
"CLOSE-QUOTE K_B L OW1 Z K W OW1 T_E

 

phones 의 시작, 끝 및 stress markers(예 : T_E 또는 AH0)는 WSJ recipe에따라 다르며 툴킷에 관한 한 별도의 phones로 취급됩니다 (however, we do handle the tree-building specially for this setup; read about the roots file in The tree building process).

 

words with empty phonetic representations는 허용됩니다. 이 lexicon은 훈련에 사용 된 L.fst를 만드는 데 사용됩니다 (without disambiguation symbols). 또한 decoding그래프 생성에 사용되는 disambiguation symbols가 포함 된 lexicon을 만듭니다. 이 파일의 추출은 다음과 같습니다.

 

# [from data/lexicon_disambig.txt]

!SIL SIL
<s> #1
</s> #2
<SPOKEN_NOISE> SPN #3
<UNK> SPN #4
<NOISE> NSN
...
{BRACE B_B R EY1 S_E #4
{LEFT-BRACE L_B EH1 F T B R EY1 S_E #4

 

이 파일은 스크립트로 작성됩니다. 이 스크립트는 추가해야 할 disambiguation symbols의 수를 출력하며, 이 것은 phone_disambig.txt symbol table을 만드는 데 사용됩니다. 이는 phone.txt와 동일하지만, disambiguation symbols#0, #1, #2 등의 integer ID도 포함합니다 (#0은, G.fst에서 왔지만 자체 루프를 통해 L.fst를 통과하는, 특수한 명확성 기호입니다.). phones_disambig.txt 파일 중간 부분은 다음과 같습니다.

 

ZH_E 338
ZH_S 339
#0 340
#1 341
#2 342
#3 343

 

이 (WSJ) recipe에서 stress와 position information를 phones에 추가했기 때문에, 숫자가 너무 높습니다. 빈 단어 (예 : <s> 및 </ s>)에 사용 된 명확성 기호는 일반 단어에 사용 된 명확성 기호와 달라야하므로이 예에서 "일반"명확성 기호는 #3부터 시작합니다.

 

명확성 기호가없는 lexicon을 FST로 변환하는 명령은 다음과 같습니다.

scripts/make_lexicon_fst.pl data/lexicon.txt 0.5 SIL | \
fstcompile --isymbols=data/phones.txt --osymbols=data/words.txt \
--keep_isymbols=false --keep_osymbols=false | \
fstarcsort --sort_type=olabel > data/L.fst

 

여기서 make_lexicon_fst.pl 스크립트는 FST의 텍스트 표현을 만듭니다. 0.5는 silence확률입니다 (즉, 문장의 시작과 각 단어 다음에, 우리는 확률 0.5로 silence을 출력합니다. silence로 할당 된 probability mass 은 1.0-0.5 = 0.5입니다.이 예의 나머지 명령은 FST를 컴파일 된 형식으로 변환하는 것과 관련이 있습니다. 나중에 compose하기 때문에 fstarcsort가 필요합니다.

 

Lexicon의 구조는 대략 예상대로입니다. 최종적인 하나의 상태 ( "the "loop state")가 있습니다. 루프 상태로 두 가지 전환이있는 시작 상태가 있습니다. one with silence and one without.루프 상태에서 각 단어에 해당하는 전이가 있으며 해당 단어는 전이의 출력 심볼입니다. 입력 기호는 해당 단어의 첫 번째 포님입니다. composition의 효율성과 minimization의 효과 를 위해, 출력 기호가 가능한 한 빨리 (즉, 단어의 끝이 아닌 처음에) 있어야합니다. 각 단어의 끝에서, 선택적 silence 를 처리하기 위해, 마지막 phone 에 대응하는 transitions는 두 가지 형태가 있다. 하나는 loop상태로 전환되고, 다른 하나는 루프 상태로 전환되는 "silence상태"로 전환된다. 우리는 silence 단어 뒤에 선택 silence을 넣는 것을 걱정하지 않는다. 우리는 silence phone이라는 하나의 phone을 가진 단어로 정의합니다.

 

disambiguation symbols lexicon을 만드는 것은 약간 더 복잡합니다. 문제는 G.fst의 disambiguation symbol#0 이 lexicon을 통해 전달 될 수 있도록 lexicon에 self-loop를 추가해야한다는 것입니다. 우리는 fstaddselfloops (c.f. Adding and removing disambiguation symbols) 프로그램을 사용 하여이 이 작업을 수행합니다. make_lexicon_fst.pl 스크립트에서 "수동으로" 쉽게 수행 할 수있었습니다.

 

phone_disambig_symbol=`grep \#0 data/phones_disambig.txt | awk '{print $2}'`
word_disambig_symbol=`grep \#0 data/words.txt | awk '{print $2}'`
scripts/make_lexicon_fst.pl data/lexicon_disambig.txt 0.5 SIL | \
fstcompile --isymbols=data/phones_disambig.txt --osymbols=data/words.txt \
--keep_isymbols=false --keep_osymbols=false | \
fstaddselfloops "echo $phone_disambig_symbol |" "echo $word_disambig_symbol |" | \
fstarcsort --sort_type=olabel > data/L_disambig.fst

 

 

fstaddselfloops 프로그램은 원래 OpenFst 명령 줄 도구 중 하나가 아니며, Kaldi 자체 tools 중 하나입니다.

 

Preparing the grammar G

문법 G는 단어를 그것의 상징으로하는 acceptor 입니다 (즉, 입력 및 출력 기호는 각 arc에서 동일합니다).입력측에만 나타나는 disambiguation symbol#0은 예외입니다. 입력이 Arpa 파일이라고 가정하면 Kaldi 프로그램 arpa2fst를 사용하여 FST로 변환합니다. 이 프로그램 arpa2fst는 내장된 기호(embedded symbols)가 있는 FST를 출력한다. Kaldi에서는 일반적으로 내장된 기호가 없는 FST를 사용한다.(즉, 별도의 심볼 테이블을 사용함). arpa2fst를 실행하는 것 이외의 단계는 다음과 같습니다.

 

더보기

- 우리는 FST에서 내장된 기호(embedded symbols)를 제거해야 한다 (그리고 disk의 symbol tables에 의존한다).

- 우리는 언어 모델에 out-of-vocabulary(OOV) word 가 없는지 확인해야 한다.

- 시작 및 종료 기호의 "illegal" 시퀀스를 제거해야 한다. 예 : <s> 뒤에 </ s>가 있다. 왜냐하면 L o G를 결정할 수 없기 때문이다.

- 입력측의 epsilons을 특수 disambiguation symbol #0으로 대체해야 한다.

이를 수행하는 실제 스크립트의 약간 단순화 된 버전은 다음과 같습니다.

gunzip -c data_prep/lm.arpa.gz | \
arpa2fst --disambig-symbol=#0 \
--read-symbol-table=data/words.txt - data/G.fst

마지막 명령 (fstisstochastic)은 진단 단계입니다 (stochasticity 유지 및 테스트 참조). 전형적인 예에서, 숫자를 출력합니다 :

9.14233e-05 -0.259833

 

첫 번째 숫자는 작으므로 호의 확률 질량에 1보다 현저히 작은 최종 상태를 더한 상태가 없음을 확인합니다. 두 번째 숫자는 중요하며 이는 "너무 많은"확률 질량을 갖는 상태가 있음을 의미합니다 (FST에있는 가중치의 숫자 값은 일반적으로 부정 로그 확률로 해석 될 수 있음). "매우 많은"확률 질량을 가진 일부 상태를 갖는 것은 백 오프가있는 언어 모델의 FST 표현에 일반적입니다. 이후의 그래프 생성 단계에서이 비 확률 성이 시작 시보 다 악화되지 않았는지 확인합니다.

 

결과 FST G.fst는 물론 테스트 시간에만 사용됩니다. 훈련 시간에는 훈련 단어 시퀀스에서 생성 된 선형 FST를 사용하지만 이는 스크립트 수준이 아닌 Kaldi 프로세스 내에서 수행됩니다.

 

Preparing LG

L을 G로 작성할 때, 우리는 상당히 표준적인 레시피를 준수합니다. 즉, min (det (L o G))을 계산합니다. 명령 행은 다음과 같습니다.

 

fsttablecompose data/L_disambig.fst data/G.fst | \
fstdeterminizestar --use-log=true | \
fstminimizeencoded | fstpushspecial | \
fstarcsort --sort-type=ilabel > somedir/LG.fst

 

OpenFst 알고리즘과는 약간의 차이가 있습니다. 우리는 커맨드 라인 도구 "fsttablecompose"로 구현 된보다 효율적인 컴포지션 알고리즘 (컴포지션 참조)을 사용합니다. 우리의 결정은 명령 행 프로그램 fstdeterminizestar에 의해 구현되는 엡실론을 제거하는 알고리즘입니다. –use-log = true 옵션은 프로그램에게 먼저 FST를 로그 반올림으로 캐스트하도록 요청합니다. 이것은 확률을 유지합니다 (로그 반고리에서). 확률 보존 및 테스트를 참조하십시오.

 

"fstminimizeencoded"프로그램으로 최소화합니다. 이것은 가중 수락 자에 적용되는 OpenFst 최소화 알고리즘 버전과 대부분 동일합니다. 여기서 관련된 유일한 변화는 무게 추를 피하여 확률을 유지한다는 것입니다 (자세한 내용은 최소화 참조).

 

"fstpushspecial"프로그램은 OpenFst의 "fstpush"프로그램과 유사하지만, 가중치가 1에 합치 지 않으면 모든 상태가 동일한 값 (일부와 다름)을 "보일"수 있도록합니다. 그래프의 시작 또는 끝에 "추가"가중치. 이것은 실패 할 수 없다는 이점이 있습니다 (FST가 "무한"한 경우 "fstpush"는 실패하거나 아주 오랫동안 반복 될 수 있습니다). 또한 훨씬 빠릅니다. 자세한 내용은 push-special.cc를 참조하십시오.

 

"fstarcsort"스테이지는 나중에 컴포지션 작업이 빠르도록 아크를 정렬합니다.

 

Preparing CLG

입력이 상황에 따른 전화 인 트랜스 듀서를 얻으려면 C o L o G와 동등한 CLG라는 FST를 준비해야합니다. 여기서 L과 G는 어휘와 문법이고 C는 음성 상황을 나타냅니다. 트라이 폰 시스템의 경우, C의 입력 심볼은 a / b / c (즉, 트리플 전화) 형태이고, 출력 심볼은 단일 전화 (예를 들어, a 또는 b 또는 c) 일 것이다. 발음 컨텍스트 창에 대한 자세한 내용과 다른 컨텍스트 크기로 일반화하는 방법은 발음 컨텍스트 창을 참조하십시오. 먼저, FST C 컨텍스트 자체를 작성하고 정상적으로 작성해야하는 경우 컨텍스트를 작성하는 방법에 대해 설명합니다 (효율성과 확장 성 때문에 스크립트가 실제로는 작동하지 않습니다).

 

A) Making the context transducer

이 섹션에서는 C를 독립형 FST로 얻는 방법을 설명합니다.

 

C의 기본 구조는 N-1 크기의 모든 가능한 전화 창에 대한 상태를 가지고 있다는 것입니다 (c.f. 음성 문맥 창; 3 개의 경우, N = 3). 발화를 의미하는 첫 번째 상태는 N-1 엡실론에 해당합니다. 각 상태는 각 전화기마다 전환이 있습니다 (현재는 자체 루프를 잊어 버리십시오). 일반적인 예로, 상태 a / b는 출력에서 ​​c로, 입력에서 a / b / c로 전환하여 상태 b / c로 전환합니다. 발화의 시작과 끝에 특별한 경우가 있습니다.

 

발화 시작시 상태가 <eps> / <eps>이고 출력 기호가 a라고 가정합니다. 일반적으로 입력 심볼은 <eps> / <eps> / a입니다. 그러나 이것은 전화를 나타내지 않기 때문에 (P = 1이라고 가정) 중심 요소는 전화가 아닌 <eps>입니다. 이 경우 호의 입력 기호를 # -1로 지정합니다.이 목적을 위해 소개하는 특수 기호입니다 (빈 단어가있을 때 결정 불가능 성을 초래할 수 있으므로 표준 레시피와 같이 엡실론을 사용하지 마십시오) ).

 

발언의 경우는 약간 복잡합니다. 컨텍스트 FST의 오른쪽 (출력측)에는 발화의 끝에서 발생하는 특수 기호 $가 있습니다. 트라이 폰 케이스를 고려하십시오. 발화가 끝날 때 모든 기호를 본 후 마지막 트라이 폰 (예 : a / b / <eps>, <eps>는 정의되지 않은 컨텍스트를 나타냄)을 플러시해야합니다. 이를 수행하는 자연스러운 방법은 입력 a / b / <eps>를 출력 a에서 b / <eps>로 출력 a를 상태 a / b에서 최종 상태로 전환하는 것입니다 (예 : b / <eps> 또는 a 특별 최종 상태). 그러나 이것은 발화의 끝이 아니었다면 제거되기 전에 그러한 전환을 탐색해야하기 때문에 구성에 비효율적입니다. 대신에 우리는 발화 끝 기호로 $를 사용하고 LG에서 각 경로 끝에 한 번 표시되도록합니다. 그런 다음 C의 출력에서 ​​<eps>를 $로 바꿉니다. 일반적으로 $의 반복 횟수는 N-P-1과 같습니다. 번거 로움으로 LG에 추가 할 수있는 후속 심볼 수를 해결해야하는 번거 로움을 피하기 위해 발언이 끝날 때 해당 심볼을 원하는 개수만큼 받아 들일 수 있습니다. 이것은 AddSubsequentialLoop () 함수와 명령 행 프로그램 fstaddsubsequentialloop에 의해 달성됩니다.

 

C 자체를 원한다면 우선 명확성 기호 목록이 필요합니다. 또한 다음과 같이 후속 심볼에 사용할 수있는 사용되지 않은 심볼 ID를 해결해야합니다.

grep '#' data/phones_disambig.txt | awk '{print $2}' > $dir/disambig_phones.list
subseq_sym=`tail -1 data/phones_disambig.txt | awk '{print $2+1;}'`

그런 다음 다음 명령을 사용하여 C를 만들 수 있습니다 (그러나 fstcompose 컨텍스트에 대해서는 아래를 참조하십시오. 실제로는 비효율적 이므로이 작업을 수행하지 않습니다).

fstmakecontextfst --read-disambig-syms=$dir/disambig_phones.list \
--write-disambig-syms=$dir/disambig_ilabels.list data/phones.txt $subseq_sym \
$dir/ilabels | fstarcsort --sort_type=olabel > $dir/C.fst

fstmakecontextfst 프로그램에는 전화 목록, 명확성 기호 목록 및 후속 기호의 ID가 필요합니다. C.fst 외에도 C.fst 왼쪽의 기호를 해석하는 "ilabels"파일을 작성합니다 (ilabel_info 오브젝트 참조). LG의 구성은 다음과 같이 수행 할 수 있습니다.

fstaddsubsequentialloop $subseq_sym $dir/LG.fst | \
fsttablecompose $dir/C.fst - > $dir/CLG.fst

C.fst 및 "ilabels"를 색인화하는 동일한 기호를 사용하여 인쇄하려면 다음 명령을 사용하여 적절한 기호 테이블을 만들 수 있습니다.

fstmakecontextsyms data/phones.txt $dir/ilabels > $dir/context_syms.txt

이 명령은 "ilabels"형식 (ilabel_info 오브젝트)에 대해 알고 있습니다. 이 기호 테이블로 인쇄 된 CLG fst (자원 관리 용)를 통한 임의의 경로 예는 다음과 같습니다.

## fstrandgen --select=log_prob $dir/CLG.fst | \
fstprint --isymbols=$dir/context_syms.txt --osymbols=data/words.txt -

0 1 #-1 <eps>
1 2 <eps>/s/ax SUPPLIES
2 3 s/ax/p <eps>
3 4 ax/p/l <eps>
4 5 p/l/ay <eps>
5 6 l/ay/z <eps>
6 7 ay/z/sil <eps>
7 8 z/sil/<eps> <eps>
8

 

B) Composing with C dynamically

일반적인 그래프 생성 레시피에서는 fstcomposecontext 프로그램을 사용하여 C의 필요한 상태와 호를 모두 낭비하지 않고 동적으로 생성합니다. 명령 행은 다음과 같습니다.

 

fstcomposecontext --read-disambig-syms=$dir/disambig_phones.list \
                  --write-disambig-syms=$dir/disambig_ilabels.list \
                  $dir/ilabels < $dir/LG.fst >$dir/CLG.fst

기본값 (3 및 1)과 다른 컨텍스트 매개 변수 N 및 P가있는 경우이 프로그램에 추가 옵션을 제공합니다. 이 프로그램은 CLG.fst의 입력 기호를 해석하는 파일 "ilabels"(ilabel_info 오브젝트 참조)를 작성합니다. 자원 관리 레시피에서 ilabels 파일의 처음 몇 줄은 다음과 같습니다.

65028 [ ]
[ 0 ]
[ -49 ]
[ -50 ]
[ -51 ]
[ 0 1 0 ]
[ 0 1 1 ]
[ 0 1 2 ]
...

 

숫자 65028은 파일의 요소 수입니다. [-49]와 같은 줄은 명확성 기호를위한 것입니다. [012]와 같은 선은 음향 상황 창을 나타내고; 처음 두 항목은 결정 가능성을 보장하기 위해 엡실론 용 [] (사용하지 않음)과 [0]으로, C의 시작 부분에서 엡실론 대신 C로 시작하는 양식 # -1의 특수 명확화 기호 용입니다.

 

C) Reducing the number of context-dependent input symbols

CLG.fst를 생성 한 후에는 크기를 줄일 수있는 선택적 그래프 생성 단계가 있습니다. 의사 결정 트리 및 HMM 토폴로지 정보에서 작동하는 프로그램 make-ilabel-transducer를 사용합니다. 컨텍스트 종속 전화의 하위 집합은 동일한 컴파일 된 그래프에 해당하므로 병합 할 수 있습니다 (각 요소의 임의 요소 선택) 모든 컨텍스트 창을 해당 컨텍스트 창으로 변환합니다. 이것은 HTK의 논리적-물리적 매핑과 유사한 개념입니다. 명령은 다음과 같습니다.

 

make-ilabel-transducer --write-disambig-syms=$dir/disambig_ilabels_remapped.list \
                        $dir/ilabels \
                        $tree $model \
                        $dir/ilabels.remapped > $dir/ilabel_map.fst

이 프로그램에는 나무와 모델이 필요합니다. "ilabels.remapped"라는 새 ilabel_info 객체를 출력합니다. 이것은 원래 "ilabels"파일과 동일한 형식이지만 줄이 더 적습니다. FST "ilabel_map.fst"는 CLG.fst로 구성되며 레이블을 다시 맵핑합니다. 이 작업을 수행 한 후 결정 및 최소화하여 크기 축소를 즉시 실현할 수 있습니다.

fstcompose $dir/ilabel_map.fst $dir/CLG.fst | \
fstdeterminizestar --use-log=true | \
fstminimizeencoded > $dir/CLG2.fst

 

일반적인 설정의 경우이 단계에서는 실제로 그래프 크기를 크게 줄이지 않으며 (5 % ~ 20 % 감소가 일반적 임), 어떤 경우에도이 메커니즘으로 축소하는 중간 그래프 작성 단계의 크기입니다. 그러나 컨텍스트가 더 넓은 시스템에서는 비용을 크게 절감 할 수 있습니다.

 

 

Making the H transducer

 

기존의 FST 레시피에서 H 트랜스 듀서는 출력에 따라 상황에 따라 달라지는 전화와 입력에 음향 상태를 나타내는 기호가있는 트랜스 듀서입니다. 이 경우 H (또는 HCLG) 입력의 기호는 음향 상태 (용어에서는 pdf-id)가 아니라 전환 ID라고합니다 (TransitionModel에서 사용되는 정수 식별자 참조). 전환 ID는 pdf-id와 전화를 포함한 다른 정보를 인코딩합니다. 각 transition-id는 pdf-id에 매핑 될 수 있습니다. 우리가 만든 H 변환기는 자체 루프를 인코딩하지 않습니다. 이들은 나중에 별도의 프로그램으로 추가됩니다. H 변환기의 상태는 초기 및 최종 상태이며,이 상태에서 ilabel_info 객체 (ilabels 파일, 위의 ilabels 파일)에서 0 번째 항목을 제외한 모든 항목에 대한 전환이 있습니다. 상황에 따른 전화의 전환은 해당 HMM의 구조로 이동 한 다음 (자체 루프 없음) 시작 상태로 돌아갑니다. 일반적인 토폴로지의 경우 HMM의 이러한 구조는 3 개의 호의 선형 시퀀스 일뿐입니다. H는 또한 각 명확화 심볼 (# -1, # 0, # 1, # 2, # 3 등)에 대한 초기 상태에 자체 루프를 가지고 있습니다.

 

H 변환기를 만드는 스크립트 섹션 (이 시점에서 자체 루프가 없기 때문에 Ha라고 함)은 다음과 같습니다.

 

make-h-transducer --disambig-syms-out=$dir/disambig_tstate.list \
              --transition-scale=1.0 $dir/ilabels.remapped $tree $model > $dir/Ha.fst

 

전환 스케일을 설정하는 옵션 인수가 있습니다. 현재 교육 스크립트에서이 척도는 1.0입니다. 이 척도는 자체 루프 확률과 관련이없는 전환 부분에만 영향을 미치며 일반 토폴로지 (Bakis 모델)에서는 전혀 영향을 미치지 않습니다. 자세한 내용은 전환 및 음향 확률 조정을 참조하십시오. FST 외에도 프로그램은 명확성 기호 목록을 작성합니다.이 기호는 나중에 제거해야합니다.

 

Making HCLG

최종 그래프 HCLG를 만드는 첫 번째 단계는 자체 루프가없는 HCLG를 만드는 것입니다. 현재 스크립트의 명령은 다음과 같습니다.

 

fsttablecompose $dir/Ha.fst $dir/CLG2.fst | \
fstdeterminizestar --use-log=true | \
fstrmsymbols $dir/disambig_tstate.list | \
fstrmepslocal | fstminimizeencoded > $dir/HCLGa.fst

 

여기에서 CLG2.fst는 심볼 세트가 줄어든 CLG 버전입니다 (HTK 용어에서 "논리"트리폰). 최소화하기 전에 명확성 기호와 제거하기 쉬운 엡실론 (엡실론 제거 참조)을 제거합니다. 우리의 최소화 알고리즘은 기호와 가중치를 누르는 것을 피하고 (따라서 확률론을 보존 함) 비 결정적 입력을 받아들입니다 (최소화 참조).

 

Adding self-loops to HCLG

HCLG에 자체 루프 추가는 다음 명령으로 수행됩니다.

 

add-self-loops --self-loop-scale=0.1 \
               --reorder=true $model < $dir/HCLGa.fst > $dir/HCLG.fst

0.1의 자체 루프 스케일이 적용되는 방법에 대한 설명은 전환 및 음향 확률 스케일링을 참조하십시오 (비 자체 루프 확률에도 영향을 미침). "재정렬"옵션에 대한 설명은 전환 순서 변경을 참조하십시오. "재주문"옵션은 디코딩 속도를 증가 시키지만 kaldi 디코더와 호환되지 않습니다. 자체 루프 추가 프로그램은 자체 루프를 추가하지 않습니다. 자체 루프를 일관된 방식으로 추가 할 수 있도록 상태를 복제하고 엡실론 전환을 추가해야 할 수도 있습니다. 이 문제는 재정렬 전환에서 약간 더 자세히 설명됩니다. 이것은 확률론을 보존하지 않는 유일한 그래프 생성 단계입니다. 자체 루프 스케일이 1이 아니므로이를 보존하지 않습니다. 따라서 fstisstochastic 프로그램은 모든 G.fst, LG.fst, CLG.fst 및 HCLGa.fst에 대해 동일한 출력을 제공해야하지만 HCLG.fst에 대해서는 그렇지 않아야합니다. . add-self-loops 단계 후에 다시 결정하지 않습니다. 명확성 기호를 이미 제거했기 때문에 실패합니다. 어쨌든, 이것은 느리고 우리는이 시점에서 결정하고 최소화함으로써 더 이상 얻을 것이 없다고 생각합니다.

FST와 ASR에 대한 내용은 "Speech Recognition with Weighted Finite-State Transducers" by Mohri, Pereira and Riley (in Springer Handbook on SpeechProcessing and Speech Communication, 2008) 을 참조. 이곳에 Kaldi가 사용하는 일반적인 접근 방식이 설명되어 있지만, 구체적으로 disambiguation symbols를 처리하는 방법과 weight-pushing을 처리하는 방법과 관련하여 일부 세부 사항이 다르다.

 

Overview of graph creation

 

디코딩 그래프 생성을위한 전반적인 overview는 그래프 HCLG = H o C o L o G를 구성하는 것이다. 각각의 심볼의 의미는 다음과 같다.

 

G는 grammar 또는 language model을 인코딩하는 acceptor (즉, 입력 및 출력 기호가 동일함)
L은 lexicon 입니다. output symbols 는 단어이고 input symbols 는 phones
C는 context-dependent 을 나타냄 : 
	출력 심볼은 phones 이고 
    입력 심볼은 context-dependent phones , 
    즉 N phones 의 windows 를 나타내고; 발음 문맥 창을 참조.
H는 HMM 정의를 포함한다. 
	출력 기호는 상황에 따른 phones 를 나타내며 
    입력 기호는 전이 ID이며 pdf-id 및 기타 정보를 인코딩한다 
    (TransitionModel에서 사용되는 정수 식별자 참조).

 

 

 

세부적인 내용은 밑에서 계속해서 설명한다. 출력을 결정하고 최소화하기 위해 HCLG를 결정하려면 disambiguation symbol를 삽입해야한다.

 

또한 HCLG가 가능한 한 stochastic 이길 원하고, 이것은 기존 레시피에선 "weight-pushing" 동작으로 수행된다. stochacity를 보장하기위한 Kaldi의 접근 방식은 다르며, no graph creation step "takes away" stochasticity보장한다. 자세한 내용은 이곳에서 확인 (Preserving stochasticity and testing it)

 

한 줄로 요약하면, 다음과 같을 것이다.

 

HCLG = asl(min(rds(det(H' o min(det(C o min(det(L o G))))))))

where asl=="add-self-loops",
      rds=="remove-disambiguation-symbols", 
      H' == H without the self-loops

 

 

 

weight-pushing 는 레시피의 일부가 아니다. 대신 우리는 G가 stochastic이라면 graph creation sate 가 확률적 결과를 막지 않도록하는 것을 목표로한다. 물론, G는 backoff 기능이있는 Arpa 언어 모델이 FST로 표현되는 방식 때문에, 일반적으로 상당히 stochastic이지 않지만, 적어도 우리의 접근 방식은 non-stochasticity "stays put" 를 유지하고 시작했을 때보다 더 나빠지지 않도록한다. 접근 방식은 weight-pushing 작업이 실패하거나 상황을 악화시키는 위험을 피한다.

 

 

Disambiguation symbols

 

Disambiguation symbols lexicon에서,phonemene sequences의 끝에 삽입되는 기호 #1, #2, #3 같은 것들이다.

1) phonemene sequences가 lexicon에서 다른 phonemene sequences의 prefix (접두어) 이거나

2) 둘 이상의 단어로 나타나는 경우, 뒤에 이 기호 중 하나를 추가해야한다.

-> 이 Disambiguation symbols은 the product (L o G)가 determinizable위해 필요하다.

 

3) LM model G의 backoff arcs 에 symbol #0 를 놓는다. 이를 통해 determinizable알고리즘이 epsilons을 제거하기 때문에 epsilons을 제거한 후 G를 결정할 수 있다(determinizable).

4) 우리는 utterance의 시작 부분에서 symbols을 출력하기 전에 context FST (C)의 왼쪽에 나타나는 epsilons대신에 symbol #1을 놓는다. empty phonetic representation이 있는 단어 (예 : 문장 기호 <s> 및 </ s>의 시작과 끝)가 있을 때 발생하는, 다소 작은 문제를 해결하는 데 필요하다.

 

 

다음은 Graph compilation의 중간 단계 (예 : LG, CLG, HCLG)가 결정 가능(determinizable)하다는 것을 공식적으로 증명하는 방법에 대한 overview이다. 이는 레시피가 절대 실패하지 않도록하는 데 중요하다.

 

일반적인 설정은 다음과 같다.

1) G를 결정할 수 있어야 한다. 그렇기 때문에 #0 기호가 필요하다 (G는 실제로 결정적이므로 결정 가능하다). 2) 그런 다음 L을 결정 가능한 G에 대해 L o G를 결정할 수 있도록 한다. [G 대신 오른쪽에 L o G가있는 C도 마찬가지입니다.] 여전히 이론에 대한 많은 세부 사항이 있지만, L이 다음과 같은 두 가지 property을 갖는 것으로 충분하다고 생각한다.

 

1) 

은 작동해야만 한다

- equivalently: any input-sequence on L must induce a unique output-sequence

- equivalently: for any linear acceptor A, A o L is a linear transducer or empty.

2) L has the twins property, i.e. there are no two states reachable with the same input-symbol sequence, that each have a cycle with the same input sequence but different weight or output sequence.

 

C Transducer 에도 동일하게 적용된다. 우리는 스크립트와 프로그램이 현재 생성하는 변환기는 이러한 property를 가지고 있다.

 


The ContextFst Object

 

ContextFst 객체 (C)는 context-dependent phones 에서 context-independent phones로의 transducer를 나타내는 동적으로 생성 된 FST object 이다. 이 object의 목적은 context 에서 가능한 모든 phones를 열거 해야하는 것을 피하기 위한 것이다. context 에서 가능한 모든 phones를 열거 해야하는 것은 Context width (N) 또는 phones의 개수가 클 때 어려울 수 있다.

 

생성자 ContextFst::ContextFst는 context-width (N)과 central-position (P)를 필요하다(triphone 시스템에 각각 N=3과 P=1). (추가설명:Phonetic context windows)

 

또한 모든 phones을 본 후 FST에서 N-P-1을 출력하는 특수 기호 인 "subsequential symbol"(위에서 '$'라고 함)의 integer ID가 필요하다 (이로 인해 context FST is output-deterministic이 보장됨). 이 외에도 integer id's of the phones및 disambiguation symbol 목록이 필요하다.

 

ContextFst의 출력 측 vocabulary set of phones및 disambiguation symbols와 subsequential symbol로 구성된다.

 

입력측의 vocabulary는 동적으로 생성되며 (사용되지 않는 epsilon제외) phones in context, disambiguation symbols 그리고 "전통적인 레시피"에서 "#에서 엡실론을 대신하는 #-1로 쓰는 특수 기호(다른 disambiguation symbol로 취급(예 : 엡실론 제거 등 선호하는 의미에서 결정성을 보장하는 데 필요함) 에 해당한다. The vocabulary on the input side is dynamically generated and (apart from epsilon, which is not used), corresponds to phones in context, disambiguation symbols, and a special symbol that we write as #-1 that takes the place of epsilon in the "traditional recipe", but which we treat as any other disambiguation symbol (it is necessary to ensure determinizability in the sense we prefer, i.e. with epsilon removal).

 

 

전통적인 레시피에서와 같이 subsequential symbol'$'는 입력측에 해당하는 것이 없다. 입력측에서 disambiguation symbols에 대응하는 symbol id's는, 대응하는 심볼에 대한 출력측에서 사용되는 integer 식별자와 반드시 동일하지는 않다.

 

ContextFst 객체에는 std :: vector <std :: vector <int32> 유형의 객체에 대한 참조를 반환하는 함수 ILabelInfo()가 있으며, 이를 통해 사용자는 입력 측에서 각 심볼의 "의미"를 계산할 수 있다. 이 객체의 올바른 해석은 The ilabel_info object에 자세히 설명되어 있다.

 

 

ContextFst와 관련된 composition알고리즘에 사용하기위한 ContextMatcher라는 특수한 "Matcher" object가있다 (Matcher는 OpenFst의 composition알고리즘이 arc lookup에 사용하는 것이다. ContextMatcher는 필요한 것보다 더 많은 상태의 할당을 피함으로써 ContextFst 객체의 사용을 보다 효율적으로 만든다 (문제는 normal matcher를 사용하면 state에서 arc를 원할 때마다 대상을 할당해야한다는 것이다) 해당 상태에서 다른 모든 아크의 상태).

 

composition에 대한 left hand argument가 ContxtFst 유형 인 경우 FST 컴포지션을 수행하는 관련 함수 ComposeContextFst ()가 있고, Matcher를 사용한다. ComposeContext () 함수도 있는데, 이 함수는 비슷하지만 ContextFst 객체 자체를 만든다.


Avoiding weight pushing

 

weight-pushing는 각 상태의 arc 확률이 적절한 의미로 "sum to one(합계)"되는 것을 보장하는 FST operation이다. Kaldi는 전통적인 레시피와는 약간 다른 방식으로 weight-pushing 문제를 다룬다. log semiring(반올림)에서weight-pushing는 검색 속도를 높이는 데 도움이 될 수 있다. 그러나 경우에 따라 weight-pushing는 나쁜 영향을 줄 수 있다. 문제는 FST로 표현 될 때 통계 언어모델이 일반적으로 ""add up to more than one (하나 이상으로 합산)"하기 때문에 일부 단어는 직접적으로 backoff arcs를 통해 두 번 계산되기 때문이다.

 

우리는 절대로 pushing weights하지 않기로 했고, 대신 다른 방식으로 처리한다. 첫째, Definition: 우리는 weight가 1에 해당하는 "stochastic"FST를 호출하고 reader는 "log semiring"에 대해 이야기하고 있다고 가정 한다. "sum to one"를 의미하며 "take the max" 이 아니다.

 

그래프 생성의 각 단계는 이전 단계가 stochastic이라면 다음 단계가 stochastic이라는 특성을 갖는다. 즉, G가 stochastic이라면 LG는 stochastic이다. LG가 stochastic이라면 det(LG)는 stochastic이다. det(LG)가 stochastic이면 min(det(LG))은 stochastic등이다. 이것은 각각의 개별 작업이 적절한 의미에서 "preserve stochasticity"해야한다는 것을 의미한다. 예를 들어, 예를 들어 weight-push 알고리즘을 시도해 볼 수 있으며 원래 G fst가 둘 이상으로 합산되어 실패한 것으로 판단되면 실패를 내뱉는다.

 

우리는 더 강력한 의미로 stochasticity을 유지하려고 한다. 즉, G에 대해 모든 states에 대한 최소값과 최대값을 먼저 측정한다 (arc probabilities plus final-prob). 이것이 우리의 프로그램 "fstisstochastic"이 수행하는 일이다. G가 stochastic이라면,이 두 숫자는 모두 1이 된다 (실제로 로그 공간에서 작동하기 때문에 실제로 프로그램에서 0을 보게 될 것이다. 이것이 "log semiring" 이다). 우리는 다음과 같은 의미에서 확률을 유지하려고 한다.이 최소값과 최대 값은 "get worse" 않는다. 즉, 그들은 결코 1에서 더 멀어지지 않는다. 실제로 이것은 "local" 방식으로 확률을 유지하는 알고리즘이있을 때 자연스럽게 일어난다. stochasticity을 보존하기 위해 필요한 다음과 같은 다양한 알고리즘이 있다.

 

더보기

Minimization
Determinization
Epsilon removal

Composition (with particular FSTs on the left) There are also one or two minor algorithms that need to preserve stochasticity, like adding a subsequential-symbol loop. Minimization naturally preserves stochasticity, as long as we don't do any weight pushing as part of it (we use our program "fstminimizeencoded" which does minimization without weight pushing). Determinization preserves stochasticity as long as we do it in the same semiring that we want to preserve stochasticity in (this means the log semiring; this is why we use our program fstdeterminizestar with the option –determinize-in-log=true). Regarding epsilon removal: firstly, we have our own version of epsilon removal "RemoveEpsLocal()" (fstrmepslocal), which doesn't guarantee to remove all epsilons but does guarantee to never "blow up". This algorithm is unusual among FST algorithms in that, to to what we need it to do and preserve stochasticity, it needs to "keep track of" two semirings at the same time. That is, if it is to preserve equivalence in the tropical semiring and stochasticity in the log semiring, which is what we need in practice, it actually has to "know about" both semirings simultaneously. This seems to be an edge case where the "semiring" concept somewhat breaks down. Composition on the left with the lexicon L, the context FST C and the H tranducer (which encodes the HMM structure) all have to preserve stochasticity. Let's discuss this the abstract: we ask, when composing A o B, what are sufficient properties that A must have so that A o B will be stochastic whenever B is stochastic? We believe these properties are:

- For any symbol sequence that can appear on the input of B, the inverse of A must accept that sequence (i.e. it must be possible for A to output that sequence), and:

- For any such symbol sequence (say, S), if we compose A with an unweighted linear FST with S on its input, the result will be stochastic.

 

These properties are true of C, L and H, at least if everything is properly normalized (i.e. if the lexicon weights sum to one for any given word, and if the HMMs in H are properly normalized and we don't use a probability scale). However, in practice in our graph creation recipes we use a probability scale on the transition probabilities in the HMMs (similar to the acoustic scale). This means that the very last stages of graph creation typically don't preserve stochasticity. Also, if we are using a statistical language model, G will typically not be stochastic in the first place. What we do in this case is we measure at the start how much it "deviates from stochasticity" (using the program fstisstochastic), and during subsequent graph creation stages (except for the very last one) we verify that the non-stochasticity does not "get worse" than it was at the beginning.

 


[1] https://kaldi-asr.org/doc/graph.html

 

여기에서는 Kaldi 툴킷에서 FF 알고리즘에 대해 설명합니다. OpenFst의 것과 다르거나 다른 알고리즘입니다 (많은 알고리즘에 OpenFst 코드 자체를 사용합니다).

 

이러한 알고리즘은 디렉토리 fstext/에 있으며 해당 명령 행 프로그램은 존재하는 경우 fstbin/에 있습니다. 이 코드는 OpenFst 라이브러리를 사용합니다. 여기서는 현재 Kaldi 레시피에 실제로 사용되는 알고리즘에 대해서만 설명합니다.

 

Determinization

OpenFst의 알고리즘과 다른 결정 알고리즘을 사용합니다. 우리는 이것을 DeterminizeStar(); 해당 명령 행 프로그램의 이름은 fstdeterminizestar입니다. 우리의 결정 알고리즘은 실제로 결정과 함께 엡실론 제거를 수행한다는 점에서 OpenFst의 알고리즘보다 표준 FST 결정 알고리즘에 더 가깝습니다. 따라서 많은 다른 FST 알고리즘과 마찬가지로 엡실론을 "실제 심볼"로 간주하지 않습니다.

 

우리의 결정 알고리즘은 초기 결정 출력의 전이에 하나 이상의 출력 심볼이있을 때 발생하는 일을 처리하는 다른 방법을 가지고 있습니다. OpenFst 결정 알고리즘은 하나 이상의 (인코딩 된) 출력 심볼이없는 아크를 보장하기 위해 등가를 유지하면서 출력 심볼 (가중으로 인코딩 된) 주위를 이동하는 FactorWeights라는 함수를 사용합니다. 입력에 엡실론 기호가있는 새로운 상태를 도입하지는 않습니다. 그러나 FactorWeights 알고리즘은 DeterminizeStar의 출력에 대해 실패 할 수 있습니다. 사이클의 상태보다 출력이 더 많은 사이클이있을 수 있기 때문입니다 (엡실론 제거를 수행하지 않기 때문에 일반 결정 알고리즘의 출력에는 불가능 함). 대신, 둘 이상의 출력 심볼이있는 링크가 발생할 때마다 모든 출력 심볼을 수용 할 수있는 충분한 수의 중간 상태로 체인을 만듭니다. 무게와 입력 기호는이 체인의 첫 번째 링크에 있습니다. DeterminizeStar 알고리즘의 출력은 OpenFst가 사용하는 정의, 즉 엡실론을 일반 기호로 취급하는 정의에 따라 결정적입니다. 출력에는 입력 측에 엡실론이 있으며, 이는 결정론의 일반적인 정의에 위배되지만 링크에서 하나 이상의 출력 심볼을 허용하는 인코딩 메커니즘으로 간주되며 어떤 경우에도 매우 구체적으로 발생합니다. 상황 (엡실론 아크는 항상 상태에서 유일한 아크)입니다.

 

또 다른 차이점은 우리의 프로그램 fstdeterminizestar는 입력 FST에 출력 심볼이 가중치로 인코딩되도록 요구하지 않는다는 것입니다.

 

Debugging determinization

프로세스 디버깅에 오랜 시간이 걸리면 종료 여부를 말하기가 어렵 기 때문에 일반적으로 디버깅 결정은 매우 어렵습니다. fstdeterminizestar 프로그램에는 "kill -SIGUSR1 \ <its processid \>"신호를 보내면 결정을 디버깅하는 데 유용한 일부 정보가 중지되고 인쇄됩니다.

 

Determinization in the log semiring

DeterminizeInLog () 함수를 제공하여 결정하기 전에 일반 (열대) 반올림에서 Fst를 로그 반올림으로 캐스팅 한 다음 다시 변환합니다. 이것은 확률론을 보존하기 때문에 알고리즘에서 사용되는 결정의 형태입니다 (확률론 보존 및 테스트 참조).

 

Removing epsilons

우리는 FST를 절대로 날려 버리지 않을 것이라고 보장되는 RemoveEpsLocal ()이라는 엡실론 제거 알고리즘을 제공하지만 반면에 모든 엡실론을 제거하는 것은 아닙니다. 기본적으로 그래프를 크게 만들지 않고도 쉽게 제거 할 수있는 엡실론을 제거합니다. 어려운 문제이므로 여기에 최적 성이 보장되지 않습니다. RemoveEpsLocal () 함수는 OpenFst의 RemoveEps () 함수와 약간 다른 동작을합니다. 하나는 입력 epsilon과 하나는 출력 epsilon 인 경우 두 개의 호를 결합하기 때문입니다. RemoveEpsLocal () 함수는 FST 동등성을 유지합니다.

 

로그 세미 링의 확률을 유지하면서 열대성 반올림의 동등성을 유지하는 RemoveEpsLocalSpecial () 함수도 있습니다 (확률성에 대한 자세한 내용은 다음 섹션 참조). 우리는 두 개의 반고리를 동시에 고려해야하기 때문에 반 반복 형식주의의 유용성이 약간 저하되는 경우 인 것으로 보인다.

 

Preserving stochasticity and testing it

우리는 확률 적 FST를 FST로 정의하는데, 여기서 FST의 반고리에서 주어진 상태 (및 최종 가중치)에서 나온 호의 가중치의 합은 (반고리에서) 1과 같습니다. 이 개념은 로그 세미 링에서 가장 유용하고 자연 스럽습니다. 본질적으로 확률 론적 FST는 주어진 호에서 가중치의 합이 1 인 것입니다 (예를 들어, 적절히 정규화 된 HMM은 확률 론적 FST에 해당합니다).

 

IsStochasticFst () 함수는 확률을 테스트합니다. 선택적으로 FST가 확률 적으로 실패한 정도를 사용자에게 알리기 위해 최소 및 최대 무게를 출력 할 수 있습니다. 이것의 명령 행 버전은 fstisstochastic입니다. 우리는 확률 론적 입력을 고려하여 확률 론적 출력을 생성한다는 의미에서 확률론을 보존하기 위해 사용하는 대부분의 FST 알고리즘을 목표로합니다. 비 확률 입력의 경우 가중치의 최소 및 최대 범위가 더 커지지 않는 것을 목표로합니다. 기본적으로 isstochasticfst 프로그램은 로그 반올림으로 캐스트 한 후 확률을 테스트합니다. 이것이 가장 유용한 경우입니다 (옵션 –test-in-log = false를 제공하여이를 중지 할 수 있음).

 

확률 성을 유지하기 위해 우리가 구성하는 FST에는 특정 속성이 있어야합니다. 이는 L, C 및 H에 적용되어야합니다. 예를 들어 L을 고려하십시오. G를 통과하는 경로에 해당하는 모든 선형 FST에 대해이 FST F를 호출하면 제품 L o F는 확률 적이어야합니다. 이것은 기본적으로 L이 발음 확률을 올바르게 표준화했음을 의미합니다. 공식적으로 요구되는 실제 재산은 이것보다 약간 강할 수 있습니다 (이것은 확률이 "적시"에 나타나도록하는 것과 관련이 있습니다). 실제로 그래프 작성의 각 단계마다 isstochasticfst 프로그램을 실행하여 확률을 확인합니다.

 

Minimization

OpenFst에서 제공하는 최소화 알고리즘을 사용하지만 결정적이지 않은 FST에 최소화를 적용 할 수 있도록 OpenFst를 컴파일하기 전에 패치를 적용합니다. 그 이유는 최소화하기 전에 명확성 기호를 제거 할 수 있기 때문에 더 최적입니다 (최소화로 더 많은 상태를 결합 할 수 있음). 패치는 데이터 구조 관련 문제를 해결합니다. 기본적으로 OpenFst의 최소화 알고리즘은 비 결정적 FST에 적용 할 수 있습니다. 입력 심볼의 일부로 가중치 및 출력 심볼을 인코딩 한 후 FST를 최소화하는 fstminimizeencoded라는 명령 줄 프로그램을 제공하므로 FST가 수락자가됩니다. 이것은 fstminimize 프로그램이 수행하는 것과 동일합니다. 우리가 확률론을 보장하는 방식은 무게 추를 피하기 때문에 바람직합니다.

 

Composition

대부분의 경우 OpenFst 자체의 컴포지션 알고리즘을 사용하지만 TableCompose () 함수와 해당 명령 줄 프로그램 fsttablecompose를 사용합니다. 이는 특정 경우에보다 효율적인 컴포지션 알고리즘입니다. OpenFst의 "Matcher"개념을 사용합니다. Matcher는 특정 입력 또는 출력 기호가있는 호를 찾기 위해 상태에서 호를 조회하는 컴포지션 중에 사용되는 일종의 도우미 클래스입니다. OpenFst가 사용하는 일반적인 매처는 SortedMatcher입니다.이 레이블은 관련 레이블에서 정렬되는 호에 의존하며 이진 검색을 수행합니다. TableMatcher는 레이블로 인덱스 된 테이블을 작성하는 것이 효율적인 경우를 감지하고이 상태에서는 2 진 검색의 오버 헤드를 피합니다. 이것은 매우 높은 정도의 어휘집으로 구성 할 때 속도가 빨라집니다.

 

Adding and removing disambiguation symbols

FST 레시피 (다른 트랜스 듀서 기반 레시피와 마찬가지로)는 명확성 기호를 사용합니다. 일반적인 레시피에서는 어휘집 FST (L)의 입력 측에 추가되어 결정 가능합니다. 또한 명확성 기호를 G 및 C에 추가합니다 (음성 기호 참조). 컴포지션을 수행하고 오른쪽의 FST에 입력에 명확성 기호가있을 때마다 이론적으로 왼쪽 FST의 각 상태에 각 명확성 기호에 대한 자체 루프를 추가합니다. 입력 및 출력. 왼쪽과 오른쪽의 명확성 기호에 대한 실제 정수 기호 ID는 동일하지 않을 수 있습니다. 예를 들어 G에는 특수 기호 # 0이 있습니다 (epsilon은 일반적으로 사용됨). 이것에 대한 symbol-id는 일반적으로 가장 높은 번호의 단어에 1을 더한 것입니다. 그러나이 기호를 L을 통해 전달하려면 L의 입력 기호 테이블 (주로 전화를 포함)에 # 0을 나타내는 기호가 필요합니다. 우리는 가변 FST와 레이블의 두 벡터를 취하는 AddSelfLoops () 함수를 가지고 있습니다 (라벨은 심볼의 정수 ID입니다). 벡터는 크기가 동일하며 명확성 기호에 대한 해당 입력 및 출력 레이블을 나타냅니다. 이 기능은 각각의 최종 상태와 그 밖의 하나 이상의 아크에 엡실론이 아닌 출력 기호가있는 각 상태에 자체 루프를 추가합니다.

 

명령 행에서 fstrmsymbols 프로그램으로 액세스 할 수있는 DeleteISymbols () 함수를 사용하여 명확성 기호를 제거합니다.

 


[1] https://kaldi-asr.org/doc/fst_algo.html

  • 음성인식기 음향 모델 중 뛰어난 성능을 내고 있는 FSMN 에 대한 논문들을 리뷰해 보았다. 
  • 신호처리 이론 중 IIR filter는 High order FIR filter로 근사가 가능하다.
  • RNN 계통에서 recurrent layer는 개념적으로 first order IIR filter와 유사하다고 볼 수 있다.
  • 핵심 아이디어는 recurrent layer를 대신할 수 있는 High order FIR filter와 같은 DNN 구조를 제시한다는 것
  • feedforward neural network (FNN)에서 Memory block을 둬서 현재 프레임의 앞뒤의 long context information을 인코딩 해서 그 정보를 사용하여 현재의 FNN을 update 해 나간다.
  • RNN 계통보다 모델이 light하고, 학습 시 안정적이다.
  • scalar FSMN, vector FSMN, compact (vector) FSMN, Deep-FSMN 

 

 


 

[1] https://arxiv.org/abs/1803.05030

 

기본적으로 SVDF Layer의 계산은 Time step t마다, DNN의 각 node 마다, rank-1 SVDF Layer를 통과시켜서, a_t의 output을 내는 것이다.

 

Feature (F(=feature dim(LMFB 40dim))) 의 context window(T=(r+1+l)를 포함하는 연속적인 input vector를 준비한다. 그리고 N nodes의 SVDF Layer에 대해 NxT 1-D convolutions of the feature filter (β) 를 수행하고, (input feature frames에 대해, N filter들 각각을 sliding), size T의 Time filter (α) 를 이용하여 N node 개의 output vectors 각각을 filtering 한다.

 

구체적으로, 각 노드들 m 마다, 인풋인 X_t 이 feature filter (β (m)) 를 통과하고, 결과 scalar 값은, 미리 계산된 이전 T-1 만큼의 inference steps 의 값들과 concatenation된다. 그 후, 이전 state 들의 정보를 활용하기 위해 time filter (α (m)) 가 적용된다.

 

다음은 정리해둔 PPT파일이다.

https://docs.google.com/presentation/d/1k4vDh-q-dM_QMd8sivK_15KOXxllusByKWOVW12A4Q8/edit#slide=id.p

 

1) VTLP based data augmentation

- vocal tract length perturbation (VTLP) [3], has shown gains on the TIMIT phoneme recognition task. VTLP was further extended to large vocabulary continuous speech recognition (LVCSR) in [4]. In [3] the VTLP warping factors for each utterance is randomly chosen from a range (e.g. [0.9, 1.1]). Using these sampled warping factors, improvement was reported on TIMIT phoneme recognition task. In [4], VTLP was used in large vocabulary continuous speech recognition (LVCSR) tasks, and an observation was made that selecting VTLP warping factors from a limited set of perturbation factors, was better.

 

2) Tempo perturbation based data augmentaion

- Speech rate perturbation, where the speech rate of the audio was modified by randomly selected factor, was investigated in [6]. In speech rate modification, the tempo of the signal is modified while ensuring that the pitch and spectral evelope of the signal does not change. The WSOLA [16] based implementation in the tempo command of the SoX tool was used to achieve this perturbation.

 

3) Speed perturbation based data augmentation

- To modify the speed of a signal we just resample the signal. The speed function of Sox was used for this. Two additional copies of the original training data were created by modifying the speed to 90% and 110% of the original rate.

 

4) SpecAugment

 

**In order to implement speed perturbation, we resample the signal using the speed function of the Sox audio manipulation tool; SoX, audio manipulation tool, (accessed March 25, 2015). [Online]. Available: http://sox.sourceforge.net/

 


 

[1] T. Ko, V. Peddinti, D. Povey, and S. Khudanpur, “Audio augmentation for speech recognition.” in INTERSPEECH, 2015, pp. 3586–3589.

 

 

 

RNN-T for ASR 은 크게 Audio Encoder, Test Predictor 및 Joiner의 세 가지로 구성되어 있다.

 

1) Audio Encoder는 audio frames을 time t까지 input으로 받아서 high-level acoustic feature a_t를 인코딩한다. 2) Text predictor은 과거 text 의 과거정보를 h index까지 받아서, high-level lexical feature t_h를 인코딩한다. 3) 이 high-level acoustic and lexical features은 Joiner 모듈을 태우는데, 이 모듈은 두 feature을 결합하여, output unit에 대한 probability distribution, y_t,h를 내놓는다.

 

RNN-T는 CTC based 모델과 다르게, output symbols에 대한 확률을 생성하기 위해 audio, text 두 정보를 모두 사용함으로써, CTC 모델의 조건부 독립 가정을 극복할 수 있다는 장점이 있다.

 

Loss는 RNN-Transducer forward-backward 알고리즘을 사용하며 디테일은 [1] 논문을 참고하면 된다.

 

Test 할 때는, decoding 과정이 필요하며, 관련 메모는 [2,3]을 참고하면 된다.

 


[1] Alex Graves, "Sequence Transduction with Recurrent Neural Networks", 2012

[2] https://sequencedata.tistory.com/3?category=1129285

[3] https://sequencedata.tistory.com/4?category=1129285

 

 

 

 

+ Recent posts