여기에서는 정상적인 그래프 생성 접근 방식과 관련된 특정 data-preparation stages를 단계별로 설명합니다.

 

이 방법에 대한 대부분의 세부 사항은 우리 tools에 하드 코딩되어 있지 않습니다. 우리는 단지 현재 어떻게 done 되어 있는지 설명하고 있습니다. 이 섹션이 혼란 스러우면 가장 좋은 해결책은 Mohri et al.의 "Speech Recognition with Weighted Finite-State Transducers" 을 읽는 것입니다. 경고 : 그 Paper는 꽤 길며, FST에 익숙하지 않은 사람들에게는 적어도 몇 시간이 걸릴 것입니다. 또 다른 좋은 자료는 OpenFst website 로서 심볼 테이블과 같은 것들에 대한 더 많은 컨텍스트를 제공합니다.

 

Preparing the initial symbol tables

우리는 OpenFst symbol tables words.txt 및 phones.txt를 준비해야합니다. 이것들은 우리 시스템 안의 integer id's 를 모든 단어와 phones에 할당합니다. OpenFst는 epsilon을 위해심볼 0을 예약합니다. An example of how the symbol tables look for the WSJ task is:

 

## head words.txt

<eps> 0
!SIL 1
<s> 2
</s> 3
<SPOKEN_NOISE> 4
<UNK> 5
<NOISE> 6
!EXCLAMATION-POINT 7
"CLOSE-QUOTE 8
## tail -2 words.txt
}RIGHT-BRACE 123683
#0 123684
## head data/phones.txt
<eps> 0
SIL 1
SPN 2
NSN 3
AA 4
AA_B 5

 

words.txt 파일에는 단일 명확성(disambiguation)기호 "#0"(used for epsilon on the input of G.fst))이 포함되어 있습니다. 이것은 레시피에서 마지막으로 번호가 매겨진 단어입니다. 사전에 단어 "#0"이 포함되어 있으면 주의하십시오. phones.txt 파일에는 명확성 기호가 포함되어 있지 않지만 L.fst를 만든 후 명확성 기호가 포함 된 phone_disambig.txt 파일을 만듭니다 (디버깅에 유용함).

 

Preparing the lexicon L

먼저 처음에는 명확성 기호가없는 텍스트 형식의 lexicon을만듭니다. 우리의 C ++ 툴은 이것과 상호 작용하지 않으며, lexiconFST를 생성하는 스크립트에 의해서만 사용될 것입니다. WSJ lexicon의일부는 다음과 같습니다.

 

## head data/lexicon.txt

!SIL SIL
<s>
</s>
<SPOKEN_NOISE> SPN
<UNK> SPN
<NOISE> NSN
!EXCLAMATION-POINT EH2_B K S K L AH0 M EY1 SH AH0 N P OY2 N T_E
"CLOSE-QUOTE K_B L OW1 Z K W OW1 T_E

 

phones 의 시작, 끝 및 stress markers(예 : T_E 또는 AH0)는 WSJ recipe에따라 다르며 툴킷에 관한 한 별도의 phones로 취급됩니다 (however, we do handle the tree-building specially for this setup; read about the roots file in The tree building process).

 

words with empty phonetic representations는 허용됩니다. 이 lexicon은 훈련에 사용 된 L.fst를 만드는 데 사용됩니다 (without disambiguation symbols). 또한 decoding그래프 생성에 사용되는 disambiguation symbols가 포함 된 lexicon을 만듭니다. 이 파일의 추출은 다음과 같습니다.

 

# [from data/lexicon_disambig.txt]

!SIL SIL
<s> #1
</s> #2
<SPOKEN_NOISE> SPN #3
<UNK> SPN #4
<NOISE> NSN
...
{BRACE B_B R EY1 S_E #4
{LEFT-BRACE L_B EH1 F T B R EY1 S_E #4

 

이 파일은 스크립트로 작성됩니다. 이 스크립트는 추가해야 할 disambiguation symbols의 수를 출력하며, 이 것은 phone_disambig.txt symbol table을 만드는 데 사용됩니다. 이는 phone.txt와 동일하지만, disambiguation symbols#0, #1, #2 등의 integer ID도 포함합니다 (#0은, G.fst에서 왔지만 자체 루프를 통해 L.fst를 통과하는, 특수한 명확성 기호입니다.). phones_disambig.txt 파일 중간 부분은 다음과 같습니다.

 

ZH_E 338
ZH_S 339
#0 340
#1 341
#2 342
#3 343

 

이 (WSJ) recipe에서 stress와 position information를 phones에 추가했기 때문에, 숫자가 너무 높습니다. 빈 단어 (예 : <s> 및 </ s>)에 사용 된 명확성 기호는 일반 단어에 사용 된 명확성 기호와 달라야하므로이 예에서 "일반"명확성 기호는 #3부터 시작합니다.

 

명확성 기호가없는 lexicon을 FST로 변환하는 명령은 다음과 같습니다.

scripts/make_lexicon_fst.pl data/lexicon.txt 0.5 SIL | \
fstcompile --isymbols=data/phones.txt --osymbols=data/words.txt \
--keep_isymbols=false --keep_osymbols=false | \
fstarcsort --sort_type=olabel > data/L.fst

 

여기서 make_lexicon_fst.pl 스크립트는 FST의 텍스트 표현을 만듭니다. 0.5는 silence확률입니다 (즉, 문장의 시작과 각 단어 다음에, 우리는 확률 0.5로 silence을 출력합니다. silence로 할당 된 probability mass 은 1.0-0.5 = 0.5입니다.이 예의 나머지 명령은 FST를 컴파일 된 형식으로 변환하는 것과 관련이 있습니다. 나중에 compose하기 때문에 fstarcsort가 필요합니다.

 

Lexicon의 구조는 대략 예상대로입니다. 최종적인 하나의 상태 ( "the "loop state")가 있습니다. 루프 상태로 두 가지 전환이있는 시작 상태가 있습니다. one with silence and one without.루프 상태에서 각 단어에 해당하는 전이가 있으며 해당 단어는 전이의 출력 심볼입니다. 입력 기호는 해당 단어의 첫 번째 포님입니다. composition의 효율성과 minimization의 효과 를 위해, 출력 기호가 가능한 한 빨리 (즉, 단어의 끝이 아닌 처음에) 있어야합니다. 각 단어의 끝에서, 선택적 silence 를 처리하기 위해, 마지막 phone 에 대응하는 transitions는 두 가지 형태가 있다. 하나는 loop상태로 전환되고, 다른 하나는 루프 상태로 전환되는 "silence상태"로 전환된다. 우리는 silence 단어 뒤에 선택 silence을 넣는 것을 걱정하지 않는다. 우리는 silence phone이라는 하나의 phone을 가진 단어로 정의합니다.

 

disambiguation symbols lexicon을 만드는 것은 약간 더 복잡합니다. 문제는 G.fst의 disambiguation symbol#0 이 lexicon을 통해 전달 될 수 있도록 lexicon에 self-loop를 추가해야한다는 것입니다. 우리는 fstaddselfloops (c.f. Adding and removing disambiguation symbols) 프로그램을 사용 하여이 이 작업을 수행합니다. make_lexicon_fst.pl 스크립트에서 "수동으로" 쉽게 수행 할 수있었습니다.

 

phone_disambig_symbol=`grep \#0 data/phones_disambig.txt | awk '{print $2}'`
word_disambig_symbol=`grep \#0 data/words.txt | awk '{print $2}'`
scripts/make_lexicon_fst.pl data/lexicon_disambig.txt 0.5 SIL | \
fstcompile --isymbols=data/phones_disambig.txt --osymbols=data/words.txt \
--keep_isymbols=false --keep_osymbols=false | \
fstaddselfloops "echo $phone_disambig_symbol |" "echo $word_disambig_symbol |" | \
fstarcsort --sort_type=olabel > data/L_disambig.fst

 

 

fstaddselfloops 프로그램은 원래 OpenFst 명령 줄 도구 중 하나가 아니며, Kaldi 자체 tools 중 하나입니다.

 

Preparing the grammar G

문법 G는 단어를 그것의 상징으로하는 acceptor 입니다 (즉, 입력 및 출력 기호는 각 arc에서 동일합니다).입력측에만 나타나는 disambiguation symbol#0은 예외입니다. 입력이 Arpa 파일이라고 가정하면 Kaldi 프로그램 arpa2fst를 사용하여 FST로 변환합니다. 이 프로그램 arpa2fst는 내장된 기호(embedded symbols)가 있는 FST를 출력한다. Kaldi에서는 일반적으로 내장된 기호가 없는 FST를 사용한다.(즉, 별도의 심볼 테이블을 사용함). arpa2fst를 실행하는 것 이외의 단계는 다음과 같습니다.

 

더보기

- 우리는 FST에서 내장된 기호(embedded symbols)를 제거해야 한다 (그리고 disk의 symbol tables에 의존한다).

- 우리는 언어 모델에 out-of-vocabulary(OOV) word 가 없는지 확인해야 한다.

- 시작 및 종료 기호의 "illegal" 시퀀스를 제거해야 한다. 예 : <s> 뒤에 </ s>가 있다. 왜냐하면 L o G를 결정할 수 없기 때문이다.

- 입력측의 epsilons을 특수 disambiguation symbol #0으로 대체해야 한다.

이를 수행하는 실제 스크립트의 약간 단순화 된 버전은 다음과 같습니다.

gunzip -c data_prep/lm.arpa.gz | \
arpa2fst --disambig-symbol=#0 \
--read-symbol-table=data/words.txt - data/G.fst

마지막 명령 (fstisstochastic)은 진단 단계입니다 (stochasticity 유지 및 테스트 참조). 전형적인 예에서, 숫자를 출력합니다 :

9.14233e-05 -0.259833

 

첫 번째 숫자는 작으므로 호의 확률 질량에 1보다 현저히 작은 최종 상태를 더한 상태가 없음을 확인합니다. 두 번째 숫자는 중요하며 이는 "너무 많은"확률 질량을 갖는 상태가 있음을 의미합니다 (FST에있는 가중치의 숫자 값은 일반적으로 부정 로그 확률로 해석 될 수 있음). "매우 많은"확률 질량을 가진 일부 상태를 갖는 것은 백 오프가있는 언어 모델의 FST 표현에 일반적입니다. 이후의 그래프 생성 단계에서이 비 확률 성이 시작 시보 다 악화되지 않았는지 확인합니다.

 

결과 FST G.fst는 물론 테스트 시간에만 사용됩니다. 훈련 시간에는 훈련 단어 시퀀스에서 생성 된 선형 FST를 사용하지만 이는 스크립트 수준이 아닌 Kaldi 프로세스 내에서 수행됩니다.

 

Preparing LG

L을 G로 작성할 때, 우리는 상당히 표준적인 레시피를 준수합니다. 즉, min (det (L o G))을 계산합니다. 명령 행은 다음과 같습니다.

 

fsttablecompose data/L_disambig.fst data/G.fst | \
fstdeterminizestar --use-log=true | \
fstminimizeencoded | fstpushspecial | \
fstarcsort --sort-type=ilabel > somedir/LG.fst

 

OpenFst 알고리즘과는 약간의 차이가 있습니다. 우리는 커맨드 라인 도구 "fsttablecompose"로 구현 된보다 효율적인 컴포지션 알고리즘 (컴포지션 참조)을 사용합니다. 우리의 결정은 명령 행 프로그램 fstdeterminizestar에 의해 구현되는 엡실론을 제거하는 알고리즘입니다. –use-log = true 옵션은 프로그램에게 먼저 FST를 로그 반올림으로 캐스트하도록 요청합니다. 이것은 확률을 유지합니다 (로그 반고리에서). 확률 보존 및 테스트를 참조하십시오.

 

"fstminimizeencoded"프로그램으로 최소화합니다. 이것은 가중 수락 자에 적용되는 OpenFst 최소화 알고리즘 버전과 대부분 동일합니다. 여기서 관련된 유일한 변화는 무게 추를 피하여 확률을 유지한다는 것입니다 (자세한 내용은 최소화 참조).

 

"fstpushspecial"프로그램은 OpenFst의 "fstpush"프로그램과 유사하지만, 가중치가 1에 합치 지 않으면 모든 상태가 동일한 값 (일부와 다름)을 "보일"수 있도록합니다. 그래프의 시작 또는 끝에 "추가"가중치. 이것은 실패 할 수 없다는 이점이 있습니다 (FST가 "무한"한 경우 "fstpush"는 실패하거나 아주 오랫동안 반복 될 수 있습니다). 또한 훨씬 빠릅니다. 자세한 내용은 push-special.cc를 참조하십시오.

 

"fstarcsort"스테이지는 나중에 컴포지션 작업이 빠르도록 아크를 정렬합니다.

 

Preparing CLG

입력이 상황에 따른 전화 인 트랜스 듀서를 얻으려면 C o L o G와 동등한 CLG라는 FST를 준비해야합니다. 여기서 L과 G는 어휘와 문법이고 C는 음성 상황을 나타냅니다. 트라이 폰 시스템의 경우, C의 입력 심볼은 a / b / c (즉, 트리플 전화) 형태이고, 출력 심볼은 단일 전화 (예를 들어, a 또는 b 또는 c) 일 것이다. 발음 컨텍스트 창에 대한 자세한 내용과 다른 컨텍스트 크기로 일반화하는 방법은 발음 컨텍스트 창을 참조하십시오. 먼저, FST C 컨텍스트 자체를 작성하고 정상적으로 작성해야하는 경우 컨텍스트를 작성하는 방법에 대해 설명합니다 (효율성과 확장 성 때문에 스크립트가 실제로는 작동하지 않습니다).

 

A) Making the context transducer

이 섹션에서는 C를 독립형 FST로 얻는 방법을 설명합니다.

 

C의 기본 구조는 N-1 크기의 모든 가능한 전화 창에 대한 상태를 가지고 있다는 것입니다 (c.f. 음성 문맥 창; 3 개의 경우, N = 3). 발화를 의미하는 첫 번째 상태는 N-1 엡실론에 해당합니다. 각 상태는 각 전화기마다 전환이 있습니다 (현재는 자체 루프를 잊어 버리십시오). 일반적인 예로, 상태 a / b는 출력에서 ​​c로, 입력에서 a / b / c로 전환하여 상태 b / c로 전환합니다. 발화의 시작과 끝에 특별한 경우가 있습니다.

 

발화 시작시 상태가 <eps> / <eps>이고 출력 기호가 a라고 가정합니다. 일반적으로 입력 심볼은 <eps> / <eps> / a입니다. 그러나 이것은 전화를 나타내지 않기 때문에 (P = 1이라고 가정) 중심 요소는 전화가 아닌 <eps>입니다. 이 경우 호의 입력 기호를 # -1로 지정합니다.이 목적을 위해 소개하는 특수 기호입니다 (빈 단어가있을 때 결정 불가능 성을 초래할 수 있으므로 표준 레시피와 같이 엡실론을 사용하지 마십시오) ).

 

발언의 경우는 약간 복잡합니다. 컨텍스트 FST의 오른쪽 (출력측)에는 발화의 끝에서 발생하는 특수 기호 $가 있습니다. 트라이 폰 케이스를 고려하십시오. 발화가 끝날 때 모든 기호를 본 후 마지막 트라이 폰 (예 : a / b / <eps>, <eps>는 정의되지 않은 컨텍스트를 나타냄)을 플러시해야합니다. 이를 수행하는 자연스러운 방법은 입력 a / b / <eps>를 출력 a에서 b / <eps>로 출력 a를 상태 a / b에서 최종 상태로 전환하는 것입니다 (예 : b / <eps> 또는 a 특별 최종 상태). 그러나 이것은 발화의 끝이 아니었다면 제거되기 전에 그러한 전환을 탐색해야하기 때문에 구성에 비효율적입니다. 대신에 우리는 발화 끝 기호로 $를 사용하고 LG에서 각 경로 끝에 한 번 표시되도록합니다. 그런 다음 C의 출력에서 ​​<eps>를 $로 바꿉니다. 일반적으로 $의 반복 횟수는 N-P-1과 같습니다. 번거 로움으로 LG에 추가 할 수있는 후속 심볼 수를 해결해야하는 번거 로움을 피하기 위해 발언이 끝날 때 해당 심볼을 원하는 개수만큼 받아 들일 수 있습니다. 이것은 AddSubsequentialLoop () 함수와 명령 행 프로그램 fstaddsubsequentialloop에 의해 달성됩니다.

 

C 자체를 원한다면 우선 명확성 기호 목록이 필요합니다. 또한 다음과 같이 후속 심볼에 사용할 수있는 사용되지 않은 심볼 ID를 해결해야합니다.

grep '#' data/phones_disambig.txt | awk '{print $2}' > $dir/disambig_phones.list
subseq_sym=`tail -1 data/phones_disambig.txt | awk '{print $2+1;}'`

그런 다음 다음 명령을 사용하여 C를 만들 수 있습니다 (그러나 fstcompose 컨텍스트에 대해서는 아래를 참조하십시오. 실제로는 비효율적 이므로이 작업을 수행하지 않습니다).

fstmakecontextfst --read-disambig-syms=$dir/disambig_phones.list \
--write-disambig-syms=$dir/disambig_ilabels.list data/phones.txt $subseq_sym \
$dir/ilabels | fstarcsort --sort_type=olabel > $dir/C.fst

fstmakecontextfst 프로그램에는 전화 목록, 명확성 기호 목록 및 후속 기호의 ID가 필요합니다. C.fst 외에도 C.fst 왼쪽의 기호를 해석하는 "ilabels"파일을 작성합니다 (ilabel_info 오브젝트 참조). LG의 구성은 다음과 같이 수행 할 수 있습니다.

fstaddsubsequentialloop $subseq_sym $dir/LG.fst | \
fsttablecompose $dir/C.fst - > $dir/CLG.fst

C.fst 및 "ilabels"를 색인화하는 동일한 기호를 사용하여 인쇄하려면 다음 명령을 사용하여 적절한 기호 테이블을 만들 수 있습니다.

fstmakecontextsyms data/phones.txt $dir/ilabels > $dir/context_syms.txt

이 명령은 "ilabels"형식 (ilabel_info 오브젝트)에 대해 알고 있습니다. 이 기호 테이블로 인쇄 된 CLG fst (자원 관리 용)를 통한 임의의 경로 예는 다음과 같습니다.

## fstrandgen --select=log_prob $dir/CLG.fst | \
fstprint --isymbols=$dir/context_syms.txt --osymbols=data/words.txt -

0 1 #-1 <eps>
1 2 <eps>/s/ax SUPPLIES
2 3 s/ax/p <eps>
3 4 ax/p/l <eps>
4 5 p/l/ay <eps>
5 6 l/ay/z <eps>
6 7 ay/z/sil <eps>
7 8 z/sil/<eps> <eps>
8

 

B) Composing with C dynamically

일반적인 그래프 생성 레시피에서는 fstcomposecontext 프로그램을 사용하여 C의 필요한 상태와 호를 모두 낭비하지 않고 동적으로 생성합니다. 명령 행은 다음과 같습니다.

 

fstcomposecontext --read-disambig-syms=$dir/disambig_phones.list \
                  --write-disambig-syms=$dir/disambig_ilabels.list \
                  $dir/ilabels < $dir/LG.fst >$dir/CLG.fst

기본값 (3 및 1)과 다른 컨텍스트 매개 변수 N 및 P가있는 경우이 프로그램에 추가 옵션을 제공합니다. 이 프로그램은 CLG.fst의 입력 기호를 해석하는 파일 "ilabels"(ilabel_info 오브젝트 참조)를 작성합니다. 자원 관리 레시피에서 ilabels 파일의 처음 몇 줄은 다음과 같습니다.

65028 [ ]
[ 0 ]
[ -49 ]
[ -50 ]
[ -51 ]
[ 0 1 0 ]
[ 0 1 1 ]
[ 0 1 2 ]
...

 

숫자 65028은 파일의 요소 수입니다. [-49]와 같은 줄은 명확성 기호를위한 것입니다. [012]와 같은 선은 음향 상황 창을 나타내고; 처음 두 항목은 결정 가능성을 보장하기 위해 엡실론 용 [] (사용하지 않음)과 [0]으로, C의 시작 부분에서 엡실론 대신 C로 시작하는 양식 # -1의 특수 명확화 기호 용입니다.

 

C) Reducing the number of context-dependent input symbols

CLG.fst를 생성 한 후에는 크기를 줄일 수있는 선택적 그래프 생성 단계가 있습니다. 의사 결정 트리 및 HMM 토폴로지 정보에서 작동하는 프로그램 make-ilabel-transducer를 사용합니다. 컨텍스트 종속 전화의 하위 집합은 동일한 컴파일 된 그래프에 해당하므로 병합 할 수 있습니다 (각 요소의 임의 요소 선택) 모든 컨텍스트 창을 해당 컨텍스트 창으로 변환합니다. 이것은 HTK의 논리적-물리적 매핑과 유사한 개념입니다. 명령은 다음과 같습니다.

 

make-ilabel-transducer --write-disambig-syms=$dir/disambig_ilabels_remapped.list \
                        $dir/ilabels \
                        $tree $model \
                        $dir/ilabels.remapped > $dir/ilabel_map.fst

이 프로그램에는 나무와 모델이 필요합니다. "ilabels.remapped"라는 새 ilabel_info 객체를 출력합니다. 이것은 원래 "ilabels"파일과 동일한 형식이지만 줄이 더 적습니다. FST "ilabel_map.fst"는 CLG.fst로 구성되며 레이블을 다시 맵핑합니다. 이 작업을 수행 한 후 결정 및 최소화하여 크기 축소를 즉시 실현할 수 있습니다.

fstcompose $dir/ilabel_map.fst $dir/CLG.fst | \
fstdeterminizestar --use-log=true | \
fstminimizeencoded > $dir/CLG2.fst

 

일반적인 설정의 경우이 단계에서는 실제로 그래프 크기를 크게 줄이지 않으며 (5 % ~ 20 % 감소가 일반적 임), 어떤 경우에도이 메커니즘으로 축소하는 중간 그래프 작성 단계의 크기입니다. 그러나 컨텍스트가 더 넓은 시스템에서는 비용을 크게 절감 할 수 있습니다.

 

 

Making the H transducer

 

기존의 FST 레시피에서 H 트랜스 듀서는 출력에 따라 상황에 따라 달라지는 전화와 입력에 음향 상태를 나타내는 기호가있는 트랜스 듀서입니다. 이 경우 H (또는 HCLG) 입력의 기호는 음향 상태 (용어에서는 pdf-id)가 아니라 전환 ID라고합니다 (TransitionModel에서 사용되는 정수 식별자 참조). 전환 ID는 pdf-id와 전화를 포함한 다른 정보를 인코딩합니다. 각 transition-id는 pdf-id에 매핑 될 수 있습니다. 우리가 만든 H 변환기는 자체 루프를 인코딩하지 않습니다. 이들은 나중에 별도의 프로그램으로 추가됩니다. H 변환기의 상태는 초기 및 최종 상태이며,이 상태에서 ilabel_info 객체 (ilabels 파일, 위의 ilabels 파일)에서 0 번째 항목을 제외한 모든 항목에 대한 전환이 있습니다. 상황에 따른 전화의 전환은 해당 HMM의 구조로 이동 한 다음 (자체 루프 없음) 시작 상태로 돌아갑니다. 일반적인 토폴로지의 경우 HMM의 이러한 구조는 3 개의 호의 선형 시퀀스 일뿐입니다. H는 또한 각 명확화 심볼 (# -1, # 0, # 1, # 2, # 3 등)에 대한 초기 상태에 자체 루프를 가지고 있습니다.

 

H 변환기를 만드는 스크립트 섹션 (이 시점에서 자체 루프가 없기 때문에 Ha라고 함)은 다음과 같습니다.

 

make-h-transducer --disambig-syms-out=$dir/disambig_tstate.list \
              --transition-scale=1.0 $dir/ilabels.remapped $tree $model > $dir/Ha.fst

 

전환 스케일을 설정하는 옵션 인수가 있습니다. 현재 교육 스크립트에서이 척도는 1.0입니다. 이 척도는 자체 루프 확률과 관련이없는 전환 부분에만 영향을 미치며 일반 토폴로지 (Bakis 모델)에서는 전혀 영향을 미치지 않습니다. 자세한 내용은 전환 및 음향 확률 조정을 참조하십시오. FST 외에도 프로그램은 명확성 기호 목록을 작성합니다.이 기호는 나중에 제거해야합니다.

 

Making HCLG

최종 그래프 HCLG를 만드는 첫 번째 단계는 자체 루프가없는 HCLG를 만드는 것입니다. 현재 스크립트의 명령은 다음과 같습니다.

 

fsttablecompose $dir/Ha.fst $dir/CLG2.fst | \
fstdeterminizestar --use-log=true | \
fstrmsymbols $dir/disambig_tstate.list | \
fstrmepslocal | fstminimizeencoded > $dir/HCLGa.fst

 

여기에서 CLG2.fst는 심볼 세트가 줄어든 CLG 버전입니다 (HTK 용어에서 "논리"트리폰). 최소화하기 전에 명확성 기호와 제거하기 쉬운 엡실론 (엡실론 제거 참조)을 제거합니다. 우리의 최소화 알고리즘은 기호와 가중치를 누르는 것을 피하고 (따라서 확률론을 보존 함) 비 결정적 입력을 받아들입니다 (최소화 참조).

 

Adding self-loops to HCLG

HCLG에 자체 루프 추가는 다음 명령으로 수행됩니다.

 

add-self-loops --self-loop-scale=0.1 \
               --reorder=true $model < $dir/HCLGa.fst > $dir/HCLG.fst

0.1의 자체 루프 스케일이 적용되는 방법에 대한 설명은 전환 및 음향 확률 스케일링을 참조하십시오 (비 자체 루프 확률에도 영향을 미침). "재정렬"옵션에 대한 설명은 전환 순서 변경을 참조하십시오. "재주문"옵션은 디코딩 속도를 증가 시키지만 kaldi 디코더와 호환되지 않습니다. 자체 루프 추가 프로그램은 자체 루프를 추가하지 않습니다. 자체 루프를 일관된 방식으로 추가 할 수 있도록 상태를 복제하고 엡실론 전환을 추가해야 할 수도 있습니다. 이 문제는 재정렬 전환에서 약간 더 자세히 설명됩니다. 이것은 확률론을 보존하지 않는 유일한 그래프 생성 단계입니다. 자체 루프 스케일이 1이 아니므로이를 보존하지 않습니다. 따라서 fstisstochastic 프로그램은 모든 G.fst, LG.fst, CLG.fst 및 HCLGa.fst에 대해 동일한 출력을 제공해야하지만 HCLG.fst에 대해서는 그렇지 않아야합니다. . add-self-loops 단계 후에 다시 결정하지 않습니다. 명확성 기호를 이미 제거했기 때문에 실패합니다. 어쨌든, 이것은 느리고 우리는이 시점에서 결정하고 최소화함으로써 더 이상 얻을 것이 없다고 생각합니다.

+ Recent posts