mirror of
https://github.com/mii443/akaza.git
synced 2025-08-22 14:55:31 +00:00
update docs
This commit is contained in:
@ -4,29 +4,26 @@
|
|||||||
|
|
||||||
ここで、language model とは日本語における単語の発現確率のことを指す。
|
ここで、language model とは日本語における単語の発現確率のことを指す。
|
||||||
|
|
||||||
akaza では、基本的に wikipedia 日本語版のデータをもとに単語の発現確率及び 2gram での発現確率を求めている。
|
akaza では、基本的に wikipedia 日本語版および青空文庫のデータをもとに単語の発現確率及び 2gram での発現確率を求めている。
|
||||||
|
|
||||||
わかちがき処理及びよみがな処理には kytea を利用している。
|
わかちがき処理及びよみがな処理には vibrato+ipadic を利用している。
|
||||||
|
|
||||||
wikipedia を利用しているのは、日本語のコーパスとしてフリーで再利用可能なものが他に見当たらないからであって、他に良いものがあれば追加したい。
|
|
||||||
|
|
||||||
```mermaid
|
```mermaid
|
||||||
graph TD
|
graph TD
|
||||||
wikipedia --> wikipedia.xml.bz2
|
wikipedia --> wikipedia.xml.bz2
|
||||||
-- bunzip2 -->latest-pages-articles.xml
|
-- bunzip2 --> wikipedia.xml
|
||||||
-- wikiextractor --> extracted
|
-- wikiextractor --> extracted/
|
||||||
-- kytea --> annotated
|
-- vibrato --> tokenized/
|
||||||
-- text2wfreq --> jawiki.wfreq
|
aozora_bunko --> vibrato --> tokenized/
|
||||||
-- wfreq2vocab --> jawiki.vocab
|
tokenized/ --> wfreq
|
||||||
jawiki.vocab --> dumpngram[/dumpngram/]
|
wfreq --> vocab
|
||||||
extracted --> dumpngram[/dumpngram/]
|
tokenized/ --> bigram.raw
|
||||||
--> ngram.txt
|
wfreq --> unigram.raw
|
||||||
ngram.txt --> jawiki.mergeed-1gram.txt
|
corpus/ --> learn-corpus
|
||||||
ngram.txt --> jawiki.mergeed-2gram.txt
|
bigram.raw --> learn-corpus
|
||||||
|
unigram.raw --> learn-corpus
|
||||||
jawiki.mergeed-1gram.txt -- akaza-make-system-lm --> stats-kytea-lm_v2_1gram.trie
|
learn-corpus --> unigram.model
|
||||||
jawiki.mergeed-2gram.txt -- akaza-make-system-lm --> stats-kytea-lm_v2_2gram.trie
|
learn-corpus --> bigram.model
|
||||||
stats-kytea-lm_v2_1gram.trie -- akaza-make-system-lm --> stats-kytea-lm_v2_2gram.trie
|
|
||||||
```
|
```
|
||||||
|
|
||||||
## システム辞書
|
## システム辞書
|
||||||
@ -38,16 +35,10 @@ graph TD
|
|||||||
|
|
||||||
```mermaid
|
```mermaid
|
||||||
graph TD
|
graph TD
|
||||||
SKK-JISYO.L --> system-dict
|
corpus/*.txt --> system-dict
|
||||||
SKK-JISYO.jinmei --> system-dict
|
work/vibrato-ipadic.vocab --> system-dict
|
||||||
SKK-JISYO.station --> system-dict
|
dict/SKK-JISYO.akaza --> system-dict
|
||||||
jawiki-kana-kanji-dict --> SKK-JISYO.jawiki --> system-dict
|
system-dict -- make-system-dict--> data/SKK-JISYO.akaza
|
||||||
SKK-JISYO.akaza --> system-dict
|
|
||||||
system-dict -- akaza-make-binary-dict--> stats-kytea-system_dict.trie
|
|
||||||
|
|
||||||
SKK-JISYO.emoji --> single-term-dict
|
|
||||||
SKK-JISYO.zipcode --> single-term-dict
|
|
||||||
single-term-dict -- akaza-make-binary-dict--> stats-kytea-single_term.trie
|
|
||||||
```
|
```
|
||||||
|
|
||||||
## ユーザー言語モデル
|
## ユーザー言語モデル
|
||||||
|
Reference in New Issue
Block a user