update docs

This commit is contained in:
Tokuhiro Matsuno
2023-01-16 23:48:04 +09:00
parent ce416d0afe
commit 21f05d7a7f

View File

@ -4,29 +4,26 @@
ここで、language model とは日本語における単語の発現確率のことを指す。 ここで、language model とは日本語における単語の発現確率のことを指す。
akaza では、基本的に wikipedia 日本語版のデータをもとに単語の発現確率及び 2gram での発現確率を求めている。 akaza では、基本的に wikipedia 日本語版および青空文庫のデータをもとに単語の発現確率及び 2gram での発現確率を求めている。
わかちがき処理及びよみがな処理には kytea を利用している。 わかちがき処理及びよみがな処理には vibrato+ipadic を利用している。
wikipedia を利用しているのは、日本語のコーパスとしてフリーで再利用可能なものが他に見当たらないからであって、他に良いものがあれば追加したい。
```mermaid ```mermaid
graph TD graph TD
wikipedia --> wikipedia.xml.bz2 wikipedia --> wikipedia.xml.bz2
-- bunzip2 -->latest-pages-articles.xml -- bunzip2 --> wikipedia.xml
-- wikiextractor --> extracted -- wikiextractor --> extracted/
-- kytea --> annotated -- vibrato --> tokenized/
-- text2wfreq --> jawiki.wfreq aozora_bunko --> vibrato --> tokenized/
-- wfreq2vocab --> jawiki.vocab tokenized/ --> wfreq
jawiki.vocab --> dumpngram[/dumpngram/] wfreq --> vocab
extracted --> dumpngram[/dumpngram/] tokenized/ --> bigram.raw
--> ngram.txt wfreq --> unigram.raw
ngram.txt --> jawiki.mergeed-1gram.txt corpus/ --> learn-corpus
ngram.txt --> jawiki.mergeed-2gram.txt bigram.raw --> learn-corpus
unigram.raw --> learn-corpus
jawiki.mergeed-1gram.txt -- akaza-make-system-lm --> stats-kytea-lm_v2_1gram.trie learn-corpus --> unigram.model
jawiki.mergeed-2gram.txt -- akaza-make-system-lm --> stats-kytea-lm_v2_2gram.trie learn-corpus --> bigram.model
stats-kytea-lm_v2_1gram.trie -- akaza-make-system-lm --> stats-kytea-lm_v2_2gram.trie
``` ```
## システム辞書 ## システム辞書
@ -38,16 +35,10 @@ graph TD
```mermaid ```mermaid
graph TD graph TD
SKK-JISYO.L --> system-dict corpus/*.txt --> system-dict
SKK-JISYO.jinmei --> system-dict work/vibrato-ipadic.vocab --> system-dict
SKK-JISYO.station --> system-dict dict/SKK-JISYO.akaza --> system-dict
jawiki-kana-kanji-dict --> SKK-JISYO.jawiki --> system-dict system-dict -- make-system-dict--> data/SKK-JISYO.akaza
SKK-JISYO.akaza --> system-dict
system-dict -- akaza-make-binary-dict--> stats-kytea-system_dict.trie
SKK-JISYO.emoji --> single-term-dict
SKK-JISYO.zipcode --> single-term-dict
single-term-dict -- akaza-make-binary-dict--> stats-kytea-single_term.trie
``` ```
## ユーザー言語モデル ## ユーザー言語モデル