mirror of
https://github.com/mii443/akaza.git
synced 2025-08-22 14:55:31 +00:00
1.5 KiB
1.5 KiB
ユーザー固有データについて
akaza はユーザー固有のデータを保持し利用する。 これによりユーザーごとに学習され、パーソナライズすることが可能である。
ユーザー固有データは以下の3つの部分からなる。
ユーザー入力統計データ
ユーザーが入力したデータの統計データである。
ユーザーが入力した単語の、unigram と bigram が統計データとして保存される。 保存されるのは「漢字」の方。
ユーザー言語モデル
統計データは以下の形で集計される。
- C: ユーザーが入力した単語のユニーク数
- V: ユーザーが入力した単語の総数
- word_count: 単語ごとの漢字入力回数
これらをもとに、コストを計算する。ユーザー言語モデルから得られるコスト値は、システム辞書に記録されるコスト値よりも低く設定されている。これにより、一度入力した単語は強烈に表出するようになる。
ユーザー共通接頭辞
入力データの「かな」部分を利用して trie を構築する。
目指している形
SKK では、一度入力されたデータはユーザー辞書に登録されていく。これにより強烈にパーソナライズされていくので、そうそう誤変換しなくなっていく。
これと同じようなユーザー体験を得られるようにしていきたい。