Files
akaza/docs/user-data.md
2022-12-30 17:05:36 +09:00

1.5 KiB

ユーザー固有データについて

akaza はユーザー固有のデータを保持し利用する。 これによりユーザーごとに学習され、パーソナライズすることが可能である。

ユーザー固有データは以下の3つの部分からなる。

ユーザー入力統計データ

ユーザーが入力したデータの統計データである。

ユーザーが入力した単語の、unigram と bigram が統計データとして保存される。 保存されるのは「漢字」の方。

ユーザー言語モデル

統計データは以下の形で集計される。

  • C: ユーザーが入力した単語のユニーク数
  • V: ユーザーが入力した単語の総数
  • word_count: 単語ごとの漢字入力回数

これらをもとに、コストを計算する。ユーザー言語モデルから得られるコスト値は、システム辞書に記録されるコスト値よりも低く設定されている。これにより、一度入力した単語は強烈に表出するようになる。

ユーザー共通接頭辞

入力データの「かな」部分を利用して trie を構築する。

目指している形

SKK では、一度入力されたデータはユーザー辞書に登録されていく。これにより強烈にパーソナライズされていくので、そうそう誤変換しなくなっていく。

これと同じようなユーザー体験を得られるようにしていきたい。