ユーザー固有データについて

akaza はユーザー固有のデータを保持し利用する。これによりユーザーごとに学習され、パーソナライズすることが可能である。

ユーザー固有データは以下の3つの部分からなる。

ユーザー入力統計データ

ユーザーが入力したデータの統計データである。

ユーザーが入力した単語の、unigram と bigram が統計データとして保存される。保存されるのは「漢字」の方。

統計データは以下の形で集計される。

これらをもとに、コストを計算する。ユーザー言語モデルから得られるコスト値は、システム辞書に記録されるコスト値よりも低く設定されている。これにより、一度入力した単語は強烈に表出するようになる。

入力データの「かな」部分を利用して trie を構築する。

SKK では、一度入力されたデータはユーザー辞書に登録されていく。これにより強烈にパーソナライズされていくので、そうそう誤変換しなくなっていく。

これと同じようなユーザー体験を得られるようにしていきたい。