# ユーザー固有データについて akaza はユーザー固有のデータを保持し利用する。 これによりユーザーごとに学習され、パーソナライズすることが可能である。 ユーザー固有データは以下の3つの部分からなる。 ## ユーザー入力統計データ ユーザーが入力したデータの統計データである。 ユーザーが入力した単語の、unigram と bigram が統計データとして保存される。 保存されるのは「漢字」の方。 ## ユーザー言語モデル 統計データは以下の形で集計される。 - C: ユーザーが入力した単語のユニーク数 - V: ユーザーが入力した単語の総数 - word_count: 単語ごとの漢字入力回数 これらをもとに、コストを計算する。ユーザー言語モデルから得られるコスト値は、システム辞書に記録されるコスト値よりも低く設定されている。これにより、一度入力した単語は強烈に表出するようになる。 ## ユーザー共通接頭辞 入力データの「かな」部分を利用して trie を構築する。 ## 目指している形 SKK では、一度入力されたデータはユーザー辞書に登録されていく。これにより強烈にパーソナライズされていくので、そうそう誤変換しなくなっていく。 これと同じようなユーザー体験を得られるようにしていきたい。