Tokuhiro Matsuno 3ee8b9574f snapshot
2020-09-14 18:36:22 +09:00
2020-09-13 21:58:21 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-03 01:11:08 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00
2020-09-14 18:36:22 +09:00

ibus-akaza

Yet another kana-kanji-converter on IBus, written in Python.

統計的かな漢字変換です。ibus の変換システムは Python でかけるので、かいてみました。

特徴

  • Python で書いてあるので、拡張が容易です。
  • 統計的かな漢字変換モデルを採用しています
  • 言語モデルの生成元は日本語 Wikipedia のみをベースとしています。
  • kytea で分析した結果をベースに 2gram 言語モデルを構築しています。

Dependencies

  • python-marisa
  • pip install wikiextractor

Install 方法

  • make && sudo make install && ibus restart

とかして、ibus 側の設定をすればOKです。

wikipedia の全データをダウンロードして言語モデルと辞書のロードが行われるために、ディスク容量とメモリと CPU がある程度必要です。 (TODO: ビルド済みモデルデータの配布)

設計方針

  • モデル
    • モデルは 日本語 wikipedia 等から自動生成されて、誰でもチューニング可能なようにしたい。
    • 現状、@tokuhirom は、 Wikipedia から生成された言語モデルで割と満足しています。
  • クローラーの提供
    • ユーザーが自分でクローラーを走らせることにより、言語モデルのトレーニングができるようにしたい。
  • ある程度 CPU/Memory が潤沢なシステムを想定しています。
    • メモリ8GB, CPU Intel core i5 程度を想定しています。
    • 現状は開発速度を優先しているために、メモリ容量を多めに消費するようになっています。
  • なにか面白い改善方法が思いついたら、fork して実装できるように。
    • 改造しやすい IME をめざす。
  • 品詞を扱わなくてもよいようにした

ファイル形式

  • system_dict.trie
    • (u'読み', u'漢字1/漢字2/漢字3'.encode('utf-8')) で入れている。
    • common prefix search している。
  • system_language_model.trie
    • ("漢字/かな", score)
    • ("漢字/かな\t漢字/かな", score)
    • key でそのままひく

See also

THANKS TO

Description
No description provided
Readme MIT 1.8 GiB
Languages
Rust 95.6%
Perl 1.8%
C 1.1%
C++ 0.8%
Makefile 0.6%
Other 0.1%