10/06/13 02:42:49 JhkzJet+
>>436
公開版のフォーマットは合ってるけど、
非公開版は何せ非公開なのでわからない。
URLリンク(sourceforge.jp)
> Google日本語入力の辞書データはGoogle検索のランキング・
> インデクシングアルゴリズムを反映するような単語の頻度情報を含む
Google検索での単語ランキングとインデクス作成アルゴリズムは隠したい、
ということかな。
> 自動収集の膨大な単語と、ランキングデータ
これは入ってる。
> ググル八分で有名なお得意の不正語フィルタ
これは入ってるかどうかわからない。
短い読みを入力するとズタボロになるっていうのは、
MS-IMEがちょっと前に経験したことだよね。
MSがそれをどう克服したか、っていうのがヒントになるのかも。
変換アルゴリズム変更も含めていろいろ考えていらっしゃるようなので、
URLリンク(twitter.com)
まったりと期待
(Mozc以外のアルゴリズムのことかもしれないけど)