日本語入力総合スレッド 4at LINUX
日本語入力総合スレッド 4 - 暇つぶし2ch531:login:Penguin
09/12/05 03:42:11 9GvwFt3/
>>528
「N-gramと適当なコードだけでIM界に殴り込み」
というのは ChaIME がまさにそうだと思うんだが……
予測部分に関しては Social-IME な。Social-IME の変換部分は Anthy だが、
予測部分は Google N-gram と適当なコードで書かれている。
ネタで作るなら上記のようなのでもいいが、
ちゃんと毎日使われるものを作るなら整備されたコーパスが必要、ってこと。

URLリンク(blogs.technet.com)

あと、PageRank は現在素のままでは使われていないし、
複雑怪奇な機械学習(ランキング)の結果出しているはずだよ。
ちゃんと使われるものにするためには、
少しの改良どころじゃなくだいぶ改良しないといけないはず。
(ChaIME が使われないのは辞書のサイズが 2GB あるから)

>>530
サジェストもネットは使っていない。
マニアックな用語にしろ、予測候補にしろ、ウェブから抽出したデータをオフラインで使っている。
それらを50MBの辞書サイズに落とし、速度も落とさなかったところがたぶん偉いところ。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch