09/12/05 03:42:11 9GvwFt3/
>>528
「N-gramと適当なコードだけでIM界に殴り込み」
というのは ChaIME がまさにそうだと思うんだが……
予測部分に関しては Social-IME な。Social-IME の変換部分は Anthy だが、
予測部分は Google N-gram と適当なコードで書かれている。
ネタで作るなら上記のようなのでもいいが、
ちゃんと毎日使われるものを作るなら整備されたコーパスが必要、ってこと。
URLリンク(blogs.technet.com)
あと、PageRank は現在素のままでは使われていないし、
複雑怪奇な機械学習(ランキング)の結果出しているはずだよ。
ちゃんと使われるものにするためには、
少しの改良どころじゃなくだいぶ改良しないといけないはず。
(ChaIME が使われないのは辞書のサイズが 2GB あるから)
>>530
サジェストもネットは使っていない。
マニアックな用語にしろ、予測候補にしろ、ウェブから抽出したデータをオフラインで使っている。
それらを50MBの辞書サイズに落とし、速度も落とさなかったところがたぶん偉いところ。