12/02/19 21:43:22.38 E8bKMP73P
東大生の僕ちんがGoogle日本語入力について簡単に説明させて頂きますね!!
Mecabで有名な工藤拓さんがリーダーで、日本語のWebページにある文章を1億サンプル以上集めて、Mecabで単語に分解していきます!!!!!
分解したら、ある単語の次には、この単語がくる可能性が高いね、その次はこの単語が並ぶ傾向が強いね、、
n-gramデータといいますが、これを作成します。
Google日本語入力の要はこのn-gramデータですが、これはGoogleにお金を払えば誰でも買えます。
ちなみにMecabはAppleのOSXのSpotlightに使われていますし、
iPhoneやiPadの日本語入力はGoogleのngram.datが入っています。
工藤さんがAppleの規約変更にブチ切れてスネてしまう事件もありました。
オフラインでもローカルのngramと単語参照して使えますし、オンラインでサーバーのngramと辞書参照も出来ます!!!!!