09/03/07 21:20:42
よー分からんが
Colorless green ideas sleep furiously.
というのは文法的には正しいのに意味をなさない文として有名だけど、
これは OK ってことだよね。
単語分割くらいならがんばればできると思うけど、それ以上は難しいかも。
単語分割はエントロピー的なもので教師なしに分割するという話は腐るほど
あるので、検索すれば出てくると思うけど……
最近の話だったら
URLリンク(nl-ipsj.r.dl.itc.u-tokyo.ac.jp)
ベイズ階層言語モデルによる教師なし形態素解析
○持橋大地, 山田武士, 上田修功(NTTコミュニケーション科学基礎研究所)
言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの
出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いな
い形態素解析を可能にする。これにより, 教師データの存在しない古文や
話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。
だと思う