自然言語処理スレッド その3at TECH
自然言語処理スレッド その3 - 暇つぶし2ch41:デフォルトの名無しさん
09/03/08 23:16:30
>>39 ああ、そうするとデータ圧縮系の話が興味あると思う。
どのように符号化すれば圧縮限界に近づくかとかそういうことだよね。

でも自然言語はあえて冗長な部分があったり
(70% 削っても人間は元の文が復元できるとかいう実験結果があった。
数字はいいかげん)、一次元の尺度ではうまくいかないんじゃないかなぁと思う。

機能語は単純な頻度とか圧縮率で抽出できると思うけど、
内容語は頻度もそんなにないし曖昧性もあるし。
機能語だけに着目して言語判定できるかというとそういうものでもないし。

前文字コード判別でバイト列の N グラムを作って判別したことあるよ。
この場合単語分割する必要すらないんで……。

知識ゼロで作るのは研究としては意味あるけどねー
精度的にはまだまだなんで、かなりブラッシュアップが必要だと思うよ


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch