自然言語処理スレッド その3at TECH
自然言語処理スレッド その3 - 暇つぶし2ch88:デフォルトの名無しさん
09/10/20 10:36:29
日本語の判定テストレポート

対象ソフト。
universalchardet-1.0.3 URLリンク(code.google.com)
icu4c-4_2_1 URLリンク(site.icu-project.org)
nkf-2.0.9 URLリンク(sourceforge.jp)
libguess-0.2.0-d7 URLリンク(www.honeyplanet.jp)

対象サンプル。
一部文字化けを含むネット上ニュースまたはwindowsXPのバイナリファイル。
個数 バイナリ 2300、 UTF8 5200、 SJIS 4100、 JIS 3800、 EUC-JP 2000

速度。
libguessがもっとも速くこれを1としたときの比較。 ICU 185、 nkf 30、 universalchardet 10

正解率。
libguess 0.99971(5個)、 ICU 0.9996(6個)、 nkf 0.998567(25個)、 universalchardet 0.969221(537個)

まとめ。
libguess( 関数 guess_jp)とnkfは日本語限定の判定。 
ICUとuniversalchardetは判定可能な全ての言語での判定。
ICUは一致率60未満でバリナリと判定しこのとき4つのバイナリが西ヨーロッパ言語、2つのEUCが中国語となった。中国語と判定されたケースはもともと漢字が多く言語判定ではICUがもっとも正確といえる。
nkfの25個はSJISをバイナリと誤認した。universalchardetは、バイナリを言語、言語をバイナリなど間違えるケースが多発した。
日本語限定であればlibguess。 世界各国語が対象なら判定速度は遅いがICUがいい。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch