12/05/09 14:15:31.27
>>507
標準出力して、utf8形式でエディタ(TeraPad)にファイルを読み込んでみたら
なんと一部の文字列が文字化けしてました。MeCabの出力がutf-8ではないのか?
==========================
> echo "頭が良くて数学が出来てかっこいい人。それが必要条件よ。 " | mecab > out.txt
==========================
Terapadでout.txtをutf-8形式で読み込んでみた
===========================
" 名詞,サ変接続,*,*,*,*,*
?a?a? 記号,一般,*,*,*,*,*
? 名詞,固有名詞,組織,*,*,*,*
-? 記号,一般,*,*,*,*,*
? 名詞,固有名詞,組織,*,*,*,*
?? 記号,一般,*,*,*,*,*
w 名詞,固有名詞,組織,*,*,*,*
?a? 記号,一般,*,*,*,*,*
- 略 -
EOS
=========================
Terapadで対応している他のコード(Shift-JIS,JIS,EUC,Unicode)でも
読み込んでみましたが、Utf-8以外だと文字化けしまくってました。
Win7のコマンドプロンプトをutf-8に変更するのは、たしかレジストリを弄る必要あったな
URLリンク(sgry.jp)
あとでやってみます
nkfをかませる方法だとRMeCabのソースに書き加えて再ビルドするかんじですか?
それともR側にそういうオプションがあったりします?