08/03/16 14:54:55 QCJflrpF
集計に関する決まりごとで決まっていないことがまだあるように思いますね。
まず、config2.txtを使うかどうか。わからない人のために説明しますと、
集計ツールのzipにこんな感じの"config2.txt"というファイルが入っています。
URLリンク(mig380.chez-alice.fr)
これは"tkconfig.pl"もしくは"config0.txt"での「config2.txtに指定された類似文字を同一視する/しない」
という項目を"する"に指定すると、
<<オ力ルト>> ←カタカナの「カ」ではなく漢字の「ちから」
<<二ュ一ス速報>> ←カタカナの「ニ」ではなく漢字の「2」、「ー」(横棒)ではなく漢字の「1」
<<プ口レス>> ←カタカナの「ロ」ではなく漢字の「くち」
<<半角ニ次元>> ←漢字の「2」ではなくカタカナの「ニ」
といったものを自動的に有効にしてくれます。
ただし登録されているものだけです。つまり、
ー, (横棒は存在しないもの扱いされる)
力,カ (力とカを同一の存在としてみる、以下同じ)
二,ニ
口,ロ
という項目がconfig2.txtにあるから有効になるわけです。
よい機能なのですが、機械的に処理しているだけなので誤動作もあり得ます。
この機能をまずそもそも使うかどうか、あらかじめ決めないといけないと思います。