08/02/05 12:35:10 m/DNJzdD0
>>176
清楚 せいそ
不承不承 ふしょうぶしょう
↓
清楚《[^《|》]+》 清楚《 せいそ》 Ek
不承不承《[^《|》]+》 不承不承《 ふしょうぶしょう》 Ek
こういうのが大体1000行くらい
のように置換えしたいんです。OCRでの文字認識だとルビとかの小さな文字は認識率が落ちます。SPEEEEDなどを使って被ルビ文字
の方があってたらルビの内容も正規表現で修正できるようになるんですけど単語を一つ一つ登録するのも骨なので、RUBYというソフトが吐き出す
ルビリス(データは青空文庫などの目校正されてるものから取り出しました)をSPEEEED用置換えリストに書き換えたいんです。
同じ内容の行は1つを残して消したりとかもしたいんですけど、とりあえず今はこの置換えができるか試してる最中です。