08/03/29 00:48:50 lMOUTIbB
config2は元々偽コピペテンプレ対策のものだから
表記揺れを吸収するために使うなら思い切った同一視がかなり必要になるだろうな
形だけじゃなく意味的に似通ったものは同じに扱わないといけない
・ひらがな、半角カタカナ、全角カタカナ、大文字と小文字は同一と見なす
・「ゐ」「ゑ」は「い」「え」と見なす
・濁音と半濁音の配置の組み合わせ(「ば」と「は」+「゛」みたいな)もカバーする
(いっそ「゛」「゜」は同一視してもいいかも。見間違えやすいし。「゛」は全角と半角があることに注意)
・アルファベットの大文字と小文字は同一と見なす
・漢数字(壱とかも)、アラビア数字、ローマ数字、丸数字は同一と見なす
・[㍊,ミリバール,ミリバール]みたいなの
・漢字の異体字、異表現(これは[終,糸冬]みたいなのまでやりだすと収拾付かないから一切やらないというのもあり)
・中黒、句読点、クォーテーション、コロン、チルダ、カッコ系、三点リーダなど明確な意味を持たない記号は無視
これくらいやっちゃってもいいんじゃないの
config2が巨大になるからその負荷によるけど