05/02/23 21:35:57
文字コード統一スレ 1文字目
プログラムにおける文字コードの取り扱いについて議論する統一スレッド
です。
ほぼ前スレ
【UTF8】文字コード変換【SJIS】
スレリンク(tech板)
参考ホームページ
Unicode Home Page
URLリンク(www.unicode.org)
Java Character Encodings
URLリンク(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLリンク(euc.jp)
ISO-IR - 2.8.1 Coding systems with Standard return
URLリンク(www.itscj.ipsj.or.jp)
ISO-IR - 2.8.2 Coding Systems without Standard return
URLリンク(www.itscj.ipsj.or.jp)
こんなんでどうですか?
994:デフォルトの名無しさん
05/02/23 21:49:38
>>970
結局んとこは確率になるからなぁ
特に極短い文だとね
IMultiLanguage2::DetectInputCodepage
でもできるけど識別率はどんなもんだろ
試してないからわからんが中国語とかも識別できるだろうからいいかも?
あとは>>691ででてた
URLリンク(www.gprj.net)
これか?
これも識別率はわからん
C#だけど
995:デフォルトの名無しさん
05/02/23 23:39:52
>>994
多分みんな作ったことあるんだろうな(笑) 俺もある。
短い文だと誤判定が多くなるねー。
いわゆる「半角カタカナ」などというものが滅んでしまえば、かなり楽なんだが。
# 正確にはカタカナのJIS X 0201の方
泥臭いけど、日本語としての特徴を使えば認識率はあがるよ。
漢字ばかりになることはないとか、ひらがなは半分以上であるとか、そういうので点数をつける。
EUC-JPとしてみれば10点、Shift-JISなら25点というふうに。
996:デフォルトの名無しさん
05/02/23 23:45:39
もとの質問の対象がURL中の文字列つーのがきついよね。
997:デフォルトの名無しさん
05/02/23 23:56:34
>>993 に一票
>>995 gaucheの実装がそんな感じだね。ソースも切り取りやすくてすてき。
998:993
05/02/23 23:58:43
立てられませんでした。どなたかお願いします。
999:デフォルトの名無しさん
05/02/23 23:59:22
999
1000:デフォルトの名無しさん
05/02/24 00:00:14
1000ならunicode死滅
1001:1001
Over 1000 Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。