【UTF8】文字コード変換【SJIS】

【UTF8】文字コード変換【SJIS】at TECH

【UTF8】文字コード変換【SJIS】 - 暇つぶし2ch993:デフォルトの名無しさん
05/02/23 21:35:57
文字コード統一スレ 1文字目

プログラムにおける文字コードの取り扱いについて議論する統一スレッド
です。

ほぼ前スレ
【UTF8】文字コード変換【SJIS】
ｽﾚﾘﾝｸ(tech板)

参考ホームページ
Unicode Home Page
URLﾘﾝｸ(www.unicode.org)
Java Character Encodings
URLﾘﾝｸ(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLﾘﾝｸ(euc.jp)
ISO-IR - 2.8.1 Coding systems with Standard return
URLﾘﾝｸ(www.itscj.ipsj.or.jp)
ISO-IR - 2.8.2 Coding Systems without Standard return
URLﾘﾝｸ(www.itscj.ipsj.or.jp)

こんなんでどうですか？

994:デフォルトの名無しさん
05/02/23 21:49:38
>>970
結局んとこは確率になるからなぁ
特に極短い文だとね

IMultiLanguage2::DetectInputCodepage
でもできるけど識別率はどんなもんだろ
試してないからわからんが中国語とかも識別できるだろうからいいかも？

あとは>>691ででてた
URLﾘﾝｸ(www.gprj.net)
これか？
これも識別率はわからん
C#だけど

995:デフォルトの名無しさん
05/02/23 23:39:52
>>994
多分みんな作ったことあるんだろうな(笑) 俺もある。
短い文だと誤判定が多くなるねー。
いわゆる「半角カタカナ」などというものが滅んでしまえば、かなり楽なんだが。
# 正確にはカタカナのJIS X 0201の方

泥臭いけど、日本語としての特徴を使えば認識率はあがるよ。
漢字ばかりになることはないとか、ひらがなは半分以上であるとか、そういうので点数をつける。
EUC-JPとしてみれば10点、Shift-JISなら25点というふうに。

996:デフォルトの名無しさん
05/02/23 23:45:39
もとの質問の対象がURL中の文字列つーのがきついよね。

997:デフォルトの名無しさん
05/02/23 23:56:34
>>993 に一票
>>995 gaucheの実装がそんな感じだね。ソースも切り取りやすくてすてき。

998:993
05/02/23 23:58:43
立てられませんでした。どなたかお願いします。

999:デフォルトの名無しさん
05/02/23 23:59:22
999

1000:デフォルトの名無しさん
05/02/24 00:00:14
1000ならunicode死滅

1001:１００１
Over 1000 Thread
このスレッドは１０００を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。