【UTF8】文字コード変換【SJIS】at TECH
【UTF8】文字コード変換【SJIS】 - 暇つぶし2ch993:デフォルトの名無しさん
05/02/23 21:35:57
文字コード統一スレ 1文字目

プログラムにおける文字コードの取り扱いについて議論する統一スレッド
です。

ほぼ前スレ
【UTF8】文字コード変換【SJIS】
スレリンク(tech板)

参考ホームページ
Unicode Home Page
URLリンク(www.unicode.org)
Java Character Encodings
URLリンク(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLリンク(euc.jp)
ISO-IR - 2.8.1 Coding systems with Standard return
URLリンク(www.itscj.ipsj.or.jp)
ISO-IR - 2.8.2 Coding Systems without Standard return
URLリンク(www.itscj.ipsj.or.jp)


こんなんでどうですか?

994:デフォルトの名無しさん
05/02/23 21:49:38
>>970
結局んとこは確率になるからなぁ
特に極短い文だとね

IMultiLanguage2::DetectInputCodepage
でもできるけど識別率はどんなもんだろ
試してないからわからんが中国語とかも識別できるだろうからいいかも?

あとは>>691ででてた
URLリンク(www.gprj.net)
これか?
これも識別率はわからん
C#だけど

995:デフォルトの名無しさん
05/02/23 23:39:52
>>994
多分みんな作ったことあるんだろうな(笑) 俺もある。
短い文だと誤判定が多くなるねー。
いわゆる「半角カタカナ」などというものが滅んでしまえば、かなり楽なんだが。
# 正確にはカタカナのJIS X 0201の方

泥臭いけど、日本語としての特徴を使えば認識率はあがるよ。
漢字ばかりになることはないとか、ひらがなは半分以上であるとか、そういうので点数をつける。
EUC-JPとしてみれば10点、Shift-JISなら25点というふうに。

996:デフォルトの名無しさん
05/02/23 23:45:39
もとの質問の対象がURL中の文字列つーのがきついよね。

997:デフォルトの名無しさん
05/02/23 23:56:34
>>993 に一票
>>995 gaucheの実装がそんな感じだね。ソースも切り取りやすくてすてき。

998:993
05/02/23 23:58:43
立てられませんでした。どなたかお願いします。

999:デフォルトの名無しさん
05/02/23 23:59:22
999

1000:デフォルトの名無しさん
05/02/24 00:00:14
1000ならunicode死滅

1001:1001
Over 1000 Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch