文字コード総合スレ part5

文字コード総合スレ part5at TECH

文字コード総合スレ part5 - 暇つぶし2ch1:デフォルトの名無しさん
09/03/09 01:26:03
プログラマーなら一度は煩わされたことのある文字コードについてのスレです。
ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part2 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part3 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part4 ｽﾚﾘﾝｸ(tech板)

2:デフォルトの名無しさん
09/03/09 01:27:06
■参考サイト
Unicode Home Page
URLﾘﾝｸ(www.unicode.org)
Java Character Encodings
URLﾘﾝｸ(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLﾘﾝｸ(euc.jp)
ISO-IR - 2.8.1 Coding systems with Standard return
URLﾘﾝｸ(www.itscj.ipsj.or.jp)
ISO-IR - 2.8.2 Coding Systems without Standard return
URLﾘﾝｸ(www.itscj.ipsj.or.jp)
IANA: Character Sets
URLﾘﾝｸ(www.iana.org)
Legacy Encoding Project
URLﾘﾝｸ(sourceforge.jp)
CP50220
森山さんの説明
URLﾘﾝｸ(lists.sourceforge.jp)
JISX4061
日本語文字列照合順番
URLﾘﾝｸ(www.jisc.go.jp)

3:デフォルトの名無しさん
09/03/09 01:28:20
漢字袋
URLﾘﾝｸ(kanji.zinbun.kyoto-u.ac.jp)
池田証寿
URLﾘﾝｸ(homepage3.nifty.com)
SJIS2004とかJISX213系の文字コード表
URLﾘﾝｸ(x0213.org)
※JISCの奴は無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
Windowsで扱える文字一覧（コードページ毎で良ければ）
URLﾘﾝｸ(www.microsoft.com)
docomoの携帯コンテンツ制作者向け文字コード情報
URLﾘﾝｸ(www.nttdocomo.co.jp)
auの携帯コンテンツ制作者向け文字コード情報
URLﾘﾝｸ(www.au.kddi.com)
SoftBank携帯コンテンツ制作者向け文字コード情報
URLﾘﾝｸ(creation.mb.softbank.jp)
漢字データベース
URLﾘﾝｸ(kanji-database.sourceforge.net)

4:デフォルトの名無しさん
09/03/09 01:29:08
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
　内部的には Unicode -> CP932 -> CP5022ｘって変換な気もする
・人名をソートかけたらバストサイズ順の並びになる？
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた？
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示（Unicodeに変換）する際に
　機種依存文字はサポートされるか？
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・なぜ携帯業界はunicode化しないのか？
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

5:デフォルトの名無しさん
09/03/09 01:30:45
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏＋恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」のバグ
　UTF-16: 0x304B 0x309A →　Unicode: U+FD61809A　（間違い）　（ISO/IEC10646はU+10FFFFまで）
　サロゲートペアからコードポイントを引き出す計算を無理やり適用（間違い）
　((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの？　→　ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか
・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　ウンコマークもUnicodeに追加されるんだな。
・WindowsXP でフォルダに使用できないフォルダ名はどうやって判定
　　→　ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。

6:デフォルトの名無しさん
09/03/09 01:31:39
■ライブラリ
IBM Globalization - ICU
URLﾘﾝｸ(www-306.ibm.com)
NKF32.DLL
URLﾘﾝｸ(www.vector.co.jp)
URLﾘﾝｸ(www1.ttcn.ne.jp)
バベル
URLﾘﾝｸ(tricklib.com)
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
URLﾘﾝｸ(tricklib.com)
mlang
URLﾘﾝｸ(msdn.microsoft.com)(en-us).aspx
iconv
URLﾘﾝｸ(www.gnu.org)
ICU
URLﾘﾝｸ(www.icu-project.org)

7:デフォルトの名無しさん
09/03/09 11:23:37
RedHatで∑が文字化けする。

・(総和の)∑について
cp932でRedHatに持ち込んで、iconvでutf-8に変換できるが表示が化ける。
iconvでeuc-jpには変換できない。
win端末上でeuc-jpとして保存した場合、cygwinのiconvで他のコードに変換できない。
→euc-jpとしては存在しない文字扱い?

・(ギリシャ文字の)Σについて
コード変換は問題ないが、viで開くと1カラム幅の文字と認識するようだ。

8:デフォルトの名無しさん
09/03/09 11:45:17
1乙。ようやく立ったか。
しかし>>4-7みたいなのは、Wiki立てて
そこでまとめたほうがいいような気がするな。

9:7
09/03/09 12:08:01
あーいや、>7は纏めじゃなくてちょっと気になったから書いたのだけど。
で、今確認したら(当たり前だけど)Σ以外のギリシャ文字も1カラム幅と認識している模様。
実際に使われているフォントは2カラム幅なのに……

10:デフォルトの名無しさん
09/03/09 12:35:33
>>7
> →euc-jpとしては存在しない文字扱い?

JISにない。
JIS X 0208にGREEK CAPITAL LETTER SIGMAがあるから、
必要ないと判断された。

GREEK CAPITAL LETTER SIGMAはISO-8859-7にもある。
ただASCIIと違って、JIS X 0208と一緒に使う習慣はなかったから、
FULLWIDTH GREEK CAPITAL LETTER SIGMAというのはない。
LATIN LETTERSとちがって。

11:7
09/03/09 12:44:22
>>10
なるほど、半ば呆れつつ納得。THX!

12:デフォルトの名無しさん
09/03/09 16:46:00
>人名をソートかけたらバストサイズ順の並びになる？
よくこんなの引っ張り出してきたな

13:1
09/03/09 20:15:43
（ >>1->>6 の続き）
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。

14:1
09/03/09 20:17:32
とりあえず纏めてみた。それでは、マッタリ行ってみよう。

15:デフォルトの名無しさん
09/03/09 20:38:52
これ加えとくわ。
Google Standard Unicode Emoji Mapping
URLﾘﾝｸ(unicode.org)
Proposal for Encoding Emoji Symbols/N3582
URLﾘﾝｸ(unicode.org)
Emoji Symbols: Background Data
URLﾘﾝｸ(unicode.org)

16:デフォルトの名無しさん
09/03/10 00:58:55
> References
> *URLﾘﾝｸ(en.wikipedia.org)
おいおい
まあファイストスの円盤文字もウィキペディア参照してたけど

つーかもうJTC1/SC2/WG2のサイトにも上がってるみたいなのに
WG2のページトップが更新されてねえ
なので直リンク
URLﾘﾝｸ(std.dkuug.dk)
URLﾘﾝｸ(std.dkuug.dk)

17:デフォルトの名無しさん
09/03/10 01:10:32
絵文字とかHistoric Kana(今はKATAKANA LETTER ORIGINAL Eのみ)を含んだ
Amd.7のドラフト
URLﾘﾝｸ(std.dkuug.dk)

18:デフォルトの名無しさん
09/03/10 20:44:25
Last Resort Pictures (N3412) が含まれてないけど
あれはやっぱりエイプリルフールのジョークだったってことでいいのかな

19:デフォルトの名無しさん
09/03/11 00:35:59
立ってたのか、>>1乙

20:デフォルトの名無しさん
09/03/11 14:27:07
こんなFirefox拡張あるんだな。
Emacsのdescribe-charみたいなやつ。

Character Identifier
URLﾘﾝｸ(addons.mozilla.org)

21:デフォルトの名無しさん
09/03/11 20:46:58
Ext.Dに「トキ」「トモ」の合字が提案されてるんだが、
Historic Kanaブロックができた以上そっちのほうに入れるべきじゃね?

ってコメントしたいんだけどどうすれば届くのかさっぱりわからん

22:デフォルトの名無しさん
09/03/11 20:56:35
>>1乙
これはポニテでうんぬん

23:デフォルトの名無しさん
09/03/12 06:15:19
国旗周りでUnicode listが爆裂してたせいか
国旗もEMOJI COMPATIBILITY CHARACTERみたいな謎の記号に置き換えられてるな

24:デフォルトの名無しさん
09/03/12 07:05:23
つーかまたUnicode listが燃え上がってるな

25:デフォルトの名無しさん
09/03/13 11:16:41
自分でフォント作って組み込めば無問題。
こわいものなし。

26:デフォルトの名無しさん
09/03/13 20:04:47
Unicode-C初期UTF-8エンコードの規格覚えている奴まだ居るか判らないけど、
やはりあの時、言語学者の言うこと等聞かずに、国別にセクション割り当てて、VLEで通すべきだったな。
glyphが多ければ無制限に拡張できる規格。
殆どの言語が一文字3バイトに収まって、ソート問題もなし、政治的配慮もありだったのに。
しくじった。

27:デフォルトの名無しさん
09/03/13 20:17:09
collectionや制限部分集合の要素としてglyphic subsetも指定できるように
拡張してくれないかなあ。
要素はあくまでglyphic subsetなので、実装は必ずしもIVSをサポートする必要はない
(してもいいけど)。デフォルトの字形がglyphic subsetの範囲内に収まっていれば、
適合性を主張できることにする。
こうすれば、「新常用漢字の字形を実装したフォント」とか「JIS2004の字形を実装した
フォント」を、規格上曖昧さのない方法で表現できる。規格の行間とかJIS委員が
blogのコメントで吐き捨ててる愚痴まで読まないとまともに実装できないなんて
規格としては不健全きわまりない。
互換漢字大好きの日本代表には少しも期待してないのでUTCがんばれ

28:デフォルトの名無しさん
09/03/15 08:29:09
>>26
日本のためだけにそんなオーバースペック提案しても通らない。というか通らなかった
わけで。
iconvだって文字列1つしかオプションに取れないのはほとんど欠陥といってもいいが、
ありとあらゆる柔軟な変換を可能にするためのオプション類の追加なんてできないので、
エンコーディング名に何でもかんでも詰め込む羽目に陥ってる(UTF-8-MACとか)。

29:デフォルトの名無しさん
09/03/15 09:39:30
オーバースペックどころか、意図から外れてる。

30:デフォルトの名無しさん
09/03/19 00:18:33
日本代表と全面戦争ktkr
URLﾘﾝｸ(www.dkuug.dk)

31:デフォルトの名無しさん
09/03/19 19:20:06
ちょっとアホな質問かもしれんが、つまり、U+624D　の　AJ1E0100 と　N3530E0103は同じと考えておk？
いいのか？

32:デフォルトの名無しさん
09/03/19 22:22:25
USは同じでいいんじゃね? と主張しているだけで、最終的に判断して再提出するのは
(あるいはあくまで互換漢字を入れろと突っ張るのは)日本。

33:デフォルトの名無しさん
09/03/23 18:46:12
ARIBといいケータイ絵文字といい昔の仮名といい
最近日本の文字のUnicodeへの提案多いね。
いい事だ。

34:デフォルトの名無しさん
09/03/23 18:53:27
ぜひ写研時代の記号文字も提案を…

35:デフォルトの名無しさん
09/03/23 19:23:39
変体仮名は住基仮名だけでも追加したほうがいいと思う。
戦前生まれの人の名前で戸籍上で使われてる事があってこだわる人がいるだろうから。
ところで名前に変体仮名を持つ人ってどれくらいいるのかな?
あまり見ないからごく小数なんだろうけど、実際に使われてても平仮名、片仮名あるいは元になったとされる漢字に置き換えたもので通してることが多いのかな?

36:デフォルトの名無しさん
09/03/29 16:06:45
携帯絵文字の大半はBMP外になるみたいだね。
まあ仕方ないか。あれだけ数あるから。
U+2600～U+26FFはARIBとサッカーボールで全部埋まってしまうみたいだし。
U+2700～U+27FFには所々に隙間があって少しここに入れるものがあるみたいだがこの領域全部埋めようとはしないのかな?

37:デフォルトの名無しさん
09/03/29 16:07:56
BMPに入るわけないだろw

38:デフォルトの名無しさん
09/03/29 18:31:19
つーかそろそろBMPは終了のお知らせが近づいてる。
JIS X 0213:2000がかつて勝手に使ってたカッコ付きUCSの位置にもついに
割り当てが入るみたいだし。
IPv4アドレスとどっちが先に枯渇するかってくらいの勢いだ

39:デフォルトの名無しさん
09/03/30 17:21:40
絵文字のどこらへんがBなんだ。

40:デフォルトの名無しさん
09/03/30 22:01:21
Basicじゃなさそうな文字とか記号とかBMPにてんこもりなので
その批判はあんまり意味無いかも

41:デフォルトの名無しさん
09/03/31 23:46:06
もうBMPは止めてCMP( Compatible Multilingual Plane )にでも
改名したほうがいいんじゃないかｗ

42:デフォルトの名無しさん
09/04/01 20:09:14
URLﾘﾝｸ(smallbear.sakura.ne.jp)
おいおい、そのレベルの違いを「おかしな字形」と定義するんだったら
TRONコードだって「おかしな字形」の塊なんだが。
ジャストシステムに言いがかり付けてる暇があったらTRONコードの字形
をどうにかしてくれ。ていうか超漢字Vのマイナーバージョンアップと
Tフォントマダー? (AAry
ｽﾚﾘﾝｸ(tech板:160番)
の件といい、どうしてこうも天に唾するようなことばかり書くのかね。
URLﾘﾝｸ(smallbear.sakura.ne.jp)
> 結局の所、誰もマトモに「常用漢字表」を読んでいないということがあ
> りありと分かるだけ何じゃないかと。
常用漢字表の「明朝体活字のデザインについて」を無視してる奴が
どの口でほざくか。

43:デフォルトの名無しさん
09/04/04 23:36:49
URLﾘﾝｸ(www.microsoft.com)
Format 13: Last Resort Font
が追加された。ということはLast Resort Picturesはやっぱり
文字として符号化はしないんだな