文字コード総合スレ part8at TECH
文字コード総合スレ part8 - 暇つぶし2ch2:デフォルトの名無しさん
12/11/30 13:19:29.05
待ってたよ!
URLリンク(www.youtube.com)

3:デフォルトの名無しさん
12/11/30 14:18:38.86
■参考サイト
Unicode Home Page
URLリンク(www.unicode.org)
Java Character Encodings
URLリンク(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLリンク(euc.jp)
ISO-IR - 2.8.1 Coding systems with Standard return
URLリンク(www.itscj.ipsj.or.jp)
ISO-IR - 2.8.2 Coding Systems without Standard return
URLリンク(www.itscj.ipsj.or.jp)
IANA: Character Sets
URLリンク(www.iana.org)
Legacy Encoding Project
URLリンク(sourceforge.jp)
CP50220
森山さんの説明
URLリンク(lists.sourceforge.jp)
JISX4061
日本語文字列照合順番
URLリンク(www.jisc.go.jp)

4:デフォルトの名無しさん
12/11/30 14:19:08.83
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
 内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
 機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

5:デフォルトの名無しさん
12/11/30 14:19:56.25
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
 UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
 サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
 ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか

6:デフォルトの名無しさん
12/11/30 14:20:29.23
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
  → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
 Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
 コントロールパネル-地域と言語のオプション-[言語]タブで
 「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

7:デフォルトの名無しさん
12/11/30 14:28:31.92
テンプレ乙でござるよ

8:デフォルトの名無しさん
12/11/30 15:02:44.42
もうひとつの過去スレ:
文字コード統一スレ 1文字目
スレリンク(tech板)

隔離スレ:
UnicodeとUTF-8の違いは?
スレリンク(tech板)
UnicodeとUTF-8の違いは? その2
スレリンク(tech板)
UnicodeとUTF-8の違いは? その2
スレリンク(tech板)
UnicodeとUTF-8の違い4(インディアン隔離スレ)
スレリンク(tech板)

9:デフォルトの名無しさん
12/11/30 15:13:16.40
■ライブラリ
IBM Globalization - ICU
URLリンク(www-306.ibm.com)
NKF32.DLL
URLリンク(www.vector.co.jp)
URLリンク(www1.ttcn.ne.jp)
バベル
URLリンク(tricklib.com)
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
URLリンク(tricklib.com)
mlang
URLリンク(msdn.microsoft.com)(en-us).aspx
iconv
URLリンク(www.gnu.org)
ICU
URLリンク(www.icu-project.org)

10:デフォルトの名無しさん
12/11/30 15:14:10.43
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
 あるいはURLリンク(masaka.dw.land.to)とか。

11:デフォルトの名無しさん
12/11/30 15:15:50.02
JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
URLリンク(std.dkuug.dk)

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
URLリンク(appsrv.cse.cuhk.edu.hk)

日本の委員 (JSC2)
URLリンク(www.itscj.ipsj.or.jp)

12:デフォルトの名無しさん
12/11/30 18:18:17.85
スレ立てサンキュ

13:デフォルトの名無しさん
12/12/03 21:21:23.27
西夏文字、女文字、インダス文字、女真文字なんかはまだなんだな。
日本や中国の研究者頑張れ。

14:デフォルトの名無しさん
12/12/03 23:51:37.30
ところでさ、U+1F5FEの日本列島絵文字なんだけど、
例示図形に普通に北方四島が入ってるんだよね。
これロシアとかからクレームなかったのかな。

あるいは、奄美と沖縄が単独の点として描かれてるのに
北方四島が本土とくっついてるのはあえてどうとでも解釈できるようにしたごまかし?
でも佐渡とか壱岐対馬はそもそも存在さえ描かれてないわけで、なんかちょっと変。

では、そもそもの元になったと思われるau絵文字#214「地図」ではどうだったのかと見てみたら、
なんと日本領部分は「本土4島だけ」のシンプルなものだった。
ここからどういう経緯で北方四島と奄美沖縄が加わったんだろう。

15:デフォルトの名無しさん
12/12/04 01:09:59.61
>>14
日本列島という島の絵文字であって、日本という国の絵文字じゃないということだと思う。
でないと、国旗の絵文字でアレだけ揉めたのと整合性がつかなくなる。

16:デフォルトの名無しさん
12/12/04 03:19:38.20
ただ、国境以外の理由で4島と千島を区切る理屈ってのもちょっとなさそうなのよね

17:デフォルトの名無しさん
12/12/04 05:19:19.05
南樺太も日本です
台湾も日本です

18:デフォルトの名無しさん
12/12/04 06:09:50.32
U+1F5FCが固有名詞的な「東京タワー」じゃなくて「電波塔」という曖昧な名前で規格化する案もあったことを考えると
U+1F5FEも「弧状列島」とか表現されることになっていてもおかしくなかったかも

19:デフォルトの名無しさん
12/12/04 09:09:38.01
尖閣諸島を入れて欲しかった

20:デフォルトの名無しさん
12/12/04 09:45:40.17
>>18
まあ、MOYAIさんが通った時点でそのへん曖昧だよね。

これに自由の女神と並ぶレベルの公共性なんてないと思うw

21:デフォルトの名無しさん
12/12/04 19:17:25.01
>>20
あれって元の携帯絵文字ではモアイ像そのものの姿で描かれてるんだし (文字名はモヤイ像なのに)、
「モアイ像」として入れたほうがユニヴァーサリティがあって良かったんじゃないかと思うんだけど
まあ渋谷とかの意味で使われる絵文字として解釈できなくなるからやっぱダメか

22:デフォルトの名無しさん
12/12/04 20:12:50.27
あるいは新島

23:デフォルトの名無しさん
12/12/04 23:23:51.55
>>21
> あれって元の携帯絵文字ではモアイ像そのものの姿で描かれてるんだし

まじだ……一体どうなってるんだこれ

24:デフォルトの名無しさん
12/12/14 13:36:10.61
URLリンク(slashdot.jp)
>JTC1/SC2/WG2/IRG N1883
>(大正新脩大蔵経「外字」のISO/IEC 10646追加提案)

これ結局、日本提案から外されたのね

25:デフォルトの名無しさん
12/12/19 21:05:28.98
>>5
>・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか

ISO2022なら楽勝でできる多スクリプトの混合表記がunicodeではできないってスクリプトレベル
の問題を、多言語問題にすりかえるなよ

言語情報が中国語でも、それを日本漢字で表記しても何も問題はない

それどころか、日本の漢文の教科書では、言語は中国語だが、字体は日本の教科書体で表記
しないといけないっての

26:デフォルトの名無しさん
12/12/19 22:53:11.62
正則漢文は中国語ではない

27:デフォルトの名無しさん
12/12/19 23:54:59.27
>>25
文書そのものの言語よりむしろユーザーが理解可能なスクリプトの方が重要、
なのかなあ。

とりあえず自分のお仕事では、文書の言語情報が中国語だったら中国語のフォントを
割り当てるようにしてますけどw
例えばOSの言語設定を優先するようにしたりとかしたら... って?
...ちょっと無理かなw (ちょっと持田香織を意識してみた)

現実問題として例えば普通の日本語フォントは中国語の簡体とか持ってないから、
下手にやるとつぎはぎの脅迫文状態になってしまう。そういうのでも見たいかな?

28:デフォルトの名無しさん
12/12/20 00:26:57.58
漢字のフォントって今も全部手作業で作ってるの?

偏旁の情報流し込んだらざーっとバリエーションつくってくれて、細部だけ手修正、みたいな感じなら
せっかくだから和文で使わない文字も全部含めてくれればいいのに。クオリティ落ちてもいいからさ。

29:デフォルトの名無しさん
12/12/20 05:39:55.98
じゃあおまえがやれよ

30:デフォルトの名無しさん
12/12/20 09:22:41.68
e漢字というプロジェクトがあってだな

31:デフォルトの名無しさん
12/12/20 10:30:33.04
つまんね

32:デフォルトの名無しさん
12/12/20 11:52:51.57
結局GlyphWikiみたいに人肉制作が一番成果物につながりやすいのかな

33:デフォルトの名無しさん
12/12/20 19:09:10.91
Glyphwikiは曲線を実現する方法が改善されたら無敵かも。

34:デフォルトの名無しさん
12/12/20 19:33:32.32
現状のGlyphWikiで作った記号とかネタレベルだもんな。

35:デフォルトの名無しさん
12/12/20 21:08:27.21
花園は非漢字だけ別のフォントから借りてきた方がいいと思うんだけど
明朝だとなかなか選択肢がないのかな

36:デフォルトの名無しさん
12/12/21 22:43:08.51
IPA明朝丸取りで良いやん。

37:デフォルトの名無しさん
12/12/28 22:20:50.30
さて年の瀬なわけだが

38:デフォルトの名無しさん
12/12/28 22:38:05.25
年の瀬くらい、おとなしくしてなさい

39:デフォルトの名無しさん
12/12/29 21:59:11.75
年の瀬だから、いいじゃん

40:デフォルトの名無しさん
12/12/30 14:27:54.18
こんなの始まってた
www.ipa.go.jp/about/kobo/tender-20121228-2/
>今回、変体仮名⽂字の字形を調達し、今後のフォント拡張及び文字符号の国際標準化の
>素材として使用するものとする。

変体仮名の符号化が動き出したか

41:デフォルトの名無しさん
12/12/30 18:45:39.07
良くも悪くも、今回デザインされた字形が「正しい変体仮名」として未来に残っていくんだな。

42:デフォルトの名無しさん
12/12/30 20:49:44.39
だろうなあ。変体仮名の字形に熟知したデザイナーなんてどれだけいるやら…

3月〆切ってことは早ければ春先にもまずIPA明朝に収納される可能性ありか。
どんなのが出てくるかちょっと楽しみ。

43:デフォルトの名無しさん
13/01/01 00:46:22.92
さて年が明けたわけだが

44:デフォルトの名無しさん
13/01/01 02:41:22.10
「謹賀新年」「迎春」とかは一つの文字コードを与えていいんじゃないだろうか

45: 【凶】 【721円】
13/01/01 04:40:04.62
#あけおめ #ことよろ

46:デフォルトの名無しさん
13/01/01 15:26:12.83
あけおめー

47:デフォルトの名無しさん
13/01/02 06:14:56.17
縦組み専用のワープロソフトも出てくるんだろうか

48:デフォルトの名無しさん
13/01/04 00:56:50.23
blog.query1000.com/archives/21819386.html
>日本は今まで(他の国の提案を)撃ち落とす方で頑張って来たのに、

WG2/IRGへ邪魔しに行ってるのを認めちゃったよ

49:デフォルトの名無しさん
13/01/04 03:41:54.21
>>44
戦前に「天皇陛下」の一体活字を作った新聞社じゃないんだから。

50:デフォルトの名無しさん
13/01/04 04:29:39.37
ひょっとしてそれって、文選で間違えると打ち首にされるとかの回避策?

51:デフォルトの名無しさん
13/01/04 04:40:26.90
文中の「陛」文字頻度が低い上に特定の熟語にしか使われないからでしょ

52:デフォルトの名無しさん
13/01/04 14:51:44.58
>>48
URLリンク(blog.query1000.com)
URLリンク(blog.query1000.com)
URLリンク(blog.query1000.com)
URLリンク(blog.query1000.com)

四連作なのね。結構、裏話っぽくて面白かった。

53:デフォルトの名無しさん
13/01/04 15:16:53.92
ああ、例の本の深沢さんか。参考になったわ。

54:デフォルトの名無しさん
13/01/04 23:04:36.32
>>52
安岡も耄碌したな。トイレと天気の話しか出来ないのか。

55:デフォルトの名無しさん
13/01/07 14:54:11.70
>>50
北朝鮮方式か

56:デフォルトの名無しさん
13/01/07 14:56:08.81
あと、4文字の途中で改行することが許されないから、
(というか、直前で改行して必ず行頭に置くことになってるから)
という事情もあるな。

57:デフォルトの名無しさん
13/01/08 21:03:09.32
JIS Z 8903廃止なのね

58:デフォルトの名無しさん
13/01/09 07:20:34.61
ああYさんとこね

変体仮名字形の入札、濁点/半濁点つき字形のことを忘れているような

59:デフォルトの名無しさん
13/01/09 16:28:46.12
>>59
戸籍にも住基にも濁点/半濁点付き変体仮名は無いから
とりあえず最初のうちは作らないみたい
でも今後どうするかは謎

60:デフォルトの名無しさん
13/01/09 16:30:30.81
>>59
自分自身を指してしまったorz

61:デフォルトの名無しさん
13/01/09 22:23:43.57
そうなのか…じゃあ本当に行政専用になりそうだな

62:デフォルトの名無しさん
13/01/11 00:54:51.84
合成でなんとかしろって事ではないのかな。
アイヌ語の表現みたいに。

63:デフォルトの名無しさん
13/01/11 02:03:45.26
欧文のストロークみたいな感じで

64:デフォルトの名無しさん
13/01/12 01:02:43.90
>>63
kwsk

65:デフォルトの名無しさん
13/01/13 09:21:45.76
ふむ


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch