11/05/29 00:12:44.96
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 スレリンク(tech板)
文字コード総合スレ part2 スレリンク(tech板)
文字コード総合スレ part3 スレリンク(tech板)
文字コード総合スレ part4 スレリンク(tech板)
(スレ再利用)UnicodeとUTF-8の違いは? スレリンク(tech板)
(隔離スレ)UnicodeとUTF-8の違いは? その2 スレリンク(tech板)
文字コード総合スレ part5 スレリンク(tech板)
文字コード総合スレ part6 スレリンク(tech板)
2:デフォルトの名無しさん
11/05/29 02:18:26.51
■参考サイト
Unicode Home Page
URLリンク(www.unicode.org)
Java Character Encodings
URLリンク(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLリンク(euc.jp)
ISO-IR - 2.8.1 Coding systems with Standard return
URLリンク(www.itscj.ipsj.or.jp)
ISO-IR - 2.8.2 Coding Systems without Standard return
URLリンク(www.itscj.ipsj.or.jp)
IANA: Character Sets
URLリンク(www.iana.org)
Legacy Encoding Project
URLリンク(sourceforge.jp)
CP50220
森山さんの説明
URLリンク(lists.sourceforge.jp)
JISX4061
日本語文字列照合順番
URLリンク(www.jisc.go.jp)
3:デフォルトの名無しさん
11/05/29 02:19:14.95
漢字袋
URLリンク(kanji.zinbun.kyoto-u.ac.jp)
池田証寿
URLリンク(homepage3.nifty.com)
SJIS2004とかJISX213系の文字コード表
URLリンク(x0213.org)
※JISCの奴は無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
Windowsで扱える文字一覧(コードページ毎で良ければ)
URLリンク(www.microsoft.com)
docomoの携帯コンテンツ制作者向け文字コード情報
URLリンク(www.nttdocomo.co.jp)
auの携帯コンテンツ制作者向け文字コード情報
URLリンク(www.au.kddi.com)
SoftBank携帯コンテンツ制作者向け文字コード情報
URLリンク(creation.mb.softbank.jp)
漢字データベース
URLリンク(kanji-database.sourceforge.net)
4:デフォルトの名無しさん
11/05/29 02:20:00.21
Google Standard Unicode Emoji Mapping
URLリンク(unicode.org)
Proposal for Encoding Emoji Symbols/N3582
URLリンク(unicode.org)
Emoji Symbols: Background Data
URLリンク(unicode.org)
Amd.7のドラフト
URLリンク(std.dkuug.dk)
MacOSでのShift_JISとUnicodeとのマッピング
fURLリンク(ftp.unicode.org)
MS-DOS 5.0~WindowsXPまでのコードページ
URLリンク(msdn.microsoft.com)
Supported Code Pages (コードページなしは変換)
URLリンク(msdn.microsoft.com)(VS.71).aspx
Code Pages Supported by Windows (コード表)
URLリンク(msdn.microsoft.com)
5:デフォルトの名無しさん
11/05/29 02:52:45.34
リンク集も古くなっちまったな・・
6:デフォルトの名無しさん
11/05/29 07:51:01.39
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
7:デフォルトの名無しさん
11/05/29 07:51:54.14
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
8:デフォルトの名無しさん
11/05/29 07:53:14.72
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
→ ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
コントロールパネル-地域と言語のオプション-[言語]タブで
「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
9:デフォルトの名無しさん
11/05/29 09:21:24.19
■ライブラリ
IBM Globalization - ICU
URLリンク(www-306.ibm.com)
NKF32.DLL
URLリンク(www.vector.co.jp)
URLリンク(www1.ttcn.ne.jp)
バベル
URLリンク(tricklib.com)
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
URLリンク(tricklib.com)
mlang
URLリンク(msdn.microsoft.com)(en-us).aspx
iconv
URLリンク(www.gnu.org)
ICU
URLリンク(www.icu-project.org)
10:デフォルトの名無しさん
11/05/29 09:21:52.15
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいはURLリンク(masaka.dw.land.to)とか。
11:デフォルトの名無しさん
11/05/30 09:46:51.87
今となっては>>3-4はもういらないんじゃないか
あとWG2方面のリンクがないので追加
JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
URLリンク(std.dkuug.dk)
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
URLリンク(appsrv.cse.cuhk.edu.hk)
日本の委員 (JSC2)
URLリンク(www.itscj.ipsj.or.jp)
12:デフォルトの名無しさん
11/05/31 10:54:51.14
前スレdat落ち
13:デフォルトの名無しさん
11/05/31 13:54:38.53
甲乙丙丁戊己庚辛壬癸
癸だけが第二水準
14:デフォルトの名無しさん
11/06/01 01:05:54.50
___
/ ||>>1 .|| ∧_∧
| ||乙_|| (・ω・`)
| ̄ ̄\三⊂/ ̄ ̄ ̄/
| | ( ./ /
15:デフォルトの名無しさん
11/06/01 04:42:56.52
あちゃー前スレ落ちちゃったかー
16:デフォルトの名無しさん
11/06/02 07:19:52.68
ほー、日本は小書きコに反対か。
汎用電子IVDに続いてアドビとしちゃ面白くないだろうな。
17:デフォルトの名無しさん
11/06/02 07:52:40.89
反対するのが生きがいのような連中がWG2に居座ってるからな。
つーかIRGN1757にも反対しろよ。普通なら真っ先に反対してるだろ。
返す刀で汎用電子の追加登録に何か言われたくないのか?
18:デフォルトの名無しさん
11/06/02 08:07:17.38
汎用電子で思い出したけど
URLリンク(twitter.com)
↑これってMSやAdobeみたいな実装する側の意向すら差し置いて
ああいう決定したってことでしょ
よっぽど声のでかい理屈屋がいるんだろうな
19:デフォルトの名無しさん
11/06/02 08:47:14.90
n4091
>some discussion in Japan on the possibility to have a standard set of hentaigana.
おっ!?
20:デフォルトの名無しさん
11/06/02 09:43:46.13
Japanって常々どうも理解しがたい主張ばかりしてる気がする
21:デフォルトの名無しさん
11/06/02 10:02:19.08
小書きコの運命やいかに
22:デフォルトの名無しさん
11/06/02 10:40:53.94
もういっそ五十音全部小書き版作っちゃえよ
23:デフォルトの名無しさん
11/06/02 10:48:42.38
URLリンク(slashdot.jp)
「ネ申」と「示申」でいいよ
24:デフォルトの名無しさん
11/06/02 11:05:08.26
ねもうす
しめしもうす
25:デフォルトの名無しさん
11/06/02 19:55:59.03
UTCは小書きこを受理済みなのね
てことは日米での殴り合い確定か
26:デフォルトの名無しさん
11/06/02 21:04:17.55
カゲながら米を応援したいと思ってる
27:デフォルトの名無しさん
11/06/03 16:46:44.07
日本が何らかの決断するまで変体仮名は前に進められなくなっちゃったかも
28:デフォルトの名無しさん
11/06/05 19:39:18.80
ヘルシンキかあ。ちょうど白夜の時期なんだろうなあ。
29:デフォルトの名無しさん
11/06/09 15:06:10.33
377 :SIM無しさん:2011/06/09(木) 06:40:25.91 ID:7+dIaRVO
Segoe UI Symbol を担当した Agfa Monotype の人間出てこい…
気になる点を調べたが…
おでんの具の刺さり方がとんでもなかったり、ひな祭りの人形が百合祭り (性指向) の人形になってたり、
出来れば製品版で直っていてほしい。
30:デフォルトの名無しさん
11/06/09 18:23:38.45
どこで見たんだろ。SDKには入っていなかった気がするけど。
31:デフォルトの名無しさん
11/06/09 20:13:40.68
AppleはAppleで絵文字専用フォントフォーマット作っちゃったようだし
結局プラットフォームごとにバラバラな見え方することになるんだろうな
32:デフォルトの名無しさん
11/06/09 22:22:48.52
うむ
33:デフォルトの名無しさん
11/06/10 21:10:14.97
安岡センセイ、文字コード関係で編集合戦の結果、ウィキペディア無期限ブロック
URLリンク(ja.wikipedia.org)
34:デフォルトの名無しさん
11/06/10 21:29:13.46
安岡先生どこで編集合戦したの?
35:デフォルトの名無しさん
11/06/10 21:59:54.70
URLリンク(ja.wikipedia.org)
36:デフォルトの名無しさん
11/06/10 23:52:11.43
直接ウィキペディアをいじっちゃ駄目だろ
ウィキペディアの出典になりうる文書を書くほう(本業)を頑張ることだな
37:デフォルトの名無しさん
11/06/11 01:42:04.40
お前ら反応する前に確認しろよ。濡れ衣だったとかで既に解除されてるぞ
URLリンク(ja.wikipedia.org)
38:デフォルトの名無しさん
11/06/11 13:06:57.30
自著を典拠にして自分でwikipediaの記事書いてた/るってこと?
39:デフォルトの名無しさん
11/06/11 13:17:35.16
なにか問題あるの?
40:デフォルトの名無しさん
11/06/11 13:19:40.12
アンチ安岡の病人がネットには何人かいるようだから、そのうちの一人だろ。
相手にすんな。
41:デフォルトの名無しさん
11/06/11 13:39:48.34
>>39
別に問題はないけど>>36と同じような感想は持った。
42:デフォルトの名無しさん
11/06/11 14:14:43.84
小書きこ入らなかったか…
43:デフォルトの名無しさん
11/06/11 15:38:11.75
URLリンク(std.dkuug.dk)
> Moreover, Japan national body is not comfortable with the idea to encode such
> ad-hoc inventions in UCS. Generally speaking, authors can do anything he/she
> considered appropriate, and most of those novel usages are just forgotten
> without any followers. We should not encode new characters unless they are
> considered to have some established usages.
JIS X 0213は吉本隆明のためだけにU+2A437「??」を収録したけどな。
44:デフォルトの名無しさん
11/06/11 15:41:19.99
Janeから書いたら「𪐷」が文字化けした
45:デフォルトの名無しさん
11/06/11 17:08:15.19
こんなにいっぱい矢印が入ることは見過ごせても
ちっちゃいコが二つ入ることは容認できないのね
46:デフォルトの名無しさん
11/06/11 18:43:38.95
Jane(笑)
俺のV2C△□×
47:デフォルトの名無しさん
11/06/11 19:19:17.91
>>46
しかも>>44がU+A437に文字化けして見えるんだぜorz
48:デフォルトの名無しさん
11/06/11 19:21:23.38
>>45
一度入れたらなし崩しになるとでも思ってるのかね。
その観点ではもう手遅れもいいところだろ
49:デフォルトの名無しさん
11/06/11 21:12:12.89
これが漢字なら、写研の文字セットにもある(キリッ
って逆に典拠として使いそう
50:デフォルトの名無しさん
11/06/11 21:13:22.80
漢字はいろんな意味で特別扱いされてるよな
雪だるまとか包摂されまくりなのに
51:デフォルトの名無しさん
11/06/11 21:17:55.05
写研といえばBA-90のUnicode収録マダー? (AAry
ログインとかうる星やつらで使用実績もあるぞ
52:デフォルトの名無しさん
11/06/11 21:22:52.77
U+1F31Dに包摂されるんじゃないの
53:デフォルトの名無しさん
11/06/11 21:32:23.65
(笑)が使われる以前はインタビュー記事とかでも結構使われてたな。
54:デフォルトの名無しさん
11/06/11 21:44:56.41
今見ると{ハハッ ワロス}って吹出しがつきそうな顔だ。
55:デフォルトの名無しさん
11/06/11 21:47:27.79
____
/ \
/ ─ ─\
/ ⌒ ⌒ \ ハハッワロス
| ,ノ(、_, )ヽ |
\ トェェェイ /
/ _ ヽニソ, く
よく雰囲気出てるな
56:デフォルトの名無しさん
11/06/11 23:40:30.40
>>37
火のないところに煙は立たず
57:デフォルトの名無しさん
11/06/12 00:01:57.07
ウィキペディアの管理者は一般利用者に対しては火のないところにも煙を立てるけど
CheckUserの靴下疑惑は「同棲してました」で済ませる人格者ぞろいだからな
58:デフォルトの名無しさん
11/06/12 06:33:56.02
火のないところに火を付けて煙を立てる2ちゃんねらーが言うなw
59:デフォルトの名無しさん
11/06/12 13:09:47.13
先週のWG2で日本に関係ありそうなのは
・コンソーシアムがUTS37などを改訂する時はWG2の意見を尊重すること
くらいかな
あとは
・Wingdings/Webdingsの記号がいっぱい受理された
・線文字A受理
・Amd8から先送りされ続けているA78Fがまた先送り
・USがこれ文字じゃないだろと言い続けて同じく先送りされてきた1BFA-1BFBがとうとう削除
・三つ巴の提案で暗礁に乗り上げていたOld Hungarianがようやく決着
・ミーティングの間隔が空きすぎているのでためしにオンライン会議を導入
60:デフォルトの名無しさん
11/06/12 14:24:05.84
オンライン会議って動画をやりとりするの? チャットじゃなくて
61:デフォルトの名無しさん
11/06/12 14:51:45.40
discussion list and teleconferencing facilities
って書いてあるねぇ。
62:デフォルトの名無しさん
11/06/13 21:40:33.05
>>57-58
マジレスするが2chと同等かそれ以上にdqnのスクツ
63:デフォルトの名無しさん
11/06/13 21:53:45.00
安岡センセイのWikipedia投稿記録、自著の宣伝ばっかり
URLリンク(ja.wikipedia.org)
64:デフォルトの名無しさん
11/06/13 22:42:18.60
著書にすらできない脳内ソースを延々書き連ねるよりよっぽどマシだな
65:デフォルトの名無しさん
11/06/13 23:32:05.43
>>59
UTS37の改訂って↓コレ?
URLリンク(www.unicode.org)
66:デフォルトの名無しさん
11/06/13 23:40:33.85
それも含めて10646からnormativeとして参照している文書すべて
らしい
67:デフォルトの名無しさん
11/06/14 00:13:40.29
確かにUnicode側の都合だけで参照文書コロコロ変えられたらたまらんよな
68:デフォルトの名無しさん
11/06/14 00:37:22.70
一度手にした白紙委任状をコンソーシアムがそう簡単に手放すかな~
69:デフォルトの名無しさん
11/06/14 13:14:23.65
>>65
俺の英語力がないのか、内容がわからん
何のためにこんな改訂するの?
70:デフォルトの名無しさん
11/06/14 22:37:51.65
glyphic subsetが集合であることを明確化するため
71:デフォルトの名無しさん
11/06/15 01:32:20.54
後から追加可能だったら閉集合にならないじゃん
72:デフォルトの名無しさん
11/06/15 01:43:42.95
glyphic subsetに何が含まれないかはもともとはっきりしていない
何が含まれるかがより明確になるだけマシ
73:デフォルトの名無しさん
11/06/15 13:51:52.85
「私の知っているKen Lundeなら必ずやる」にワロタ
74:デフォルトの名無しさん
11/06/15 18:36:43.13
互いに素?
75:デフォルトの名無しさん
11/06/16 10:19:49.12
無理だろうな
76:デフォルトの名無しさん
11/06/16 23:47:48.31
>>74
2つのglyphic subsetが共通部分を持たない、って意味じゃね?
77:デフォルトの名無しさん
11/06/18 20:18:31.95
向こうしばらくの主戦場はIVSか。
78:デフォルトの名無しさん
11/06/21 21:28:13.55
PRI 183キター
79:デフォルトの名無しさん
11/06/22 16:55:43.29
>互換漢字「蘒」(U+FA20)はIVSの基底文字になれない
IVSの基底文字になれなかったら
艸カンムリ3画・4画の差をどうやって分けるの?
80:デフォルトの名無しさん
11/06/22 23:06:50.55
>>79
U+FA20はバグだと主張して新たに統合漢字として追加提案する
81:デフォルトの名無しさん
11/06/23 11:24:52.63
>>79
U+8612に艸カンムリ3画・4画のIVSを両方追加する
82:デフォルトの名無しさん
11/06/27 00:22:37.18
うむ
83:デフォルトの名無しさん
11/06/27 01:35:29.50
U+2B789とU+2B78Eみたいなことになりそうなのが微妙
84:デフォルトの名無しさん
11/06/29 00:10:15.15
文字コードとRFC(2822)の関連性について、どなたか教えてください
85:デフォルトの名無しさん
11/06/29 00:12:53.46
なんでRFC 5322に廃止された2822?
86:デフォルトの名無しさん
11/06/29 00:15:48.26
UTS #37でdeprecationも規定してほしい
87:デフォルトの名無しさん
11/06/29 09:51:55.55
>>85
すいません、今は更新されてRFC5322なんですね。
文字コードとRFC(5322)の関連についてのレポートを書かなければいけないのですが
いまいち良く分からないので、こんなの書いたら良いよっていうのがあれば教えてほしいです。
88:デフォルトの名無しさん
11/06/29 11:16:40.59
文字コードのことわかってない土方大杉。
89:デフォルトの名無しさん
11/06/29 22:44:26.13
>>87
質問が漠然としすぎててなあ。
・RFC 5322ではContent-Typeヘッダフィールドで本文の文字コードを指定する
・日本ではRFC 1468に従いふつーISO-2022-JP
・最近はUTF-8も増えてる
(とくにRFCに根拠はないが強いてあげればIMC勧告から参照されているRFC 2277)
・添付ファイルの内容の文字コードはMIMEのRFC(2045~2047)に従う
・添付ファイル名の文字コードはRFC 2231に従う
あとは適当にふくらませてくれ
90:デフォルトの名無しさん
11/06/30 11:42:26.96
>>89
> ・添付ファイル名の文字コードはRFC 2231に従う
ちょっと表現が微妙ですね。
91:天使 ◆uL5esZLBSE
11/07/03 17:50:47.53
2011年、Ruby,Perl,PHP,Pythonって並べたときにさ
ここで、Ruby以外を選ぶ奴ってマジでなんなんだろうな
ゴミグラマは社会底辺
92:デフォルトの名無しさん
11/07/04 22:06:08.42
>>91
Rubyみたいに糞遅いもの使えるか。
どーせメンテしないなら、呪文みたいなperlのコード書く。
93:デフォルトの名無しさん
11/07/04 22:08:15.73
荒らしはともかくそれにコメントしようとする前にせめてスレタイをみてくれないか
94:デフォルトの名無しさん
11/07/04 22:19:29.63
>>93
何お前まだ表示してるの?
人生無駄にしてるな
95:デフォルトの名無しさん
11/07/06 09:18:43.22
汎用電子第二陣もう来たのか。早かったなあ。
96:デフォルトの名無しさん
11/07/06 22:54:32.65
>>95
安岡センセイが指摘したU+2B751
さっぱりわけわからん
97:デフォルトの名無しさん
11/07/09 10:28:48.24
文字エンコーディング変換を自前で作ってしまう人はあとをたたない
URLリンク(fallabs.com)
98:デフォルトの名無しさん
11/07/09 12:00:15.14
全員が職業プログラマーってわけじゃないから別にいいだろ。
でもこのセンスの無い糞コードは何とかしたほうがいい。
99:デフォルトの名無しさん
11/07/09 12:20:44.32
コンバータが大きくて不恰好なのは、過去あんまりにもめいめいに勝手な変換が行なわれたせいだ
だから、iconvが大きいと文句を言うのなら、変換にはiconvを使わなければならない
自分で文字コード変換なんて絶対にやってはいけない
ましてや公開とかありえない
100:デフォルトの名無しさん
11/07/09 12:47:48.19
>変換にはiconvを使わなければならない
>ましてや公開とかありえない
はいはい。オマエは黙ってろ
101:デフォルトの名無しさん
11/07/09 13:01:11.05
既存の何を使うかはともかく、自力で絶対にやってはいけないのは確かだな
自力でやって「どうしてこんなことをライブラリに頼らなければならないのだろう」と感じたならなおさら
102:デフォルトの名無しさん
11/07/09 13:08:33.47
UTF間の変換ごときで外部ライブラリをリンクしたくないってのは同意できる。
せめて標準ライブラリが使い物になればいいんだけどな。
char16/32_tも、mbrtoc16等の関数群はあるけどこれってもしかしなくてもロケール依存だよな……?
103:デフォルトの名無しさん
11/07/09 13:14:35.65
Unicode 6を読んでもISO/IEC 10646:2011を読んでもUTF-8は最大4バイト
としか読めないんだが、6バイトとか言う奴はなんなの?
104:デフォルトの名無しさん
11/07/09 13:19:13.10
まあ、ライブラリの粒度がもうすこし細かければ全員ハッピーなんだと思う
そんな世界なら、わざわざ自分でやろうと考える人もおるまい
105:デフォルトの名無しさん
11/07/09 13:19:57.06
>>103
31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
今んとこ21ビットしか使ってないからとりあえず4バイトでおkだけど
文字が割り当てられてないコードをUTF-8に変換しても維持しようとするなら6バイト対応が必要。
106:デフォルトの名無しさん
11/07/09 13:24:33.40
>>105
>31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
それはUTF-8じゃないよ。ill-formedと書かれてるんだから。
3.9『Any UTF-8 byte sequence that does not match the patterns listed in Table 3-7 is
ill-formed.』
107:デフォルトの名無しさん
11/07/09 13:40:06.71
サロゲートを思い出すんだ。今illだからといってry
108:デフォルトの名無しさん
11/07/09 13:48:08.11
>>103
> 6バイトとか言う奴はなんなの?
ただのジジイ。放置でおk。
109:デフォルトの名無しさん
11/07/09 14:10:13.34
でも最大4前提で確保したバッファを最大6前提の変換ルーチンに渡したりすると……
110:デフォルトの名無しさん
11/07/09 14:22:50.54
どんなルーチンも、バッファサイズ等の要件は仕様に明記し、両者それに従うべきで、UTF-8がどうとかは別問題
111:デフォルトの名無しさん
11/07/09 23:24:12.31
安岡センセイは8バイト必要って言ってる
URLリンク(itpro.nikkeibp.co.jp)
112:デフォルトの名無しさん
11/07/09 23:30:28.31
base (3~4バイト) + vs (4バイト)で最大8バイトってだけの話がどうかしたか?
ちなみにUnicodeは結合文字列の長さや組み合わせに何の制限も設けていないので
よろしく
113:デフォルトの名無しさん
11/07/10 02:09:44.32
この記事見た時いやーな予感したんだよな。
これ読んで「じゃあ8バイト分のバッファを確保すればいいのか」みたいな解釈する
プログラマが出ないかって。
114:デフォルトの名無しさん
11/07/10 02:18:55.43
VSに関しては例外的に「複数付けられない」「合成済み文字には付けられない」
「結合文字には付けられない」という制限があってむしろ簡単な部類なんだよな
115:デフォルトの名無しさん
11/07/10 03:36:29.63
安岡はもう引退した方がいい。既に頭が老人ぼけずぎ
116:デフォルトの名無しさん
11/07/10 03:43:18.92
「漢字1文字につき」って書いてあるが、漢字で2つ以上結合し、それがフォントのテーブルでサポートされてるグリフってある?
117:デフォルトの名無しさん
11/07/10 03:44:38.90
2つ以上って、ベースを除いた数ね
118:デフォルトの名無しさん
11/07/10 07:24:51.78
VSは2つ以上くっつけられないけどその他の結合文字はいくらでも付けられる。
たとえば濁点・半濁点付きの異体字なんかも可能だし
それをさらにCOMBINING CIRCLEで丸囲みすることも可能。
実装がサポートしているかどうかは知らない
119:デフォルトの名無しさん
11/07/10 07:26:41.38
>>115
「互換漢字にVSを付けられるようにすればいい」とか何も考えてないにもほどがあるよな
120:デフォルトの名無しさん
11/07/10 08:17:19.12
>>118
フォントにない文字を合成しても表示できないんだし、UTF-8だと(世間一般でいう)漢字は
最大4+4=8バイトの説明でいいんじゃないかなあと。実装されたグリフがあれば別だけど。
121:デフォルトの名無しさん
11/07/10 08:21:26.94
当然、世間一般的な説明の範囲で。
122:デフォルトの名無しさん
11/07/10 08:59:14.71
JIS系のコードからの変換で、なんやかんや付きまくってコードポイントが3つ以上になったりするものはある?
123:デフォルトの名無しさん
11/07/10 11:07:46.51
>>120
> フォントにない文字を合成しても表示できないんだし
なことはない。美しくないだけ。
124:デフォルトの名無しさん
11/07/10 12:55:47.64
>>123
一応、OpenType だと ccmp の話なんだけど。他のフォーマットだとそう?
125:デフォルトの名無しさん
11/07/10 13:44:31.80
ラテン文字のダイアクリティカルマークなんかはすべての組み合わせ済みグリフが
あらかじめ収録されているわけじゃないぞ
濁点だってそういう実装は可能だし漢字に付けるなら現実的に言ってそういう
実装しかできないだろ
126:デフォルトの名無しさん
11/07/10 13:46:27.84
Firefoxは正しく表示できなくても基底文字+結合文字をちゃんと選択や編集の
最小単位として扱う
127:デフォルトの名無しさん
11/07/10 14:10:37.77
>>125
すべて収録されてないのは当然そんなことわかってる。
今は漢字の話だが、表示されないってところは認めてるわけだな。
128:デフォルトの名無しさん
11/07/10 14:43:34.31
>>127
お前わかってねーじゃんw
129:デフォルトの名無しさん
11/07/10 14:47:13.64
>>128
お前こそ話がわかってない。
いままでの話、もう一度読んでくれ。
130:デフォルトの名無しさん
11/07/10 15:56:20.57
>>122
JIS X 0212の11-80とか?
131:デフォルトの名無しさん
11/07/10 18:29:04.88
MIME導入前のメールの文字コードの区別ってどうやってしていたんですか
132:デフォルトの名無しさん
11/07/10 18:45:25.59
エスケープシーケンス入っていればISO-2022-JP
8bitならISO-8859-*のどれか
どれでもなければASCII
さらにFrom:の人間に対する知識を合わせて。
いろいろ調べてShift_JISで送ってきたことが判明したら「おまえ殺すぞ」と返事。
133:デフォルトの名無しさん
11/07/10 21:39:04.61
>>130
それ漢字じゃないだろ
134:デフォルトの名無しさん
11/07/10 21:48:41.74
>>119
>「互換漢字にVSを付けられるようにすればいい」
URLリンク(slashdot.jp) のこと?
>ただ、私(安岡孝一)個人としては、
>これらのカウンターアクションを必ずしも望まない。
って書いてるんだから、これ安岡センセイのブラフだろ。
135:デフォルトの名無しさん
11/07/10 22:13:28.91
EBCDIC
SJIS変換どうやったらいい?
136:デフォルトの名無しさん
11/07/10 22:22:59.38
漢字入りのEBCDICか?
137:デフォルトの名無しさん
11/07/10 22:26:37.64
>>134
U+FA20は互換漢字から外すべき
とは俺も思った
138:デフォルトの名無しさん
11/07/10 23:47:22.43
せめてどのメーカーのEBCDICかくらい指定してもらわないと答えようがない
139:デフォルトの名無しさん
11/07/10 23:53:28.06
google先生にebcdicで問い合わせると...
140:デフォルトの名無しさん
11/07/10 23:54:44.51
邪魔だからわからない人は書き込まないでくれないか?
141:デフォルトの名無しさん
11/07/10 23:56:38.41
iconvとか使えばいいだけだろうに
142:デフォルトの名無しさん
11/07/11 00:29:45.34
じゃまだから質問の仕方がわからない奴は書きこまないでほしい
143:デフォルトの名無しさん
11/07/11 06:11:05.03
>>137
U+FA20を互換漢字でなくすのと互換漢字にVSを許すのはまったく違う
144:デフォルトの名無しさん
11/07/11 07:41:09.86
うむ
145:デフォルトの名無しさん
11/07/11 14:09:31.48
KEISのSJIS変換は?
146:デフォルトの名無しさん
11/07/11 23:13:06.76
むう
147:デフォルトの名無しさん
11/07/12 00:48:07.50
SKFのソースを見るといいかも
URLリンク(sourceforge.jp)
148:デフォルトの名無しさん
11/07/12 21:03:28.00
サンキュ。とりあえず読みかけた。
149:デフォルトの名無しさん
11/07/13 21:46:43.55
௵
150:デフォルトの名無しさん
11/07/13 21:48:52.77
>>149
これの読み方教えて。
151:デフォルトの名無しさん
11/07/13 21:58:28.31
TAMIL YEAR SIGNだとさ
つ URLリンク(www.fileformat.info)
152:デフォルトの名無しさん
11/07/13 22:15:08.87
>>151
どうもありがとう!
153:デフォルトの名無しさん
11/07/13 22:20:47.01
௵これより大きな文字や記号はあるのだろうか?
154:デフォルトの名無しさん
11/07/14 00:21:35.65
‱
155:デフォルトの名無しさん
11/07/14 00:23:10.13
ミス
156:デフォルトの名無しさん
11/07/14 23:22:25.05
中国は通用規範漢字で表外字への簡化の適用を廃止してたのか。
ますますIRGN1757はアホだな。
類推適用されるなら少しは気持ちがわからんでもなかったが
157:デフォルトの名無しさん
11/07/15 16:59:36.77
>>156
でもUTC-00071とかUTC-00677とかは、通用規範漢字なんだろ?
158:デフォルトの名無しさん
11/07/16 10:20:08.01
>>157
y-variantは独立に符号化すべき
現在符号化されていない通用規範漢字は130文字くらいあるみたいなのに
その一部しか取り上げていないんだから通用規範漢字に対応するのが
目的でもなさそうだし
159:デフォルトの名無しさん
11/07/16 10:23:40.24
しかもUTC-00071はExt.Eに提案中だしUTC-00677に至ってはU+2B5AFに符号化済み
160:デフォルトの名無しさん
11/07/17 07:15:03.60
MingLiUのU+8BDEはバグってるな(U+4725と同じ字形が入ってる)
161:デフォルトの名無しさん
11/07/18 06:00:40.12
どうすんだよもう
162:デフォルトの名無しさん
11/07/18 11:42:31.44
もうすんだよどう?
163:デフォルトの名無しさん
11/07/18 13:13:12.26
MSゴシックの昴の字形みたいにいつの間にかこっそり訂正されてたりして。
その結果IBM拡張文字の昴の字形が入れ替わったわけだが
誰も話題にしていないところを見るとやっぱりほとんどの人にとっては自分の
名前に使われていない限りどうでもいいらしいな
164:デフォルトの名無しさん
11/07/18 15:00:00.04
>>163
kwsk
165:デフォルトの名無しさん
11/07/18 15:18:33.70
>>163
同じくkwsk
166:デフォルトの名無しさん
11/07/19 01:22:49.71
H・Kとかいうアホに戦争中の東大生の文字中毒の話を予備校の日本史講師にされたと言われた
俺もそんな感じはある
と言ったらあのアホでバカで境界性人格障害のクズはため息つきやがった
文字への強迫性は悪い部分もあるんだろうが いい部分もたくさんあるんだよ だからH・Kに対して言わせてもらう、死ね、死んじまえ!
167:デフォルトの名無しさん
11/07/19 06:24:44.75
>>164-165
昴じゃなくて昂だった。
JIS83で昂の字形がCID7680相当からCID1993相当に変わったんだけど
IBM拡張漢字の0xFAD0にはもともとCID1993相当の字形が収録されていた。
MSゴシックでは苦肉の策としてU+6602とU+663Bの両方にCID1993と
同じような字形を収録してIBM拡張漢字の0xFAD0はU+663Bに対応
させていたけど、JIS2004対応のついでにU+663Bの字形がCID7680
相当に変更された。結果としてIBM拡張漢字の0xFAD0の字形も変わった。
168:デフォルトの名無しさん
11/07/20 01:45:50.26
フォントといえばWin7のTVゴシックシリーズって、SP1でもまだ隠し扱いなの?
169:デフォルトの名無しさん
11/07/20 18:56:44.69
字形の細かい違いを拾いたい人と、捨象するのを是とする人とじゃ
話は噛み合わんだろうな。
170:デフォルトの名無しさん
11/07/20 19:24:04.68
長さnのUTF16の文字列wchar_t[n]を、UTF8のchar[m]に変換した場合、
mはどのくらいの大きさであれば十分なのでしょうか?
自分程度の知識だと、UTF8は最大6バイトで1文字を表すので、
m=6nとすれば十分な大きさになるだろうと考えているのですが、
実際はもっと小さい容量でも足りるのではないか?と思っています。
また逆に、UTF8からUTF16にする場合、nはどのくらいの大きさが
あれば十分なのでしょうか?
UTF16はサロゲートペアで最大2要素で1文字を表すので、n=2m程度の
領域を確保してあげれば十分だと考えているのですが、実際は
どの程度あれば十分なのでしょうか?
よろしくお願いします。
171:デフォルトの名無しさん
11/07/20 20:01:16.97
UTF-8とUTF-16で各コードポイント値が必要とするオクテット数は次の通り。
(左がUTF-8、右がUTF-16)
000000..00007f 1 2
000080..00007f 2 2
000800..00ffff 3 2
010000..10ffff 4 4
wchar_tが16bit以上ある環境なら右の値は半分になるので、
UTF-16→UTF-8の場合はm=3n、逆方向はn=1/2mとなります。
172:デフォルトの名無しさん
11/07/21 06:30:02.31
wchar_tが32bitでUCSだったら普通はUTF-32を採用するんじゃね?
173:デフォルトの名無しさん
11/07/21 06:37:51.57
>>171
どんな場合でも、m=3n, n=1/2mだけの領域を確保してあげれば、十分
という認識でよいでしょうか?
174:デフォルトの名無しさん
11/07/21 07:12:56.52
>>171-172
逆方向はn=mじゃね?
175:デフォルトの名無しさん
11/07/21 09:06:09.79
> UTF16の文字列wchar_t[n]を、UTF8のchar[m]
という前提のはなしだったら
UTF16 ⇒ UTF8: m = 3n
UTF8 ⇒ UTF16: n = m + 1
じゃないの? (ヒント UTF-16LE ではなくて UTF-16)
176:デフォルトの名無しさん
11/07/21 09:32:10.85
変換後のサイズ知りたいなら実際にスキャンして調べたら?
自分で数えても良いし、処理系にAPIあればそれでも良いし。
まさか固定サイズのバッファ使ってるから、大風呂敷広げておこう戦法?
177:デフォルトの名無しさん
11/07/21 09:34:18.61
LionのヒラギノはIVS対応か?
SafariはIVSちゃんと表示するようになったのか?
178:デフォルトの名無しさん
11/07/21 10:02:23.67
>>176
1文字単位で変換するときのバッファサイズぐらい固定で取りたいとかじゃね?
どっちにしろwchar_tではなくてchar16_tをだな
179:デフォルトの名無しさん
11/07/21 18:31:13.18
>>175 がFAかな
180:デフォルトの名無しさん
11/07/21 18:36:42.10
ヒラギノはAdobe-Japan1-6にフル対応しないのかな
181:170
11/07/21 20:44:05.03
皆さんありがとうございます。
m = 3n, n = m(LE or BE なので)、で作ります!
自分でも調べてみて色々勉強になりました
182:デフォルトの名無しさん
11/07/21 23:36:33.77
ICUを使ってファイルの文字コードを調べたいのですが、
ファイルの先頭何バイトを使って調査するのが普通でしょうか?
183:デフォルトの名無しさん
11/07/21 23:48:29.06
文字コードの自動判別に王道無し。
184:デフォルトの名無しさん
11/07/21 23:49:29.17
HTML5では1024バイトと定めているな
185:デフォルトの名無しさん
11/07/22 00:32:39.39
マジか
じゃあ1025バイト以降にUNICODEとかあったら、誤認識すんのか
186:デフォルトの名無しさん
11/07/22 00:48:23.86
HTML5のケースは1024バイト目までにmeta charsetタグが現れることを期待してるんじゃないかな
187:デフォルトの名無しさん
11/07/22 01:12:21.67
あぁ、なるほど
じゃあ一般の文字認識とは様子が違いそうだ
188:デフォルトの名無しさん
11/07/22 01:16:08.22
美乳
189:デフォルトの名無しさん
11/07/22 06:07:55.97
>>185
するよ
Firefoxは最後まで読んでたけど
HTML5 parser導入後は今まで化けていなかったページで文字化けすることがある
190:デフォルトの名無しさん
11/07/26 23:01:50.95
PRI #184のレビュー期間が終了したようだな
識別子に間違って'+'と'-'を使っちゃった件のつじつま合わせが6月30日に
追加されていたようだ
191:デフォルトの名無しさん
11/07/27 01:29:04.17
あの改訂はレビュー中のAJ1と汎用電子2陣にも適用されるのかなあ
192:デフォルトの名無しさん
11/07/31 04:58:18.71
Webアプリケーション経由で、データベースから取得する文字コードと、
ブラウザに出力する文字コードが違う場合、マルチバイト文字が文字化けします。
文字コードの変換をしてから出力すれば問題ないのですが、
変換処理を全てに行うと重くなるため、マルチバイト文字にのみ行いたいのですが、
1バイト文字だけで構成されているものについても、変換処理は行わないと、
何かセキュリティとかに問題がありますか?
16進ダンプの結果が同じものなら、変換処理は必要ないですよね?
193:デフォルトの名無しさん
11/07/31 05:20:17.12
1バイト文字というのは正確ではないな。Latin-9だって全部1バイトだし。
それはともかくバックスラッシュとかクオーテーションとかで地雷踏まないとわかってるなら別にいいんじゃね
194:デフォルトの名無しさん
11/07/31 05:45:19.24
>>193
ありがとうございます。
Latin-9については全然わかりません。
調べてみてそれらしきものの16進ダンプみてみましたが、6バイトになってました。
URLリンク(www.eki.ee)
URLリンク(charset.7jp.net)
文字コード難しいですね・・・
本題ですが、SQLインジェクション対策は入力可能なものを固定値か数値にしていて、
数値カラムに対してはint型に変換してから問い合わせしてるので、平気だと思います。
;' DELETEとかうたれても固定値と一致しないので排除されるか、int変換で0になるので。
特に問題はなさそうなので、intカラムはとりあえず変換をしないことにします。
英数字で構成されてるcharカラムは一応現状維持で変換することにします。
195:デフォルトの名無しさん
11/07/31 13:44:14.51
>>192
>変換処理を全てに行うと重くなるため、
それは10文字程度を100万回ループして、何ミリ秒ほど重くなるの?
>SQLインジェクション対策は入力可能なものを固定値か数値に
えー。Perl CGIでサニタイズ処理をコリゴリ書く人ですか?
196:デフォルトの名無しさん
11/08/01 01:17:02.76
マルチバイト文字を構成するバイトを探すのは、
テキストを全部舐めないといけないはずだけど、
そんな事やっている間に変換できちゃわないかな。
197:デフォルトの名無しさん
11/08/01 02:27:45.73
マルチバイトが入ってないって最初から分かってるのでは?
データベースのintカラムなんでしょ
198: [―{}@{}@{}-] 忍法帖【Lv=6,xxxP】 !denji 株価【E】 u
11/08/01 18:27:31.88
jis委員たちはいつまで南堂久史さんの私案を無視するんだ?
sjis改訂で本質的貢献を果たしたはずなのになんの見返りもなしとか、
どうなってるの?
URLリンク(hp.vector.co.jp)
URLリンク(www005.upp.so-net.ne.jp)
199:デフォルトの名無しさん
11/08/01 19:21:07.08
一私案を考慮しなきゃならない理由なんて、どこにもないだろ。
規格に修正を加えたいならしかるべき手続きをとらなければならない。それだけ。
200:デフォルトの名無しさん
11/08/01 22:23:26.49
いつまでもシフトJISにしがみつくような案は無視されて当然。
JIS X 0213のShift_JISX0213が世間でdisられてるの知ってんだろ
201:デフォルトの名無しさん
11/08/01 22:58:00.59
>>198
いつまで南堂の妄想をまに受けてんの?
URLリンク(slashdot.jp)
URLリンク(d.hatena.ne.jp)
202:デフォルトの名無しさん
11/08/02 00:27:05.14
アンチ南堂の意見を見るほど、安岡をはじめとするスラッシュドットの住人って
変人だとしか思えない。
スラド信者は南堂の字形変更がJIS規格に採用されて正常な判断能力を失った
203:デフォルトの名無しさん
11/08/02 07:09:26.99
安岡は本当に2004JISの委員だったのに対して南堂はただの空想家ですが何か?
頭おかしいの?
本人降臨ですか?
204:デフォルトの名無しさん
11/08/02 07:10:27.93
スラドの日記に書かれているだけでスラド信者とか
どう考えても正常な判断能力を失ってるな
205:デフォルトの名無しさん
11/08/02 07:23:42.07
どこの世界にも基地外っているんだなあ
206: [―{}@{}@{}-] 忍法帖【Lv=6,xxxP】 !denji 株価【E】 u
11/08/02 17:19:39.99
>>202
そう、南堂の案は結局採用された。
本質的貢献をはたした。
なのに、委員会は南道の案を誤読し、
いざ、南堂案が正しいとわかったら、
徹底的に無視し続ける。
207:デフォルトの名無しさん
11/08/02 18:25:02.58
南堂案って委員会に提出されてないよ
URLリンク(opac.ndl.go.jp)
そもそも南堂がアレを言いだしたのは委員会終了後
208:デフォルトの名無しさん
11/08/02 18:27:00.43
2004年の規格が南堂案という話をしてるのに、
2001年の情報を出されても・・・
209:デフォルトの名無しさん
11/08/02 19:26:16.14
どこの誰だか知らない人の話を延々とされても・・・
210:デフォルトの名無しさん
11/08/02 21:40:48.16
あらま。JIS信者は南堂を無かったことにしたいのね
211:デフォルトの名無しさん
11/08/02 21:49:56.66
あらまじゃねぇよ南堂信者
2004の委員会に提出した記録があるなら出せってんだよ
212:デフォルトの名無しさん
11/08/02 21:55:43.01
>>207
それは違う。
南堂私案は池田委員の個人アドレスに個人メールとして送られてきた。
委員会としては公開レビュー窓口に送るよう促したが、彼は委員会を「敵」だとみなしていたらしく、
公開レビューには参加を拒否したし、もちろんヒアリングにも出席しなかった。
結局Shift_JISX0213には、レビューに参加した中島私案が採用された。
213:デフォルトの名無しさん
11/08/02 22:05:42.80
>>212
誰?
214: [―{}@{}@{}-] 忍法帖【Lv=7,xxxP】 !denji 株価【E】 u
11/08/03 02:54:06.88
で、結局南堂案のコンセプトが正しかったことが証明された。
にもかかわらず、南堂を無視し続けた。
それどころか南堂の案の重要な点である、字体の変更をトンデモ扱いした。
そんなことをすれば南堂が委員会を敵だとみなすのも無理は無い。
万死に値すると思うが。
215:デフォルトの名無しさん
11/08/03 07:22:28.61
で、委員会に提出した記録は?
216:デフォルトの名無しさん
11/08/03 08:10:17.28
>>214
南堂案のキモは字体変更じゃなくて包摂分離
南堂案を擁護するなら中身ちゃんと読めよ
217:デフォルトの名無しさん
11/08/03 11:34:32.60
Lionのカラーフォントって、どういうフォーマットなの?
218:デフォルトの名無しさん
11/08/03 11:50:46.08
png入ってるね
219:デフォルトの名無しさん
11/08/03 13:13:05.60
だとすると、国旗とかKEYCAPとかは、合成後にpng処理?
220:デフォルトの名無しさん
11/08/03 17:34:25.71
そういうこと
morxでリガチャのglyphID拾ってからpngで表示
221: [―{}@{}@{}-] 忍法帖【Lv=7,xxxP】 !denji 株価【E】 u
11/08/03 18:30:49.33
>>216
いずれにしても、
本質的貢献をしたのに無視するのは異常。
222:デフォルトの名無しさん
11/08/03 20:23:24.15
安岡センセイがsbixテーブルを解読
フォントのバイナリを読める人たちってどういう頭してんだろ
223:デフォルトの名無しさん
11/08/03 20:35:41.23
TrueTypeのテーブルの基本構造は共通だし、多分解読用のフレームワークか
何か持ってるんだと思う。
224:デフォルトの名無しさん
11/08/03 21:52:25.18
↓これのこと?
URLリンク(kanji.zinbun.kyoto-u.ac.jp)
225:デフォルトの名無しさん
11/08/03 21:53:52.84
URLが化けた orz
URLリンク(kanji.zinbun.kyoto-u.ac.jp)
226:デフォルトの名無しさん
11/08/04 06:24:12.51
それはFontForge使ってるだけじゃん
これのことだろ
URLリンク(slashdot.jp)
バイナリ眺めてれば普通に大体見当つくよ
227:デフォルトの名無しさん
11/08/04 06:28:37.18
>>221
単なるあれおれ詐欺を本質的貢献と思える頭の作りが異常
228:デフォルトの名無しさん
11/08/04 06:51:10.81
PNGかぁ。実装の簡単さを取ったんだろうけど、
ラスタ画像ってのは将来性という点でどうだろうなあ。
229:デフォルトの名無しさん
11/08/04 08:31:37.93
CFF/Type2のカラー化ってのも難しそうだし
今ならSVGがいいのかなあ?
230:デフォルトの名無しさん
11/08/04 10:15:32.74
҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉
テスト
231:デフォルトの名無しさん
11/08/04 10:17:04.06
>>230
これ何て読むか教えてください。
232:デフォルトの名無しさん
11/08/04 10:18:15.53
>>231
アナル
233:デフォルトの名無しさん
11/08/04 10:21:18.14
҉҉҉҉҉҉҉҉ ̨ͨͤ̊͒̅̒ͪ̽͂͆̓ͤ̈̊̋ͫ̿̒͏̵̡̼͔̲̺͘ !
234:デフォルトの名無しさん
11/08/04 10:22:11.43
>>232
なるほど。
235:デフォルトの名無しさん
11/08/04 10:25:31.03
>>233
では、これは?
236:デフォルトの名無しさん
11/08/04 10:26:46.40
҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉
イボ痔
237:デフォルトの名無しさん
11/08/04 10:38:31.05
アナル系が人気のようですね。
238:デフォルトの名無しさん
11/08/04 14:01:41.94
sbixググってみたけど、それらしいのは↓しか見つからなかった
URLリンク(developer.apple.com)
もうちょっと詳細な情報キボンヌ
239: [―{}@{}@{}-] 忍法帖【Lv=8,xxxP】 !denji 株価【E】 u
11/08/04 17:46:57.75
>>214
南堂案骨子は字体変更。当時は字体変更はトンデモだと思われていたが、
あとで字体変更が必要だとわかって、
南堂案が正しい事が証明された。
だから、委員は南堂案の肝が字体変更だとは意地でも言わないつもりなんだよね。
南道の手柄ってことがバレるから。
240:デフォルトの名無しさん
11/08/04 20:39:38.72
>>238
安岡センセイの日記が今の時点では最も詳細な情報
241:デフォルトの名無しさん
11/08/04 20:46:47.72
>>987
242:デフォルトの名無しさん
11/08/04 21:34:44.32
>>239
そんな誰でも独立して思いつくことで手柄とか言ってるのが自意識過剰の馬鹿丸出し
243:デフォルトの名無しさん
11/08/04 22:46:56.82
おや、JIS信者が南堂の存在だけは認めたようです
244:デフォルトの名無しさん
11/08/04 23:07:45.81
URLリンク(www.unicode.org)
↑これ、レビューが実質1週間しかなかったんだけど、何だったの?
245:デフォルトの名無しさん
11/08/04 23:16:44.33
>>240
それも何だかなー
246:デフォルトの名無しさん
11/08/05 04:17:34.27
>>244
来月最終投票入りする予定の10646の3版に間に合わせる必要があって、
そのためには今週開催中のUTCで審議する必要があって、それで
こういう極短期の公開レビューになったんだと。
247:デフォルトの名無しさん
11/08/05 08:15:42.60
そういう形だけのレビューなら、やらない方がマシ
248:デフォルトの名無しさん
11/08/05 10:47:00.97
大注目している時期に見逃す方がどうかしてる。
249:デフォルトの名無しさん
11/08/05 11:04:16.06
PRI 201が公開されたのは7月27日の昼前だった。
漢字を943字も収録してるのに、それで8月3日〆切ってのは、
チェックするための時間があまりに短か過ぎる。
250:デフォルトの名無しさん
11/08/05 11:15:50.42
943字くらい半日もあればチェックできるだろ
字形が変わってるのもUTC-00919とUTC-00929の2つくらいだし
251:デフォルトの名無しさん
11/08/05 11:26:52.61
>>249
締め切り前に短すぎると意見すればよかった。
252:デフォルトの名無しさん
11/08/05 11:33:57.40
>>228
データの種類はシグネチャで見てる感じだからpdfでも構わんのでしょ。
それだとOSX/iOS以外で表示が難しいのと、ちゃんとしたグリフ作るのも
大変だから、取り敢えずpng入れてみましたって所じゃないかな。
253:デフォルトの名無しさん
11/08/05 11:34:11.54
>>250
UTC-00919とUTC-00929の字形変更って…
じゃあU+FA15とU+FA20に出てる字形はどうなるの?
URLリンク(www.unicode.org)
254:デフォルトの名無しさん
11/08/05 11:37:28.07
>>225
> URLが化けた orz
なぜにDelete w
255:デフォルトの名無しさん
11/08/05 11:39:19.79
>>253
ISOの最終投票で字形変更
256:デフォルトの名無しさん
11/08/05 11:54:41.18
>>251
後ろがつかえてるんだから
どうせ聞く耳もたないだろ
257:デフォルトの名無しさん
11/08/05 11:58:38.08
愚痴ですね
258:デフォルトの名無しさん
11/08/05 12:04:35.73
だってオレ英語かけないもん
259:デフォルトの名無しさん
11/08/05 12:28:28.94
英語が書けたらあんな提案こんな提案…
260:デフォルトの名無しさん
11/08/05 13:10:33.53
アン アン アン
261:デフォルトの名無しさん
11/08/05 19:27:23.87
>Unicode 6.1.0 (Planned for February, 2012)
フム
262:デフォルトの名無しさん
11/08/05 23:12:33.65
ムフ
263:デフォルトの名無しさん
11/08/05 23:20:18.06
フムゥ
264:デフォルトの名無しさん
11/08/05 23:58:58.56
なかは、膣はらめぇ~
265: 忍法帖【Lv=9,xxxP】 !denji 株価【E】 u
11/08/13 18:34:17.05
結局南堂さんの実績は認めるの?認めないの?
266:デフォルトの名無しさん
11/08/13 18:41:51.62
JIS信者は認めないみたいだね。
字形変更はもっての他とか言っていたのに規格が通って発狂した
267:デフォルトの名無しさん
11/08/13 18:55:55.74
UTCは小書きコに関しては取り下げるでもなく様子見か。
268:デフォルトの名無しさん
11/08/13 19:46:24.40
>>265
南堂信者は発狂して相手のせいにして自分を慰めてる
269:デフォルトの名無しさん
11/08/13 22:47:15.05
「お盆」をあらわす絵文字ってないの?
270:デフォルトの名無しさん
11/08/13 22:52:17.28
どうやってあらわすんだよ
風習は地方によって様々なのに
(という文句が付けられそうなものは他にもあるだろうけども)
271:デフォルトの名無しさん
11/08/14 02:16:31.07
○+盆。
272:デフォルトの名無しさん
11/08/14 05:01:22.07
盆⃝
273:デフォルトの名無しさん
11/08/14 06:47:40.56
山に大の字だな。
274:デフォルトの名無しさん
11/08/14 10:30:40.67
>>272
すばらしい
275:デフォルトの名無しさん
11/08/16 14:22:05.96
解説希望
276:デフォルトの名無しさん
11/08/16 14:37:57.50
閲覧環境によっては囲い文字になってるんだろ
277:デフォルトの名無しさん
11/08/16 14:48:10.83
U+20DDはCOMBINING ENCLOSING CIRCLEという結合文字。
URLリンク(www.unicode.org)
278:デフォルトの名無しさん
11/08/17 01:21:42.61
◎にそれ重ねたら三重丸と看做していいんかな
279:デフォルトの名無しさん
11/08/17 14:25:10.71
二重丸を三重丸とみなしてもいい。あなたの勝手。
280: 忍法帖【Lv=10,xxxPT】 !denji 株価【E】 u
11/08/17 19:50:00.10
結局南堂の業績は認めるの?認めないの?
はっきりさせろ・
281:デフォルトの名無しさん
11/08/17 22:55:33.31
>>280
結局って何だよ。JIS信者は南堂の業績は認めない。
これはこのスレで一貫しているだろ。
業績認めて欲しいなら南堂が貢献したというソースを出してみろ。
282:デフォルトの名無しさん
11/08/17 23:09:36.30
今さらJISなんてどうでもいいよ
283:デフォルトの名無しさん
11/08/18 10:02:41.00
UTS #37 v3リリース。
284:デフォルトの名無しさん
11/08/18 15:16:18.41
グリフウィキに繋がらん
285:デフォルトの名無しさん
11/08/18 18:10:38.20
次からといわず移せばいいのに
286:デフォルトの名無しさん
11/08/18 22:10:31.19
>>285
kwsk
287:デフォルトの名無しさん
11/08/18 23:25:18.88
>>286
URLリンク(twitter.com)
288:デフォルトの名無しさん
11/08/20 13:11:01.43
復帰したようだ
289:デフォルトの名無しさん
11/08/20 20:15:09.39
OT版フォント復活したのかー
290:デフォルトの名無しさん
11/08/21 23:08:53.89
>>281
ソース→ >>212
291:デフォルトの名無しさん
11/08/22 00:26:26.56
ソースは2ちゃんの書き込み
292:デフォルトの名無しさん
11/08/25 13:10:29.66
SEXTILEって、Unicode 6.0で追加されたみたいだけど、ソースは何?
293:デフォルトの名無しさん
11/08/25 22:59:21.37
5.1だぬ
ソースは不明
294:デフォルトの名無しさん
11/08/30 23:03:39.03
汎用電子のレビューコメント全然来ないのか…
295:デフォルトの名無しさん
11/08/31 20:42:29.41
いっそ俺がレビューしてやろうか
296:デフォルトの名無しさん
11/09/01 01:09:21.42
はにょでんし
297:デフォルトの名無しさん
11/09/01 08:52:56.57
はにゃ~
298:デフォルトの名無しさん
11/09/01 18:55:46.56
LionでせっかくヒラギノがIVSに対応したのにSafariやChromeが対応してないのは勿体無いな
辻󠄀
辻󠄁
299:デフォルトの名無しさん
11/09/05 00:27:39.83
フォントまわりはFirefoxの一人勝ちだぁね
300:デフォルトの名無しさん
11/09/06 20:56:02.28
今使ってるCGIプログラムの文字コードがShift_JISだったから別の文字コードに変換したいんだけど
このスレ的には内部文字コードも出力もUTF-8なの?
301:デフォルトの名無しさん
11/09/06 21:12:16.42
もしかして、内部コードって、ソースコードを表現するコードという意味で使ってる?
302:デフォルトの名無しさん
11/09/06 21:29:09.49
このスレ的には、って?
このスレは基本、あらゆる論者が屯ってると思うが。
303:デフォルトの名無しさん
11/09/06 22:21:14.15
内部文字コードを自由に替えられる処理系って、
BSD系のC+libc以外だと何があるんだろ?
304:デフォルトの名無しさん
11/09/06 23:19:01.40
>>301-302
ごめんソースコードを表現するコードという意味で合ってる
ダメ文字から逃れたくて質問したけど
色んな説があるみたいだからEUC-JPにするよ
ありがとう
305:デフォルトの名無しさん
11/09/06 23:34:33.51
いまどきEUCはないわ
SJISは論外
306:デフォルトの名無しさん
11/09/06 23:40:34.13
好きにしろよ。スレ違いだ。
307:デフォルトの名無しさん
11/09/07 04:19:05.45
黙ってUTF-16普及に努めるんだ
308:デフォルトの名無しさん
11/09/07 16:06:50.47
分かりやすいデータ型の分類と役割を教えて下さい
intとかの
言語はjavaです
309:デフォルトの名無しさん
11/09/07 16:22:24.03
スレ違い
310:デフォルトの名無しさん
11/09/07 19:07:23.73
>>308
intは文字
charも文字
w_charも文字
とにかく文字に使う
311:デフォルトの名無しさん
11/09/08 02:51:34.91
String s;
s = "Javaは、Unicodeです。漢字も1文字。わかりやすくて安心だ。";
t = s.substring(i, i + 1);
312:デフォルトの名無しさん
11/09/08 03:15:44.44
そしてサロゲートペアに嵌る。
313:デフォルトの名無しさん
11/09/08 07:25:18.84
"?田(よしだ)です。Java使いはアホが多いですね".substrin(0,1);
314:デフォルトの名無しさん
11/09/08 16:41:09.82
サロゲートペアを解決した後は、合成文字にはまって、
合成文字を解決した後もVSが待ってるんだよな。
最初に16ビットに収めようと言い出したやつは刺されてもおかしくない。
315:デフォルトの名無しさん
11/09/09 00:16:57.11
32bitなら合成文字も解決すると思うのか?
何文字分までの合成を想定してるの?
316:デフォルトの名無しさん
11/09/09 01:41:03.72
合成文字ったって理論上はいくらでも繋げられるけど実際そこまでのものは無いだろ。
16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。
大文字小文字、ひらがなカタカナ濁点小書き、異体字、全角半角の違いなんかも全部詰め込めば
そこをマスクするだけで曖昧検索もできてウマーと勝手に思ってるんだが甘いかな。
ASCIIとも互換性なくなるけど。
317:デフォルトの名無しさん
11/09/09 02:16:09.23
brainf*ckみたいなもんだな
318: 忍法帖【Lv=14,xxxPT】 !denji 株価【E】 u
11/09/09 12:05:45.06
はっきり言ってお前らの議論は南堂先生のレベルには遠く及ばない。
319:デフォルトの名無しさん
11/09/09 14:40:15.38
合成を使わないと某半島のアレがウン十万字分のコードポイント占めるんだよ
320:デフォルトの名無しさん
11/09/09 14:46:18.17
タイ文字なめとんのか?
321:デフォルトの名無しさん
11/09/09 16:22:51.70
>>319
合成済みのが追加済みじゃなかったっけ?
あまりにも数が多いので規則的にして計算式で求められるようになってて表からは除外されてる
322:デフォルトの名無しさん
11/09/09 20:06:00.46
感じも部首に分けて登録するか
323:デフォルトの名無しさん
11/09/09 20:13:14.50
それいいな。ついでに部首ごとにキーを振ったら新しい漢直になるぞ
324:デフォルトの名無しさん
11/09/09 21:17:33.12
>>316
> 16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。
どこが今のUnicodeに比べて優れているのかと…
325:デフォルトの名無しさん
11/09/09 22:03:45.75
合成文字を常態化するなら慣用や拗音も文字コード充ててしまえと
326:デフォルトの名無しさん
11/09/09 22:18:20.96
だって全文字共通で装飾にビットを振っていくと何ビットあっても足りなry
まあそれはいいよ。
とりあえず今のUnicodeは、何をするにしてもUCDのテーブルを抱え込まないといけないので
もうちょい全体的に範囲をまとめて欲しい。
なんで新しめの仕様なはずのVSですら散らばってんだよ。連続領域に取れなかったもんだろうか。
327:デフォルトの名無しさん
11/09/10 15:08:50.66
どうやって並べても不満の出る射影はあるのだから、
テーブル実装技術の方で頑張ってください。
328:デフォルトの名無しさん
11/09/10 18:15:23.12
>>321
コードポイントのどのあたり?
329:デフォルトの名無しさん
11/09/10 20:40:21.59
>>328
URLリンク(www.unicode.org)
AC00から11172文字かな。
330:デフォルトの名無しさん
11/09/10 21:25:06.55
>>329
それだと、>>319と数が合わない。
>>319は現代では使われていない古文字の合成のことじゃないのか?
331:デフォルトの名無しさん
11/09/15 01:22:24.15
Win8プレビュー版の日本語フォント、1F2xxがちょっとアレだな。
ただのスタブならいいんだけど
332:デフォルトの名無しさん
11/09/17 02:20:34.92
MS3フォントに325のIVSが入っているのを確認。
333:デフォルトの名無しさん
11/09/17 16:06:00.17
シングルバイト文字しかない文字列をエディタで保存したとき、
内部文字コードをUTF-8にしてもUTF-8にはならず、SJISとなってしまいます。
単にエディタが識別できないだけだと思いますが、気にしなくてもいいですか?
例えばhtmlでContent-Typeをtext/html;charset=UTF-8と指定してるにも関わらず、
マルチバイト文字がないため、内部文字コードがSJISになってる感じです。
334:333
11/09/17 16:07:16.97
と、書いてから気づいたんですが、
こういうときのためにBOMがあるんですかね?
335:デフォルトの名無しさん
11/09/17 17:06:36.21
BOMはバイトオーダーを識別するためにあるんですよ。
336:デフォルトの名無しさん
11/09/17 17:31:46.68
>>333
円記号については問題が発生する
337:デフォルトの名無しさん
11/09/17 17:59:00.61
>>333
> 内部文字コードがSJISになってる
というのはどういう状態? なぜそう判断したの?
338:333
11/09/17 18:19:16.94
レスありがとうございます。
>>335
一般的にはそうみたいですね。
UTF-8には無意味とも書いていました。
ただ判別するためにUTF-8でも使うみたいなことは書いてました。
>>336
よくわかりませんが確かに\は発生しそうですね。
>>337
エディタで文字コードを指定して保存する時UTF-8で保存しますが、
再度開いたときにSJISで開かれてエディタもSJISと判断してるということです。
バイナリエディタなんかで開いたとき、
シングルバイト文字は、SJISでもUTF-8でも、16進数ダンプで同じ値になるので、
エディタにはそのへんが判断できないんじゃないのかなぁと思ってます。
339:デフォルトの名無しさん
11/09/17 18:46:10.66
そのエディタのスレで聞いたほうがいいのでは。
エディタ名伏せられたままじゃ何とも言えん。
340:デフォルトの名無しさん
11/09/17 19:38:46.95
>>338
適合する文字コードの中でSJISを優先して選ぶエディタか、
環境(ロケール等)ってだけでは?
341:333
11/09/17 20:11:13.62
>>339
とりあえず手持ちで確認したところ、
Windowsメモ張、サクラエディタ、TeraPadなんかはそんな感じです。
Windowsメモ張でUTF-8で保存した場合、UTF-8として開かれますが、
あれはBOMついてるので、BOMなしでUTF-8で保存した場合、
どれもSJISで開かれます。
>>340
そうですね。
UTF-8と判断する材料がない場合、優先してSJIS選んでるんでしょうね。
>>333の例であげたhtmlにしても、文字化けするというわけではないので、
気にしないのが一番なんですかね。
342:デフォルトの名無しさん
11/09/17 20:49:54.82
ASCII範囲の文字しかなければASCII=UTF-8(BOMなし)=SHIFT_JIS=ISO 8859-1にしかならんだろ。
このなかのどれを選ぶかはエディタを作ったやつ次第。メモ帳はANSI=現在のコードページだろうし。
343:デフォルトの名無しさん
11/09/19 04:03:24.62
PRI 183(AJ1の追加分)は明日までか
344:デフォルトの名無しさん
11/09/20 00:55:56.10
去年ちょろっとAdobe-Japan1-7の話が出たけど、
結局とくに意味はなかったのか。
345:デフォルトの名無しさん
11/09/20 02:27:40.76
意味のないことは多いからな
346:デフォルトの名無しさん
11/09/24 03:13:44.95
グリフの内訳はバラバラなのに、Glyphwiki発だからって理由で
何でもかんでも花園フォントとしてリリースするのは紛らわしい。
347:デフォルトの名無しさん
11/09/24 10:40:30.47
もう少しkwsk
348:デフォルトの名無しさん
11/09/24 18:50:07.33
本家版にOT版にKDP実験版に。
全部花園明朝名乗ってるけどグリフの内訳はバラバラ。
349:デフォルトの名無しさん
11/09/26 00:23:08.24
そろそろ問題だらけのUnicodeはもう捨てて新しい文字コード体型考えようぜ
350:デフォルトの名無しさん
11/09/26 10:44:16.58
どうぞどうぞ
351:デフォルトの名無しさん
11/10/01 02:09:31.25
まさかの一人目上島
352:デフォルトの名無しさん
11/10/09 18:15:42.34
うにコードより先にJISコードを時代に合わせて綺麗にしようや
円記号とバックスラッシュの分離
2・1バイト幅英数アルファベットの別を無くす
囲い文字コードを無くし付加記号の仕組みを入れる
異系文字の定数引き
現行コードから変換指針の提示
353:デフォルトの名無しさん
11/10/09 21:16:57.01
誰得
354:デフォルトの名無しさん
11/10/10 17:03:49.36
オマエ以外
355:デフォルトの名無しさん
11/10/10 20:09:53.20
どんな得があるわけ?
356:デフォルトの名無しさん
11/10/13 22:10:48.22
とりあえず携帯電話を早くUnicodeに対応させてくれ
357:デフォルトの名無しさん
11/10/20 00:12:17.70
ガラケーは死んだ
358:デフォルトの名無しさん
11/10/20 01:31:24.35
なぜだ?
359:デフォルトの名無しさん
11/10/27 20:19:31.86
IPAmj明朝の正式版キタコレ
360:デフォルトの名無しさん
11/10/28 13:56:24.36
文字コードスレとはあまり関係ないよね。
361:デフォルトの名無しさん
11/10/28 14:45:08.44
これ以外に汎用電子対応のフォント出てくるのかねー
362:デフォルトの名無しさん
11/10/28 18:56:01.03
1週間止まってたスレが動き出したか
363:デフォルトの名無しさん
11/10/29 10:04:35.08
IRG N 1812って何だろ
またスケジュールを遅らすことになるのか
364:デフォルトの名無しさん
11/10/29 19:37:47.69
>>361
そういえばIPAex明朝すらIVSはAJ1だったな
365:デフォルトの名無しさん
11/10/29 19:41:27.70
>>360
オレオレ文字コードを発明しないでISO/IEC 10646の枠組み上で
できる限り符号化しようと努力しているのを評価対象にするとか
366:デフォルトの名無しさん
11/10/29 22:23:27.79
今日電話で話した人が「テンプレが出てるんだよ」「テンプレになっちゃうんだ」と連呼するものだから、
一体何のことなのかと首をかしげていたら「豆腐」のことを「天ぷら」と間違えて覚えているらしいことに気付いた
367:デフォルトの名無しさん
11/11/01 04:28:14.19
ブログのログインみたいな感じの部分を想像してほしいのですが、
データベースやファイルに入っているログイン情報がUTF-8以外、
ログインするためにフォームから入力する値がUTF-8で、
これらを比較するとします。
基本ログイン情報は半角英数字だと思うので問題は起きにくいとは思いますが、
もしこの状態のまま、ログイン情報にマルチバイト文字を入れた場合、
ログインが出来なくなる以外に何か問題は発生しますか?
例えば情報があってないのにログイン出来たとか、
そんな感じのはありえますか?
368:デフォルトの名無しさん
11/11/01 11:01:59.68
>基本ログイン情報は半角英数字だと思う
これ次第じゃね。
369:デフォルトの名無しさん
11/11/01 11:55:39.61
そうなの?
370:デフォルトの名無しさん
11/11/01 12:01:14.27
UTF-8の入力がそれ以外の文字コードの何かにマッチする可能性があるのは、
Ascii文字セットの領域以外の文字に限定されるでしょ。つまり、ログイン情報に
Ascii文字セットの文字しか使っていなければ間違ってマッチすることは避けられるかと。
371:デフォルトの名無しさん
11/11/01 14:59:25.98
[ce b1] UTF-8: α, Shift_JIS: 留
[ce b2] UTF-8: β, Shift_JIS: 硫
[ce b3] UTF-8: γ, Shift_JIS: 粒
372:デフォルトの名無しさん
11/11/01 19:06:01.01
る?
373:デフォルトの名無しさん
11/11/01 20:37:25.12
りゅう、だろ。
374:デフォルトの名無しさん
11/11/01 20:40:21.24
りゅう
375:デフォルトの名無しさん
11/11/01 20:47:50.39
__, -─┐
「 ̄ ̄::/  ̄ `丶::::::::::|
!:::::::/, - 、 \::/
i:::::/ /:::::::::::::i ● } うりゅーっす!
∨ {:::::●::::l -┼-、
{ ゝ::::::_ノ └~┘ `X
X´ <_ヽ
/ > .....:...::..:::: \__ __
_/ . \ / .:.::..:.::::::::::: ::  ̄ `ヽ
, --―'´;.:.、 ... .: .:i :i:: : .:::..:,.‐''". . .:、 :.:::}
/ . :.:.ノ:. ..\. ヽ: , -‐''´ ..::: .. : .::l . :.:.::|
/ . .:.:.:./:. `ヽ、::/ .:::、:.. .. . :. .::i ...:.:∧
| .:.:.:;イ:: .:i::. . .::`''‐-=、ヽ、.:.. . .:: .:ノ: :!
/{::. '´.:.i::. . :|: . .:: :.::::::::::::/゙"ヽ、:..:.::´::..: :|
,' `: :...:.:.:.::.::;!::.. . .:.:|: :: :.:.:::::::::{::. .::;'` .::.: ;!:|
{ :. `''''゙´|:::.: .:::l::. .:.::..:.:::::::::::|::. . ::i ..:::iく ::|
{:.:.. .:.. . .:.:::ト、:.:.. . . . .:.:;!、::.. . . . ... .:.::..:::::::_;;.ゝ、..:| ..:ノ :. ヾ、
/`''' 、,,,___:ノ \::. :.....:.:ノ::..`'ー::.....;;;_;;:.-‐''....:...:::,>'=、 .::i :.::}
. {:.:. . ___\ ` ‐-=、:::.:.. ..::r ー-=、.....:...::..::::/ . .:::! :; ::|
!ー: . / ___;>┐ \:.. :! ,.-―:‐、:: ,,.:‐''´ . . :__;ノ.イ
';.:../ /´、  ̄)ヽ. _,r―‐亠- 、! |「: . . - '''´. : :.:/
ヽ! { :..  ̄ ̄厂:く__,.-‐'' ..| |!:. . . .. ... - =_ヲ'
376:デフォルトの名無しさん
11/11/01 21:27:41.60
最初が「う」ならもっと前のほうだろう
377:デフォルトの名無しさん
11/11/02 11:55:14.43
この流れは367に責任があるんだろうか
378:デフォルトの名無しさん
11/11/02 20:09:12.62
>>367
>例えば情報があってないのにログイン出来たとか、
>そんな感じのはありえますか?
yes
379:367
11/11/03 20:31:49.50
みなさんありがとうございます。
とても参考になりました。
修正しにくい箇所に記述してしまったので、
バグとわかってても修正はできませんが、
ASCIIの領域内に限定して何とかやり過ごすことにします。
380:デフォルトの名無しさん
11/11/10 21:39:05.60
パイプラインに新規追加されたtext style, emoji style用vsって何だろ。
381:デフォルトの名無しさん
11/11/30 10:55:32.51
ハートとかを、普通の文字として表示するか絵文字として
表示するかコントロールするものじゃないかと、元見ずに予想してみる
382:デフォルトの名無しさん
11/12/01 00:53:03.32
ドコモ式au式みたいなのじゃ?みたいな
383:デフォルトの名無しさん
11/12/08 02:52:54.99
そのうちwg2のページで内容見られるだろー
と思ってたんだけどなかなか公開されんね。
384:デフォルトの名無しさん
11/12/08 22:29:49.19
どうなってるんだ
385:デフォルトの名無しさん
11/12/13 01:56:13.83
で、どうなのか
386:デフォルトの名無しさん
11/12/14 21:59:47.35
日本語の文字コードがいくつもある理由
URLリンク(qpon.at.webry.info)
387:デフォルトの名無しさん
11/12/14 23:17:26.82
>文字コードの1文字目のコードに128を加えてアスキーコードの33~126
>と重複しないようにした「Shift_jis」や「EUC」文字コードが作られました。
わかってないなこのひと
388:デフォルトの名無しさん
11/12/14 23:18:46.37
>なぜsiftと言うのかというと2進で1桁繰り上がる(128が加わる)ためです。
389:デフォルトの名無しさん
11/12/14 23:20:07.04
>そこで世界の主要な文字全部にダブらない文字コードとして作られたのが「utf-8コード」です。
390:デフォルトの名無しさん
11/12/15 00:32:10.94
十数年前はこんな感じのページがいっぱいあったけどねえ。
いまどき珍しい。
391:デフォルトの名無しさん
11/12/15 02:11:30.29
これはひどい
392:デフォルトの名無しさん
11/12/15 10:10:35.28
>以上を理解したうえで各文字コード
>を見比べるのもいいのでは
393:デフォルトの名無しさん
11/12/15 11:09:18.28
もうやめたげてー
394:デフォルトの名無しさん
11/12/15 11:23:32.44
>>392
URLリンク(qpon.quu.cc)
395:デフォルトの名無しさん
11/12/16 19:36:50.97
WebKitのIVS対応キタワー.*:.。.:*・゚(n‘∀‘)η゚・*:.。.:*!!
URLリンク(bugs.webkit.org)
396:デフォルトの名無しさん
11/12/16 20:31:11.36
そういえばまだだったんだっけ
397:デフォルトの名無しさん
11/12/17 13:19:27.81
>>386
てか、そのページいろいろと酷いな
398:デフォルトの名無しさん
11/12/17 19:41:34.77
高度経済成長の時期に大会社で働いて、還暦を過ぎても今の技術に詳しいつもりの
俺が世界に向けて解説する、ドヤ顔ページか。
年金をちゃんともらいながら死んでいくんだろうね。
老害ってこういうのを言うのかね。
399:デフォルトの名無しさん
11/12/17 20:49:01.38
ここで問題になってるのは「“今”の技術」でさえないぞ
400:デフォルトの名無しさん
11/12/17 23:09:57.92
老害ってのは権力者がいつまでも実権を握って離さんこと。
無名の個人サイトによくそこまで熱くなれるな。
401:デフォルトの名無しさん
11/12/18 03:30:38.65
まさに老害
402:デフォルトの名無しさん
11/12/18 03:47:43.35
>>400
いや、ぐぐってそのページ見て納得されても困るだろ
嘘やいい加減を世界に解説はいかん
403:デフォルトの名無しさん
11/12/19 18:21:40.66
文字コードでぐぐったら URLリンク(ash.jp) 行っちゃうだろ
404:デフォルトの名無しさん
11/12/19 21:00:37.49
URLリンク(jp.reuters.com)
KPS 9566の4行78列~80列に金正恩が符号化される日が来たようだ
405:デフォルトの名無しさん
11/12/19 23:57:13.20
あれってすごく不思議なんだけど、「金」「日」は親子共用で1つでことたりるよね?
ただでさえ王家専用符号位置なのに、なんで「金」「日」「成」「金」「正」「日」って6つも使うの?
組み文字として「金日成」「金正日」を符号化したなら分解できないから仕方ないし、
「“金日成”はポップ体、“金正日”は相撲体を使う」とかの儀礼があるなら意義がわかるんだけど。
「金」「日」「成」「正」だと付け足しみたいで金正日に不敬、みたいな価値観があったりする?
そうなると、うっかり「金正日」の「日」に「金日成」の「日」を使ってしまったらお仕置きがあったりするの?
406:デフォルトの名無しさん
11/12/20 01:29:14.66
WindowsのIMEって単語変換いまいちなのに金正日は一発なんだよな
407:デフォルトの名無しさん
11/12/20 07:42:15.65
ある国には過去、
天皇陛下 という 1x4 の活字が過去存在してたんだ。
別にどうだっていいだろうそんなもん。
408:デフォルトの名無しさん
11/12/20 07:50:38.89
㍿
409:デフォルトの名無しさん
11/12/20 14:22:12.59
>>405
「金同志」をハングルで書いた時に文字コードで誰だかわかる
のが基本なので、「金」は共有できないよ
「日」を共有しないのは、「金」を分離して「日」を共有すると面倒だから
410:デフォルトの名無しさん
11/12/20 19:36:19.53
入力時にどうやって見分けるんだろう…
411:デフォルトの名無しさん
11/12/20 20:05:03.62
理屈が全然わかんねえ。
普通の「金」で検索したら出てこねえのか? 検索も許されてないのか?
412:デフォルトの名無しさん
11/12/20 20:11:03.46
左右上下一直線の書字方向という考え方をを改めて
欧文約物や濁点は時々上下や右上隅へ移るとした文字列処理系が出来ればいいんだよ
あー例のグチャグチャなハングルとかもサポートするかベタ直線的に字母を並べるかどうかは処理系依存で
413:デフォルトの名無しさん
11/12/20 20:28:08.35
>>409
北朝鮮の人が書く/言う場合には例えば金正日同志とフルネームのことが
多い気がする。
414:デフォルトの名無しさん
11/12/20 21:26:55.78
>405
ソートしたとき、金日成→金正日の順番で並ぶようにするため。
415:デフォルトの名無しさん
11/12/20 22:14:02.07
まさかUnicodeに入れるとかしないよな?
416:デフォルトの名無しさん
11/12/20 22:38:33.04
>>415
417:デフォルトの名無しさん
11/12/21 18:11:49.16
>>415
418:デフォルトの名無しさん
11/12/21 23:29:43.61
>>415
419:デフォルトの名無しさん
11/12/21 23:38:07.90
VSを使って区別するようになったりして。
例えばU+AE40(ハングルGim)は
VS1(U+FE00)を付けると金日成の、VS2(U+FE01)で金正日の、VS3(U+FE02)で金正恩の、
VSを付けないと一般用のハングルGimになる
とかで。
420:デフォルトの名無しさん
11/12/21 23:45:09.33
すみません、CGI質問スレが無いので、どなたか教えてください
sitemixで、メールフォームのchamamailを設置したのですが、URLリンク(www.chama.ne.jp)
送信の確認画面に�と出たりメールを受け取った時のメールフォームの中が
----------------------------------------------------
縺雁錐蜑�=縺�
email=doostynahin@gmail.com
---------------------------------------------------
の様に文字化けしてしまいます。サクラエディタ使用でファイル転送ソフトはFFTPです
ローカルの文字コードはEUCにしているのですが、ホスト側の漢字コードもどう設定したら良いのでしょうか?
ホスト側をJISやSJISにするとエラーが表示されます
421:デフォルトの名無しさん
11/12/22 06:53:55.11
>>407
Unicodeにも歴代陛下のお名前があるよ! (U+337B~U+337Eあたり)
収録を拒否された独裁国家とは格が違うね
422:デフォルトの名無しさん
11/12/22 06:59:10.28
おまいらなんでそんな朝鮮事情に詳しいんだ
在日か?
423:デフォルトの名無しさん
11/12/22 07:00:27.06
>>420
CGIならこっちで
URLリンク(kohada.2ch.net)
424:デフォルトの名無しさん
11/12/22 07:02:41.27
>>412
それってUnicodeの結合文字と何が違うの?
もちろんハングル字母もあるというかむしろ韓国のゴリ押しで
BMPを1万字以上も食いつぶしたのは完成形のほう
425:デフォルトの名無しさん
11/12/22 07:10:15.98
>>422 死ねよ
426:デフォルトの名無しさん
11/12/22 07:50:51.22
>>425
427:デフォルトの名無しさん
11/12/22 12:44:57.22
>>423
CGIが時代遅れなせいかそこではCGIスレ無いんですよ
有っても2ヶ月以上レス無かったりするスレばっかで
428:デフォルトの名無しさん
11/12/22 13:10:11.58
この板にはひとつもない
どっちが妥当な板かは明白
429:デフォルトの名無しさん
11/12/22 13:35:42.06
日本語の文字コードの保存形式を聞きたいだけなので
こっちのほうが専門かと思ったんですが・・・
430:デフォルトの名無しさん
11/12/22 13:50:42.70
違います
431:デフォルトの名無しさん
11/12/22 14:16:57.94
>>429
ソースをダウンロードしてみたら、chamamail.cgi(perl code)はシフトJISで書かれていた。
更に改行コードがCR+LFなので、Windows環境で開発された物と思われる。
>■設定設置方法
の部分を見るに文字コードについては一切の指定が無い。
どうやら作った人間は、そういう事まで頭が回らない人間と思われる。
ソース中に、
print "<META http-equiv=\"Content-Type\" content=\"text/html; charset=Shift_JIS\">\n";
というハードコーディングがなされているので、シフトJISのままサーバーに設置する物なのだろう。
ソースに書かれた日付を見ると、どうやら最後にメンテナンスされたのは2001年頃らしい。
2001年頃に、サーバー側にインストールされていたperlのバージョンを考えると、
最新でも5.6.0、ちょっと古ければ5.5.0、5.0.xxx、下手すればperl4の可能性だってある。
シフトJISのまま動かない理由としては、perlはバージョンが変わると、
使用可能なリテラルが変わったり、エスケープしなければならない文字が変わるので、
シフトJISで書かれたコードは上記の制限に該当しやすいのでエラーが発生し、
それはCGIでは結果的にInternal Server Errorを引き起こす。
これは元々シフトJISに対応していないperlで、
無理矢理シフトJISを使う事による弊害なので、perlが悪い訳でも無い。
修正したいならエラー出力に、問題となった箇所が出力されている筈なので、
httpdのerrorログを見てソースを修正すれば良い。
あとは↓のスレに行ってやれ。
スレリンク(tech板)
432:デフォルトの名無しさん
11/12/22 14:28:22.22
この手の物のエラーの最大の原因は改行コードだろ。
433:デフォルトの名無しさん
11/12/22 14:33:36.45
>>431
めっちゃいい人や・・・
ありがとうござます><
434:デフォルトの名無しさん
11/12/22 15:43:29.70
>>431 の罪は重い
435:デフォルトの名無しさん
11/12/22 19:47:22.83
>>431 >>433
まずは板ルール読もう。
> CGI は Web プログラミング板へ。
そして、ここはプログラム板。
行くべきスレはこっち。ただし、学ぶ人のためのスレだから、そこは注意してくれ。
Perlコーディング初心者質問スレ Part 63
スレリンク(php板)
2chが初めてなら、初心者の質問板へ。
URLリンク(ikura.2ch.net)
436:デフォルトの名無しさん
11/12/23 15:27:45.64
>>407
ムハンマドの名前を言った後に唱える「彼にアラーの祝福と平安があらんことを」
を1文字(U+FDFA)に収録させたイスラム教徒に比べたらささやかなものです。
(U+FDFAは普通のアラビア文字18文字の並びと互換等価)
437:デフォルトの名無しさん
11/12/24 00:08:11.58
それすげえなあ
へのへのもへじ を突っ込んだとしても7文字相当にしかならないからなあ
438:デフォルトの名無しさん
11/12/24 00:43:09.75
へのへのもへじはIDSで表したい
439:デフォルトの名無しさん
11/12/24 02:18:02.70
じゅげむじゅげむごこうのすりきれ……
440:デフォルトの名無しさん
11/12/24 06:01:06.85
つるにはまるまるむし
441:デフォルトの名無しさん
11/12/24 15:19:39.75
⿰⿶し⿳⿰⿱への⿱へのもへ゛
442:デフォルトの名無しさん
11/12/24 22:54:46.97
あめんぼあかいなあいうえお
443:デフォルトの名無しさん
11/12/30 05:47:34.14
>>436
おお、確かにNFKDしてみると18文字になったw NFDではそのまま。
その手の特殊文字と同じ扱いということなんですかね。
意味は違うけどBill Gates(TM)みたいな感じ?
444:デフォルトの名無しさん
12/01/01 02:32:00.26
ちょっと助けて欲しい。C++で書いたプログラムで、 cin から getline で日本語入力を受け取ると、そのまま出力しても文字化けする。
ICUで文字コード判定しようとしたんだが、長い日本語を入力しても言語を判定してくれなかった。
で、入力に対してバイト列を吐かせたところ、以下のような結果になった。
あいうえおかきくけこさしすせそ
E7 B8 BA E3 82 85 EF BC 9E E7 B8 BA EF BF BD E2 88 B4 E7 B8 BA E7 BF AB C2 B0 E7 B8 BA E9 98 AA EF BF A5 E7 B8 BA E4 BB A3 EF BC 85 E7 B8 BA E8 BC 94 EF BC A0 E7 B8 BA E5 90 B6 E2 97 8B E7 B8 BA EF BF BD
あいうえお
E7 B8 BA E3 82 85 EF BC 9E E7 B8 BA EF BF BD E2 88 B4 E7 B8 BA EF BF BD
あ
E7 B8 BA EF BF BD
共通点として先頭に E7 B8 BA が、末尾に E7 B8 BA EF BF BD が見当たって、バイト列内部にも E7 B8 BA EF BF BD が何箇所か見当たることは分かったが、原因がさっぱり。
Windows 7 64bit, MinGW + MSYS な環境だけども、原因か或いは解決策は何かないだろうか。
445:デフォルトの名無しさん
12/01/01 02:43:48.73
あ(UTF-8) E3 81 82
縺(Shift-JIS) E3 81
縺(UTF-8) E7 B8 BA
446:デフォルトの名無しさん
12/01/01 03:02:42.11
UTF-8専用の文字列リテラルがC++11で導入されたんじゃなかった?
447:444
12/01/01 03:11:57.72
>>445
あー、解決しました。
新年早々ありがとうございました。
448:デフォルトの名無しさん
12/01/01 19:03:55.27
新年早々ここは人が多いな
449:デフォルトの名無しさん
12/01/05 09:45:50.28
え、なにこれ…
Genuine Han Unification
URLリンク(blogs.adobe.com)
URLリンク(lundestudio.com)
450:デフォルトの名無しさん
12/01/05 19:30:03.01
>>449
よくわからないので日本語でkwsk
451:デフォルトの名無しさん
12/01/05 20:16:52.68
繁体字と簡体字で別々のコードポイントを割り当てるの止めようぜ、ってことか?
日本の漢字とか出てくる理由が良く分からんかったけど。
452:デフォルトの名無しさん
12/01/05 20:43:50.07
unicode正規化の仕様にいれようぜ、と言っているだけに見えるけど。
>>449は驚いているから、オレの間違いかも。
453:デフォルトの名無しさん
12/01/05 20:54:37.33
将来的にはCJKV(CTJK?)の漢字でコードポイントだけでなくグリフデザインも統一したら
いいんじゃね、 みたいな?
それを真の(genuine) Han Unification と呼ぼう、と。
GB 18030がいいモデルみたいなこと言ってるし繁体と簡体は区別するのかな。
でそういう流れは自然に起こるかもしれないと。例えば中国製のデバイスでフォントが
一種類しか入ってなくてもCTJKの人達で普通に使えるようになるとか...
ということは、UnicodeでHan Unificationしたことは、いいきっかけになったじゃないか、
みたいなw
454:デフォルトの名無しさん
12/01/05 23:16:28.66
UNICODEに言語プロパティの皮みたいな話ですか?
455:デフォルトの名無しさん
12/01/06 07:52:46.74
地域で字形が違うとかめんどくせぇから、ジャップは日本語の字形を捨てて中華フォント使っとけってこと
456:デフォルトの名無しさん
12/01/06 07:58:44.65
Unicodeならこの改革を進められる、やるしかない
ギャーギャーうるさい連中がいるから今すぐはむりでも、25年ぐらいかけて洗脳すればいけるいける
スマホユーザ見てみ、どうせあいつら中華フォントでも気づかず使ってるで
ってこと
457:デフォルトの名無しさん
12/01/06 11:58:22.98
日本のメーカー、またはキャリアが関わったandroid端末ではちゃんと日本語フォント入ってるけどなー。
海外製品無理やり使ってる連中はまず日本語フォント入れようとするし。
458:デフォルトの名無しさん
12/01/06 16:01:09.23
ぼくも(´・ω・`)
459:デフォルトの名無しさん
12/01/06 18:48:07.93
なんか気にくわんなあ。
460:デフォルトの名無しさん
12/01/07 00:50:31.27
Han Unif.がレンダラ実装の重荷だってことは分かるけど、
レンダラは主なものに収斂してきているから、
こういう動きが足早に進められることはなさそう。
461:デフォルトの名無しさん
12/01/07 08:29:02.18
>>460
よく意味がわからないのだが。
純粋なレンダリングの処理にはコードポイントは関係ないし、
フォントの切り替えとかの話なら別にHan Unif.が無くても生じるわけだが。
462:デフォルトの名無しさん
12/01/07 08:56:55.36
日中台では大過無いがその他の地域では
日本語を簡体繁体で表示してたり
支那語を常用漢字で表示してたりする事態が頻発するようになる
463:デフォルトの名無しさん
12/01/07 11:43:07.48
>>461
コードポイントでなく、
言語情報でフォント切り替えるのは、
ハンユニフィケーション以外にあるの?
464:デフォルトの名無しさん
12/01/07 14:01:52.92
>>463
というか普通はコードポイントでフォントを切り替える手間がメインなので
Han Unif.が特に重荷だということはないような、と。
言語情報とやらの切り替えがやたらと発生するならあれだけど。
465:デフォルトの名無しさん
12/01/08 23:27:26.76
449は非CJKV圏向けのプレゼンで、そのうち字体の統一が起こるかもねー
ぐらいのニュアンスじゃないかな。
まぁかなり書き手の希望的観測が強く混じってる感じするけど。
466:デフォルトの名無しさん
12/01/11 16:46:42.99
大陸側が繁体字に回帰したらそういう流れも出てくるかも
467:デフォルトの名無しさん
12/01/12 18:06:24.21
KVは帰ってくることなく、しかし配慮はしなきゃいけない
中途半端な状態がずっと続くんだろうか。
468:デフォルトの名無しさん
12/01/12 18:29:28.10
CJKVからCHJTへ
469:デフォルトの名無しさん
12/01/12 21:02:06.39
CHJMT
470:デフォルトの名無しさん
12/01/12 22:13:16.77
マカオ?
471:デフォルトの名無しさん
12/01/12 22:16:28.36
CHJMT+カナダ
472:デフォルトの名無しさん
12/01/12 23:28:58.93
>>464
16bitで済ませたいんじゃないの?
32bitじゃあルックアップテーブルも工夫する必要あるし。
473:デフォルトの名無しさん
12/01/14 00:44:16.69
WinXPのSimSunがU+4CA0の字形をU+4CADに収録してたって件、
やっぱり0とDを見間違えたしょうもないミスなんだろうか
474:デフォルトの名無しさん
12/01/14 23:41:31.02
来月か再来月にAJ1-6に情報を追加するよーってことは
まだしばらく1-7は来ないってことか
予定ありゃこんなタイミングで更新せんだろうし
475:デフォルトの名無しさん
12/01/15 00:27:41.03
ISO-2022-JPのファイルで「ESC ( B ESC $ B」とか「ESC ( B ESC ( B」という並びは形式的に許されますか?
476:デフォルトの名無しさん
12/01/15 00:44:17.36
single-byte-segment = single-byte-seq 1*single-byte-char
double-byte-segment = double-byte-seq 1*( one-of-94 one-of-94 )
single-byte-seq = ESC "(" ( "B" / "J" )
double-byte-seq = ESC "$" ( "@" / "B" )
なので、single-byte-seqの後に1文字以上ないとダメですね。