文字コード総合スレ Part10

文字コード総合スレ Part10at TECH

文字コード総合スレ Part10 - 暇つぶし2ch1:デフォルトの名無しさん
15/10/14 20:29:00.08 xctG4AAd.net
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part2 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part3 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part4 ｽﾚﾘﾝｸ(tech板)
（スレ再利用）UnicodeとUTF-8の違いは？ｽﾚﾘﾝｸ(tech板)
（隔離スレ）UnicodeとUTF-8の違いは？　その2 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part5 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part6 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part7 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part8 ｽﾚﾘﾝｸ(tech板)
文字コード総合スレ part9 ｽﾚﾘﾝｸ(tech板)

2:デフォルトの名無しさん
15/10/14 20:30:38.15 xctG4AAd.net
■参考サイト
Unicode Home Page
URLﾘﾝｸ(www.unicode.org)
Java Character Encodings
URLﾘﾝｸ(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLﾘﾝｸ(euc.jp)
IANA: Character Sets
URLﾘﾝｸ(www.iana.org)
Legacy Encoding Project
URLﾘﾝｸ(sourceforge.jp)
CP50220
森山さんの説明
URLﾘﾝｸ(lists.sourceforge.jp)
JISX4061
日本語文字列照合順番
URLﾘﾝｸ(www.jisc.go.jp)

3:デフォルトの名無しさん
15/10/14 20:31:02.98 xctG4AAd.net
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
　内部的には Unicode -> CP932 -> CP5022ｘって変換な気もする
・人名をソートかけたらバストサイズ順の並びになる？
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた？
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示（Unicodeに変換）する際に
　機種依存文字はサポートされるか？
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・なぜ携帯業界はunicode化しないのか？
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

4:デフォルトの名無しさん
15/10/14 20:31:39.28 xctG4AAd.net
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「?心」簡化政策によると「?(U+6076)」に統一。口偏＋?(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」のバグ
　UTF-16: 0x304B 0x309A →　Unicode: U+FD61809A　（間違い）　（ISO/IEC10646はU+10FFFFまで）
　サロゲートペアからコードポイントを引き出す計算を無理やり適用（間違い）
　((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの？　→　ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

5:デフォルトの名無しさん
15/10/14 20:31:59.03 xctG4AAd.net
・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　ウンコマークもUnicodeに追加されるんだな。
・WindowsXP でフォルダに使用できないフォルダ名はどうやって判定
　　→　ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
　コントロールパネル-地域と言語のオプション-[言語]タブで
　「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か？海栗コードへの挿入は難しい。そこでTRONだ！！
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10％増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

6:デフォルトの名無しさん
15/10/14 23:23:47.69 obUlIRbX.net

7:デフォルトの名無しさん
15/10/14 23:28:48.06 +mXu/6rb.net
もうひとつの過去スレ:
文字コード統一スレ 1文字目
ｽﾚﾘﾝｸ(tech板)
隔離スレ:
UnicodeとUTF-8の違いは？
ｽﾚﾘﾝｸ(tech板)
UnicodeとUTF-8の違いは？　その2
ｽﾚﾘﾝｸ(tech板)
UnicodeとUTF-8の違いは？　その2
ｽﾚﾘﾝｸ(tech板)
UnicodeとUTF-8の違い4(インディアン隔離スレ)
ｽﾚﾘﾝｸ(tech板)

8:デフォルトの名無しさん
15/10/14 23:29:44.73 +mXu/6rb.net
■ライブラリ
IBM Globalization - ICU
URLﾘﾝｸ(www-306.ibm.com)
NKF32.DLL
URLﾘﾝｸ(www.vector.co.jp)
バベル
URLﾘﾝｸ(tricklib.com)
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
URLﾘﾝｸ(tricklib.com)
mlang
URLﾘﾝｸ(msdn.microsoft.com)(en-us).aspx
iconv
URLﾘﾝｸ(www.gnu.org)
ICU
URLﾘﾝｸ(www.icu-project.org)

9:デフォルトの名無しさん
15/10/14 23:30:41.28 +mXu/6rb.net
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいはURLﾘﾝｸ(masaka.dw.land.to)とか。

10:デフォルトの名無しさん
15/10/14 23:31:54.53 +mXu/6rb.net
JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
URLﾘﾝｸ(std.dkuug.dk)
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
URLﾘﾝｸ(appsrv.cse.cuhk.edu.hk)

11:デフォルトの名無しさん
15/10/15 18:31:09.40 xOsbEBDE.net
>>4が化けてるな前スレもだが

12:デフォルトの名無しさん
15/10/15 18:40:33.47 jm/ZzoYR.net
4とか5とかもう引き継がなくていいのでは

13:デフォルトの名無しさん
15/10/16 16:24:02.87 rHUq12EW.net
&#x6076;

14:デフォルトの名無しさん
15/10/16 16:24:47.61 rHUq12EW.net
恶

15:デフォルトの名無しさん
15/10/17 20:16:21.68 E+N5KQ+e.net
文化庁の文化審議会漢字小委員会は１６日、漢字の手書き文字について、「とめる」か「はらう」かなど、細部にこだわって正誤を判断せず、多様な字形を認めるべきだとする指針の中間報告案をまとめた。

16:デフォルトの名無しさん
15/10/18 22:08:48.48 /JqZyvWj.net
明日から松江でWG2らしいけど文書非公開だと流れが追えなくてつまらんな

17:デフォルトの名無しさん
15/10/19 00:12:31.07 Vwmjvaq0.net
うむつまらん

18:デフォルトの名無しさん
15/10/22 19:44:06.99 HJqUYTXB.net
Unicodeおじさんがミラーしてくれた
URLﾘﾝｸ(www.unicode.org)
Nushuが1b170からになってるってことはKana Supplementがそこまで広がったのかな

19:デフォルトの名無しさん
15/10/24 00:34:11.18 5L65oHkd.net
>>15
これか。
URLﾘﾝｸ(srad.jp)
ただでさえ漢字が多すぎて困っている。それをさらに増やすような法務省の莫迦に対する歯止めとして期待。

20:デフォルトの名無しさん
15/10/25 03:36:16.82 fgAWLXG9.net
>>12
同意
古いのが多すぎるし

21:デフォルトの名無しさん
15/10/25 12:49:19.83 ekYyyren.net
>>12
引き継がないとはどういう意味ですか?

22:デフォルトの名無しさん
15/10/25 18:50:42.59 zgU7ZYeY.net
3-5と9はもうテンプレから外していいんじゃないかなって話かと
20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ

23:デフォルトの名無しさん
15/10/25 19:24:02.31 A/UjGnAW.net
>>3-5はいらないけど、しれっと>>9を紛れ込ませるのは許さん

24:デフォルトの名無しさん
15/10/25 19:33:16.94 8Ekj0BDy.net
>>9は議論の軌跡としては正しいのかも知れないけど内容が間違いだらけなので消した方が吉

25:デフォルトの名無しさん
15/10/26 20:48:28.23 hvOVpGBH.net
絵文字馬鹿のOむかつく
とっとと干されりゃいいのに

26:デフォルトの名無しさん
15/10/27 07:41:18.41 ecThD4uO.net
ほんとにな
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。

27:デフォルトの名無しさん
15/10/27 23:40:44.85 b1wh6dDM.net
Unicodeコンソーシアムがアレなのは否定しないってか同意だが
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。

28:デフォルトの名無しさん
15/10/28 02:14:09.30 6/ByidLc.net
ってか全角チルダのほうの字形(?)を上に寄せてくれんかな。

29:デフォルトの名無しさん
15/10/28 07:10:47.43 en6I5N16.net
>WAVE DASHの問題はMSが独自の変換表を使ってるから
どうしてこういう見え透いた嘘を平気でつけるんだろうか

30:デフォルトの名無しさん
15/10/29 20:27:41.85 Lz+b+/gX.net
>>29
無知？それとも俺には問題ないという青年の主張？

31:デフォルトの名無しさん
15/11/02 21:17:58.86 AsQYV5Wm.net
>>29
勉強し直そうね

32:デフォルトの名無しさん
15/11/02 21:18:31.16 AsQYV5Wm.net
>>28
ほんまそれ

33:デフォルトの名無しさん
15/11/03 04:49:27.68 i5nTnJv9.net
逆Ｓの記号ってなんでないんだろう？

34:デフォルトの名無しさん
15/11/03 05:49:15.31 zO1n76ez.net
M？

35:デフォルトの名無しさん
15/11/03 07:38:16.60 sxF23lrF.net
Ƨ

36:デフォルトの名無しさん
15/11/03 17:26:02.76 P1Dl09Tr.net
クローゼットの中にそういうハンガーみたいな金具たくさん入ってるけど
どういうときに使えるのか未だにわからない。

37:デフォルトの名無しさん
15/11/04 00:41:30.22 L8/5F95r.net
肩の厚みのあるハンガーをたくさんかけると、
スペースが無駄になるので互い違いに高さを変える。

38:デフォルトの名無しさん
15/11/04 01:28:04.95 uMca4o1w.net
向きが90度ずれない？
S字のを2個連結すれば戻るけど2個使い前提の道具なの？

39:デフォルトの名無しさん
15/11/04 16:58:03.51 QtO4ndAT.net
あれはスペースの有効活用が優先で
向きがずれる(逆になる)のは承知で使うんじゃないか？
>>31
しかし、チルダの全角形を本来の意味(?)で必要としているユーザーはどれだけいるんだろうかと思う

40:デフォルトの名無しさん
15/11/05 23:49:21.72 clXjiXU8.net
スレ違いかもしれんが
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた
これはどういうこと？
中国語扱う人が日本語をGB2312でエンコードしてたってこと？

41:デフォルトの名無しさん
15/11/05 23:59:17.68 gSAo/oaU.net
ふつうに考えるとそうだろうな

42:デフォルトの名無しさん
15/11/06 06:30:43.46 6Ax8SlYK.net
>>39
使用頻度は気にしなくていいんだよ
全チルがあればそれでいい
あとはマッピング直してくれれば。

43:デフォルトの名無しさん
15/11/07 23:09:16.59 NHx999Nj.net
URLﾘﾝｸ(wired.jp)

44:デフォルトの名無しさん
15/11/08 14:35:15.95 y8uRNach.net
お国自慢絵文字か。文字コードに押し込もうというわけでなければ、
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。

45:デフォルトの名無しさん
15/11/08 17:13:00.26 BjW4Fik6.net
絵文字は文字以上に定義も難しいしキリがないからユーザー外字領域に閉じ込めておけばよかったのに。

46:デフォルトの名無しさん
15/11/09 00:23:08.17 loOQ2SCd.net
作った奴と押し込む奴は往々にして別、

47:デフォルトの名無しさん
15/11/09 01:28:50.80 9QpSgphP.net
>>46
?

48:デフォルトの名無しさん
15/11/09 07:42:22.13 L+fm0eEi.net
さすがに、外字領域での大規模な運用ぐらいはされてないと押し込みの提案も出ないんじゃなかろうか

49:デフォルトの名無しさん
15/11/09 09:49:40.58 Yjqxj+LL.net
nokiaの端末に入っちゃったんでしょう?

50:デフォルトの名無しさん
15/11/09 14:08:54.96 wh2HsxEX.net
Unicode 10.0あたりになったら収録されるんだろうか?

51:デフォルトの名無しさん
15/11/09 22:16:17.29 yLbPQAdL.net
>>49
そうなの？文字として？

52:デフォルトの名無しさん
15/11/09 23:44:45.41 BJx9eA+t.net
ビットコインマーク、Unicodeに収録へ | スラド IT
URLﾘﾝｸ(it.srad.jp)
Bitcoin 'B' Approved By Computer Text Standards Body
URLﾘﾝｸ(www.coindesk.com)
URLﾘﾝｸ(www.unicode.org)

53:デフォルトの名無しさん
15/11/10 12:10:29.99 tU9IcOly.net
ペリカもはよ

54:デフォルトの名無しさん
15/11/11 22:12:58.76 mDE1AFdu.net
ぼ
さ
ん

55:& ◆Pw.ZL0FkaP42
15/11/11 22:13:45.21 mDE1AFdu.net
s

56:デフォルトの名無しさん
15/11/11 22:23:37.04 rMaJFptQ.net
GB2312に平仮名、片仮名が収録されているというのも不可解なもんだ。
あいつら反日、嫌日のはずなのに。

57:デフォルトの名無しさん
15/11/11 23:13:58.34 oIjjO58x.net
シュエエアィサィ的な使い方を想定していたんじゃなかろうか

58:デフォルトの名無しさん
15/11/12 23:09:21.24 fGMv4NR4.net
しかも簡体字フォントの仮名のデザインが脱力。
日本語版Windowsにも標準で付いている。たぶんMacにも。

59:デフォルトの名無しさん
15/11/13 14:48:06.39 tDbTQZeN.net
韓国のKS C 5601(KS X 1001)にも平仮名、片仮名入ってるし
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。

60:デフォルトの名無しさん
15/11/13 16:17:05.05 UEuwKYUJ.net
日本語の文章捏造するために必要だから

61:デフォルトの名無しさん
15/11/13 17:57:15.36 P1S0o/po.net
GBKはX 0208をベースに作った
韓国はX 0208をパクった上に起源を主張し出した

62:デフォルトの名無しさん
15/11/14 12:15:58.19 cxUMG3m7.net
そういうのは嫌韓嫌中スレでやってねw

63:デフォルトの名無しさん
15/11/14 16:21:16.08 JBEqdozk.net
Androidでのダウンロードしたアプリのapkファイルを取り出してESファイルエクスプローラというアプリでapkファイルの拡張子をzipにして中身を見てるんだけど文字化けしてみえない
どの文字コードにしても見えない

64:デフォルトの名無しさん
15/11/14 16:31:04.02 1yIT8GQx.net
文字コード関係なし

65:デフォルトの名無しさん
15/11/18 16:49:52.57 UgIpz7zK.net
すみません
今ISO-IRの資料を収集してるんですが
URLﾘﾝｸ(www.itscj.ipsj.or.jp)
の対応表ファイル持ってる方いらっしゃいませんか？
PDFはサーバーにデータ残ってるみたいで保存出来たんですが
他は消されちゃったみたいなんですよね。。。

66:デフォルトの名無しさん
15/11/19 01:28:49.91 Cr0FNu0Z.net
これ？
URLﾘﾝｸ(www.itscj.ipsj.or.jp)

67:デフォルトの名無しさん
15/11/20 02:58:25.44 n24r8VSJ.net
人名漢字など「文字情報基盤」約6万字の暫定私用コードと対応フォント公開 -INTERNET Watch
URLﾘﾝｸ(internet.watch.impress.co.jp)

68:デフォルトの名無しさん
15/11/20 16:27:32.87 Q3IEXjzg.net
>>66
そう、これです！
ありがとうございます！
ずっと
URLﾘﾝｸ(www.itscj.ipsj.or.jp)～
と
URLﾘﾝｸ(kikaku.itscj.ipsj.or.jp)～
の方ばかり探してたんですが、
https://の方にまだあったんですね、気付かなかった。。。
ありがとうございました。

69:デフォルトの名無しさん
15/11/21 03:23:51.12 YeqL1+4P.net
gbkのひらがなはEUC-JPと互換性がある
ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される

70:デフォルトの名無しさん
15/11/21 06:36:56.04 GdR6w5S8.net
お前かお前の使ってるクソソフトが認識したことを
さも普遍的であるかのように「認識される」と書かれても

71:デフォルトの名無しさん
15/11/21 14:00:50.43 EEYvP2Nj.net
>>70
EmEditor と日本語しか対応してないものはすべて同様なんだが
英語圏の方がまとも

72:デフォルトの名無しさん
15/11/21 14:57:31.75 w+2inzGV.net
全てって…
具体名を十個挙げてみてくれ。

73:デフォルトの名無しさん
15/11/22 15:40:38.08 CReeeeGe.net
仕様と実装をごちゃ混ぜにしないでほしい

74:デフォルトの名無しさん
15/11/24 07:50:30.03 CRysEeOZ.net
grepをutf16対応にして欲しいわ

75:デフォルトの名無しさん
15/11/24 12:09:48.94 BW2JWDBU.net
>>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど
EmEditorはgbk / big5も表示可能だが自動識別はダメ

76:デフォルトの名無しさん
15/11/24 16:09:46.89 y63rqxtS.net
EUC系の自動判別には限界があるってだけの話じゃないのそれ

77:デフォルトの名無しさん
15/11/24 17:13:28.90 AzY4Y1Jb.net
馬鹿に言ってもしょうがないんだよなあ

78:デフォルトの名無しさん
15/11/24 21:06:35.37 T8a74y+F.net
文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください

79:デフォルトの名無しさん
15/11/25 13:54:24.53 5G4DFNSQ.net
文字化けし辛い・自動判別に強いという意味ではISO-2022-JP最強だな

80:デフォルトの名無しさん
15/11/25 21:01:53.81 Bzkw7eST.net
>>74
utf-8でガマンガマン

81:デフォルトの名無しさん
15/11/26 10:04:26.60 esn3xG4v.net
プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね

82:デフォルトの名無しさん
15/11/26 18:52:12.64 V1IifTg+.net
>>81
それな。
動きおかしいと思ったらハイフンついてたとかある。

83:デフォルトの名無しさん
15/11/26 20:23:24.34 k6+g+Go3.net
>>79
URLﾘﾝｸ(ja.wikipedia.org)
独自拡張しすぎだろ
utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな

84:デフォルトの名無しさん
15/11/26 22:39:18.80 i5VTRdPj.net
>>82
utf-8に関しては-が付いてておかしくなる方がおかしい。

85:デフォルトの名無しさん
15/11/26 22:43:40.69 i5VTRdPj.net
>>83
> ANSI(s-jis)
糞表現w

86:デフォルトの名無しさん
15/11/26 23:24:19.12 dmQOYIsX.net
>>85
悪かったな

糞やろう。

87:デフォルトの名無しさん
15/11/26 23:37:04.25 o1tgPu22.net
そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ

88:デフォルトの名無しさん
15/11/26 23:41:50.71 1gB3GczG.net
お前が馬鹿だ

89:デフォルトの名無しさん
15/11/27 07:32:51.99 B8BSEsh/.net
>>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな？
コマンドですか？　GUIですか？
コマンドなら、画面の環境に依存したりする

90:デフォルトの名無しさん
15/11/27 15:43:44.97 ssdfMMFk.net
>>89
検索対象のデータだけでなく、
引数や端末のencoding systemも関係するからねえ。

91:デフォルトの名無しさん
15/11/30 21:59:17.66 jgXroiuo.net
「して欲しい」じゃなく自分でやってみればいいのに。

92:デフォルトの名無しさん
15/11/30 22:34:12.03 CwTedwfo.net
UTF-8って日本語はほぼ3バイトだと思っていいんだっけ？
仕事仲間がそう言ってたけど不安。

93:デフォルトの名無しさん
15/11/30 22:58:14.64 /7/T57pL.net
そういう曖昧な表現なら答えはyesでありnoでもあるだろう

94:デフォルトの名無しさん
15/12/01 02:33:52.32 juK8PVcx.net
iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい
# 日本人にとってUTF-8がいいわけない

95:デフォルトの名無しさん
15/12/01 02:44:11.35 juK8PVcx.net
ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.
3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.
URLﾘﾝｸ(forum.dlang.org)

96:デフォルトの名無しさん
15/12/01 03:51:29.82 Ik5f2d1Y.net
>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな
UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった
$ wc -c 1444822140-*
 26775 1444822140-cp932.dat
 40234 1444822140-utf16.dat
 33434 1444822140-utf8.dat
ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない

97:デフォルトの名無しさん
15/12/01 10:01:27.63 2Tu3vetc.net
UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える
%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93
とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング？する時の問題だけれど。

98:デフォルトの名無しさん
15/12/01 19:29:51.08 k1p/Pdr9.net
パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。

99:デフォルトの名無しさん
15/12/01 20:03:05.10 ampHwdqN.net
別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ

100:デフォルトの名無しさん
15/12/01 20:18:47.62 cchxtPU5.net
>>94
そんな程度のことでutf-8を辞める訳にはいかない。

101:デフォルトの名無しさん
15/12/01 20:40:03.81 RA+mqEJ1.net
>>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない

102:デフォルトの名無しさん
15/12/01 22:44:13.88 /t42lLyY.net
URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ

103:デフォルトの名無しさん
15/12/01 23:03:02.39 csnzGfyE.net
なんでやめないといけないぷに？
いいじゃないかぷに。

104:デフォルトの名無しさん
15/12/02 01:31:49.86 3/uIxAsF.net
日本語のソート順くらい日本人に決めさせろや

105:デフォルトの名無しさん
15/12/02 09:35:48.18 wYxvpGTD.net
人の感覚じゃなくて、機械的な感覚がないと・・・

106:デフォルトの名無しさん
15/12/02 10:05:36.38 amR8vvu9.net
>>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。

107:デフォルトの名無しさん
15/12/02 10:18:22.35 wYxvpGTD.net
JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・
脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも　あ・・・

108:デフォルトの名無しさん
15/12/02 13:55:56.97 NJ9kFAss.net
日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。

109:デフォルトの名無しさん
15/12/04 12:30:36.89 ujmgtERp.net
最近勉強し出したのか？
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね？
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。

110:デフォルトの名無しさん
15/12/04 12:38:17.66 kxI+vXrK.net
シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。

111:デフォルトの名無しさん
15/12/04 12:53:33.88 gpSQ8UEd.net
でもJISコードなら希望通りのソートができるわけでもないだろ

112:デフォルトの名無しさん
15/12/04 14:24:16.07 616grxEX.net
何のために仮名文字があると思っているのか。

113:デフォルトの名無しさん
15/12/04 18:29:07.64 zfbjjPeM.net
文字コード順でソートしてるアホ

114:デフォルトの名無しさん
15/12/04 20:17:25.57 urrQLDlj.net
いつまでたっても文字集合順序バカはいなくならないね。
全てのいじたいに

115:デフォルトの名無しさん
15/12/05 09:09:04.31 0xZl9ZTr.net
半角ｶﾀｶﾅで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角ｶﾀｶﾅで比較して行を並べ替える

116:デフォルトの名無しさん
15/12/05 10:43:28.38 oE97tTMi.net
なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?

117:デフォルトの名無しさん
15/12/05 11:20:47.89 VAg3AW+y.net
>>116
アメリカ人がバカだから

118:デフォルトの名無しさん
15/12/05 19:58:46.22 kjmBg6FK.net
>>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。

119:デフォルトの名無しさん
15/12/05 20:50:07.85 K2AVyHLa.net
>>116
あれアンジーって読むのか。
なんとなくアンザイとかだと思ってた。

120:デフォルトの名無しさん
15/12/06 00:47:45.72 ods/Bdie.net
英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし

121:デフォルトの名無しさん
15/12/06 09:58:13.03 pIhfFp+J.net
>>119
普通はアンシだけど、調べてみたらアンジでもいいみたい。
アンシ以外は聞いたことがなかった。

122:デフォルトの名無しさん
15/12/06 10:48:45.84 snTz5MuC.net
お前らも意味不明な文章を見たときに
「日本語でおＫ」って言うだろ？
それと同じ事だ

123:デフォルトの名無しさん
15/12/06 11:36:05.85 jSbqCg57.net
答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される

124:デフォルトの名無しさん
15/12/06 12:39:48.92 61iq3tHI.net
>>120
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という

125:理解だろうね。

126:デフォルトの名無しさん
15/12/07 08:05:52.84 jRU2iLzO.net
>>120
なるほど。
ドラフトに噛んでただけなのか

127:デフォルトの名無しさん
15/12/09 07:55:39.86 jI2VmBLr.net
というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。

128:デフォルトの名無しさん
15/12/09 08:29:25.15 Kwr/X5Fv.net
ほうほう、シフトジスもANSIが決めたのですか
それは初耳です

129:デフォルトの名無しさん
15/12/09 09:52:29.63 jI2VmBLr.net
>>127
>>124みたいな話でしょ

130:デフォルトの名無しさん
15/12/09 16:27:04.50 lqAlbDFw.net
カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna

131:デフォルトの名無しさん
15/12/09 22:54:10.41 wiCS3usg.net
朝感度
磯感度

132:デフォルトの名無しさん
15/12/10 08:01:54.07 XGY4goXY.net
>>127
えっ!?何言ってんの⁇

133:デフォルトの名無しさん
15/12/18 18:25:49.47 HJbW+QnG.net
>>108
NDL-70のマネだからな
URLﾘﾝｸ(www.wdic.org)

134:デフォルトの名無しさん
15/12/19 00:00:59.61 CW6jl8Ze.net
第一水準のなんでこの漢字訓読みなんだって漢字もそれ由来なん?

135:デフォルトの名無しさん
15/12/19 09:33:24.36 HazuH4Vs.net
たとえばおしえて

136:デフォルトの名無しさん
15/12/19 22:28:28.39 dMkmHKK1.net
NDL-70の「扱」は「圧」と「安」の間

137:デフォルトの名無しさん
15/12/20 02:41:57.27 YliIi6mv.net
あっあっあん

138:デフォルトの名無しさん
15/12/20 10:16:50.75 XCzWC+ME.net
しごく
こく

139:デフォルトの名無しさん
15/12/20 10:19:07.37 XCzWC+ME.net
音読みが表外

140:デフォルトの名無しさん
16/01/01 03:45:50.30 doWmnGIT.net
あけまして

141:デフォルトの名無しさん
16/01/01 10:51:09.09 w8UZcEt0.net
しめました

142:デフォルトの名無しさん
16/01/01 23:48:50.10 AG0KIon8.net
ISO/IEC 10646のAmd.はもう無料公開されないのかしら

143:デフォルトの名無しさん
16/01/03 11:09:11.17 dkSYzm34.net
安岡センセイ絶賛ステマ中
URLﾘﾝｸ(srad.jp)
＞MZ-80Kの文字コードはなぜ変態的だったのか

144:デフォルトの名無しさん
16/01/06 19:04:13.23 JzbnS0qc.net
年寄りの昔話だな

145:デフォルトの名無しさん
16/01/06 20:12:47.63 iuDSHbH+.net
書き起こして記録しておくことは大切

146:デフォルトの名無しさん
16/01/06 20:53:18.67 PPpC6D2R.net
確かに。

147:デフォルトの名無しさん
16/01/15 16:58:58.27 KQq8mMFq.net
特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。

148:デフォルトの名無しさん
16/01/15 18:41:54.97 P2RUw3PT.net
豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では

149:デフォルトの名無しさん
16/01/16 01:02:26.88 JNkmPv0K.net
何個の豆腐かにもよるんじゃなかろうか

150:デフォルトの名無しさん
16/01/19 13:39:56.61 dtt1X0Ve.net
URLﾘﾝｸ(srad.jp)
安岡センセイ荒れてるけど
Unihanフリーだから論文に使ってもいいんじゃないの？

151:デフォルトの名無しさん
16/01/19 20:31:34.42 AH+kA+fr.net
使ったならちゃんとそう書けって話で
使うなということではない

152:デフォルトの名無しさん
16/01/22 19:46:47.72 Eb9O6glo.net
[要出典]
てか

153:デフォルトの名無しさん
16/01/22 20:00:04.23 QBUelO2B.net
アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は

154:デフォルトの名無しさん
16/01/25 22:08:23.80 hLxKxz0/.net
Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス

155:デフォルトの名無しさん
16/01/25 22:37:19.56 1JcfbMU3.net
そんな甘い考えでやっちまったんだろうなあ

156:片山博文MZ ◆T6xkBnTXz7B0
16/01/29 15:58:28.60 BQRaRgTF.net
与えられたテキストがUCS16に合致するか判定するアルゴリズムってある？

157:デフォルトの名無しさん
16/01/29 16:42:21.91 aBCIPjTo.net
iconvはルールが厳しいから
入ロクおかしければ変換失敗する

158:片山博文MZ ◆T6xkBnTXz7B0
16/01/30 22:17:33.35 4i/PfDlC.net
nkfは、ライブラリとしては中途半端なんだよな。
スタティックライブラリとして利用可能にしてほしい。

159:デフォルトの名無しさん
16/01/31 00:56:53.78 1gNPM3q2.net
nkfって厳密さより何となく動くこと重視してるし
変換も自然とは言いがたい独自なのあるから注意

160:デフォルトの名無しさん
16/02/01 00:21:45.94 AuVBRc/d.net
ほええそういうものなのか

161:デフォルトの名無しさん
16/02/03 21:14:57.17 uf0uQxAG.net
シフトJISを作るときに2バイト目が0x00-7Fを避けるようにはできなかったのかな？
こうすればダメ文字問題も起こらないのに。

162:デフォルトの名無しさん
16/02/03 21:41:36.87 Fx9BpiPG.net
>>160
半角カナは1バイト
漢字は2バイト
って制約があるから無理

163:デフォルトの名無しさん
16/02/03 21:50:14.56 mmJ5x1I8.net
>>161は会話のできないあすぺ

164:デフォルトの名無しさん
16/02/03 21:58:17.93 mmJ5x1I8.net
できなくはなかっただろうな
FFと1バイト目の半角カナを避けても
63×127=8001文字は使える

165:デフォルトの名無しさん
16/02/03 23:45:43.20 uf0uQxAG.net
Unicodeがあるのに今さらという感じはするけど
半角文字は1バイト全角文字は2バイトのままで
2バイト目が00-7Fにならない新文字コードがあってもいいと思う。

166:デフォルトの名無しさん
16/02/03 23:58:17.15 FE/plTpc.net
そして三水四水を入れる領域が足りなくなり後のMSに恨まれると。

167:デフォルトの名無しさん
16/02/04 12:35:29.01 NB0syLHO.net
>>164
文字コードと符号化の違い分かってる？
そもそもシフトJISをサポートしてないソフトでシフトJISを使ったら問題出たってだけでしょ

168:デフォルトの名無しさん
16/02/04 13:06:32.74 dTOEAfAy.net
>>164
もう全く必要ない

169:デフォルトの名無しさん
16/02/04 14:58:00.09 pUsIARbq.net
シフトJISの反省の上に？作られたのが0x00-7FをASCIIにしか使わない日本語EUC(EUC-JP)なんだから
それでいいじゃんって気がするのだけど
そんなに半角カナが大事か
>>163
ISO/IEC 2022の94*94を47*188に変換するって分かりやすさ優先でこうなったんだっけ？

170:デフォルトの名無しさん
16/02/04 16:01:14.78 dTOEAfAy.net
>>168
EUCはISO 2022ルールに則っとってる
ISO 2022はすでに存在した
半角カナも使える

171:デフォルトの名無しさん
16/02/04 19:20:10.85 EFnVMbsO.net
>>169
>>168は半角カナを1バイトに納めることがそんなに優先かと言ってる
>>168
確証は無いけど、分かりやすさ・計算の単純さ優先の結果だと思ってた

172:デフォルトの名無しさん
16/02/04 23:06:09.90 WWqaejBP.net
>>166
もっと昔からある EUC を処理するには 8ビットクリーンなプログラムであれば事足りる。
ISO 8859 もそうだ。だからコンパイラも特別な処理などしなかった。
シフトＪＩＳもそうできなかったのかという話じゃないのか？

173:デフォルトの名無しさん
16/02/04 23:35:33.23 gW2sFWg4.net
むしろ解釈できない文字コードを通すことがおかしい
たまたま問題が見つからなかった、コンパイラがエラーを出さずに

174:処理を終えたからOKとするなんてアホ

175:デフォルトの名無しさん
16/02/05 02:34:16.13 EN3ElRH3.net
>>171
8ビットクリーンならEUC-JPを問題なく使えるかというとそうでもなくて
上位バイトと下位バイトが別れちゃう問題は発生しうる
シフトjisの「表」のあとに\を入れるみたいなバッドノウハウが目立つのでシフトJISに
問題があるように見えるのかもしれないけど、本質的には対応してないものを
勝手に使って文句言ってるだけじゃないかな

176:デフォルトの名無しさん
16/02/05 02:44:24.24 k2yclqL8.net
上位バイトと下位バイトが別れる件はダメ文字とは別件だから
最初の人の要求に対しては問題にならない

177:デフォルトの名無しさん
16/02/06 14:03:11.00 sR9TSGCJ.net
>>173
対応してないから出来ないなんてことが起こるのはシフトＪＩＳだけだよ。
ダメ文字のせいで正規表現すら書けない。誰もやりたがらないような裏技はあるけどね。

178:デフォルトの名無しさん
16/02/06 15:14:13.70 zVjqWScH.net
自分が間違ったやり方をしていたけど問題になったのはAだけだ
→だからAが悪い
まさにこういう発想がクソ
しかも自分の知っている文字コードが全てだと勘違いしていてたちが悪い

179:デフォルトの名無しさん
16/02/06 15:45:39.28 P3+owK3w.net
ビットマップのフォントデータ(16×16)を使って
レトロな電光掲示板を作ってみよう、と思う
URLﾘﾝｸ(i.imgur.com)

180:デフォルトの名無しさん
16/02/06 18:59:39.30 Ps0oIAyd.net
UTF-8なら漢字やかなに00-7Fは使わないけどな
って、そういう話をしてるわけじゃないのか。

181:デフォルトの名無しさん
16/02/06 19:36:29.58 uSRKfZgb.net
>>176
しかしShift JISはかなり質が悪い

182:デフォルトの名無しさん
16/02/06 19:41:15.78 MiOvJZDJ.net
どうしてWindowsは出来の悪い方ばっかり選択するんだろうか
cp932といいUTF-16といい…

183:デフォルトの名無しさん
16/02/06 20:34:21.53 sR9TSGCJ.net
>>178
そういう話をしてるつもりだけど、そうでない人もいるようだ。

184:デフォルトの名無しさん
16/02/07 08:00:22.03 +iI8pPYd.net
エスケープシーケンスよりCP932の方がまだマシだし、
CP932よりUCS-2の方が多少はマシだったからでしょ

185:デフォルトの名無しさん
16/02/07 13:34:15.00 COqNuXpv.net
>>173
今更だけど、文字が分断される可能性についても公平を期すために触れておくよ。
単純にバイト数で分割する場合等を除けば、ほとんどはパターンマッチにおける誤マッチが原因だろう。
strchr や strstr 、あるいはもっと高度なライブラリを使った結果かもしれない。
探すパターンに [\100-\176] にマッチする文字が含まれているなら EUC では誤マッチは起こらない。
シフトＪＩＳではダメ文字のせいで誤マッチが起こりうる。
実際に問題になるのはほとんどがこのケース。
grep "\]"
などとやろうものなら悲惨なことになる。
探すパターンがマルチバイト文字だけなら EUC でもシフトＪＩＳと同程度には誤マッチが起こりうる。
しかし実際にはほとんど起こらない。
もちろん起こるときは起こるし対策も出来るが対策は速度の低下と引換だ。
30 年前の CPU クロックは 10MHz 程度だったので速度も重要だった。
ほとんど起こらない上に致命的でもないなら速度を犠牲にしてまで常に対策を講じる必要は無い。
ちなみに対策だが、EUC で grep する場合なら
egrep "^([\000-\177]|\216[\240-\337]|\217[\241-\376][\241-\376]|[\241-\376][\241-\376])*$pattern"
的なことをするプログラムを grep_euc とかそういう名前で作っておけばいい。
シフトＪＩＳの場合はこれに加えてシフトＪＩＳな部分を 8 進エスケープシーケンスに置き換える必要がある。
同じやり方で iso-2022-jp も処理できる。
シフトＪＩＳしか通さない grep など技術的には邪魔なだけだよ。

186:デフォルトの名無しさん
16/02/07 13:49:06.41 GW5WZ8T2.net
>>183
長文の駄文乙
文字処理を文字単位でなくバイナリデータで行うのをやめた方がいいぞ

187:デフォルトの名無しさん
16/02/07 15:37:08.80 F/ILMG/l.net
>>183
"\]"←おおESC、これでアニメ作ったもんじゃ
>>184
ビット操作は頭の体操になるよ↓
URLﾘﾝｸ(i.imgur.com)

188:デフォルトの名無しさん
16/02/07 20:14:33.59 lDI02uIo.net
grepはいつutf16対応してくれるんじゃぁ
ふだんLinux使ってるんだがwinのソースコードはなぜかutf16なんでいつも困っとるんじゃぁ
nkfで変換するのめんどいんじゃあ

189:デフォルトの名無しさん
16/02/07 21:05:14.46 +iI8pPYd.net
utf16のそーすとか見たこと無いな

190:デフォルトの名無しさん
16/02/08 01:36:20.73 0XuKQtD5.net
>>180
UTF-16はそのころUCS-2しかなかったんだから仕方ないやろ
個人的にWindowsはAとWはそのままでもいいから
標準CライブラリとC++ライブラリはUTF-8を使ってくれるようにしてくれれば不満ないんだけどな。

191:デフォルトの名無しさん
16/02/08 05:19:47.55 x/5r9wp6.net
>>188
全然仕方なくないどころか、むしろまた先走ってやっちまったとしか

192:デフォルトの名無しさん
16/02/08 09:34:53.73 AxqrebA9.net
UTF-16固定とか基地外沙汰
ackやagもUTF-16は華麗にスルー

193:デフォルトの名無しさん
16/02/08 22:30:39.07 ti0XuUyR.net
EUCは目糞鼻糞だし、当時の記録媒体でUTF-8とか頭おかしいレベルなのに
一体どうしたかったのか

194:デフォルトの名無しさん
16/02/08 22:35:16.47 HMUrPVh/.net
ただマイクロソフトを非難したいだけのキティGUYに何を。
こういうのは誰でもいいから攻撃対象を設けてガス抜きさせてやらないといかん。

195:デフォルトの名無しさん
16/02/08 23:02:30.93 sawB/DI+.net
SHIFT_JISよりEUC-JPの方がマシ、UTF-16よりUTF-8の方がマシってだけでしょ
マイクロソフトを非難したいだけに見えるとしたら相当なバイアス掛かってると思うよ

196:デフォルトの名無しさん
16/02/09 00:48:21.70 TCPuRlam.net
>>191
> 当時の記録媒体でUTF-8とか頭おかしいレベルなのに
kwsk
と言っても
> EUCは目糞鼻糞だしょ
なんて言ってる奴のいうことが理解できるかどうか…

197:デフォルトの名無しさん
16/02/09 05:16:13.78 K12Uxl59.net
UTF-8のRFCが出たのは2003年
その頃には80GBのHDDを一般人が変える時代
テキストの容量が問題になるとか無いわ
個人的にはいつまで経ってもsetlocaleでUTF-8を指定出来ない、代替の方法も用意されないWindowsは非難されて当然だと思うけどな。

198:デフォルトの名無しさん
16/02/09 07:15:08.73 4WJVGAJH.net
Windowsの今の文字コードの設計のベースは1991年か1992年に
Unicode1.0.0をもとに作られたはず
ちなみにその頃から「～」はU+FF5Eに存在した

199:デフォルトの名無しさん
16/02/09 07:20:39.41 AjhTI0tJ.net
当時の記録媒体言ってるのはWindowsNTの時代な
その当時にUTF-8みたいな実装してもｱﾎでしょ
それとUTF-8を率先して使用してる理由ってEUC環境が糞だったからでしょ
EUC環境の時代って外人様のソフトウェアで漢字の表示すらままならなかったよね

200:デフォルトの名無しさん
16/02/09 07:37:26.98 AjhTI0tJ.net
まあなんにせよUnicodeでデータ交換できるようになって
EUCゴミ環境が消えテクノは良い事だわ
EUCありがとうバイバイ

201:デフォルトの名無しさん
16/02/09 08:47:31.92 K12Uxl59.net
同じようにWindowsのCP932もさっさと消えてほしいんだけどな

202:デフォルトの名無しさん
16/02/09 11:12:55.58 nhb546WZ.net
今でも新規作成の全文章を統計取ると、
cp932の方が多いんじゃないか。
結局全くプログラムかかないひとが
何の文字コード使ってるかが焦点で、
プログラム書く人間の文字コードなんざ焦点じゃないんだよね。

203:デフォルトの名無しさん
16/02/09 11:31:59.64 gJW4evIq.net
>>200
最多はwordでunicodeでしょ
ちなみにwordをunicode化したのは日本人

204:デフォルトの名無しさん
16/02/09 11:32:56.66 gJW4evIq.net
MSは昔からAPIを移行改善していくのが下手

205:デフォルトの名無しさん
16/02/09 22:21:12.66 K12Uxl59.net
電話用のWindowsもCP932とUTF16ならそのまま安らかに死んでほしいんだけどどうなん？

206:デフォルトの名無しさん
16/02/09 22:44:37.32 AjhTI0tJ.net
死ぬことはないよ
生まれてすらいないからね

207:デフォルトの名無しさん
16/02/10 05:29:25.59 ShaMeiRT.net
産まれる前に死ぬってあると思うけど？

208:デフォルトの名無しさん
16/02/10 20:10:05.19 NIAqtvX5.net
文字コードはUnicodeで統一されつつあるけど
改行コードが統一される動きはないよな

209:デフォルトの名無しさん
16/02/10 20:11:34.12 jTWkF3R0.net
>>187
英語だけなら問題ないが日本語でコメントかくととたんにやっかい
おそらくwinの内部処理がutf16なんでvcでコンパイラ作る→utf16しか受け付けない
になるんだと思う

210:デフォルトの名無しさん
16/02/10 20:14:06.58 DqOeVQNQ.net
何言ってんだこいつ

211:デフォルトの名無しさん
16/02/10 20:19:14.56 urcLBA+T.net
おまえはお馬鹿な発言する人にいつもくってかかるのか

212:デフォルトの名無しさん
16/02/10 20:27:11.86 jTWkF3R0.net
>>208 >>209
バカ乙

213:デフォルトの名無しさん
16/02/10 20:58:07.57 DqOeVQNQ.net
絵に描いたような「バカと言う奴がバカ」

214:デフォルトの名無しさん
16/02/10 22:46:23.85 MNP/EF3f.net
最近のMSVCはUTF-8のソースコード食ってくれるよ
新しくMSVCで読み込んだソースがUTF-8なのにBOMがないと自動判定に失敗して意味不明なコンパイルエラーになることも多いけど

215:デフォルトの名無しさん
16/02/11 00:53:59.61 V6zkYN3z.net
>>206
そうか?
ローカルデータで復帰付けてるのWindowsくらいじゃないか?
HTYP, SMTPなんかは復帰改行だけど

216:デフォルトの名無しさん
16/02/11 21:55:56.34 xlY9kt9Q.net
1バイトの英数字を平仮名と同じ幅で表示するフォントがあれば
全角英数字は使わないと思うんだが全角英数字も互換性のためだけに残されていると考えていいのか

217:デフォルトの名無しさん
16/02/11 23:11:32.22 e91ojKTo.net
>>214
JIS X 0208は、ASCIIやJIS X 0201と併用せずに使うことも想定されてる
だから文字集合に英数記号が含まれるのは当然
併用する場合ISO 2022的には重複符号化禁止だから本来使っちゃいけない
けど運用では守られてなかったし、併用前提の文字コードもあった
Unicodeは過去の利用例をほぼ取り込むのが前提だから
互換文字として全角文字を取り込んだ

218:デフォルトの名無しさん
16/02/11 23:19:16.34 sKuqfOHl.net
ではU+3000が互換文字領域に無いのは何故なんだぜ

219:デフォルトの名無しさん
16/02/11 23:22:30.10 e91ojKTo.net
なんとか空白はどうしても入れたい奴があったから全部入れることにしたんじゃないのかね
最初から20種類くらいあったでしょ

220:デフォルトの名無しさん
16/02/12 00:18:36.22 VRdJSDW+.net
つまり全角を貫いたおおたさん大勝利ってことだな

221:デフォルトの名無しさん
16/02/12 14:58:04.35 E8URvzDX.net
空白もそうだけど横棒も統合せずに放り込んだのが多すぎ
U+2015 HORIZONTAL BARってどこから生えて来たんだろ

222:デフォルトの名無しさん
16/02/12 22:43:58.37 06flQvvq.net
VERTICALなら生えてきそうだけどHORIZONTALに生えるイメージは無いな

223:デフォルトの名無しさん
16/02/13 10:24:02.68 vrowrAaX.net
————
――

224:デフォルトの名無しさん
16/02/13 21:46:29.51 UfGCg9+I.net
>>211
先に208でバカにしてきたのは208なんだが語るに落ちてねーか？
それとも「バカという単語は書いてないから自分はセーフ」ってことだろうか
バカの考えることはわからん

225:デフォルトの名無しさん
16/02/13 21:50:44.90 DWYdQVEl.net
バカの考えること=お前の考えること
自分が何考えてるかもわかんないなら救いようがないな。清原と一緒に逮捕されてろ

226:デフォルトの名無しさん
16/02/15 00:32:04.19 ntkpNKWd.net
>>212
もうすぐUpdate2で改善されるからそれまで待て

227:デフォルトの名無しさん
16/02/15 16:58:33.36 4pgZ8RvT.net
>>221
上がU+2014 EM DASHで
下がU+2015 HORIZONTAL BAR？
EM DASHは並べても切れて見えるなフォント次第だろうけど

228:デフォルトの名無しさん
16/02/16 07:17:36.55 XdPvZNKx.net
>>223
なんだ適当に言葉並べてるだけか
人工無能の方がマシだなこりゃ
おバカさん

229:デフォルトの名無しさん
16/02/20 22:49:46.68 2GCqu0fo.net
MS-excelのcodeという関数の出力がShift-JISだと勘違いしていた初心者の俺。
あやうく大恥をかく前に気づいてセーフ。

230:デフォルトの名無しさん
16/02/24 01:54:36.77 hnpOvXF7.net
UNICODEが年々キモくなるんですけど、新しいモジコードは開発されていますか（´・ω・｀）？

231:デフォルトの名無しさん
16/02/24 12:06:50.24 9rhAu1z5.net
>>228
君の出番だよ
君が第二の坂村健だ

232:デフォルトの名無しさん
16/02/24 17:55:57.73 zehZo7UI.net
完成してMicrosoftとAppleとGoogleとLinuxが採用したら知らせてくれ

233:デフォルトの名無しさん
16/02/24 20:07:26.11 Tso1kbi5.net
バイトオーダーがややこしいから1byteを1bitにするか
逆に1byteを64bitなどの大きい値にしたらどうよ？
コンピューターの黎明期は1byteが8bit以外の物もあったんだから
それも不可能ではないだろう。

234:デフォルトの名無しさん
16/02/24 20:26:02.29 JXxoXIUe.net
馬鹿って馬鹿だよね

235:デフォルトの名無しさん
16/02/25 00:25:47.28 loBITXzr.net
>>231
コンピュータの黎明期はbyteと云う単位ではなくて、Wordという単位だったと
思いますよ。１word何byteとかいっていて、コンピュータによって、Wordのbit数が
違っていたように思います。
大体１短Wordが20bit＋1符号bit,１長wordが短wordの２倍で40bit+1符号bitというのが
普通だったとおもいますが、CDCの3600は、１短wordが32bit、１長wordが64bitではなかった
かと思います。
なにしろ、1960年代のことなので、記憶違いがあるかもしれません。

236:デフォルトの名無しさん
16/02/25 20:46:03.90 BzGy0Z9t.net
Unicodeに何が追加されようと大半の日本語フォントはAdobe-Japan1-6準拠だから
ほとんど恩恵がない
AdobeはPanCJKなんて漢字マニアしか喜ばないものを作ってないで
そろそろAJ17に取り掛かってくれ

237:デフォルトの名無しさん
16/02/26 12:15:47.32 YTHIspbV.net
Wordは今でも使うだろ普通に。
昔あったのはWord機、生き残りがByte機。

238:デフォルトの名無しさん
16/02/26 17:03:45.40 iAHBb9xH.net
>>152
安岡センセイ大敗北ｗ
URLﾘﾝｸ(srad.jp)

239:デフォルトの名無しさん
16/02/26 19:35:56.60 Ckpzri88.net
>>235
byteかwordかというのは
アドレッシング
アクセス最小単位
アラインメント
と3つの軸があって
最後のはbyte単位でないのが主流

240:デフォルトの名無しさん
16/02/26 19:54:30.62 d58rhTQn.net
キモはアルゴリズムでデータソースでしかないものに文句つけてもイチャモンでしかないだろう
知らんけど

241:デフォルトの名無しさん
16/02/26 21:57:25.44 jlaESRTF.net
アルゴリズムもバグってるみたいよ

242:デフォルトの名無しさん
16/02/27 01:15:53.58 1kXiMiWp.net
>>237
アーキテクチャ上は最後のも大丈夫なんじゃないの？
メモリにアクセスするハードウェア側のインタフェースの話じゃないよね。

243:デフォルトの名無しさん
16/03/02 11:22:17.92 5SSZmY+T.net
カタカナが多すぎて頭こんがらんがってきた

244:デフォルトの名無しさん
16/03/02 13:37:01.48 H2CN+/B0.net
トゥゲザーしようぜ

245:デフォルトの名無しさん
16/03/02 13:52:03.06 Pi6Moa3o.net
シェアしたいと思います

246:デフォルトの名無しさん
16/03/04 11:07:29.81 aAJqKKxk.net
1文字に32bit使うなら一般的な組み合わせの合成文字は
全て合成済み文字にしてコードを割り当てても足りるんじゃないだろうか
そうして合成文字は外字のようなオプション的な扱いにしたらいいと思うんだけどね

247:デフォルトの名無しさん
16/03/04 11:29:46.53 ex0V5X9T.net
何のいみがあるのかわからんなあ

248:デフォルトの名無しさん
16/03/04 12:41:46.94 aAJqKKxk.net
>>245
一般的な文字では32bit固定長にできる

249:デフォルトの名無しさん
16/03/04 13:27:03.56 qO6Wo8x7.net
「一般的な組み合わせ」が不変ならいいけど、現実にはいくらでも流動しちゃうのが問題じゃないかな。
これまでにも「今の用途ならこれだけあれば十分」って感覚で半端に作られた負の遺産がたくさんあるよね。
合成文字の仕組み自体を全廃・強制力付きで禁止するのならともかく、
オプションとして残すのなら新たに余計なものを作っただけで終わるのが見えてる。

250:デフォルトの名無しさん
16/03/04 18:21:11.26 IERVyLvo.net
ISO/IEC 6937対ISO/IEC 8859シリーズの戦いはもう勘弁

251:デフォルトの名無しさん
16/03/15 10:56:22.12 ZYJuXZMf.net
>>228
Unicodeで得られた知見を基に反省を活かして新しいのを作ってほしいね。
Unicodeもコンセプトは賛成だし規格に例外は付き物だけど、あまりにも継ぎ接ぎだらけでスパゲティコードみたいになってるのは清算したいね。

252:デフォルトの名無しさん
16/04/02 13:20:35.07 raCNCQWh.net
Unicodeはバージョンアップ時に精算するのが得意な方
切り捨てバンザイ主義
これ以上切り捨てたら誰も使ってはくれない

253:デフォルトの名無しさん
16/04/06 17:49:51.21 APP4s98L.net
UTS #52: Unicode Emoji Mechanisms
URLﾘﾝｸ(www.unicode.org)
> 3.5 Hair Attribute
>
> Syntax
>
> Tag-Base　　　Hair_Base
> Tag-Key 　　　Tag-H
> Tag-Value 　　Exactly one of the following tag-valueChars:
> 　　　　　　　tag-valueChar Description
> 　　　　　　　Tag-k Black-haired
> 　　　　　　　Tag-s Blonde (also sandy-haired)
> 　　　　　　　Tag-b Brown (Brunette)
> 　　　　　　　Tag-r Redhead (Ginger)
> 　　　　　　　Tag-g Gray-haired
> 　　　　　　　Tag-n Bald (no hair)
漫画・アニメキャラ用に赤髪、ピンク髪、緑髪、青髪、水髪、紫髪なんかも加えるべきじゃないですかね。

254:デフォルトの名無しさん
16/04/06 18:29:57.08 qW+LkY/S.net
＿人人人人人人人＿
＞　Bald　(no hair)　＜
￣Y^Y^Y^Y^Y^Y^Y￣

255:デフォルトの名無しさん
16/04/08 13:36:54.32 9VpqQ38l.net
Δ彡⌒ミΔ
ξ　･ェ･　ξ
ξ　　　　ξ
ξ　　　　ξ 　また髪の話してる。
ξ　　　　ξ
ξ　　　　彡⌒ミ
ξ　　　 (´･ω･`)〇
ξ　　　 (|　　　|)ξ
ξ　　　　(γ　/ ξ
　uu～～～し uu

256:デフォルトの名無しさん
16/04/09 00:11:15.96 QiRGiLFx.net
毛の色と量は別のパラメータだよね

257:デフォルトの名無しさん
16/04/09 00:17:51.71 EyctzspR.net
赤毛のつるっぱげと
黒髪のつるっぱげと
ブロンドのつるっぱげの
区別を付ける意味はあるのかなあ。

258:デフォルトの名無しさん
16/04/09 01:58:16.39 ncpORidQ.net
眉毛の色も変わるんじゃね

259:デフォルトの名無しさん
16/04/11 18:05:35.93 qAYYUQ+e.net
>>251
色はスタイルシートとか他の技術で実現しろよな
そのうちRGB指定とか出てくるぞこれ

260:デフォルトの名無しさん
16/04/19 18:55:29.59 y8aUhLXK.net
コンソーシアムはアホばっか。
結局駆け引きとかゲーム楽しんでるだけじゃん。

261:デフォルトの名無しさん
16/04/22 16:03:00.18 20ytlDG9.net
ヘアスタイルや髪の色、眼鏡やら帽子やらはUnicodeの範囲の対象外だよとか言ってたのは何だったんだろう

262:デフォルトの名無しさん
16/04/28 04:05:36.64 m6Hq/pUS.net
完全にMark Davisに振り回されてる

263:デフォルトの名無しさん
16/04/30 16:00:17.78 Hd4l7uwV.net
禿は髪の色じゃなくてヘアスタイルだろ
てっぺん禿、後退禿、つるっ禿と種類もある
禿差別が凄い

264:デフォルトの名無しさん
16/04/30 16:37:37.68 n4ETaU8X.net
ちょんまげとか辮髪とかと同列のタグだよね

265:デフォルトの名無しさん
16/05/01 09:46:27.59 w66eLaS8.net
イラストのための仕様拡張なんか合理的な理由が全くないわ
文字から切り離して絵のフォーマットにすればいいじゃん

266:デフォルトの名無しさん
16/05/01 11:04:17.70 tKi6j9CT.net
匿名通信（Tor、i2p等）ができるファイル共有ソフトBitComet（ビットコメット）みたいな、
BitTorrentがオープンソースで開発されています
言語は何でも大丈夫だそうなので、P2P書きたい！って人居ませんか？
Covenantの作者（Lyrise）がそういう人と話したいそうなので、よろしければツイートお願いします
URLﾘﾝｸ(twitter.com)
ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーｗ

The Covenant Project
概要
Covenantは、純粋P2Pのファイル共有ソフトです
目的
インターネットにおける権力による抑圧を排除することが最終的な目標です。そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します
特徴
Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)
接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
ｖ

267:デフォルトの名無しさん
16/05/18 02:04:12.61 rFetSORz.net
　
　　　　　彡 ⌒ ミ
　　　　　 (´・ω・｀)
　　　　Ｕ θ Ｕ　　
　　／￣￣Ⅰ￣￣＼
　　|二二二二二二二|
　　｜　　　　　　　　｜

268:デフォルトの名無しさん
16/06/07 17:21:48.18 zLlkZGBv.net
URLﾘﾝｸ(www.unicode.org)
たこ焼きはまだか?

269:デフォルトの名無しさん
16/06/08 01:10:51.52 mh0+02By.net
NAUSEATED FACEってなんや。
外人は体調悪くなるとみんな顔緑色になるんか。

270:デフォルトの名無しさん
16/06/08 11:35:15.41 XFtKz/Go.net
この調子でどんどん絵文字を追加していくと
ついには新しい表意文字の体系が出来上がるよね
だけどコンピュータで扱う上では表音文字の方が合理的だったってことは
我々は痛いほどよくわかっているから、なんだかなーって気持ちになる
全ての物を一文字で表すのは大変なので
将来的に絵文字の熟語とか編み出されて
絵文字で会話するようになったらいやだなぁ

271:デフォルトの名無しさん
16/06/09 11:33:55.71 QkRZyBjx.net
>>268
>全ての物を一文字で表すのは大変なので
中国人「歓」
>将来的に絵文字の熟語とか編み出されて
>絵文字で会話するようになったらいやだなぁ
中国人「可不是」日本人「成程ね」

272:デフォルトの名無しさん
16/06/20 16:59:01.95 KYxI40Xs.net
URLﾘﾝｸ(d.hatena.ne.jp)
絵文字の人物の肌の色やら髪の色を区別するならこういうのも区別してほしいわ～。
バケツ頭かそうでないかは重要、俺的に

273:デフォルトの名無しさん
16/06/21 12:33:04.97 hiJvGdgU.net
unicode例示図形の画力の低さが光る

274:デフォルトの名無しさん
16/06/22 14:24:00.61 veMK4+iv.net
The Unicode Blog: Announcing The Unicode® Standard, Version 9.0
URLﾘﾝｸ(blog.unicode.org)
Unicode 9.0.0
URLﾘﾝｸ(www.unicode.org)

275:デフォルトの名無しさん
16/06/22 16:17:18.06 VKcfRnsb.net
なんか最近どんどん数字上がってね？Chromeみたい。
どんどんメジャーバージョン上げていく理由って何？

276:デフォルトの名無しさん
16/06/24 07:30:00.72 DNjTkSpS.net
>>273
絵文字量産してるからな
ろくすっぽ審議もせずどんどん入れてる
絵文字専用コードにすればいいのに

277:デフォルトの名無しさん
16/06/24 21:07:43.94 BJd4+ABn.net
本当、Unicode 1.X でやめとけば世の中平和だったのに。

278:デフォルトの名無しさん
16/06/26 01:00:56.43 jrvEZcpa.net
まあ、サロゲートペアは無くても結合文字があるんですけどね……。

279:デフォルトの名無しさん
16/07/04 14:48:24.44 D0uzD5G8.net
ISO/IEC 10646:2014/Amd.2:2016がいつの間にか無料公開始まってたのな。
U+301C WAVE DASHの字形がISO/IEC 10646側でもやっと修正されたのか。

280:デフォルトの名無しさん
16/07/06 10:23:17.77 lhUlUm2p.net
安岡センセイ荒れてるな
URLﾘﾝｸ(srad.jp)
＞UTF-8は、ASCIIコードに当たる部分は1バイトで表し、
＞それ以外の文字を2～6バイトの可変長で表します。
＞しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
荒れるの当然か

281:デフォルトの名無しさん
16/07/06 11:21:22.67 X105+0ra.net
これはひどい

282:デフォルトの名無しさん
16/07/06 19:46:06.13 j7TfNCeT.net
まじか。utf16採用してるwindows大勝利だな
(何度も言うがなんでutf8にしなかったんだよ。unixのツール使えなくてムカつくわ)

283:デフォルトの名無しさん
16/07/06 20:19:51.63 gBn7auOK.net
>>280
表面はSJISだからだろ。

284:デフォルトの名無しさん
16/07/06 22:02:39.94 wyF/Ksyo.net
漢字を正確に言葉で伝えるにはコードで表現するのが最も手軽で確実だと思うのだが、
あいにく当方の職場では誰もそうしようとしない。
和文通話表もアルファベットのフォネティックコードも使わない。
何しろ管理職にそういう発想が全くないのだからどうしようもない。
今のジジババはもう駄目だ。これからの若い世代に期待したい。
コード関係者、教育関係者の皆様、文字コードの概念を広く普及させてくださいませ。

285:デフォルトの名無しさん
16/07/06 22:43:23.48 7tNa29hq.net
>>278
合ってるで

286:デフォルトの名無しさん
16/07/06 23:02:26.86 73ByLRkJ.net
文字コードの話題で、他の規格に不寛容・攻撃的な人が多いのはなんでなんだろうねぇ？
mohtaの呪い？

287:デフォルトの名無しさん
16/07/07 02:40:42.16 p2jZ7JSr.net
たまにはEBSDICの事も思い出してあげてください

288:デフォルトの名無しさん
16/07/07 04:21:45.52 iN/cSWGV.net
ヱビス？

289:デフォルトの名無しさん
16/07/07 07:50:53.33 zLr8XHI6.net
>285
エビスでなく、
EBCDIC

290:デフォルトの名無しさん
16/07/07 08:09:28.67 Xq4hCxWT.net
攻撃的はそうだけど、不寛容な人はあまり見かけないな。
それから、出所不明の誤ったことを自信満々に広めようとする人は多い。

291:デフォルトの名無しさん
16/07/07 11:28:32.01 77RIzO9k.net
>>284
半角カナ気違いのトラウマだろうね

292:デフォルトの名無しさん
16/07/07 23:08:15.02 Fnd7xREL.net
昔、カナ漢字変換の機能が貧弱だった頃、第2水準漢字のほとんどは
コード直接入力じゃないと出せなかったらしい。
その時代を知っているジジババはむしろ若者よりもコードの知識があるかも。

293:デフォルトの名無しさん
16/07/08 00:08:00.05 oeqNGrjL.net
>>290
その時代にワープロを使っている人間が少なすぎる。

294:デフォルトの名無しさん
16/07/08 09:37:59.75 RQ/bQ+xA.net
いまでも第２水準の読めないような漢字が出ないのは一緒では。特にスマホとかでは

295:デフォルトの名無しさん
16/07/08 12:53:57.37 +iCwFkYB.net
Windowsはいい加減にCP932やめればいいのに

296:デフォルトの名無しさん
16/07/08 13:56:23.18 SPYn5bNr.net
>>290
JIS区点コードな
さすがにいわゆるSJIS系の2バイト文字の話とか
UCS4とかUTF-8とかは通じないだろ

297:デフォルトの名無しさん
16/07/08 14:04:01.86 FG8sQouZ.net
>>278
歴史的説明ならともかく今時6バイトって

298:デフォルトの名無しさん
16/07/08 23:17:05.68 5kBVrybZ.net
小学生向け漢字辞典にも文字コードが載っているのが唯一ある。三省堂のやつ。
しかしこれがJIS句点コードだけなのだ。こんな所にもJIS信者の陰謀が。

299:デフォルトの名無しさん
16/07/09 05:34:05.37 /Jgzrjn9.net
ふむ

300:デフォルトの名無しさん
16/07/09 16:20:52.60 ZRZgi1xJ.net
三省堂は安岡センセイの牙城だからな
URLﾘﾝｸ(dictionary.sanseido-publ.co.jp)

301:デフォルトの名無しさん
16/07/09 16:24:06.20 chKLWi+d.net
やっぱり三省堂がナンバーワン！

302:デフォルトの名無しさん
16/07/09 18:40:43.19 J471aLuE.net
>>296
>句点コード
反省汁

303:デフォルトの名無しさん
16/07/09 20:53:51.60 9etHa3qY.net
>>300
何をする事がある

304:デフォルトの名無しさん
16/07/09 23:31:07.38 XNO4Gui5.net
>>300 スマンカッタ
句点と読点のそれぞれのJIS区点コードは……ってそういう話じゃないよね。
今時のオフィスでは漢字をコードで言い表さなくても、メール送って、
この字をコピペしろ、で話が済む。たいていの場合。
だがメールが使えないオフィスが存在するのだ。
ウィルス感染が怖い、個人情報の漏洩が怖い、と言ってごく一部以外のPCは
インターネットに繋がっていない。LANにすら繋がっていない。
穴だらけのXPを全くアップデートせずに使い続けている。
文字コードの知識云々以前にこっちの方が問題かも。

305:デフォルトの名無しさん
16/07/10 00:58:49.17 MJNrlAwo.net
十進法で1オリジンだから
十六進法で0オリジンが一般的なプログラミングの世界に持ってく時ちょっと戸惑う＞区点コード

306:デフォルトの名無しさん
16/07/10 01:18:18.40 D0PozWsA.net
最初から JIS X 0208 で考えていれば違和感は無い。

307:デフォルトの名無しさん
16/07/10 02:25:10.70 MUn32aUj.net
𩿎この字をコピペしろ
で話が済まないこともあるから2面94区5点と書いてある方が親切なこともある

308:名無しさん＠そうだ選挙に行こう！ Go to vote!
16/07/10 19:18:33.41 Xe3UNHu3.net
パートのおばちゃんが「この字が出せない」と言っていたので、コードを調べて直接入力の方法を教えた。
そしたら、「そんな難しい方法じゃないと出ない字は出しません」と拒否。
管理職もそれでいいと思っている。

309:名無しさん＠そうだ選挙に行こう！ Go to vote!
16/07/10 19:28:45.85 Xe3UNHu3.net
ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
コードの知識がなくても何とかなる。けどそういう言い方は全く通じない職場がある。
で、バカみたいにA4の紙にでかい字で「煕之」と書いてFAXで送っている。
時間と紙と通信料金の無駄。

310:デフォルトの名無しさん
16/07/10 20:25:26.13 Vv5iaDQO.net
＞ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
それで通じる職場ってすごくピンポイントなんじゃないか

311:デフォルトの名無しさん
16/07/10 23:34:57.25 Xe3UNHu3.net
>>308
字の間違いが決して許されない職場では自然にそうなりそうな気もするんだが。
だいたい職場に大漢和辞典も康煕字典も無いとはもう駄目だ。
鼎という字を「何か県に似ている難しい字」などと言っている。u+9F0Eとは決して言わない。
高校時代に漢文が苦手だった俺だって「鼎の軽重を問う」という故事ぐらい知っている。
高卒以下か。

312:デフォルトの名無しさん
16/07/11 00:15:55.13 Oq6wujXh.net
>>290
漢ROMには第一水準しか乗ってなかった

313:デフォルトの名無しさん
16/07/11 00:42:20.21 TRcfwTqd.net
u+9F0Eとは決して言わない。いや言わんだろｗ

314:デフォルトの名無しさん
16/07/11 02:04:05.71 Y4y2Cs39.net
PC-9801初代とかE、F、Mの頃だな

315:デフォルトの名無しさん
16/07/11 02:09:47.93 Y4y2Cs39.net
いや初代はJIS第1水準ROMも別売オプションだったか

316:デフォルトの名無しさん
16/07/11 04:11:38.97 1UixPK66.net
そういう環境は区点でも出ないから今は話題にしてない

317:デフォルトの名無しさん
16/07/11 04:53:41.27 heaUdTdc.net
鼎立（ていりつ）

318:デフォルトの名無しさん
16/07/11 14:01:39.24 d9uyyk2v.net
>>283
たしかに合ってる
URLﾘﾝｸ(www.ndl.go.jp)

319:デフォルトの名無しさん
16/07/11 14:48:05.83 czE7oCdB.net
> 　しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイト（31ビット）でエンコードする
> サロゲート・ペアと呼ばれる方法が考え出されました。このエンコード法をUTF-16（16-bit UCS Transformation Format）と呼びます。
まるでUTF-8を拡張したらUTF-16が生まれたみたいな書きっぷりなんだが。。。

320:デフォルトの名無しさん
16/07/11 19:26:42.34 zdvynnCD.net
dmcがL"\uXXXX"で5桁以上に対応してなかったでござるよ

321:デフォルトの名無しさん
16/07/11 23:35:12.52 O+Gjjko5.net
あーあサイト閉鎖
URLﾘﾝｸ(www.asahi-net.or.jp)

322:デフォルトの名無しさん
16/07/12 12:50:10.21 Z7lOs0LB.net
サイト閉鎖させるとか文字コード関係者は傲慢

323:デフォルトの名無しさん
16/07/12 14:22:38.54 jKILz9qy.net
そもそも不正確だろうが整合性なかろうが
その旨明記しておけば問題ないのに
断定しちゃうからダメなんだよなぁ
自分用のメモとしても訳に立たんだろうに

324:デフォルトの名無しさん
16/07/12 16:29:11.31 /KovKhYj.net
>>319
知らないなら解説しないでくださいうざいだけです

325:デフォルトの名無しさん
16/07/12 16:34:35.95 /KovKhYj.net
>>278
>【Unicodeのエンコーディング】※この章の内容を修正しました（2016年7月8日）
治ってたはω

326:デフォルトの名無しさん
16/07/12 22:47:59.76 iIVSUpVx.net
>>316のレターの著者＝>>319のサイトの作者
なの？
Cyber Librarianなら見たことあるけどサイトを見た限りでは
そんな脇の甘いっつーか、ツッコミどころ満載の文章書く人には思えなかったが。

327:デフォルトの名無しさん
16/07/13 00:43:08.39 SuD222os.net
URLﾘﾝｸ(web.archive.org)URLﾘﾝｸ(www.asahi-net.or.jp)
まあ同一人物でなければ盗用だろうなってかんじ

328:デフォルトの名無しさん
16/07/13 01:00:57.82 elchF/Ne.net
普通に考えたら同一人物だろ
上綱　秀治（かみつな　しゅうじ） ⇒ s-kmtn

329:デフォルトの名無しさん
16/07/13 02:15:04.74 fhWupBlz.net
くみたんじゃないのか。

330:デフォルトの名無しさん
16/07/13 04:46:49.29 QAw5IbxT.net
>>325
同一人物だね
URLﾘﾝｸ(web.archive.org)

331:デフォルトの名無しさん
16/07/13 09:20:59.26 6cXc/1BZ.net
>>325
＞UTF-8は、ASCIIコードに当たる部分はASCIIコードと同じコードで
＞1バイトで表し、それ以外の文字を2～6バイトの可変長で表します。
＞しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
＞そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイトでエンコードする
＞サロゲート・ペア(Surrogate Pair)と呼ばれる方法が考え出されました。
自分で書いた嘘を自分で信じ込んでしまったのか

332:デフォルトの名無しさん
16/07/13 13:48:05.15 5kGFdS9R.net
>>325
あー、これは(アカン)

333:デフォルトの名無しさん
16/07/13 17:23:44.93 Zm0ukFfg.net
>>322
>>319 は解脱したんだ

334:デフォルトの名無しさん
16/07/13 17:25:59.10 Zm0ukFfg.net
>>325
おわってんな

335:デフォルトの名無しさん
16/07/13 21:14:40.56 hX7/yWDM.net
くみたん大人気

336:デフォルトの名無しさん
16/07/13 23:46:02.63 g/v1wH4T.net
>>305
そうやって親切に説明しても理解しようとしない奴が多い。
自分の努力不足を棚に上げて。
新聞紙屋にも市役所職員にもそういう説明は通じなかった。

337:デフォルトの名無しさん
16/07/13 23:58:49.98 r/tNmXJO.net
天皇陛下が生前退位を望んでおられるらしいが
年号が変わったらまた組み文字のがUnicodeに登録されるんだろうか。
そしてNEC特殊文字の空き区点位置にも追加されたりするんだろうか？

338:デフォルトの名無しさん
16/07/14 14:43:57.97 QNDyLPqn.net
>>334
文系のばかに多いよなそういうの

339:デフォルトの名無しさん
16/07/14 15:27:07.43 9OuGPMv3.net
㍻㍼㍽㍾

340:デフォルトの名無しさん
16/07/14 17:50:45.39 /KqsG61x.net
>>335
Unicode側が先に動くんじゃなくて国内規格が変わったら重い腰を上げる感じじゃね？
JIS X 0213に追加されたら多分入れざるを得ないだろう。

341:デフォルトの名無しさん
16/07/14 18:58:13.31 FxiZTBVJ.net
Unicodeの組み文字はやたら多いんだよなあ
これ以上増やさないでいいと思うが
ARIBあたりは収録しそうだ

342:デフォルトの名無しさん
16/07/14 19:04:28.88 QNDyLPqn.net
そもそもどんな元号になるか機械学習で予想汁

343:デフォルトの名無しさん
16/07/15 17:59:32.47 UYk8auDK.net
元号変わったら組み文字がJISやUnicodeに追加されるだろうか。
あれらはあくまで使用非推奨の互換用だけど平成迄あるのに
〇〇(新元号)は無いのはおかしいって文句言う人いそうだし。
そしてUnicodeに追加されるならBMP外になるのかな。

344:デフォルトの名無しさん
16/07/15 18:35:42.95 VjVb35Nf.net
JISは確実じゃろう

345:デフォルトの名無しさん
16/07/15 19:47:06.41 hA/ek+uV.net
天皇陛下はさまざまな影響を考えて、数年後とおっしゃっている。

346:デフォルトの名無しさん
16/07/15 21:22:13.08 6VjYEGCM.net
天皇陛下はさまざまな影響を考えて、(Unicodeへの追加は)数年後とおっしゃっている。
かと思った

347:デフォルトの名無しさん
16/07/15 23:56:20.80 sNlxveIP.net
明治～平成がBMPなのに新元号がSMPなのは納得いかないって人出てくるだろう。
でもU+33xxのBMPのCJK互換文字領域は空いてない。
U+32xxの囲み文字等の領域だったら
U+32FFが空いてるけどそこは○ンの為にとっておくべきって理由で却下かも。
(ARIB外字の□デは当初そこで提案されてたがSMPに移された。)
U+321Fも空いてるけどそこはハングルの為に予約でダメかな。
2文字合わせて1字の漢字扱いでCJK統合漢字無印の末端部分に追加とかするかも。

348:デフォルトの名無しさん
16/07/16 00:01:26.24 5z5Xjrfb.net
>>344
陛下はIT業界のことまで考えてくださっているんだぞ。

349:デフォルトの名無しさん
16/07/16 00:14:15.53 32MvK4yp.net
>>345
＞2文字合わせて1字の漢字扱い
面白いけど縦書きしたときに組み変わる漢字ってありなのかなあ…

350:デフォルトの名無しさん
16/07/16 00:24:24.28 gxGUgS9b.net
明治を廃止して新元号をそこに追加

351:デフォルトの名無しさん
16/07/16 01:19:59.61 cSN7L73p.net
ケチ臭いこと言わず大化から全部実現できるよう結合文字でやれ

352:デフォルトの名無しさん
16/07/16 02:08:19.62 nOt6AvP3.net
>>348
それはない

353:デフォルトの名無しさん
16/07/16 02:30:42.97 lwkaPYM/.net
書類上は明治生まれもまだいっぱい生き残って年金もらってるんだろう？

354:デフォルトの名無しさん
16/07/16 06:16:44.45 G3ZPSnBi.net
明治生まれって１０５歳くらいでそろそろ長寿ギネスを争う位置やで
ゴーストは知らんけど例の事件以降対策は取ってるはず

355:デフォルトの名無しさん
16/07/16 14:40:44.25 9Y22Kipm.net
>>335
生前退位は間違い
正しくは譲位

356:デフォルトの名無しさん
16/07/16 14:43:32.66 9Y22Kipm.net
>>349
それな+1

357:デフォルトの名無しさん
16/07/16 17:16:57.05 q/+YlM5I.net
>>353
譲位もいまの日本の法律では規定されていない言葉。

358:デフォルトの名無しさん
16/07/16 20:48:48.31 lwkaPYM/.net
譲位だと本人の意思が入るから、憲法との関係上無理だろうな。

359:デフォルトの名無しさん
16/07/16 22:09:26.27 ngMcbYeI.net
間を取って、新元号を「譲位」にするのだ。

360:デフォルトの名無しさん
16/07/16 23:20:32.22 DxYW1o4r.net
Macの機種依存文字でUnicodeにない組み文字とかは
PUAのうち何個かのコードポイントを後続の複数文字を組み文字とみなすとかの制御文字にして
変換時はそれらを使ったシーケンスにしてるけど
それらを正式なUnicodeポイントに追加すればいいんじゃないかな。
BMPの末端部の特殊用途文字の領域空いてるよな。多くなったら14面使えばいいし。

361:デフォルトの名無しさん
16/07/17 07:52:07.09 x5VmunYw.net
ゼロレングス結合何とかでいいだろ
年号

362:デフォルトの名無しさん
16/07/17 11:40:00.96 4VxhtWVI.net
[組文字2字] ○ × みたいな組み合わせで組文字を出せれば、どんな元号だろうと対処できるんじゃね？

363:デフォルトの名無しさん
16/07/17 12:03:06.58 OJhNugRE.net
立ちふさがる神護景雲

364:デフォルトの名無しさん
16/07/17 19:57:53.09 SZ0VR+WQ.net
絵文字だと４人くっつけて家族にしてるから余裕だろ

365:デフォルトの名無しさん
16/07/18 13:08:10.78 DeXLreOM.net
天平hogehogeも忘れないであげて

366:デフォルトの名無しさん
16/07/18 14:35:50.20 xsPahNIS.net
Unicode Consortium、人物を示す絵文字の大半で男女の切り替えを可能にする計画
URLﾘﾝｸ(it.srad.jp)

367:デフォルトの名無しさん
16/07/18 18:20:37.53 Al5nS1HD.net
いらん

368:デフォルトの名無しさん
16/07/18 20:01:39.34 V8MPLMCF.net
男のプリンセス👸みたいな

369:デフォルトの名無しさん
16/07/18 20:49:35.27 nMdxdQ2m.net
結局タグ文字は止めてZWJでくっつけることにしたのか
まあ俺は要らんけど、Googleはやるんだろうな。

370:デフォルトの名無しさん
16/07/19 01:10:44.77 OzJr/LCv.net
うんこと炎をくっつけて焼きカレー

371:デフォルトの名無しさん
16/07/20 00:14:41.29 c9Lgaa22.net
俺なんでこんなの書いたんだろ

372:デフォルトの名無しさん
16/07/20 16:25:57.26 uqKREUqt.net
元号の組み文字も平成の次からは
(1文字目) ZWJ (2文字目)
でいいだろう。元号に限らず他の組み文字もこのようなやり方で。

373:デフォルトの名無しさん
16/07/21 22:48:02.74 9yJr9MXg.net
L2/16-188 Revised Proposal of Hentaigana (with associated spreadsheet) Japan N.B. 2016-07-15
URLﾘﾝｸ(www.unicode.org)
L2/16-189 Proposal to add a new character name alias to U+1B001 Japan N.B. 2016-07-15
URLﾘﾝｸ(www.unicode.org)
久しぶりに日本の提案書が来てた。

374:デフォルトの名無しさん
16/07/22 00:45:15.53 9PI3Dwz3.net
HENTAIYAGANA!
同じ音価のやつどう名前つけるのかと思ってたら単純に番号振ったんか。
しっかしほぼ同じじゃないかってやつがいくつもあるな…

375:デフォルトの名無しさん
16/07/22 15:36:11.58 mXdhJl5k.net
＞URLﾘﾝｸ(www.unicode.org)
＞※ HENTAIGANA LETTER E-1

当然のように「※」を使っちゃうあたり紛れもなくわが国のNBだな

376:デフォルトの名無しさん
16/07/22 18:46:03.53 30Ur4lVX.net
海外でHENTAIって言ったらエロ漫画のことなんだろ？

377:デフォルトの名無しさん
16/07/22 23:40:37.75 ftmyXYU2.net
変態がな(´・ω・｀)

378:デフォルトの名無しさん
16/07/23 19:23:17.75 23ptH+Cg.net
HENTAIGANAじゃなくてARCHAIC KANAにした方がいいかな。

379:デフォルトの名無しさん
16/07/23 22:48:56.85 9DZF6Yvk.net
376ができるならそうしてほしい

380:237
16/07/24 13:36:56.67 6r1nbUWl.net
Wikipediaにも別称として載ってるitaiganaならまだしも、一般的でない訳語を増やすのはやめてくれ

381:デフォルトの名無しさん
16/07/24 13:38:46.61 wdZTIji9.net
しらんがなも追加で

382:デフォルトの名無しさん
16/07/24 14:21:52.39 KetOMPlM.net
痛い(>_<)がな

383:デフォルトの名無しさん
16/07/24 18:14:24.67 jDvbVIvk.net
しらんがな-1
しらんがな-2
しらんがな-3
どうでもいいレベルに応じて数字が上がっていくしらんがな

384:デフォルトの名無しさん
16/07/25 03:34:48.68 +HnBvISv.net
しらんがな(´・ω・｀)

385:デフォルトの名無しさん
16/07/27 23:58:18.41 LlxcxPCX.net
漢字なんかもUnicodeではCJK Ideograph(日中韓の表意文字)という独特な表現なんだよな。
通常はChinese character(中国の文字)とか日本で使われるもの限定ならKanjiとかだけど、
中国語だけでなく日本語でも必要不可欠なことから中立的な観点でそうしたのかな。

386:デフォルトの名無しさん
16/07/28 00:49:49.72 5nmTx3N/.net
>>383
それUTF-16だろ。

387:デフォルトの名無しさん
16/07/28 01:46:29.52 0eJShhc0.net
ぇ?

388:デフォルトの名無しさん
16/07/28 03:14:54.78 V4Cbn7HZ.net
え？

389:デフォルトの名無しさん
16/07/28 06:15:57.66 A01hQQOB.net
ゑ？

390:デフォルトの名無しさん
16/07/28 07:33:28.43 Gt2rQ6iY.net
>>383
「漢字って言語圏ごとに登録したらとんでもない量になる。出自は同じだし統合すっか」
っていう混ぜ書き全否定な仕様にしたからな
統合したんだからKanjiっていう日本語読みじゃなくて「極東の表意文字」みたいな名前つけられるのは当然の成り行き

391:デフォルトの名無しさん
16/07/28 08:14:34.00 tnN3Zull.net
UCDのファイル名はUnihan(Unified-HAN)だろ
つまり韓国が起源

392:デフォルトの名無しさん
16/07/28 09:47:39.76 V0F605Q9.net
繁字体の繁

393:デフォルトの名無しさん
16/07/28 10:28:08.04 49cPLP5e.net
そうはいっても迷惑かけている部分もあるからな
英語だったら高々数十個のアルファベットと幾つかの記号だけで済むところを
何万種類も必要になる方が悪いだろ、どう考えても

394:デフォルトの名無しさん
16/07/28 10:52:38.11 765MMEfE.net
>どう考えても
何をどう考えたらそんなキチガイの発想に至ったのか

395:デフォルトの名無しさん
16/07/28 13:16:07.78 V4Cbn7HZ.net
英国はアヘン戦争で清を滅亡させるべきだったし、
米国は太平洋戦争で日本を滅亡させるべきだったね。

396:デフォルトの名無しさん
16/07/28 13:20:15.08 xeepOtn0.net
幽霊文字が規格化される国だから反論できない

397:デフォルトの名無しさん
16/07/28 14:16:22.55 ZhRv9dtO.net
勝手に新しい絵文字作り出してる現状なんだし気にするな
と思ったけど文字が少ない文化圏の連中はその反動なのかもしれないな

398:デフォルトの名無しさん
16/07/28 19:12:45.37 O8Vfrh0P.net
将来再び毛沢東みたいなアホが出てきて新文字増やす可能性もないとはいえない

399:デフォルトの名無しさん
16/07/28 23:10:34.74 +NfDBjt/.net
>>388
でも統合しきれなくてコードポイントを無駄遣いしているのが多数。
例えば一例として説と說が別字扱いというのは納得できない。
康煕字典に47000字、大漢和辞典に50000字というのは調べれば最初から分かった筈。
相当節約すべきなのにそれを怠ったから16bitのバベルの塔は頓挫した。
>>394
そしてそれを廃止できない。負の文化遺産として今後も残るだろう。

400:デフォルトの名無しさん
16/07/28 23:49:12.01 m+0rYuPE.net
そういえばニホニウムの中国語表記はどうなるんだろう

401:デフォルトの名無しさん
16/07/29 01:02:54.07 SETcyGJa.net
小日本素あたり？

402:デフォルトの名無しさん
16/07/29 07:36:19.19 Lct7OLsq.net
え？

403:デフォルトの名無しさん
16/07/29 08:13:31.17 GYJuIIBJ.net
>>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑

404:デフォルトの名無しさん
16/07/29 12:00:07.20 5X3dVFw4.net
原規格分離規則が無かったら更にカオスなことになってそう

405:デフォルトの名無しさん
16/07/29 23:13:14.93 qPs+aDEn.net
>>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。

406:デフォルトの名無しさん
16/07/30 00:36:36.04 GBcwIM/b.net
説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaram

407:ondのAとBodoniのAは別字だと主張する様なものだ。

408:デフォルトの名無しさん
16/07/30 01:00:50.77 nwxv/kKT.net
IPAを食らうがよい

409:デフォルトの名無しさん
16/07/30 02:27:38.51 VkFDbK5O.net
フォントの違い？じゃあ別字で😁
A Ａ 𐌀 𝐀 𝐴 𝑨 𝒜 𝓐 𝔄 𝔸 𝕬 𝖠 𝗔 𝘈 𝘼 𝙰

410:デフォルトの名無しさん
16/07/30 03:37:32.39 crIAC8Sk.net
BOMを食らうが良い。

411:デフォルトの名無しさん
16/07/30 05:58:51.63 7lrNNE5f.net
>>403を通訳すると
「現規格分離などどうでもいい」
「日本の漢字文化がすべて。他の国のことは知らん」
最悪だな

412:デフォルトの名無しさん
16/07/30 06:32:16.51 RG1Ilx1/.net
× 現規格
○ 原規格

413:デフォルトの名無しさん
16/07/30 13:16:26.02 NnN7Vre0.net
>>404
華と华は同じ字ですか？

414:デフォルトの名無しさん
16/07/30 13:17:35.16 NnN7Vre0.net
>>406
Уとｙは同じ字ですか？

415:デフォルトの名無しさん
16/07/30 21:48:28.00 dIHoRAg/.net
ソ
ン
ツ
シ
カタカナのヘ
ひらがなのへ

416:デフォルトの名無しさん
16/07/30 21:55:31.23 cBq8SpsU.net
:::::::::::/　　　　　　　　　　ヽ::::::::::::
:::::::::::|　　ば　　じ　　き　　i::::::::::::
:::::::::::.ゝ　か　つ　み　ﾉ:::::::::::
:::::::::::/　だ　　に　　は　ｲ:::::::::::::
:::::　 |　　な。　　　　　　　ﾞi　　::::::
　　　＼_ 　　　　　　　 ,,-'
―--､..,ヽ__　　＿,,-''
:::::::,-‐､,‐､ヽ.　)ノ　　　　　＿,,...-
:::::_|/ ｡|｡ヽ|-i､　　　　　 ∠＿:::::::::
／. ` ' ● '　ﾆ､　　　　 ,-､ヽ|:::::::::
ニ　＿_ｌ＿_＿ノ　　　　 |・ |　|, -､::
/￣　＿　　| i　　　　　ﾟr ｰ'　　6 |::
|(￣`'　　）/ /　,..　　　 i　　　　　'-
`ー---―' / '（__ ）　　　ヽ、　　　　　>>1
====（ i）==::::／　　　　　　,/ﾆニニ
:/ 　　　ヽ:::i　　　　　　　/;;;;;;;;;;;;;;;;

417:デフォルトの名無しさん
16/08/01 17:17:15.79 JXVULl1x.net
ソとンは微妙なのは判るが
ツとシは明らかに違う字だろ

418:デフォルトの名無しさん
16/08/01 17:43:19.40 A0XjWkqP.net
( ツ )ﾉｼ

419:デフォルトの名無しさん
16/08/01 22:12:49.95 AzMK4PQ3.net
兌を部品として含む字は説の他にも色々ある。
脱税悦など。これらは統合されている。
説は何故か康煕字典の正字(Big5,KS)と楷書通用字体(JIS,GB)の2種類に分裂している。
固有名詞の表記で揉め事になる字でもない。何かの手違いかと。
>>414
日本人にとっては明らかに違う字だが中国人、韓国人などには区別しづらいようだ。
アジアからの輸入品ではそういう誤植はよく見かける。ショートカット→ツョートカシトなど。
レ、しの混同も多い。

420:デフォルトの名無しさん
16/08/01 22:24:15.16 AzMK4PQ3.net
日本人にとってシンデレラとツンデレラは明らかに違う。外国人に(ry

421:デフォルトの名無しさん
16/08/01 23:10:29.38 AzMK4PQ3.net
説と说はunicodeでは別字だった。
という事で訂正。JISは楷書通用字体、GBは簡体字。つまり3種類に分裂している。
スマンカッタ。

422:デフォルトの名無しさん
16/08/02 02:07:22.57 1KCZrKLH.net
>>418を通訳すると
「原規格分離などどうでもいい」
Windowsコードページ936(GBK)より
U+8AAC(説) = D568
U+8AAA(說) = D566
U+8BF4(说) = CBB5

423:デフォルトの名無しさん
16/08/02 14:41:15.32 X69kNOq3.net
誰得…
URLﾘﾝｸ(twitter.com)

424:デフォルトの名無しさん
16/08/02 19:31:05.47 JwtZ9iAm.net
>>416
>ショートカット→ツョートカシト
日本人にもいるわ

425:デフォルトの名無しさん
16/08/02 20:49:40.10 LBy6cWLg.net
こうやって、タンクトップにショートパンツを貼り付けるんだお。
意味：デスクトップにショートカットを貼り付ける。

426:デフォルトの名無しさん
16/08/02 23:35:51.72 zi+BVpwh.net
ディスクトップのことをタンクトップというやつは見たことないな

427:デフォルトの名無しさん
16/08/02 23:48:20.71 2l83Zpm1.net
円盤の上に

428:デフォルトの名無しさん
16/08/03 00:17:44.35 4zWXrFMO.net
>>398-399
中国人は元素記号を漢字1文字で表す。こんな具合。
URLﾘﾝｸ(www.akatsukinishisu.net)
>>419
GBKはUnicode1.1より後に出来た。何故かUnicodeの駄目な部分をかなり含んでいる。
それを引き合いに出すのは筋違いとまでは言わなくても、慎重に考える方が良いかと。

429:デフォルトの名無しさん
16/08/03 17:17:04.74 XuAWxec+.net
iOS 10では拳銃の絵文字が水鉄砲の絵文字に置き換えられる | スラドアップル
URLﾘﾝｸ(apple.srad.jp)

430:デフォルトの名無しさん
16/08/03 18:29:34.34 mbys/AN5.net
わろた

431:デフォルトの名無しさん
16/08/03 18:31:08.54 mbys/AN5.net
Aが牛刀かなんかで
JがJナイフだろ

432:デフォルトの名無しさん
16/08/03 23:47:05.83 4zWXrFMO.net
森鴎外と書こうと森鷗外と書こうとどちらでも良い、というのが一般人の感覚。
これはそれほど不健全とは思えない。何しろ自筆原稿に「森鴎外」と書かれているんだから。
鴎は俗字だケシカラン、というのは一部の規範意識の強い正字正かな主義のキチガイ。
鷗はダメだ鴎と書け、というのはもっと訳のわからん国語改革主義のキチガイ。
こいつらがJISの83改定を行った為にカオスに。

433:デフォルトの名無しさん
16/08/04 08:56:22.25 FjB5rL2o.net
>>429
使いわけがされていない字体違いの漢字はまとめてしまおうというのは文字コードの問題ではない。

434:デフォルトの名無しさん
16/08/04 12:12:59.75 8anV95gh.net
恵'
っていうのも流行ったけど
文字コードありますか？

435:デフォルトの名無しさん
16/08/04 17:09:02.57 TBSxpqkz.net
U+6075 U+E101

436:デフォルトの名無しさん
16/08/04 18:54:49.83 GAy76/a3.net
U+FA6B
U+6075 U+E103
でもいいのよ？

437:デフォルトの名無しさん
16/08/04 19:07:39.26 8anV95gh.net
U+FA6B でいけましたありがとう

438:デフォルトの名無しさん
16/08/04 19:32:46.16 Ki4RLkNz.net
U+6075 U+FE00
でもいいぞ

439:デフォルトの名無しさん
16/08/05 14:48:07.96 nIRHSvG0.net
この流れ、前にどこかで読んだ気がするなー、と思ったら
直井氏の「重複符号化四天王」だった。↓
URLﾘﾝｸ(d.hatena.ne.jp)

440:デフォルトの名無しさん
16/08/05 14:56:27.37 9LvdmO9z.net
ということは祇園もあれか
祗園と書くとやられるのか

441:デフォルトの名無しさん
16/08/05 14:58:22.57 LJe/qM3f.net
julia> '\ufa6b'
'恵'
さすがだな

442:デフォルトの名無しさん
16/08/05 22:00:51.73 49rJvUnO.net
>>436
最近更新されてないな

443:デフォルトの名無しさん
16/08/05 22:19:20.77 zXAznUbh.net
>>430
いや、全く無関係ではあるまい。
鴎と鷗は使い分けがされていなかった、という点ではあなたも同意してくれるだろう。
原規格分離されていないのにUnicodeでは別字扱いになってしまった。
そもそも83改定を行ったJISと唆した国語審議会に元凶があったのだが、Unicodeにも責任の一端がある。
国語審議会は鷗を滅ぼして鴎に置き換えようとした。
本人に問い詰めて確認したわけではないが、多分そういう事だろう。
1000年以上にわたって使われ続けた字を滅ぼす事などそう簡単に出来る筈がない。
結局、国語審議会に滅ぼされる事なく生き残り、鴎と別の字になってしまった。
なお、最近見たベネッセの小学漢字辞典に鷗は載っていたが鴎は載っていなかった。
>>437
祇と祗は元々意味も読みも異なる別字。だが見た目が良く似ているので古くから混同される事が多かった。
「ぎおん」と入力して「祗園」と変換出来てしまうMS-IMEが悪い。
百歩譲ってその変換を認めるとしても、せめて「本来は誤用」ぐらいのメッセージは出してほしい。

444:デフォルトの名無しさん
16/08/05 23:24:48.92 Ox1rQ2Fh.net
>>437
フォントその他がJIS X 0213:2004対応かどうかで
偏が「示」になったり「ネ」だったりには変わるな

次ページ