文字コード総合スレ Part12at TECH
文字コード総合スレ Part12 - 暇つぶし2ch31:デフォルトの名無しさん
18/12/20 04:20:27.30 ojhJ7lIE.net
> バイトオーダーやアラインメントは、C/C++以外の言語でバイナリデータを使おうとした時に強く意識することになる。
C/C++言語以外ではライブラリが処理してしまうんで意識しないかな
C/C++ライブラリを呼び出すライブラリを作るときは意識するだろうけど、
それって結局C/C++言語で書くんで、あれ?意識するのはC/C++かw

32:デフォルトの名無しさん
18/12/20 06:53:32.14 Epiz8Tj2.net
>>30
例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。

33:デフォルトの名無しさん
18/12/20 07:18:15.99 ojhJ7lIE.net
× 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、アセンブリ並みに低レベルなオフセット調節を自力で行う必要に迫られる。
○ 例えばWindows環境だと、C/C++以外の言語でWin32API関数を固有の構造体を入出力に使う場合、C/C++並みに低レベルなオフセット調節を自力で行う必要に迫られる。

34:
18/12/20 07:37:44.12 W1ypdRwu.net
>>32
うーん、具体的な win32api 名(だけでいいです)を例示してください.

35:デフォルトの名無しさん
18/12/20 07:43:09.20 ojhJ7lIE.net
>>31に聞いてください

36:デフォルトの名無しさん
18/12/20 08:04:20.01 Epiz8Tj2.net
>>32
勝手に書き換えないでもらいたい。
C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが、他の言語だとそうはいかないので、アセンブリと同じようなオフセット調節が必要。
SendMessage(WM_COPYDATA)の送受信データの読み書きなど例はいくらでもある。

37:デフォルトの名無しさん
18/12/20 10:08:25.12 48mnxvPx.net
>>35
>C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが
誰に騙された?

38:デフォルトの名無しさん
18/12/20 13:46:21.36 P4Rv6f7s.net
実行メモリ上はともかく
ファイルやネットワークストリームでLEにするアホいるんか?

39:デフォルトの名無しさん
18/12/20 16:58:53.93 Epiz8Tj2.net
エンディアンもさることながら32/64bit整数の幅調節が厄介。
使っている言語が32/64bitどちら向けでビルドされたものなのかによって構造体メンバのアラインメントを適切に処理する必要が出てくる。
言い換えれば、C/C++で作った構造体をバイト列で渡し、C/C++以外の言語でバイト列を構造体に復元する処理が厄介。
単に構造体の64bit整数メンバだけ気を付けるのではダメで、構造体の全メンバのアラインメントそのものが大きく変わりうることに注意する必要がある。

40:デフォルトの名無しさん
18/12/20 18:26:27.50 6OEKrw3R.net
いや、だからさ、その程度までは理解できてるのに、何故「C/C++だと構造体の各メンバ変数のアラインメントを意識しなくていいが」なんてことを言っちゃうの?
それとアラインメントの話とバイトオーダーの話を混同しないように気を付けた方がいいよ。

41:デフォルトの名無しさん
18/12/20 19:07:05.38 oZOw2Nhk.net
C/C++しらないけど、魔法のようにアライメントを
勝手に調整してくれるんじゃないの?想像しただけで

42:デフォルトの名無しさん
18/12/20 21:19:19.38 /Up9dRku.net
Unicodeは普通にリトルエンディアンもありだ
なんで Byte Order Mark(BOM) がファイルの先頭に入ってるのか分かってない
Javaバイトコードのcafe babeみたいな飾りだと思ってんの
リトルエンディアンの計算機ばっかりがあるとこで
ビッグエンディアンでファイルを保存する理由なんかないからな
当然、そういったコンテンツデータがHTTPでも流れてくる

43:デフォルトの名無しさん
18/12/20 21:20:17.21 /Up9dRku.net
やっぱりこの板には
クルクルパーしかいない
そしてそのクルクルパーの声だけがでかい
やっぱりな低学歴知恵遅れは
この板から排除する必要がある
板が正常に機能しない

44:デフォルトの名無しさん
18/12/20 21:26:52.62 gpCj1726.net
アライメントはふつうコンパイラが適切に調整してくれるよね。
32/64bitで整数サイズの違いでメンバオフセットが変わるってのはアライメントとは別の話。

45:デフォルトの名無しさん
18/12/20 21:31:46.95 /Up9dRku.net
32bitなら
ちゃんと32bitに詰まるように
メンバの順序かえる

46:デフォルトの名無しさん
18/12/20 21:38:37.03 /Up9dRku.net
char unko
char foo
int aho
short poi
char baka
int manuke
short boo
char woo


int manuke
----
int aho
----
short poi
short boo
----
char unko
char foo
char baka
char woo

64bitでも考え方は同じ
強制パッキングのオプション使えるコンパイラもある

47:デフォルトの名無しさん
18/12/20 21:42:31.32 oZOw2Nhk.net
今問題としてるのはファイルの話だ。
32bitシステムで作られたファイルを64bitシステムに
持ってきたとしてもファイルの内容が変わるわけじゃない
つまりC/C++で32bitでint型で扱っていたからと言って
64bitでもint型で扱ってはいけないということだ

48:デフォルトの名無しさん
18/12/20 21:44:56.46 /Up9dRku.net
バカがよくやる誤りは
メモリ境界をまたぐ位置で64bit値を参照したりして
バスエラーを起こす

シリアライズデータを直に参照できると思ってるバカがあとをたたない
CISCの計算機しか使ったことないサル並の脳みそのヤツがよくやる

49:デフォルトの名無しさん
18/12/20 21:53:38.53 /Up9dRku.net
そんなファイル読み込むときに
普通にintなんか使わないからな
そんなことは低学歴知恵遅れしか発想できない

utf16なら16bit単位(uint16_t)
utf32なら32bit単位(uint16_t)
で読み込む
リトルエンディアンの計算機で
ビッグエンディアンのUnicode読む場合は
16bit単位なら16bit単位でオクテット列の並びを逆転させる
32bit単位なら32bit単位でオクテット列の並びを逆転させる
リトルエンディアンの計算機で
リトルエンディアンのファイル読み込むならオクテット列の並びを逆転させる必要はない
ビッグエンディアンならその逆になる
低学歴知恵遅れはこういった基本的な理解がない

50:デフォルトの名無しさん
18/12/20 21:59:01.65 gpCj1726.net
>>45
C/C++の規格じゃ構造体のメンバは宣言された順にアドレスが増加するよう並べられることになっている。
仮に>>45のような最適化を行うことができる処理系が存在したとしても、一般的と言えるものではない。

51:デフォルトの名無しさん
18/12/20 21:59:21.79 KozHiIkR.net
one little two little three little endians

52:デフォルトの名無しさん
18/12/20 22:00:12.93 /Up9dRku.net
だからそう書いてる
手動で自分で並べ替える

53:デフォルトの名無しさん
18/12/20 22:12:47.37 gpCj1726.net
自分で並べ替えろって話か。それは勘違いした、すまん。

54:デフォルトの名無しさん
18/12/20 22:23:36.55 tzmwAGAt.net
結局C/C++でもアライメント意識して、自分で適切な型を選択しているってわけさ
他の言語でも一緒。ただし型が違うからバイト数を指定するだけの話

55:デフォルトの名無しさん
18/12/20 23:02:54.77 Epiz8Tj2.net
PGならば、楽するためにJava/C#/Python/Perl/Rubyなどを使ってたはずなのに、C++よりめんどくさくなって心が折れそうになる経験を一度はしておいたほうがいい。

56:デフォルトの名無しさん
18/12/20 23:23:21.93 tzmwAGAt.net
いや、C++よりも面倒なことってないから
そんな経験するのは無理だよ

57:デフォルトの名無しさん
18/12/20 23:49:16.62 /Up9dRku.net
やはり低学歴知恵遅れには
C++はむり
レスみればよく分かる
レスから頭の悪さがにじみ出てる
低学歴のレスはすぐにわかるわ
残念なことに

58:デフォルトの名無しさん
18/12/21 12:36:36.76 C7PBMVlX.net
データのアラインメントはどんな言語を使うにしても気にする必要がある。
しかし、Windows が VisualC++ でビルドされていて、VisualC++
もしくは互換のアラインメントができる言語でアプリを組めば、
気にしなくてもよい、ということだけだろう。

59:デフォルトの名無しさん
18/12/21 14:56:12.53 wVAQd9sY.net
>>57
gcc も同じだよ。64bit版linux gccはwchar_tを16ビットにするか32ビットにするかを切り替えビルドできるからさらに厄介。
構造体を丸ごとダンプしたバイナリデータを同じOS上の別プロセスに渡すのは繊細な注意がいる。

60:デフォルトの名無しさん
18/12/21 16:01:10.01 2iFVCAc3.net
で、なんだっけ?バイナリファイルのデータが
16bitで格納されていようが32bitで格納されていようが
C/C++だったらアライメントを勝手に調整してくれるんだっけw
へー、勝手にねー、intで扱ってれば、勝手に調整してくれるんだーw

61:デフォルトの名無しさん
18/12/21 16:43:13.79 wVAQd9sY.net
intが16bitの組み込み向けプログラムであっても同じコンパイルオプションで作ったモジュール同士ならバイナリの復元はC言語の型キャストだけで可能。
構造体が仕様として公開されている場合、どの言語であれアラインメントを意識した実装が必要になるが、C言語は実装コストが最も低くなる傾向はある。
スクリプト言語を使う人がアラインメントを意識せずにすんでいるのは、ライブラリ実装した人が頑張ってくれた・くれているおかげ。

62:デフォルトの名無しさん
18/12/21 17:01:59.77 2iFVCAc3.net
一方他の言語では、指定したオフセットから何バイト読み込むか指定するだけなのであった

63:デフォルトの名無しさん
18/12/21 17:02:51.29 2iFVCAc3.net
C言語は、ヘッダファイル書いた人が頑張ってくれた・くれているおかげ

64:デフォルトの名無しさん
18/12/21 17:23:19.85 wVAQd9sY.net
>>61
先生。指定したオフセットから何バイト読み込むか指定する作業は、まさにアセンブラと同レベルの作業じゃありませんか。違いますか、先生。

65:デフォルトの名無しさん
18/12/21 17:47:28.44 2iFVCAc3.net
>>63
違いますね。memcpy相当ですから

66:デフォルトの名無しさん
18/12/21 18:13:53.48 ORTv1gtC.net
低学歴知恵遅れ先生はC/C++スレだけじゃなくてここにもくるようになったのか

67:デフォルトの名無しさん
18/12/21 21:50:05.59 0muy2Btq.net
>>65
色んなところにいるよ

68:デフォルトの名無しさん
18/12/21 22:02:28.52 SVNbSsFy.net
相変わらず日本語の読解に問題がありそうな奴がいるなぁ。

69:デフォルトの名無しさん
18/12/21 23:50:03.63 j37Ohb1y.net
まず低学歴知恵遅れは
低学歴知恵遅れの自覚がないからな

70:デフォルトの名無しさん
18/12/22 11:38:13.24 boWDflNh.net
実行時に使用中のCPUがLEかBEかを判定するプログラムを
Cでサンプル欲しいのですがどこかにありますか?

71:デフォルトの名無しさん
18/12/22 13:36:46.26 aa5NQG9N.net
bool is_bigendian() {
 return htons(1) == 1;
}

72:デフォルトの名無しさん
18/12/31 08:52:03.67 Tj5kujd4.net
C1制御文字の<128>って多くの文字コードで「PAD」と名付けられているのに
UnicodeでのU+0080はxxxみたいに無名なのって理由ある?

73:デフォルトの名無しさん
18/12/31 13:29:33.60 8Z6ezMyM.net
U+0080,U+0081,U+0084,U+0099は、ISO6429/ECMA-48で制御文字に含まれていない
というか削除されてる
URLリンク(www.ecma-international.org)
URLリンク(www.ecma-international.org)
WikipediaソースによるとUnicode初期ドラフトにはU+0080も入っていたみたいなことも書かれてるね
URLリンク(en.wikipedia.org)

74:デフォルトの名無しさん
19/01/01 01:45:48.02 kXQfWbAp.net
なんてこった
エイプリルフールだって?

75:デフォルトの名無しさん
19/01/01 23:58:04.80 j16q/z48.net
あけましておめでとうございます
2019年は何が起きるかしらね

76:デフォルトの名無しさん
19/01/02 00:20:17.09 R6tFufwf.net
エイプリルフールはまだだけど元号ネタとかあるだろうな
新元号『NEO平成』に決定みたいな

77:デフォルトの名無しさん
19/01/02 11:30:40.86 6YX6jwF2.net
新元号『��』

78:デフォルトの名無しさん
19/01/02 22:33:06.92 Fz1uszjs.net
新元号が分からなくてグリフが間に合わないからUnicode 12.1を出すってのは仕方ないけど
新元号の組字のためだけにAdobeJapan1を改訂するってのは馬鹿げてる

79:デフォルトの名無しさん
19/01/03 00:28:36.38 agNiXwq6.net
元号は安晋に内定してるだろ

80:デフォルトの名無しさん
19/01/03 09:15:51.35 IESB6EpY.net
MS-DOS でのプログラミングではメモリ内の特定のバイトについて
文字の中の何バイト目かを 1 バイトずつ遡って調べるということも
あったようだけど自分ではそういうコードを書いた記憶がない。
いや、もしかしたらあったのかもしれないけど。
EUC-JP の場合は ASCII なバイトかシングルシフトが現れた時点で
確定するようだけど。Unicode の時代になって良かったね。
まあ、そんなようなことを今更思った。あけましておめでとう。

81:デフォルトの名無しさん
19/01/03 21:04:56.87 ejflNGhp.net
>>72
ありがとう。
なにか事情があったんだろうけど、なんだろうね……。

82:デフォルトの名無しさん
19/01/04 13:59:50.88 8DNHKlb4.net
あけおめ
>>79
大昔のことだけど、SJIS 文字列の末尾から検索するプログラム書いてた時は「SJIS、お前はマジで殺す」という気持ちで一杯でした。
もう二度とあんなことはやりたくない。

83:79
19/01/04 17:36:17.24 opswFKCW.net
ありがとう、まさにそういうことです。
p=strchr( path,'\\'); /* おい *p 、お前は本当に '\\' なのか? 表とかじゃないのか? */

84:デフォルトの名無しさん
19/01/04 18:54:02.55 3Gm4cMvD.net
Windows環境ならそこは _mbschr() でしょ。

85:デフォルトの名無しさん
19/01/04 19:30:16.38 EMYjNY+E.net
UnicodeはSJISよりも扱いが複雑だけど
ライブラリが揃ってるからねー
一文字が1バイトだろうと3バイトだろうと
2文字で1文字を表していようが、簡単に一文字判定ができちゃう

86:デフォルトの名無しさん
19/01/04 21:30:36.38 atCGQoq2.net
複数コードポイントで1文字を表すのって上限って決まってないの?青天井?

87:デフォルトの名無しさん
19/01/04 22:02:58.14 rG/yv5Zr.net
UTF-8なら、最大四バイトだけど、そういうことじゃなくて?

88:デフォルトの名無しさん
19/01/04 22:11:30.43 FtJLKwOD.net
>>86
先ずコードポイントの意味を理解してから質問した方が良い

89:デフォルトの名無しさん
19/01/04 22:27:33.32 atCGQoq2.net
なんかごめん

90:デフォルトの名無しさん
19/01/04 23:45:49.70 EMYjNY+E.net
>>86
最大4バイトじゃないよ
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
URLリンク(tech.nikkeibp.co.jp)
Unicodeは複雑過ぎてライブラリを使わないと正しく扱うのはまず無理
もし自力で文字数をカウントしたいならこれとか読んで頑張れ
URLリンク(www.kthree.co.jp)

91:デフォルトの名無しさん
19/01/04 23:54:23.74 EMYjNY+E.net
ZWJシーケンス というのもあるね
URLリンク(qiita.com)
見た目上は1文字なのに例えば U+1F468 U+200D U+1F3A8 みたいに3文字になる。

92:デフォルトの名無しさん
19/01/05 00:00:08.40 41KVD0qa.net
URLリンク(unicode.org)
酷いねー。見た目上は1文字なのにU+1F441 U+FE0F U+200D U+1F5E8 U+FE0F と5文字分使ってる
バイト数だと17バイトみたいね

93:デフォルトの名無しさん
19/01/05 00:03:32.79 fLBZxFEd.net
合成文字・絵文字とかが絡むともっと地獄になるけどな
URLリンク(tech.albert2005.co.jp)
URLリンク(qiita.com)

94:デフォルトの名無しさん
19/01/05 00:03:39.55 41KVD0qa.net
ZWJを使うと最大11文字だって。
URLリンク(n2p.co.jp)

95:デフォルトの名無しさん
19/01/05 00:07:24.29 41KVD0qa.net
Unicodeは1文字の概念も破綻しちゃったね
1文字に見えるやろ?でもこれは11文字なんや
全く意味がわからないw

96:デフォルトの名無しさん
19/01/05 00:11:16.35 41KVD0qa.net
見た目上の1文字は最大4バイト×11文字で44バイトなのかな?w
11文字ってのは今現在存在する最大が11文字ってだけで青天井?
もうライブラリ使ってないと無理だね

97:
19/01/05 00:12:47.39 F8+3E8Pf.net
世の中にあるすべての文字をコード化してやる!
という意義には賛同していたんですけれども、(主に経済的理由により)絵文字が入った時点で失望してしまいました…
仕切りなおしたほうがいいんじゃないですか?

98:デフォルトの名無しさん
19/01/05 00:38:07.30 198zQJKz.net
仕切りなおしてもBCで絵文字は入ります。
というかもはや絵文字は世界中のスマホ/SNSユーザーに愛用されています。
ここまでくるともはや後戻りはできないのです。

99:デフォルトの名無しさん
19/01/05 00:46:41.68 fLBZxFEd.net
仕切りなおすどころかUnicodeの規格がさらに拡張されて状況悪化するんだろうなあ
Unicode12も来年・・・じゃないやもう今年リリースされる予定のはずだし

100:デフォルトの名無しさん
19/01/05 01:28:42.81 41KVD0qa.net
絵文字は象形文字の発展版なんだから
文字扱いするのは当然

101:デフォルトの名無しさん
19/01/05 12:51:39.06 l3tIMYns.net
現代の文字は自然発生するわけでも王朝が発布するわけでもなくユニコードコンソーシアムが追加するのだ

102:デフォルトの名無しさん
19/01/05 13:09:21.22 Lsf8iZgV.net
>>97
世界には文盲がわんさか居るから結局象形文字が必要ってことか

103:デフォルトの名無しさん
19/01/05 15:08:59.93 WAT5i9L3.net
世界が認めたニッポンのスゴーイ文化やぞ

104:デフォルトの名無しさん
19/01/05 15:19:11.13 dE0KuiGH.net
当の日本人にすら絵文字を扱いきれてなかったのに
そんなもんをコード化したら破綻するに決まってるんだよなぁ……

105:デフォルトの名無しさん
19/01/05 16:29:31.32 XzO5Y/Fl.net
1964年の東京五輪での案内表示がきっかけでしょ絵文字の開花は。

106:
19/01/05 17:03:40.22 F8+3E8Pf.net
>>99
絵文字と象形文字の間には確固たる断絶があります、おっしゃるような連続的なものではないと考えています
例えば、ある象形文字と別の象形文字との違いははっきりしていますが、ある絵文字と別の絵文字との違いを示す具体的な指標はないのでは?
それとも、これは私の知らなかったことですが、もしかして絵文字の内容はピクセル単位、あるいはベクターイメージですでに定義されているのですか?

107:デフォルトの名無しさん
19/01/05 17:24:42.05 41KVD0qa.net
はい

108:デフォルトの名無しさん
19/01/05 19:28:07.65 2yRzjNJO.net
便器に◎とか〓とか描いてあっても何のことか判らんで悩むだけやぞ

109:デフォルトの名無しさん
19/01/06 10:52:08.85 6OQPByjN.net
田穣崇さん『ドコモの絵文字にうんちを入れたかったのですが、社内で大反対されまして…』 うんちの絵文字がUnicodeに登録されるまでの裏話
URLリンク(togetter.com)

110:デフォルトの名無しさん
19/01/09 21:32:33.71 Duz5lH4D.net
うんちにも色バリエーションつけたいなあ

111:デフォルトの名無しさん
19/01/10 11:56:03.90 +qf2Eno1.net
カフェで野良WiFiのSSIDが絵文字になってたわ
うっかりつなぎそうになった

112:デフォルトの名無しさん
19/01/10 14:02:26.62 LOQSfV+x.net
形状バリエーションも欲しい
巻きうんち/一本糞/ビチグソ

113:デフォルトの名無しさん
19/01/10 18:35:20.73 1lL5sq44.net
POO WITH TURBANとかもほしい

114:デフォルトの名無しさん
19/01/14 01:16:50.95 s6eFaywu.net
U+FFFCとU+FFFDの違いってなんだろう。
一応URLリンク(www.unicode.org)←ここを読んでみたんだが
U+FFFCが「Unicodeの範囲で異常」、U+FFFDが「Unicodeですらない」
ことを示す文字なのかな?

115:デフォルトの名無しさん
19/01/14 11:40:16.54 tN6VIVTj.net
Unicodeですらないのに「


116:U+~」という表記はこれ如何にw



117:デフォルトの名無しさん
19/01/15 16:00:55.99 exaSay/9.net
Replacement Characters: U+FFFC–U+FFFD
U+FFFC. The U+FFFC object replacement character is used as an insertion point for objects located within a stream of text.
All other information about the object is kept outside the character data stream.
Internally it is a dummy character that acts as an anchor point for the object’s formatting information.
In addition to assuring correct placement of an object in a data stream, the object replacement character allows the use of general stream-based algorithms for any textual aspects of embedded objects.
U+FFFD. The U+FFFD replacement character is the general substitute character in the Unicode Standard.
It can be substituted for any “unknown” character in another encoding that cannot be mapped in terms of known Unicode characters.
It can also be used as one means of indicating a conversion error, when encountering an ill-formed sequence in a conversion between Unicode encoding forms.
See Section 3.9, Unicode Encoding Forms for detailed recommendations on the use of U+FFFD as replacement for ill-formed sequences. See also Section 5.3, Unknown and Missing Characters for related topics.

118:デフォルトの名無しさん
19/01/15 18:43:18.89 cLBK0jiu.net
>>115
sorry Japanese only please

119:デフォルトの名無しさん
19/01/15 20:15:36.54 XDACXjEE.net
>>116
なんで卑屈なの?

120:デフォルトの名無しさん
19/01/16 11:07:49.88 vTKVQdGX.net
朝鮮人クオリティ

121:デフォルトの名無しさん
19/01/17 14:01:24.86 yxSqAYIN.net
消えゆく「黒電話」マーク…時代とともに変化
URLリンク(www.sankei.com)

122:デフォルトの名無しさん
19/01/17 14:27:36.24 fAu7Qwle.net
一方、保存ボタンには相変わらずフロッピー��

123:デフォルトの名無しさん
19/01/17 21:08:16.21 rro3H2AR.net
今はこうですよ
URLリンク(www.appps.jp)

124:デフォルトの名無しさん
19/01/17 21:10:53.89 1NGaj4L3.net
ダウンロードかな

125:デフォルトの名無しさん
19/01/18 04:13:25.86 6U5tZjv3.net


の方が合ってると思うけど
現実は

下載

126:デフォルトの名無しさん
19/01/18 15:39:10.11 XYduBDiM.net
直訳かよ

127:デフォルトの名無しさん
19/01/19 00:58:09.98 cLBGydY8.net
>>115
これ使われてるの?

128:デフォルトの名無しさん
19/01/19 01:02:48.22 TqFwYkHH.net
使われてるよ

129:デフォルトの名無しさん
19/01/20 06:25:45.86 kFywruI2.net
>>115
んーつまり基本的にはU+FFFDを使っとけばいいのかな。
マジで英語が読めんので当てずっぽうだがw

130:デフォルトの名無しさん
19/01/20 19:36:07.54 GM/wkhUD.net
FFFC はオブジェクト用。変換のときに絵でも音楽でも写真でも、主に文字以外のものが埋め込まれていた場合用。
FFFD は文字用。変換のときに他の文字コードでは表現できる文字がユニコードでは表現できなかった場合用。

131:127
19/01/21 07:51:07.97 uncS2Ppy.net
>>128
なるほど「オブジェクト」ってそういう意味か!
ありがとう。
つまり基本的に(Unicode環境で)「文字化け」した場合は
U+FFFCを目にすることはない訳だ。
(Webブラウザなら画像は別の形で表示されるし
端末なら8bitキャラクタの集合としてU+FFFDが使われるし)

132:デフォルトの名無しさん
19/01/21 10:29:40.20 z/MdI8Lw.net
そもそも外部に公開するドキュメントにU+FFFC,U+FFFDが存在すべきでないということでは。
アプリケーションが内部で使ってよい領域という意味と受け取ったわ。

133:
19/01/22 01:05:00.00 zFHfz07h.net
漢字コードのことでわからなくなりましたので質問いたします。
よろしくお願いいたします。
URLリンク(pc.watch.impress.co.jp)
>文字データをシフトJISではなく、Unicodeで保存するとどんないいことがあるのか。
>たとえばUnicodeならあらゆる言語の文字を混在させることができる。
>Wordでしか文書を書かないエンドユーザーにはそんなこと当たり前じゃないかと言われそうだが、
これって本当ですか?
私見では日本語の漢字と中国語の漢字を同一文書にて同時に表示できないし混在もできない、と思っていたんですが…。
CJK 漢字統合の影響はもう過去の話になってしまったんでしょうか?

134:デフォルトの名無しさん
19/01/22 02:31:06.16 leGefjnc.net
字体とか書体を文字としてどう考えるか、で答えが変わるだろ

135:
19/01/22 02:34:15.81 zFHfz07h.net
>>132
現に存在するUTF-32/UTF-8 という文字コードの集合を使用した場合に日本語と中国語の漢字を
①:同一文書に含ませることは可能でしょうか?②:①が可能であったとして、PC の画面にて同時に表示することは可能でしょうか?

136:デフォルトの名無しさん
19/01/22 02:59:07.23 leGefjnc.net
どっちも可能

137:デフォルトの名無しさん
19/01/22 07:59:46.55 Um5Ij+zI.net
新しめのブラウザでUTF-8の文書を書いて、中国圏の自体にしたい文字を
<span lang="zh">
みたいに指定してやると全く同じコードポイントでも違う字形になる。

138:デフォルトの名無しさん
19/01/22 13:07:54.27 /wbMKv3O.net
>>131
こいつはプログラマじゃないからな
かなり適当な理解で記事描くな

139:デフォルトの名無しさん
19/01/22 14:56:00.21 SJtsjRub.net
>>131
Unicodeは全世界の文字に対応した文字コード
混在して使えるのは当たり前

140:デフォルトの名無しさん
19/01/22 23:10:13.56 MZI8yiK5.net
>>133
より正確に言えば、
保存するときにローカルの文字コードに変換してるソフトかもしれないのでそのソフトの仕様による
例えば英文フォントしかないPCだと漢字は表示できないだろうから表示できるかどうかは環境による
だろう
>>131
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ

141:デフォルトの名無しさん
19/01/23 08:37:00.98 bn3mLL6F.net
>131
私?では日本?の?字と中国?の?字を同一文?にて同?に表示できるし混在もできるが。

142:デフォルトの名無しさん
19/01/23 08:38:04.03 bn3mLL6F.net
あちゃー。unicode文字が全部?になってしまった。

143:デフォルトの名無しさん
19/01/23 12:18:22.13 djVGMpuO.net
>>138
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
縄文時代の日本語が文字コードで表せるならばUnicodeで表せる

144:デフォルトの名無しさん
19/01/23 20:08:35.75 9uGbsXCn.net
>>141
文字がないのに文字コード化できるの?

145:デフォルトの名無しさん
19/01/23 23:59:31.81 einaVBCe.net
漂流する論点

146:デフォルトの名無しさん
19/01/24 10:44:11.21 TePOwsZ1.net
論点ずらしは朝鮮人のはじまり

147:デフォルトの名無しさん
19/01/24 14:09:11.07 CmuJPGgn.net
>>142
俺に言うな。>>138に家
縄文時代の日本語を混在できないとしたら、
それは例えば「文字がない」ことなのに、
Unicodeだから無理みたいな言い方してるんだから

148:デフォルトの名無しさん
19/01/24 14:37:04.33 YqEq6vd1.net
Unicodeだからできないなんて、誰も言ってないと思うのだが。
被害妄想にとりつかれた朝鮮人みたいだな。

149:デフォルトの名無しさん
19/01/24 14:59:51.89 CmuJPGgn.net
> あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理だと思うがなあ
じゃ、この発言で言いたかったことは何だって言うの?
「私(>>138)は馬鹿です。」以外に何も思いつかないんだが

150:デフォルトの名無しさん
19/01/24 23:03:59.13 YqEq6vd1.net
>>147
>じゃ、この発言で言いたかったことは何だって言うの?
(unicodeならすべての言語を混在できるという話しを受けて)
あらゆる言語とは言うけど、縄文時代の日本語を混在させるのは無理
だろ。他に何があるってんだ?

151:デフォルトの名無しさん
19/01/25 11:58:11.28 Syn0T0uw.net
横からすまんが元レスをたどると>>131「あらゆる言語の文字を混在させる」だぞ。
それを>>138がしょっぱなから「あらゆる言語を文字で混在させる」に読み違えてるように思える。

152:デフォルトの名無しさん
19/01/25 12:36:50.26 EnRgcOgq.net
宇宙の惑星や生命体の多さから言って
UNICODEじゃ全然足りないのは明らか

153:デフォルトの名無しさん
19/01/25 14:50:56.20 fW+xzaQf.net
>>148
縄文時代の日本語ってなに?
参考リンク教えて

154:デフォルトの名無しさん
19/01/25 21:01:41.10 Syn0T0uw.net
これ誰かがわざと論点動かして遊んでるだけだな…

155:デフォルトの名無しさん
19/01/25 21:59:31.32 cTfFLjRM.net
>>149
だから文字のない言語は無理だろ?
という話だけなのに、なんでひねくれてるの?

156:デフォルトの名無しさん
19/01/26 15:18:19.02 yVAkGzul.net
>>152
朝鮮人メンタル

157:デフォルトの名無しさん
19/01/26 17:43:06.71 +ikAikUs.net
なぜ文字コードスレで文字の無い言語の話をしようと思ったのか

158:デフォルトの名無しさん
19/01/27 20:08:40.52 fsCM9HoX.net
そこに文字がないから

159:デフォルトの名無しさん
19/01/28 17:43:32.30 2/HZJEKq.net
win32apiスレ荒すな!

160:デフォルトの名無しさん
19/01/29 08:22:23.73 NccK+bbj.net
なんか旧かなキチガイと同じ臭いがする

161:デフォルトの名無しさん
19/02/01 11:28:25.54 FNQUOW/0.net
いきなりですが質問失礼します
とあるオンラインゲームをやってまして
そこで名前のソートの規則から、そのゲームが採用している文字コードの符号化方式を知りたいのですが
各コードにおいての文字の並びと、実際のゲーム内での文字のならびに違いがあったので素人の私にはお手上げ状態です
素人なりに6時間ほどぐぐってみたりしたのですが、それらしい符号化方式は特定できませんでした
スプレッドシートに、ゲーム内で実際にソートされていた文字を順番も合わせてまとめました
文字コードや符号化のスペシャリストのみなさんにこれを見てもらって、一番近い符号化方式をお教えいただけたらうれしいです
文字ソートまとめ、上から下に向かって昇順になっています
URLリンク(docs.google.com)
それではよろしくお願いします

162:デフォルトの名無しさん
19/02/01 11:40:45.63 FNQUOW/0.net
このサイトを参考に文字コード引っ張って来てみました
URLリンク(ash.jp)
区 点 JIS SJIS EUC UTF-8 UTF-16 字
01 86 2176 8196 A1F6 EFBC8A FF0A *
84 06 7426 EAA4 F4A6 E78699 7199 熙
17 77 316D 898D B1ED E78795 71D5 燕
44 80 4C70 96EE CCF0 E79FA2 77E2 矢
27 71 3B67 8E87 BBE7 E7B4AB 7D2B 紫
01 49 2151 8170 A1D1 EFBD9D FF5D }
ゲーム内では熙 燕 矢 紫の順にソートされており
引っ張ってきた文字コードを見ると、数字と文字のソート関係が昇順で一致していたのがUTF-8かUTF-16だったので
その2つかな?と思ったのですが、実際にそれらの符号化のサイトを見てみたら、ゲーム内のソートとはまた違う規則性のようでした
実験として、符号化の一番値の大きい文字である「FF5D }」を文字として使ってみたところ
先の4つの漢字の下にソートされたのでUTFあたりが近そうなのですが、それ以上は素人にはわからないので困ってしまっている状況です。
どうかご助言の方なにとぞよろしくお願いします。

163:デフォルトの名無しさん
19/02/01 13:28:31.64 OoI2nX80.net
区別しない文字があるんだから文字コード外のルールでソートされてるんだろ
特定の符号化を示唆する特徴が見られたとしてもそれは実際に採用されてる符号化と直接の関係がない

164:デフォルトの名無しさん
19/02/01 14:36:54.05 5sjBS9D2.net
StrCmpLogicalWとか知らなそう?

165:デフォルトの名無しさん
19/02/01 18:36:04.25 FNQUOW/0.net
回答ありがとうございます
本当に助かります
>>161
あーそういう感じですか・・・
ってことは自分で調査しないとだめそうですね
返答ありがとうございました
>>162
ほとんど初心者なので知りませんでした こういう関数があるんですね
専門用語とかだけでも出してもらえて嬉しいです
何も知らないのでぐぐる事もできなかったので助かります

単語さえわかればあとはこちらで調べますので
他にも関連した情報がありましたら用語だけでも教えてもらえると嬉しいです

166:デフォルトの名無しさん
19/02/01 19:29:42.41 GHV5J4t+.net
Unicode(UTF-8, UTF-16)はコードポイント順とは別にソート順のデータが定義されてるんだけど
記号類がアルファベットの前に来るってのはそれっぽいような
URLリンク(www.unicode.org)
でも〆の位置は明らかに違うなぁ

167:デフォルトの名無しさん
19/02/01 22:48:31.77 UXXgl86T.net
>>161
ほんそれ

168:デフォルトの名無しさん
19/02/01 23:10:01.58 1OLKpSdz.net
例えば韓国製のゲームなら韓国語での文字コード順になってるかもな
データベースにMySQLを使ってるかもしれないという前提だと
MySQLでのソート順序はCollationという
URLリンク(variable.jp)
> MySQL5.0では,126種類でMySQL5.1では,127種類のCollationが用意されている。
> 一つの文字コードに複数のCollationが用意されていて、文字データの場合,文字コードによって,
> 並びが変化する。
127種類のうちUTF8系だけで21種類の順番が存在する

169:デフォルトの名無しさん
19/02/04 15:09:00.52 ipefWero.net
中国製なら中文系かもな。「Big5」とか「CNS11643(EUC_TW)」とか、「GB2312(EUC_CN)」とか。

170:デフォルトの名無しさん
19/02/05 19:23:22.90 9Z2hbdGL.net
日本製でもCO-59とかの可能性がある。

171:デフォルトの名無しさん
19/02/06 14:24:15.52 r9SYyl7G.net
230 New Emojis in Final List for 2019
URLリンク(blog.emojipedia.org)

172:デフォルトの名無しさん
19/02/06 15:28:47.74 kcXvzDdu.net
絵文字ちゃうやん
ただの絵

173:デフォルトの名無しさん
19/02/06 21:57:35.71 /jZJbKDa.net
>>169
ブリックパックの右二つがなんだかわからない

174:デフォルトの名無しさん
19/02/07 00:13:13.64 XGqZMSaR.net
だんだんレゴみたいになってきたな

175:デフォルトの名無しさん
19/02/07 18:52:35.59 rnocbaU8.net
>>171
南アの飲み物マテと牡蠣じゃねーの

176:デフォルトの名無しさん
19/02/08 04:31:41.05 6HMnnMCZ.net
なんか真珠できてない?

177:デフォルトの名無しさん
19/02/08 19:56:39.86 oJ2kcRDW.net
真珠を絵に入れるなら pearl oyster にしとけばいいのに

178:デフォルトの名無しさん
19/02/09 15:36:03.22 3lTArmdf.net
>>110
SSIDって英数字だけじゃないの?

179:デフォルトの名無しさん
19/02/09 16:49:37.43 UMSUoHVI.net
>>176
ほとんどのルーターで禁止されているけど、ルーターのWebUIでSSIDを設定する時に
JavaScriptの文字列チェックを外して強引にUTF-8で設定させるのが一部で流行っているらしい。

180:デフォルトの名無しさん
19/02/10 00:42:00.71 katisOGx.net
内部UTF-8なの?

181:デフォルトの名無しさん
19/02/10 00:57:47.38 nr+SJD/m.net
内部では単なるヌル終端のバイト列として扱ってるだけなんだろう

182:デフォルトの名無しさん
19/02/10 15:54:10.44 PXpe84p+.net
無理やり設定しても繋げられなくなる気がする

183:デフォルトの名無しさん
19/02/10 19:57:18.23 MigChu0H.net
💩
うんこ
🍭
あめ

184:デフォルトの名無しさん
19/02/10 20:01:32.56 MigChu0H.net
🍭
あめ



185:デフォルトの名無しさん
19/02/10 22:34:53.92 Amp5CTrh.net
>>180
見えているのに到達できない場所みたいだな

186:デフォルトの名無しさん
19/02/10 23:37:08.37 /Ok9Y0Js.net
ユニコードの文字の説明(#から右の部分)がのっているテキストファイルの置き場所って
どこかわかります。できれば、日本語だけでなく全文字が欲しい。
↓こんなやつがずらっと。
0x878D U+337E # SQUARE ERA NAME MEIZI [2000]

187:デフォルトの名無しさん
19/02/10 23:45:31.96 /Ok9Y0Js.net
URLリンク(unicode.org)
ここは知っています。

188:デフォルトの名無しさん
19/02/11 18:36:04.22 QUwqB+eg.net
そこ知ってるならもう辿り着けたも同然なのに
一つ上がってみよう

189:デフォルトの名無しさん
19/02/12 17:07:51.47 uPzbFBNW.net
一昔前に、大塩平八郎のLANや応仁のLANというSSIDが話題になったことがあるよね。
俺は見たこと無くて何とも言えないのだけど、実際に接続できたのだろうか?

190:デフォルトの名無しさん
19/02/14 19:27:45.79 Ny/2bQvT.net
文字化け先生はなんかあったのか

191:デフォルトの名無しさん
19/02/14 21:24:21.21 sLL+4j00.net
境界判定するつもりが教会判定することになり異端審問にかけられた。

192:デフォルトの名無しさん
19/02/15 10:47:46.35 9AJYray/.net
Nobody expects the Spanish Inquisition!

193:
19/02/15 21:47:29.13 8MeM2Ami.net
>>190
Nobody knows the trouble i've seen, nobody knows but Jesus!

194:デフォルトの名無しさん
19/02/23 21:24:43.04 nqqF93LL.net
URLリンク(unicode.org)
↑ここにアクセスしても空白のページが表示されるだけなんだけど
みなさんもそう?
前までは確かに存在したページの筈……。

195:デフォルトの名無しさん
19/02/24 11:44:00.18 A1cNJX+Z.net
確かに空白だな、と思ってソース見たらtofuが並んでた

196:デフォルトの名無しさん
19/02/24 14:46:38.10 YwY0sV++.net
Service Temporarily Unavailable

197:デフォルトの名無しさん
19/02/24 17:25:45.84 Nokppl90.net
そうか…
あのページはすごい便利に使わしてもらってたのに、利用できないとは残念

198:デフォルトの名無しさん
19/02/25 10:45:27.39 Opp/wdL5.net
>>192 がトドメ刺したんか

199:デフォルトの名無しさん
19/02/25 10:51:17.50 Opp/wdL5.net
こっちか
URLリンク(cldr.unicode.org)

200:デフォルトの名無しさん
19/02/27 18:11:26.22 NPiQGjbt.net
>>197
そのページから個々の文字に関する情報って見れなくね?

201:デフォルトの名無しさん
19/03/06 23:53:15.90 3quF+PLE.net
unicode 12.0 出てた

202:デフォルトの名無しさん
19/03/07 07:31:58.41 T3odpijK.net
>>199
unicode、すっかりグダグダたな。なんだよ絵文字って。

203:デフォルトの名無しさん
19/03/07 08:59:33.50 6IyvIIuW.net
Announcing The Unicode Standard, Version 12.0
URLリンク(blog.unicode.org)

204:デフォルトの名無しさん
19/03/07 11:12:32.47 MaxgRiSY.net
仕事する馬鹿ほど面倒なものはない

205:デフォルトの名無しさん
19/03/07 20:32:36.31 2TYLONzR.net
U+32ffにはplaceholderも入れてないのか

206:デフォルトの名無しさん
19/03/08 07:46:36.72 IGi7MMC9.net
>>201
「ゑ」の小さい字もできるんだ、
「ぇ」みたいに。

207:デフォルトの名無しさん
19/03/08 14:51:06.96 uMMKH+w1.net
概出?
URLリンク(qiita.com)

208:デフォルトの名無しさん
19/03/08 18:46:01.42 soybuSeV.net
その読みにくい文体、中学のマイコン部の先輩が部誌に書いてたコラムに似てるなと思った

209:デフォルトの名無しさん
19/03/08 18:58:34.86 8O+4MLhG.net
内容はともかく
> それに、今みたいなポリコレ棒が猛威を振るう時代だったら、CJK統合は行われなかったでしょうね。
> 部外者が他文化の文字に対してもの申す事は、文化への攻撃・侵害・侵略として糾弾されたでしょうから。
> 日本人や中国人側からではなく、米国や欧州の国々の方から強い反対が出たでしょう。
<URLリンク(qiita.com)
↑これはなるほどと思った。政治的正当性についてとやかく言うつもりはないが
CJK統合はマジでそのCJK文化圏にいる利用者からは扱いずらすぎるからな……。
「意味や字形が似ている文字なら同じ符号を割り当てていい」のなら,
フラクツゥールを態々用意せずに,lang=de-x-Frakみたいな指定があったときに
文字「A」を「𝔄」という字形で表示すればいいのに,そうしてない。

210:デフォルトの名無しさん
19/03/08 19:17:05.59 orP5LHkV.net
苦情が出た時のために拡張領域があるんだから許してあげてよ。

211:デフォルトの名無しさん
19/03/08 20:40:25.47 9ZplOVC2.net
小さいゐゑヰヱは "used to write archaic Japanese" なんだけど
小さいヲンは実は典拠が微妙
同じワ行音ってことで何となく入っちゃった

212:デフォルトの名無しさん
19/03/08 20:41:24.22 9ZplOVC2.net
同じってのはヲの方だけど

213:デフォルトの名無しさん
19/03/08 22:42:36.27 orP5LHkV.net
リンゴロゴ(U+F8FF)を使った Tim  が正しく表示される環境は限定的なのかな?
私は「ティム・アップル」 トランプ氏言い間違えに本人が便乗
URLリンク(www.afpbb.com)
 【3月8日 AFP】米アップル(Apple)のティム・クック(Tim Cook)最高経営責任者(CEO)は7日、
 ドナルド・トランプ(Donald Trump)米大統領に名前を呼び間違えられたことを受け、
 公式ツイッター(Twitter)アカウントの名前を「ティム・アップル」に変更した。
 トランプ氏は6日、ホワイトハウス(White House)で開かれた会合で、
 アップルの国内投資と雇用創出について感謝の意を述べた際、クック氏を「ティム・アップル」と呼び、ツイッター上で話題を呼んだ。
 するとクック氏は翌朝、これに便乗し、自身のツイッターの表示名を「ティム」の後にアップルのロゴをつけたものに変更。
 ツイッターユーザーからは、米マイクロソフト(Microsoft)共同創業者のビル・ゲイツ(Bill Gates)氏を
 「ビル・マイクロソフト」、米電気自動車(EV)大手テスラ(Tesla)のイーロン・マスク(Elon Musk)最高経営責任者(CEO)を
 「イーロン・テスラ」、初代米大統領のジョージ・ワシントン(George Washington)を
 「ジョージ・アメリカ」と呼んだらどうかといったトランプ氏への提案も飛び出した。
 ヒラリー・クリントン(Hillary Clinton)元米国務長官を「Crooked Hillary(歪んだヒラリー)」と呼ぶなど、
 ニックネームを生み出してきたことで知られるトランプ氏は、過去にも同じような言い間違えをしている。
 昨年には、米航空防衛大手ロッキード・マーチン(Lockheed Martin)のマリリン・ヒューソン(Marillyn Hewson)CEOを「マリリン・ロッキード」と紹介した。
(c)AFP

ティム・クック氏のツイッター・アカウント
URLリンク(twitter.com)
(deleted an unsolicited ad)

214:デフォルトの名無しさん
19/03/08 23:59:07.12 AN9FdtGs.net
Private Use Area を公にさらす変態

215:デフォルトの名無しさん
19/03/09 00:06:34.07 bJz0o3uK.net
私用領域U+E50Aが渋谷109の絵文字に割り当てられているツイッターさんの前でも同じこと言えんの?
URLリンク(twitter.com)
(deleted an unsolicited ad)

216:デフォルトの名無しさん
19/03/09 03:14:15.24 JZDf7HgY.net
Tim Appleと呼ばれたTim Cook、Tim Tofuを名乗る。

217:デフォルトの名無しさん
19/03/09 07:26:47.29 ZOfzHyh2.net
>>207
>CJK文化圏にいる利用者からは扱いずらすぎる
わざとそれを狙って毒撒いたんじゃね?

218:デフォルトの名無しさん
19/03/09 07:28:53.38 JheZ4dDX.net
>>207
ぁたιゎゆるさナょぃ

219:デフォルトの名無しさん
19/03/09 20:48:52.13 3uujbs1q.net
>>192
URLリンク(www.unicode.org)
使えるように直ったっぽいよ。

220:デフォルトの名無しさん
19/03/10 00:01:29.10 cA8Bnujj.net
>>216
「あたしわゆる」の後なんて書いてあるの?

221:デフォルトの名無しさん
19/03/10 00:29:48.57 XmX8U4WX.net
>>218
さない
「あたしわ ゆるさない」 だろ

222:デフォルトの名無しさん
19/03/10 17:51:22.00 uFsYqTSV.net
>>207
長すぎてどこまで読んだか判らない
>>217
ありがとー

223:デフォルトの名無しさん
19/03/11 11:18:28.54 PmMIa9FT.net
>>220
>>192は俺な訳だがなぜ無関係なあなたが返事をしているんだw

224:デフォルトの名無しさん
19/03/11 12:16:12.73 tDJ/xRRJ.net
我は汝、汝は我。 禁断の叡智は開かれた。

225:デフォルトの名無しさん
19/03/14 16:59:19.77 ZsZ3eZF+.net
UAX #29: Unicode Text Segmentation
URLリンク(www.unicode.org)
Unicode 12.0.0 では新しく U+FF10..U+FF19 の全角数字を数字扱いするようになったのね。
UAX #14 では Ideographic のままだし何で今頃変えたのかよく分からないけど。

226:デフォルトの名無しさん
19/03/14 22:33:54.00 +YVU0bVz.net
これから漢数字とか丸数字も数字扱いしだすゾォー^
属性定義するのはいいけど定義をコロコロ変えてんじゃねぇよ

227:デフォルトの名無しさん
19/03/15 00:54:56.25 h1OQ6sr0.net
>>223
まじかよ
互換性がとも思うけど,寧ろ便利なのかな。

228:デフォルトの名無しさん
19/03/15 06:30:19.25 /rrmc9zm.net
ダブルクリックで文字列選択するような機能に影響でなければいいけどなあ
鈴木一郎が全部漢字だから一気に選択できたのに一が数字だからってんで
鈴木/一/郎なんて分けられたらやっかいだ

229:デフォルトの名無しさん
19/03/15 06:41:57.81 t7/3/Ky+.net
Unicodeじゃなくて個別のライブラリの仕様次第だと思うけど、近い将来影響が出てきそうだね。

230:デフォルトの名無しさん
19/03/15 12:06:24.49 JrKcPYyj.net
>>226
うわあ

231:デフォルトの名無しさん
19/03/15 12:07:15.17 JrKcPYyj.net
そういえば(今もそうかは知らないが)Firefoxは「々」がそういう選択のされ方だった。あれはなんでなんだろう。

232:デフォルトの名無しさん
19/03/15 14:05:00.83 SEjqglYP.net
漢数字の数字扱いまだ?

233:デフォルトの名無しさん
19/03/15 15:31:55.15 oAURdopD.net
そして参とか陸とかまで数字扱いされて地獄へ

234:デフォルトの名無しさん
19/03/15 15:39:45.46 a2hOwysQ.net
ソート順が萬>千>百>拾とかか

235:デフォルトの名無しさん
19/03/15 19:19:14.57 WyyrIOit.net
Unicode 11の時点で十進法表記に基づく0-9相当の文字はNumeric扱いされてたようだから
FF10..FF19は確かに漏れだな
URLリンク(www.unicode.org)

236:デフォルトの名無しさん
19/03/15 19:36:37.30 t7/3/Ky+.net
正規表現ライブラリpcreは境界判定\bや英数字判定\wの判定方法をフラグPCRE_UCPで切り替えられるようになっている。
grepの-Pオプションはpcreを使うのだけど、境界判定\bが-Eオプションと違う動きになる。PCRE_UCPオプションを使ってビルドいないからだろうと思う。

237:デフォルトの名無しさん
19/03/22 01:21:11.28 8w4+OmEG.net
ふむ

238:デフォルトの名無しさん
19/03/23 19:29:06.12 4GARFTFw.net
ふまない

239:デフォルトの名無しさん
19/03/23 23:02:35.35 GanpYc3U.net
ふまれたい

240:デフォルトの名無しさん
19/03/24 03:18:52.69 OrJDHzVf.net
フモフモ

241:デフォルトの名無しさん
19/03/24 11:24:12.73 Rpzr04ID.net
もふもふ

242:デフォルトの名無しさん
19/03/24 14:16:39.59 2vsRyi47.net
このスレかどっかでC99で作られたUnicodeライブラリの紹介を見掛けた気がするんだけど
誰か知らないですか。
確かに5ちゃんねるの文字コード関連のレスで
「---っていうライブラリが便利だよ」みたいな文章だったと思うんですけど。。。
なぜかそのとき ライブラリのWebページをブクマし忘れてて そのライブラリの名前を失念してしまったんです

243:デフォルトの名無しさん
19/03/24 14:32:46.63 DqM6OskA.net
過去様が卒業したとこ

244:デフォルトの名無しさん
19/03/24 16:01:40.15 4oYv+rwZ.net
未来様。

245:デフォルトの名無しさん
19/03/27 17:42:59.30 WhOBGSwK.net
ICUは有名なのですぐ見付かるだろうしなによりC99じゃない。
utf8procじゃねーの?

246:デフォルトの名無しさん
19/04/01 17:18:38.72 89NTFMVc.net
このスレのみんなは㋿だって先に知ってたんだな

247:デフォルトの名無しさん
19/04/01 20:45:19.42 rsPxYoMK.net
お前ら、システム改修の時は互換漢字もちゃんと考慮しろよ
URLリンク(twitter.com)
(deleted an unsolicited ad)

248:デフォルトの名無しさん
19/04/01 22:00:00.14 ID


249::SiO8nKzk.net



250:デフォルトの名無しさん
19/04/01 23:51:37.27 PpRhn1A4.net
てか「人一卩」と「人丶マ」は異体字セレクタにあるけど、官房長官が掲げた「人丶卩」が無いな

251:デフォルトの名無しさん
19/04/02 02:25:50.36 v8tjfRTs.net
Gengo-Oshuujiコレクションを申請するときがきたか

252:デフォルトの名無しさん
19/04/02 07:20:09.23 DRYM+8L2.net
あのお習字も公文書扱いらしいな
汎用電子あたりにぶち込んでいいぞ

253:デフォルトの名無しさん
19/04/02 10:10:03.96 GTYTa8Tr.net
個人的には新元号に2004年のJISで例示字形変更された字や第2水準以下の字が使われなくて良かったと思ってる。

254:デフォルトの名無しさん
19/04/02 12:05:10.00 5+C+zQyU.net
>>245
そんな大事な話でFA98とF9A8間違うとか絶対わざとやってるだろ
消して投稿しなおせよ

255:デフォルトの名無しさん
19/04/02 12:10:05.14 5+C+zQyU.net
>>247
そもそも字が下手過ぎて習字の基本すら出来てないやろ
和にしても
ノ木口
なのに
ノ丶木口
って描かれてる

256:デフォルトの名無しさん
19/04/02 14:05:03.11 k+6mhhx+.net
新元号「令和」と文字コード(主にUnicode)の問題
URLリンク(togetter.com)

257:デフォルトの名無しさん
19/04/02 18:12:09.33 ONyiz5iP.net
アドビのフォントが新元号「令和」に対応--2パターンの合字を追加
URLリンク(japan.cnet.com)
この手の合字をもっと増やしてもいいと思う。絵文字をボコボコ増やすよりも有意義だ。
㌀、㍇は既にある。ゲートウェイの合字があると面白い。
山手線の新駅の名前に使える。

258:デフォルトの名無しさん
19/04/02 21:47:42.61 qF1eZplP.net
集合住宅名にありがちシリーズだと㌞・㌪はあるがヒルズとかテラスとかがないな

259:デフォルトの名無しさん
19/04/02 23:57:38.32 6o2aISb6.net
いらんわ

260:デフォルトの名無しさん
19/04/03 19:17:17.44 1gOVHweX.net
Unicodeに入れるのはむりぽ
AJ1ならワンチャンあるかも

261:デフォルトの名無しさん
19/04/03 22:13:58.47 FgHYrjKu.net
>>250
誰でも読み書き出来る字を選ぶという配慮であろう。
令は小学4年、和は3年で習う字だ。
今時のキラキラネーム(DQNネーム)とは違う。

262:デフォルトの名無しさん
19/04/03 23:15:11.57 cN3kYbRs.net
常用漢字から選ぶとは最初に告知されてたが、
2010年追加の常用漢字の中には第2水準以下だったりJIS2004で字形変更されて
2点しんにょうや古い食へんの字があるよな。
教育漢字にはならなくて小学校では習わない字のままだったけど。

263:デフォルトの名無しさん
19/04/04 00:45:49.30 gljFUA1G.net
あの「令和」っていう習字の画像って公文書として入手できないのかな。

264:デフォルトの名無しさん
19/04/04 01:42:15.29 WKiiXHnA.net
習字の意味分かってる?

265:デフォルトの名無しさん
19/04/04 02:37:07.88 RbPEvSJ+.net
どのメーカーの半紙と墨汁を使ったか公開すればバカ売れだな

266:デフォルトの名無しさん
19/04/04 03:17:29.09 sXgQQUMv.net
字が下手過ぎた
やり直せ

267:デフォルトの名無しさん
19/04/04 08:30:46.45 VfgtU/Z4.net
URLリンク(twitter.com)
令の字に関してなぜかU+F9A8なんて話が流れてきた。韓国KSコード由来の互換漢字。
これは『改訂新版 プログラマのための文字コード技術入門』p.110に書いたような理由で入ったものだけども、扱うことはまずないのでは。
それ言うんならU+2F24の「⼤」を使った「⼤正」は今までチェックしてたのかい?
これはUnicodeになぜか別立てで入っている康熙部首の符号位置。
(deleted an unsolicited ad)

268:デフォルトの名無しさん
19/04/04 13:53:52.02 lQbbBBhx.net
リとり間違うような恥ずかしい間違いだな

269:デフォルトの名無しさん
19/04/04 15:25:32.68 c6BVWPCA.net
>>264
電子化された契約文書に大正の年号が使われることがないから影響もなかった。

270:デフォルトの名無しさん
19/04/06 15:08:14.87 uziyxFMz.net
大正時代に生まれた人なんかいくらでも電子管理の対象になりうるだろ

271:デフォルトの名無しさん
19/04/06 19:32:01.25 EXSfDg77.net
大正はIME類に成語として登録されてるからよっぽどでもないかぎり他の大は出てこんわね。
でも令和は現状自由変換状態で、この状況はみんなのスマホやPCが“令和対応”のものに更新されるまで当面続く。
そこに「こっちの令が正しい形」説が追い打ちをかけてきてるのが困ったところ。

272:デフォルトの名無しさん
19/04/07 11:42:20.44 8ULyWhed.net
じゃあ令和もIME登録したらいい,って思っちゃうのは素人考えなんですかね。

273:デフォルトの名無しさん
19/04/07 14:27:30.40 LEvc5MB9.net
他人のIMEに一括登録できるなら何かのプロだな。
あるいは単に問題を取り違えてる素人かもしれん。

274:デフォルトの名無しさん
19/04/08 00:28:20.42 gS267+Xj.net
令和
令和

275:デフォルトの名無しさん
19/04/08 12:50:59.09 mdLXKZZ1.net
江戸時代の地震記録した古文書495点 市民参加して解読完了!「くずし字学んだ」 2019年04月07日 06時00分 @ハザードラボ
URLリンク(www.hazardlab.jp)
URLリンク(www.hazardlab.jp)
江戸時代の古文書に記録された災害の歴史。くずし字を現代文字に直しながら読んでいくプロジェクトだ(京都大)
京都大学は、地震研究所図書室が所蔵する江戸時代の地震を記録した古文書495点の解読を終了したと発表した。
2017年1月にスタートした解読作業は、4600人を超える一般市民が参加してくずし字で書かれている古文書を、一字ずつ現代文字に活字化するという
プロジェクトで、過去の災害の歴史を学ぶきっかけにつながるという。
古代から地震が多かった日本では、『日本書紀』に残る416年の「允恭(いんぎょう)地震」を最古として、数多くの史料が残されている。しかし、解読されたのは
そのうちのほんの一部で、有益な情報のほとんどが手付かずの状態だ。

276:デフォルトの名無しさん
19/04/08 12:51:41.80 mdLXKZZ1.net
くずし字学習アプリを使ってゲーム感覚で学ぶ
URLリンク(www.hazardlab.jp)
翻刻が終わった『地震年代記』(国立民族博物館)
京都大学大学院の「古地震研究会」は2017年1月、東大地震研究所の図書室が所蔵する古文書495点をインターネット上に公開し、Wikipediaのように閲覧者が
現代文字に書き換えるプロジェクトを開始。これまでに4626人が登録し、このうち347人が実際に文字の入力作業に参加した結果、新書30?35冊分の文字数に
あたる465万文字が入力されたという。
「みんなで翻刻」というこのサイトには、数多くのくずし字のパターンや、江戸時代の本から収集した3000種類近い熟語が収録されており、
くずし字学習支援アプリと連携することで、初心者でもくずし字を学ぶことができる機能が備わっている。(翻刻=文字起こし)
過去の災害の歴史を学ぶきっかけに
URLリンク(www.hazardlab.jp)
学習アプリを使って、ゲーム感覚でくずし字を学ぶ
スタート当初は、地震研究所二代目所長をつとめた地震学者の石本巳四雄(みしお)氏がコレクションした114点の災害史料の翻刻を目標としていたが、
開始から5カ月後には完了。その後、資料を追加することで495点すべての作業が終わった。
今後は、ほかの資料館が所蔵する史料も登録を進め、翻刻を続ける計画なので、興味がある人は今からでも遅くない。パソコン1台あれば誰でもアクセス
できるので、ぜひ一度サイトを訪問してほしい。古文書の解読の楽しさはもちろん、自分が住んでいる地域で過去に起こった地震の歴史を学ぶこともできる。

277:デフォルトの名無しさん
19/04/08 12:54:44.65 mdLXKZZ1.net
みんなで翻刻
URLリンク(honkoku.org)

278:デフォルトの名無しさん
19/04/09 12:37:03.63 cLV16Pee.net
UTF-8って、制御コード含まれることはないんだっけか

279:デフォルトの名無しさん
19/04/09 13:07:46.20 9ML7UTJk.net
だぶりのコードもあるし
不正コードでおかしくなるシステムもある

280:デフォルトの名無しさん
19/04/09 14:29:47.00 KelUteYn.net
だぶりのわたなべさん

281:デフォルトの名無しさん
19/04/09 23:57:15.76 7iU2pxay.net
最短ではないutf-8を不正としない処理系
URLリンク(tech.nikkeibp.co.jp)
URLリンク(www.jpcert.or.jp)
URLリンク(www.slideshare.net)

282:デフォルトの名無しさん
19/04/13 16:03:07.58 UCcAxlmJ.net
東京パラのピクトグラム発表 全22競技を絵文字で表現
URLリンク(www.asahi.com)
2019年4月13日11時08分

283:デフォルトの名無しさん
19/04/16 14:56:33.54 l4UDEMAP.net
新元号名で使用する文字コードについて(周知)
URLリンク(www.meti.go.jp)

284:デフォルトの名無しさん
19/04/19 00:40:25.06 SszpXZZX.net
周知元年

285:デフォルトの名無しさん
19/04/19 00:42:08.08 E436SlHO.net
草なぎの剣って
なぎはどの字が正解?

286:デフォルトの名無しさん
19/04/19 00:45:03.52 p/ztoCUW.net


287:デフォルトの名無しさん
19/04/19 02:32:47.43 ixte0yp9.net


288:デフォルトの名無しさん
19/04/19 06:10:41.34 XxVTl/mO.net
草[データ欠損]の剣

289:デフォルトの名無しさん
19/04/19 14:43:52.39 K/dFwraF.net
wwwの件

290:デフォルトの名無しさん
19/04/19 15:47:39.94 y/MVEQAL.net
草なぎって芸柏lにいるよな

291:デフォルトの名無しさん
19/04/20 21:38:10.03 F8mbqA+i.net
>>254
Unicodeに収録されている「パーツ」と「ほか」が追加されるとUnicode仮名合字が揃うから最優先

292:デフォルトの名無しさん
19/04/21 01:51:55.93 ojSCyBaB.net
タイ行きたくなってきた

293:デフォルトの名無しさん
19/04/21 01:54:55.60 x0mJ9C0y.net
お?GoGoか?それともMP?w

294:デフォルトの名無しさん
19/04/21 13:49:25.89 tITQ2Bq3.net
>>254
これ使えって言われそうだ
&#x1f1ec;&#x1f1fc;

295:デフォルトの名無しさん
19/04/21 17:44:13.32 sl+JTl2l.net
どれや

296:デフォルトの名無しさん
19/04/21 23:16:48.91 oi8OpLnl.net
ψ

297:デフォルトの名無しさん
19/04/21 23:28:17.18 sMtprdSr.net
>>291
GW?

298:デフォルトの名無しさん
19/04/21 23:34:13.27 Ac4MsT8t.net
>>293
ソ連の旗に書いてあるやつ?

299:デフォルトの名無しさん
19/04/22 02:38:56.56 V0Ep5EOp.net
鋤?

300:デフォルトの名無しさん
19/04/22 03:12:27.93 3Wv0MOni.net
>>296
見ているとゲシュタポ崩壊してくる

301:デフォルトの名無しさん
19/04/22 04:58:25.98 K/a5X4tg.net
屮屮

302:デフォルトの名無しさん
19/04/22 06:48:42.73 LkdKQQlY.net


303:デフォルトの名無しさん
19/04/22 21:46:31.50 KyfckjPA.net


304:デフォルトの名無しさん
19/04/22 23:13:49.10 7Lb1KZDb.net
草ァ!

305:デフォルトの名無しさん
19/04/26 15:10:00.86 h/0smdVx.net
役所から『楷書体の“令和”の“令”の“マ”を明朝体のように縦棒に直せ』と指示がきた「どっちでもいいはずでは」
URLリンク(togetter.com)

306:デフォルトの名無しさん
19/04/26 16:10:02.69 ICRz1tVq.net
これ結果的に包摂への理解が世間に広がれるきっかけになればいいなあ

307:デフォルトの名無しさん
19/04/26 17:26:05.43 kg5yc1Gc.net
令の下はアベのアが正しいと閣議決定

308:デフォルトの名無しさん
19/04/26 20:07:56.08 vOVYhDJF.net
あそうのアと聞いたが

309:デフォルトの名無しさん
19/04/26 21:07:22.44 zkZoCC1n.net
昭和天皇「あっそう」

310:デフォルトの名無しさん
19/04/30 00:24:58.84 fTPg0Gzh.net



311:備は万全でしょうか?



312:デフォルトの名無しさん
19/04/30 02:48:38.56 qV7WSa+K.net
一応アプデして再起動した
URLリンク(support.microsoft.com)
いつでも来やがれ

313:デフォルトの名無しさん
19/04/30 03:08:50.84 SjzICe9T.net
影響なんぞあるかなあ?

314:デフォルトの名無しさん
19/04/30 10:48:06.61 O+RhbMFB.net
もし見える環境なら
これ


らしい

315:デフォルトの名無しさん
19/04/30 10:51:51.20 M/y36yih.net
裏向きですよ官房長官

316:デフォルトの名無しさん
19/04/30 19:08:38.83 mmURSAfG.net
理屈と軟膏はどこにでも付くなw

317:デフォルトの名無しさん
19/05/01 00:10:53.03 Cxjz7JYJ.net
皆さまご無事ですか?

318:デフォルトの名無しさん
19/05/01 03:27:20.94 zkmvQa1R.net
応答がありませんね…

319:デフォルトの名無しさん
19/05/01 16:53:36.94 qjSscuuh.net
Unicode、㍻ ㍼ ㍽ ㍾ のように一文字版の令和を追加
スレリンク(news板)

320:デフォルトの名無しさん
19/05/01 19:22:56.99 PSa6BJih.net
元号合字はBCだと思ってたのに
新しく増やす余地があるのなら慶応以前のもないと気持ち悪いなあ
保元とか平治とかちょうだいよ

321:デフォルトの名無しさん
19/05/02 02:19:04.44 oFArPNDY.net
ツイッターのオリジナル令和絵文字
URLリンク(abs.twimg.com)

322:デフォルトの名無しさん
19/05/02 02:56:54.78 fwW+HFuA.net
官房長官が額縁を掲げたという先例をそのまま踏襲したことにより、
将来にわたる日本の改元時儀式が爆誕した瞬間である

323:デフォルトの名無しさん
19/05/02 23:10:42.85 /beTzGTL.net
㍾ ㍽ ㍼ ㍻みたいなのってNECの外字由来じゃなかったっけ
なんで今さらシフトJIS時代の遺物の仲間みたいなものを増やすんだか

324:デフォルトの名無しさん
19/05/02 23:35:48.89 I+5xWFxb.net
「シフトJIS時代の遺物」に依存している人が少なからずいて、その人たちが令和のも作られるのを望んだんだろ

325:デフォルトの名無しさん
19/05/02 23:45:38.82 7n99qwI2.net
つってもシフトJIS時代の遺物アプリケーションでは使えないんだぞ。なんだそれ。

326:デフォルトの名無しさん
19/05/03 00:00:56.27 wXDfhaGQ.net
>>321
それで使えなくてもかまわないんだろ

327:デフォルトの名無しさん
19/05/03 00:03:09.80 97u3Xpxh.net
世の中の大部分のワープロソフトはunicode対応済みだからSJIS縛りはない。

328:デフォルトの名無しさん
19/05/03 08:59:56.88 zgghhlv4.net
U+32FFのスポンサーになるやつおらんの
URLリンク(unicode.org)

329:デフォルトの名無しさん
19/05/03 14:14:26.24 /bmAVHAq.net
>>319
IT技術者なら使わないけど、変換候補に出でくるものを使うのがなぜいけないのかと思うのが世の中の大半。

330:デフォルトの名無しさん
19/05/03 14:38:44.99 22DEOz6X.net
>>324
面白いお小遣い稼ぎだなと思ったが、
これ名前に主義主張とか入れて来る人がいたらややこしいことになりそうやな。

331:デフォルトの名無しさん
19/05/03 14:42:17.77 3Vz/qKoh.net
>>325
別に使っても良いと思うけど
それなら慶應より前のが全部入れろと
たかだか有限個なんだし楽勝だろ

332:デフォルトの名無しさん
19/05/03 14:46:59.15 Q171sR7D.net
>>327
入れるのを望む人が少ないから入らないんだろ

333:デフォルトの名無しさん
19/05/04 10:55:56.42 mtwbaS1U.net
KB4495667 適用記念カキコ
㍾㍽㍼㍻㋿
URLリンク(support.microsoft.com)

334:デフォルトの名無しさん
19/05/04 20:44:56.14 Hwt49Fxi.net
令和対応のWindows Updateは適用しないでください
URLリンク(osdn.net)

335:デフォルトの名無しさん
19/05/05 09:10:16.53 vN64IIVG.net
>>330
MS UI Gothicは等幅フォントだったのか

336:デフォルトの名無しさん
19/05/05 14:06:52.01 a/tGSf18.net
仮に慶応以前も入れるとしたらさすがにBMP外だろうな。

337:デフォルトの名無しさん
19/05/05 15:38:00.22 vTdWYBgo.net
>>330
ワロヌ

338:デフォルトの名無しさん
19/05/05 15:55:58.30 9Ygu+RTn.net
>>330
自分の設計ミスじゃねーかw

339:デフォルトの名無しさん
19/05/05 16:30:52.35 O86syOAN.net
GW入る前からそういう話を聞いてたけど
URLリンク(twitter.com)
(deleted an unsolicited ad)

340:デフォルトの名無しさん
19/05/05 16:49:51.40 2d0rYk3C.net
まあDLLバージョン非互換地獄みたいなのと根は同じと考えれば大変だなと思う

341:デフォルトの名無しさん
19/05/05 19:01:34.13 McO+DcFw.net
おそらく今世紀半ば頃になるだろう令和の次以降も組み文字入れるつもりなのだろうか?

342:デフォルトの名無しさん
19/05/05 20:35:38.58 l5IfNH0H.net
不思議なもんで平成31年がはるか昔のように感じられる。

343:デフォルトの名無しさん
19/05/05 21:59:40.84 i5vkPu2K.net
>>335
「?」を使って無くても不具合起きるってことか
Windows Form 使ってるところはヤバいんじゃないか

344:デフォルトの名無しさん
19/05/05 23:33:12.08 afKxHVhL.net
>>339
問題が出るのがWinFormsだけとは限らない(少なくともExcelは確実に再現する)らしいから
GW明けには大問題になりそうな気がするんだけど、いまのところ全然そんな話になってないのがちょっと怖い
まさか「令和」の合字を付け足すだけのWindowsUpdateで
フォント幅の定義が勝手に変更されるなんて思わないよな・・・・
不幸中の幸いは「Microsoftがやらかしたことなんで開発側も被害者です」と言い張れることか

345:デフォルトの名無しさん
19/05/06 00:01:39.11 Y5VmjYQ0.net
勝手に見た目が変わってしまうのは迷惑と言えば迷惑だけど、それが問題かというと
大半はそうでもないんでない?スマホアプリほど表示サイズにシビアでもないだろうし。

346:デフォルトの名無しさん
19/05/06 00:09:47.64 6izbbc1p.net
>>341
Excel書類とかメッチャシビアじゃん
業務アプリ系もヤバいと思うよ

347:デフォルトの名無しさん
19/05/06 00:27:47.76 Y5VmjYQ0.net
印刷フォームのレイアウトが崩れたりとかはあるかな。
ただまぁ、印刷用フォントにUI Gothic使ってたりしたらそれ自体バグと言っていいかもしれない。

348:デフォルトの名無しさん
19/05/06 19:57:45.87 o0+2Jvom.net
Excelの罫線で帳票造って印刷してるところは阿鼻叫喚だなω

349:デフォルトの名無しさん
19/05/06 20:29:59.74 Ao47xCvU.net
なんだかな感がありつつもさすがに影響でかいから修正すると思うけど、
ユーザー側が最新に合わせて調整し終えたところで修正が入って再阿鼻叫喚ありそう

350:デフォルトの名無しさん
19/05/06 23:24:02.94 w/vwmWEJ.net
そもそもExcelの印刷機能はプリンタが変わっただけで文字切れする

351:デフォルトの名無しさん
19/05/06 23:43:52.79 lqbkXOHI.net
レイアウトが崩れても見なくなる部分がなければ最悪なんとかなるけど
切れて見えなくなる部分で影響が有ると嫌だな
自分は余裕を持たせる事が多いけど
やたらピッタリにしろ
っていう圧力が強いんだよなぁ

352:デフォルトの名無しさん
19/05/07 02:19:33.96 GL9QN5WP.net
知らないんだけどExcelってフォント埋め込みできないの?

353:デフォルトの名無しさん
19/05/07 11:57:21.14 33OoCrhk.net
WYSIWYG ってどこ行ったん

354:デフォルトの名無しさん
19/05/08 12:24:09.58 edc8315b.net
The Unicode Blog: Unicode Version 12.1 released in support of the Reiwa Era
URLリンク(blog.unicode.org)
The Unicode Blog: Unicode コンソーシアムは「令和」をサポートする Unicode 12.1 を正式リリースしました
URLリンク(blog.unicode.org)
Unicode 12.1.0
URLリンク(www.unicode.org)
Unicode 12.1.0キター

355:デフォルトの名無しさん
19/05/08 12:34:08.70 EI+Yt2nX.net
令和は入れて金正恩は入れないのはダブスタじゃないんですか

356:デフォルトの名無しさん
19/05/08 14:17:35.02 Y9Xu92ZN.net
そちらの事情詳しくないんだけど最新版ではじょんうんもコード振られてるの?

357:デフォルトの名無しさん
19/05/08 16:59:08.16 hW7QTTE+.net
2011年に改訂されて三代目の文字が追加されたと言われているな。
去年L2に文書が出てた。
URLリンク(www.unicode.org)

358:デフォルトの名無しさん
19/05/08 17:50:08.89 +GcC1zVN.net
いきなり?で草
外に向けて公式発表とかはしてないのか

359:デフォルトの名無しさん
19/05/08 19:23:31.67 D1yI4PRN.net
令和の合字(U+32FF)は結局シフトJIS環境では使えないし、
まだこれを含むフォントがインストールされてなく表示出来ない事がある環境依存文字だから使うなとか
そもそも互換文字だから使うな、「令」(U+4EE4)と「和」(U+548C)を並べて書けとか言われるんやろ

360:デフォルトの名無しさん
19/05/08 23:41:31.32 g6pGEhqR.net
どうせ、利用するフォントによって、どの文字まで表示できるか?決まるんだから
変な文字は使わず、90年までの規格で止めとくほうが正解かもね。

361:デフォルトの名無しさん
19/05/09 12:49:52.00 MGsavNMK.net
今回はそういう話じゃないぞ

362:デフォルトの名無しさん
19/05/09 23:57:50.74 2Upif9A1.net
令和組み文字はCP932には入れないようだが、
JISX0213には入れるのだろうか?

363:デフォルトの名無しさん
19/05/10 00:24:53.97 jEyv0NCa.net
つーかそろそろ日本工業規格も令和に対応すべきだと思うのだが。
JIX X 0213だけじゃなくてJIS X 0301とかも。

364:デフォルトの名無しさん
19/05/10 08:46:20.50 ObISzXw3.net
CP932に追加は無いだろうけど最近の過去互換の軽視ぷりからするとやらかす可能性が完全0じゃないのが怖い

365:デフォルトの名無しさん
19/05/10 10:21:33.96 6UVTgwma.net
半角カタカナも滅べば良いし
年号の合字も無限に増やすのは無理だから
常に二文字表記で文字幅で調整すれば良い
天皇陛下万歳
千代に八千代に

366:デフォルトの名無しさん
19/05/10 14:53:16.98 CKiiAb8j.net
Android Qに絵文字64種類が追加。うち53種類が男女区別あいまいな人物のデザイン
URLリンク(japanese.engadget.com)

367:デフォルトの名無しさん
19/05/10 18:18:29.29 mVkH2fqp.net
das emoji

368:デフォルトの名無しさん
19/05/11 22:48:01.24 +ReHs7Ms.net
絵文字とかと同じ 令[ZWJ]和 でいいのにな
専用の文字コードが必要なのかと

369:デフォルトの名無しさん
19/05/12 01:19:24.51 ki3sPmcj.net
漢字のジョイントって意図が不明瞭にならないか?
偏旁に配置した新字を創字したいのかなと思ってしまう

370:デフォルトの名無しさん
19/05/12 13:36:08.25 VATOmp33.net
ほとんど見掛けないけど漢字位置記述文字みたいなの使えば?

371:デフォルトの名無しさん
19/05/12 16:00:08.02 Pj0ORKPL.net
あれは人間への説明用であって合成して表示させるものじゃないから違うような
> the reader can then create a mental picture of the ideographs from the description.
> In particular, support for the characters in the Ideographic Description block does not require the rendering engine to recreate the graphic appearance of the described character.

372:デフォルトの名無しさん
19/05/12 19:33:59.77 VATOmp33.net
あ,そうなのか。
あれを適切に設定すれば,対応したビューアで自由に漢字が表現できるもんだとばかり……。
教えてくれてありがとう。

373:デフォルトの名無しさん
19/05/12 21:21:35.48 3Fo18FOg.net
あれだと縦書きと横書きで並び変えられないしね
欲しいのは組み文字ジョインター
キ[KMJ]ジ[KMJ]マア[KMJ]パ[KMJ]ー[KMJ]ト
これで
キジアパ
マ ート
マキ
 ジ
│ア
トパ
をつくりたい

374:デフォルトの名無しさん
19/05/12 21:26:39.48 C+tli6s4.net
ジョインター?
ジョイナーでは?w

375:デフォルトの名無しさん
19/05/12 22:42:17.83 7HEr7+9q.net
ジョイナス

376:デフォルトの名無しさん
19/05/13 13:30:46.64 Dlu9US9y.net
女医
茄子

377:デフォルトの名無しさん
19/05/13 14:31:34.73 iR6Bb+jK.net
へへ
のの

へじ

378:デフォルトの名無しさん
19/05/14 01:37:14.88 M5HaQ5Df.net
>>369
そういうのは「文字」じゃなくてCSSとかで実装すればいいじゃん
……って思っちゃうなw

379:デフォルトの名無しさん
19/05/14 03:18:02.18 j93RjJXe.net
でも令和合字入れちゃったからなあ
先行規格がない生まれながらの互換文字ってかわいそうじゃない?

380:デフォルトの名無しさん
19/05/14 11:34:15.69 HHew+yI/.net
同じ失敗を繰り返すタイプ
数百年先を見通せない政策

381:デフォルトの名無しさん
19/05/14 11:58:39.59 ThbRtqnv.net
理論上は文字コードを無限に増やせる仕様じゃないとダメでしょ。

382:デフォルトの名無しさん
19/05/14 13:44:33.88 bepTC+/0.net
次の次で途絶えそうだし大丈夫じゃね?

383:デフォルトの名無しさん
19/05/14 17:50:04.82 kz8JbfNJ.net
はい、不敬罪。

384:デフォルトの名無しさん
19/05/14 19:19:08.26 ThbRtqnv.net
不経済

385:デフォルトの名無しさん
19/05/15 08:08:31.21 cTm8l9eF.net
不敬罪ではないでしょうw
実際女子しか生まれていない皇家も有るし
何らかの対策をしないと途絶える可能性は有るよ
継続させたいなら
本気で対策しないと拙いよ実際

386:デフォルトの名無しさん
19/05/15 08:35:40.27 nWHAKFhQ.net
>>345
今日の定例アップデートで修正入ったみたい

387:デフォルトの名無しさん
19/05/15 08:43:30.54 n5xZGXi9.net
だから今のうちに隠し子を作っておけと
結婚してから外で子供を作るのは嫁の人権上まずいけど
若気の至りなら仕方が無いだろう

388:デフォルトの名無しさん
19/05/15 08:48:22.54 GDL/z8kb.net
>>381
現実ではともかく
ネットの「不敬罪」はほぼネタだと思ったほうがいい

389:デフォルトの名無しさん
19/05/15 12:28:24.15 Pf7Y4ylf.net
ほとんど報道されないけどたまに逮捕されてるよな
>>378御愁傷様

390:デフォルトの名無しさん
19/05/15 12:44:57.00 n5xZGXi9.net
アホがいる

391:デフォルトの名無しさん
19/05/15 12:53:44.49 DmEZFbwt.net
地球外知的生命体との遭遇を前提に、拡張性を確保しとかないとね。

392:デフォルトの名無しさん
19/05/15 13:14:54.94 dq2v0yjU.net
僕の肛門も拡張されそうです!

393:デフォルトの名無しさん
19/05/18 16:38:38.85 F01l0NEI.net
質問
URLリンク(www.unicode.org)
X0212補助漢字とUnicodeの変換テーブルは↑で良いのでしょうか?
補助漢字には詳しくなくobsolete下にあるのでこれでよいのかよくわかりません。

394:デフォルトの名無しさん
19/05/20 22:06:47.10 WPLI0l6z.net
Consortiumが提供しているのはそれくらいかと

395:デフォルトの名無しさん
19/05/20 23:48:08.42 8Vf/KPej.net
0x2237 0x007E # TILDE
これはやめた方がいいんじゃないかな…
後はまあ

396:デフォルトの名無しさん
19/05/21 18:21:29.99 wbjhm+VX.net
>>391
全角チルダ問題ですか?

397:デフォルトの名無しさん
19/05/21 18:56:30.38 1e7kqOhQ.net
チルダは主要フォントは同じ字形になっちゃったから、
ユニコードNGの環境で初めて気づくことも多いんだよね

398:デフォルトの名無しさん
19/05/21 20:48:03.29 Qf+frYPs.net
めんどいなあ

399:デフォルトの名無しさん
19/05/30 21:05:37.63 QqsVAtGz.net
Apple、算盤の絵文字がおかしいと批判される
URLリンク(idle.srad.jp)

400:デフォルトの名無しさん
19/05/31 06:42:14.69 RBuyAv83.net
そろばんはどうでもいいが
チーズの位置は許せない

401:デフォルトの名無しさん
19/05/31 17:25:05.59 mv11bAX3.net
つうか誰が何の目的で入れたんだよ
絵文字増やすことが目的になってるだろもう

402:デフォルトの名無しさん
19/06/02 16:33:02.27 DEukDi4F.net
だってこれまで一般人からは存在も意識されてなかった文字コードの改訂が
「今年の新絵文字発表」化してから急に世界中の注目を浴びる一大イベントになったんだもん
そら浮かれるよ

403:デフォルトの名無しさん
19/06/02 20:25:46.71 A9OZ+7QR.net
鼻濁音を表す仮名か゜、き゜、く゜、け゜、こ゜、カ゜、キ゜、ク゜、ケ゜、コ゜は
JIS X 0213ではそれぞれ1文字としてコードが割り当てられたのに、Unicodeでは
半濁点なしの仮名と半濁点の2文字で表さなければいけない。Unicodeにも1文字として
収録してもらいたい。
辞書に使われる記号 [名]、[形]、(単)、(複) など ([ ]は角丸正方形、( )は丸囲み文字) も
欲しい。

404:デフォルトの名無しさん
19/06/02 20:47:27.41 SX5hebJf.net
>>399
鼻濁音はUnicodeにちゃんと提案したら通りそう。
辞書で使われる記号は外字や私的領域に配置するしかないんじゃないかな。

405:デフォルトの名無しさん
19/06/02 20:57:42.19 gW1x1cZy.net
NHKの情報番組によると、最近スマホに移行した役者の役所広司さんはガラケーの絵文字が好きでスマホの絵文字が不満らしい。

406:デフォルトの名無しさん
19/06/02 21:05:37.93 A9OZ+7QR.net
>>400
テレビ番組表で使われる記号[字]、[ニ]、[多]、[声]、[吹]、[演]など ([ ]は正方形囲み文字) は
Enclosed Ideographic Supplement (U+1F2xx) として収録されたから、同じブロックの
空き領域に辞書用の記号も追加してもらいたい。

407:デフォルトの名無しさん
19/06/02 21:16:20.35 GqRagKZH.net
よくわからん
合成文字ではいけない理由って今時ある?

408:デフォルトの名無しさん
19/06/02 21:22:49.71 gW1x1cZy.net
池江 璃花子さんのツイート
URLリンク(twitter.com)
 ポップコーンが美味しかった。
 美味しいチャーハン食べたい。
 チーズドックもマックのポテトも食べたい…🍟
 美味しいお寿司🍣アボカド🥑
 と、からみチキン
 食べたいものと行きたいとこが多すぎる🐭🏰
(deleted an unsolicited ad)

409:デフォルトの名無しさん
19/06/03 12:00:01.49 ZJy6OnVg.net
絵文字専用スレの分離独立を提案します

410:デフォルトの名無しさん
19/06/03 12:14:25.26 C5QZ8dlg.net
それはよくない

411:デフォルトの名無しさん
19/06/03 17:14:50.77 9GoUaP2A.net
さもる。とは?

412:デフォルトの名無しさん
19/06/03 18:10:06.92 waosREqi.net
この板に絵文字スレを別に作るのはいい案だとは思えない。一緒に扱ったほうがいい。
他の、スマホ系やネット文化系の板で絵文字スレを立てるのはそっちの文脈での必要に応じてやればいいが。

413:デフォルトの名無しさん
19/06/04 04:29:34.76 34q0LBOl.net
板的には絵文字禁止で

414:デフォルトの名無しさん
19/06/04 09:25:30.78 mdhyHdfA.net
絵文字はただのコードポイントだからなあ

415:デフォルトの名無しさん
19/06/04 10:53:27.04 uvNmGZET.net
このスレが絵文字の話題で埋まるのは勘弁

416:デフォルトの名無しさん
19/06/04 11:53:04.76 mdhyHdfA.net
これまでのところ埋まってないぞ

417:デフォルトの名無しさん
19/06/04 20:23:40.45 gwjuh1zM.net
>>403
それを言ったら、漢字も合字で構わなくないか? 1文字ずつコードを割り当てずに、
パーツ(部首など)に分解し、パーツと配置方法をコードで指定するIDS方式にする。
ハングルも音素に分解する。そうすれば、CJKが占めていた膨大なコード領域が
明け渡され、Unicodeを16ビットに戻せる。非CJK圏の人々はそれを望んでいそう。
漢字は情報伝達効率がとても良くて、字 2バイトで character 18バイトと同等の
情報を伝達できる。IDS上下, ウ冠, 子 の6バイトで表しても、18バイトの3分の1しか
まだない。

418:デフォルトの名無しさん
19/06/04 20:34:02.28 XXr8i2SB.net
shit



419: そうか?



420:デフォルトの名無しさん
19/06/04 20:35:22.41 XXr8i2SB.net
バイトでいうならそうか…
画数で無駄だなぁって思っちゃった

421:デフォルトの名無しさん
19/06/04 22:15:09.20 S8UlmLic.net
>>413
それを言ったら、がよくわからんが
現状で漢字は個別、>>399の仮名は合成で表現する仕組みになってるもんをそれぞれわざわざややこしくするメリットある?
あと今更ひっくり返して形だけ16bitとか言語圏関係なく望んでないと思う

422:デフォルトの名無しさん
19/06/04 23:31:18.83 sg371bFW.net
>>399で書かれてる辞書で使われるような丸囲みとか四角囲みはU+20DDやU+20DEと組み合わせて表せばいい。
例えば[名]はU+540D U+20DE、(単)はU+5358 U20DDで表せる。

423:デフォルトの名無しさん
19/06/05 21:51:36.51 uJguGtrO.net
>>413
俺もそういうのがいいとは思うけど
同じ手偏でも幅が微妙に違ったりするじゃん。
そういうのって計算というより正直 美的感覚に基づくものだから,
結局 一字一字に「手偏の幅」とかいったパラメータを与える必要が出てきそう。

424:デフォルトの名無しさん
19/06/05 22:43:55.33 U4lYdkMb.net
>>413
字形まで自動合成する必要はないだろ。字形は1字ずつデザインするが、それを呼び出すのに
IDSコードを使うだけ。

425:デフォルトの名無しさん
19/06/06 11:04:53.81 NifDLxm9.net
>>419
418だがそれはいいね。

426:デフォルトの名無しさん
19/06/06 13:09:21.77 V+RhrtBc.net
正直IPAmjにだけ入ってるクラスの漢字見てるとこれIDSでどうすんのって思うよ。今更どうしようもないと思う。

427:蟻人間
19/06/06 13:32:02.81 8KYXjatA.net
台湾に漢字の部首を組み合わせてフォントを合成する技術があるらしい。

428:デフォルトの名無しさん
19/06/06 19:13:54.79 NifDLxm9.net
>>422
それってソフトウェアやライブラリとして提供されてたりする?
もしよければ教えてほしい

429:蟻人間
19/06/06 19:56:27.90 W0KBfnTD.net
URLリンク(www.dynacw.co.jp)
これ。

430:デフォルトの名無しさん
19/06/06 23:21:56.20 mU5eCwwC.net
技術も何もメイリオあたりもそういうのじゃなかったっけ
結局調整が必要になるっぽいけど

431:デフォルトの名無しさん
19/06/07 08:07:16.78 rFfmCjQx.net
なんか思ってた技術と違うわ。
IDSの組合せをそれが表現する漢字と対応させるんかと思ってた。

432:デフォルトの名無しさん
19/06/07 11:40:10.92 nJu+ZeI9.net
糸冬


433:デフォルトの名無しさん
19/06/09 18:38:42.78 +hAUN3Ld.net
漢字構成記述文字列って複数の記述文字の組み合わせとそもそもの複数の文字とをどうやって区別するんだろう。
「⿰山⿱上下」という並びが「峠」を意味するのか「山𠧗」を意味するのか区別できなくね?

434:デフォルトの名無しさん
19/06/09 20:33:00.79 SSgQq8CW.net
頻出度?

435:デフォルトの名無しさん
19/06/09 22:49:36.82 lml609nH.net
1文字になる以外の解釈が可能な定義にはなってないように見えるが

436:デフォルトの名無しさん
19/06/10 00:45:55.32 /7QyuKh+.net
というかもともとそういうもんじゃない?
あれは人間が読むことを前提にした文中で説明を簡素にするために使う記号であって
合成とか機械処理とかをやることははなから考えてないと思う。

437:デフォルトの名無しさん
19/06/10 11:07:15.11 g6tidy/F.net
⿰山⿱上下 → 山𠧗
⿰⿱山上下 → 峠

438:デフォルトの名無しさん
19/06/10 11:10:17.22 g6tidy/F.net
違うな
>>430 が正しい
⿰山⿱上下 → 峠 (正しい)
⿰山⿱上下 → 山𠧗 (不正)
山⿱上下 → 山𠧗 (正しい)
⿰⿱山上下 → 峠 (知らんがな)

439:デフォルトの名無しさん
19/06/10 11:14:02.36 DwfAnHcn.net
>>433
最後のは不正では。
⿰⿱山上下なら
↓こんな文字になっちゃう
URLリンク(o.8ch.net)

440:デフォルトの名無しさん
19/06/10 13:25:56.68 ujTvUCPf.net
カッコなしで誤解釈の余地なくやるにはRPNにすればよいのでは?

441:デフォルトの名無しさん
19/06/10 14:05:24.64 DwfAnHcn.net
括弧なしでも漢字構成記述文字列は一意に定まるぞ。
曖昧さの余地はない筈。

442:デフォルトの名無しさん
19/06/10 14:06:48.56 DwfAnHcn.net
ていうかそもそも漢字構成記述文字列自体がポーランド記法っぽい性格を持ってる。
⿰⿱山上下なら⿰(⿱(山, 上), 下)みたいな関数表示になって↑>>434みたいな字形になる。

443:デフォルトの名無しさん
19/06/10 14:17:40.77 g6tidy/F.net
同じ文字を二通り以上の表現方法があるのはセキュリティ上やばいと爺さんが言ってた
UTF-8みたいなやつ

444:デフォルトの名無しさん
19/06/10 14:19:52.70 g6tidy/F.net
例えば
⿰男⿰女男

⿰⿰男女男

445:デフォルトの名無しさん
19/06/10 14:43:12.52 VjrzvIQA.net
男女 男
右端は俺orz

446:デフォルトの名無しさん
19/06/10 14:45:35.90 AYc4wpPC.net
全然関係ないが男女男男女女男女男女を思い出した。おっさんだな、俺。

447:デフォルトの名無しさん
19/06/10 14:55:32.08 DwfAnHcn.net
>>439
嬲は「⿲男女男」じゃないの?

448:デフォルトの名無しさん
19/06/10 14:56:33.42 g6tidy/F.net
だから複数あるっていう意味で書いたんだが
正規化で一つにっていうのは判る

449:デフォルトの名無しさん
19/06/10 20:42:06.03 QC59E/Dz.net
表現意図としては比が2:1:1と1:1:2と1:1:1で違いがあるような

450:デフォルトの名無しさん
19/06/10 23:11:41.70 rO86gbFX.net
>>399-400
鼻濁音付き仮名文字は日本NBから提案したけど蹴られて今の姿になった。
URLリンク(std.dkuug.dk)
仮名文字に限らずシーケンスで表現可能な文字に単体の文字コードを割り振ってもらうのは
相当説得力のある理由が要る。
逆に辞書用の記号は提案書を出せば通る可能性ありそう。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch