文字コード総合スレ Part11at TECH
文字コード総合スレ Part11 - 暇つぶし2ch697:デフォルトの名無しさん
18/08/14 19:46:09.12 +lmSJTba.net
>>680
え? Unixもwchar_tはUnicodeだけど?

698:デフォルトの名無しさん
18/08/14 20:25:18.83 cWcfj41B.net
正確には、既存のコードの多くは wchar_t が使われて無くて、
その対応が大変だっていう話
WindowsはOSすべてを自分たちで作ってるからどうにかなったが、
オープンソースで他人が作ったものの寄せ集めだと対応が大変だろうね

699:デフォルトの名無しさん
18/08/14 20:38:21.12 +lmSJTba.net
gcc は、 wchar_t を16bitと32bitでコンパイル時に選択できるようになっているので、のちのちWindows以上に厄介なことになるでしょう。

700:デフォルトの名無しさん
18/08/14 22:54:07.34 YfFk5ERN.net
>>681
Linuxではそうだけど、Unix一般の話でいうとwchar_tはcharの多バイト文字をひとつの値で表せられるならなんでもいいし
実際BSDはcharがSJISならwchar_tはJISコード

701:デフォルトの名無しさん
18/08/15 01:31:39.17 URD+Lz/b.net
OSの中とかプログラム言語とかどうでもいい。
インターネットとかの通信プロトコルでオクテット(8bit)単位で交信、終端は0x0A 0x0Dとかの特定のオクテットコード列を使用とかになってるのが多数ある。
内部では好きなビット数で処理すれば良いけど、通信には8bit単位の処理系も必須。
ユニコード使うかどうか以前の問題。

702:デフォルトの名無しさん
18/08/15 01:44:12.43 Vx/KYfiZ.net
ケチケチ言わずIPV6くらいドカンと拡張しようぜ

703:デフォルトの名無しさん
18/08/15 02:10:10.66 sxh1cciH.net
wcharは、内部の符号化に依存しちゃいけないし、幅が 16bitか32bitかに依存するのもよくない
使うのがなかなか難しいね
但し、char と混在させるのは単なる誤り。printf に使うと途中で切れるとかいうのは使う側のミス

704:デフォルトの名無しさん
18/08/15 05:49:51.06 fSWxnCwv.net
wchar_tやったときない

705:デフォルトの名無しさん
18/08/15 11:55:41.55 RPpo5aFa.net
>>687
printfで途切れる云々は仮にLANG=C.UTF-16みたいなロケールがあったとしての話だろ?
isdigit等も実装できないし、規格上できないようになってるとは思うけど

706:デフォルトの名無しさん
18/08/15 13:30:59.38 /R99sNfj.net
>>687
printfはchar(のポインタ)を受け取るんだから、wchar_tは使えないでしょ?
というかcharで表示できない文字だから、wchar_tが作られたというのが正しい
そうなると、printfだけでなく多くの文字列用関数に対して
charバージョンとwchar_tバージョンが必要になって、変更しなければいけなくなるよね
それが大変だからUnix/LinuxはUTF-16には対応するのは現実的に不可能
対応が簡単なUTF-8を作りました。という流れ。
>>689
> LANG=C.UTF-16みたいなロケールがあったとしての話だろ
Unix/LinuxはUTF-16に対応するの大変だから、
そんなロケールは実現できないだろうね
似たような理由EUC-JPは対応できたけど、SJISは対応できなかった
と思ったけど以下のような警告出るけど使えるのかw
> # localedef -f SHIFT_JIS -i ja_JP /usr/lib/locale/ja_JP.SJIS
> キャラクタマップ `SHIFT_JIS' は ASCII 互換ではありません, ロケールは ISO C に従っていません
こんなのまで見つけた
URLリンク(www.ossforum.jp)
ダメ文字(文字の一部に\が含まれる場合)にさえ、あたらなければ大丈夫ってことなんかな
UTF-16と違って確率的には低いだろうけど

707:デフォルトの名無しさん
18/08/15 15:55:17.05 fksu3zh2.net
>>662
シュメール文明の神アヌンナキたちの故郷の惑星のことかと思った

708:デフォルトの名無しさん
18/08/15 16:15:54.08 Y4UT7naw.net
乳首の甘噛み

709:デフォルトの名無しさん
18/08/15 16:25:48.18 fSWxnCwv.net
>>690
> 似たような理由EUC-JPは対応できたけど、SJISは対応できなかった
kwsk

710:デフォルトの名無しさん
18/08/15 16:43:22.85 BHOopni+.net
>>693
だからダメ文字だって
URLリンク(ash.jp)
> また、2バイト文字の中に"\"(0x5C)を含むデータが存在するため、文字列がメタ処理されてしまい、文字化けする可能性があります。
LinuxやUnixに限った話ではないけど、
文字を1バイトずつ処理するようなもの(つまりcharポインタ)は
ASCIIと互換性がないと不具合の原因になる
だからSJISやUTF-16やUTF-32はLinuxやUnixで
ネイティブに処理するのは苦手なんだ

711:デフォルトの名無しさん
18/08/15 17:20:00.89 /SQznhgr.net
中途半端な多encoding対応で不具合が出たという話。要はバグ。

712:デフォルトの名無しさん
18/08/15 22:23:06.07 URD+Lz/b.net
アホか、アホしか居ないか?
それともわざとボケてんのか?
なんで wchar_t の話と printf の話を一緒に語ってるんだ?
wprintf 🤔

713:デフォルトの名無しさん
18/08/16 02:36:38.02 agaekNdO.net
>>696
だからprintfで実装されているものをwprintfに修正するのが大変だって話
またwopenfなどワイド文字対応の関数が存在しない場合も存在する。
それに単純に置き換えてしまうと、


714:今度はASCII環境で動かなくなってしまう なぜならwchar_tは16bit または 32bitという固定サイズなので 8bitのASCIIは扱えない(当然可変長バイトのUTF-8もwchar_tでは扱えない) だからwchart_tというものが作られたけど、Linux/Unixはそれを使用して ワイド文字列対応にするのは現実的に不可能と判断し、 printfで扱えるASCII互換のUTF-8を使うことにした



715:デフォルトの名無しさん
18/08/16 02:59:55.06 HgLxU9xg.net
ダウト
wchar_t で普通に ASCII も使える。当たり前。i18n でプログラム組んだことないだろ?
UNIX 系で utf8 が好まれる最大の理由は内部コードとかじゃなくて、ファイル名。
ファイル名に直接 0x00 が入れられないので。あとはネットワークまわり。

716:デフォルトの名無しさん
18/08/16 03:50:25.48 agaekNdO.net
そりゃ16bit(つまりUTF-16)として書くか変換すりゃASCIIの範囲の文字列は
扱えるだろうさ、そうじゃなくて8bitのASCII文字が扱えないって話
charは1文字8bitとして定義されたものだが、UTF-8を扱う場合は可変長としても考えられる
wchar_tは16bit (または 環境によっては32bit)であるがUTF-16を扱う場合は16bit単位の可変長、
つまりサロゲートペアを扱える。しかしwchar_tは所詮16bit(または32bit)単位なので8bitは扱えない
そのためUTF-8のファイルを読み込むときには、wchar_tに変換して読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-8に変換するとかしてだ。
このようにASCII互換のデータを扱うためには単純にchar型をwchar_t型に置換しただけでは
だめで変換処理が必要になる。それに対してUTF-8であれば、char型を可変長char型と
みなすことでそのまま扱うことができる。文字列の長さをカウントするときとか
1文字単位で処理しなければいけないところだけ、UTF-8を扱えるライブラリを使えば良い

717:デフォルトの名無しさん
18/08/16 06:01:32.95 agaekNdO.net
訂正
そのためUTF-8のファイルを読み込むときには、wchar_tに変換しながら読み込まなければいけない。
例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-16に変換するとかしてだ。

718:デフォルトの名無しさん
18/08/16 08:19:53.82 RvAH1val.net
ファイルシステムに記録された物理的encodingに依存したコーディングができる方が良いという主張かねぇ。

719:デフォルトの名無しさん
18/08/16 08:31:16.13 FM/GQ3/9.net
Windows標準のXmlLiteというXMLパーサーは、入力ファイルがどんな文字エンコードだろうと、
UTF16に適宜変換するようになっているので、プログラマに読み取り時の文字エンコード選択の余地はない。

720:デフォルトの名無しさん
18/08/16 10:25:22.61 Lp1O0T8c.net
>>701
内部ネイティブ文字コードがcharになっているLinux/Unixでは
char非互換の文字コードに対応するのが大変だったという主張
>>702
Windowsは内部ネイティブ文字コードがUnicode(UTF-16)だから
別にそれでいいのでは?

それにしても結果論ではあるけど、wchar_tは失敗だったねぇ
16bitでは足りないことは最初からわかっていたけど、たとえ32bitであっても
異字体セレクタやらで意味的な1文字のbit数が固定ではなくなってしまった。
固定でないならば単純な実装で文字を扱うのは不可能。
whar_t使うメリットが無くなってしまった。
まあその怪我の功名で絵文字に色がつけられるようになり、肌色の違いも
対応も可能になったんだけど、これも良かったんだか悪かったんだが。
ここまで来たら絵文字以外の文字も全て色変化対応にしたらって思う
そうすりゃエスケープシーケンスなしで色を付けられるよ
もはや文字コードじゃないね

721:デフォルトの名無しさん
18/08/16 10:57:13.81 dYP+//4M.net
Win10 1809のコンソールはUTF-8対応
Windows Command-Line: Introducing the Windows Pseudo Console (ConPTY)
URLリンク(blogs.msdn.microsoft.com)

722:デフォルトの名無しさん
18/08/16 11:03:08.50 wiNukf+g.net
アホが頑張るとろくなことにならない

723:デフォルトの名無しさん
18/08/16 20:21:21.81 HgLxU9xg.net
wchar_t のこと何もわかっていないのに適当なこと言ってるな。
wchar_t は一つのプログラムで複数の文字コードを切り換えて使うための仕組みで、外部用の多バイトコードから内部文字コードに変換するのは当たり前。
char を wchar_t に書き換えるだけで済むとか誰も思っていない。そんなの言うだけ恥かしい。
大きさも規格では少なくとも 8bit で sizeof(wchar_t) >= 1 というだけ。なので 8bit でも 64 bit でも何でも良い。
windows で UTF16、linux の glibc で UTF32 を wchar_t にいれてるのは勝手にそうしてるだけで、そうしないといけないという決まりはないし、そうじゃないOSも普通にある。内部コードなので何を入れてるかはプログラマやユーザが気にする必要はない。
あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。ASCII が 7bit というのは常識レベルの知識。

724:デフォルトの名無しさん
18/08/16 21:42:21.17 rfZ8gqJr.net
それで何が言いたいの?

725:デフォルトの名無しさん
18/08/16 21:43:39.72 rfZ8gqJr.net
常識だし当たり前のことだから、
言ってることに間違いはないってことかな?

726:デフォルトの名無しさん
18/08/16 21:50:57.04 VSd23G4R.net
オレですら電子メールでは半角カナは使わないからな

727:デフォルトの名無しさん
18/08/16 22:12:07.10 RvAH1val.net
今時のまともなMUAでいわゆる半角カナに対応できないものってあるかな?
fj全盛の20年前ならいざ知らず。

728:デフォルトの名無しさん
18/08/16 22:16:46.79 VSd23G4R.net
C/C++
 The C and C++ standard libraries include a number of facilities for dealing with
 wide characters and strings composed of them. The wide characters are defined using
 datatype wchar_t, which in the original C90 standard was defined as
  "an integral type whose range of values can represent distinct codes for all
   members of the largest extended character set specified among the supported
   locales" (ISO 9899:1990 §4.1.5)
 Both C and C++ introduced fixed-size character types char16_t and char32_t in the
 2011 revisions of their respective standards to provide unambiguous representation
 of 16-bit and 32-bit Unicode transformation formats, leaving wchar_t implementation-defined.
 The ISO/IEC 10646:2003 Unicode standard 4.0 says that:
  "The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently,
   programs that need to be portable across any C or C++ compiler should not use
   wchar_t for storing Unicode text. The wchar_t type is intended for storing compiler-defined
   wide characters, which may be Unicode characters in some compilers."
カンペキな引用
やはりオレのレスはカンペキ

729:デフォルトの名無しさん
18/08/16 22:23:45.92 VSd23G4R.net
会社のメールは勝手にメールに含まれる半角を全角にかえやがる
※ 必要で半角をいれてるからな
半角でフォルダ名つけるバカがいるせいで
その半角を含むパスに格納されてる資料のおいてあるパスを送ると
メール送ったあと一時期必ず文句がきてたからな
 その資料にアクセスできないと
 そんな場所ないと
うんざりしたから
この部分が半角ですと書いてやっても
アクセスできないと返信が来る
何度か半角でフォルダ名つけたバカを探しだして
しばいたろかと思ったわ

730:デフォルトの名無しさん
18/08/16 22:33:35.19 jJkSajo2.net
しばくんじゃなくてフォルダ名を変更すれば済むじゃん
あんたタイムゾーンスレでずっとそういう趣旨のこと言ってるよねw

731:デフォルトの名無しさん
18/08/16 22:38:11.04 VSd23G4R.net
フォルダ名は一回変更したわ
すると突然
半角以下にあるリンクがすべてアクセスできなくって
みなが大騒ぎになったわ
そんなことやったのはだれだと
幸いオレがやったとバレずに済んだが

732:デフォルトの名無しさん
18/08/17 00:58:59.23 6wrElEJt.net
掲示板に半角カナで書くバカもいる

733:デフォルトの名無しさん
18/08/17 01:01:58.63 6wrElEJt.net
メールで送らなければいい
会社のメールを変えればいい
会社を変えればいい
半角君の発想だとこんな感じ

734:デフォルトの名無しさん
18/08/17 02:37:02.49 adBXNxGj.net
掲示板に半角カナ使うなとか原始人かよw

735:デフォルトの名無しさん
18/08/17 05:01:13.36 xjFqJl5K.net
>>706
今北産業

736:デフォルトの名無しさん
18/08/17 05:32:43.08 DWhhxT1h.net
>>718
そいつは勘違いしてるよ。
Linux/UnixはUTF-16などASCIIと互換性がない文字コードに
対応するのが大変だからUTF-8を作ったという話をしてるのにそれをわかってない
UTF-16に対応しようと思ったら、あちこちで使われてるcharをwchar_tに変えないといけない
printfですら使うことができない。まあ現実的に不可能だわな
最初からUnicode(UTF-16)対応として設計開発された
Windows NTとは違うわけだ

737:デフォルトの名無しさん
18/08/17 06:41:03.91 xjFqJl5K.net
>>719
詳しい解説サンクス
wchar_t 難し杉ない?

738:デフォルトの名無しさん
18/08/17 07:06:48.04 p3S4iKgX.net
外国人は鼻ほじりながら「おまいら大変だなー」と同情してるだろうな
charで全て賄える文字文化圏が羨ましい

739:デフォルトの名無しさん
18/08/17 14:32:22.25 qwkl5VTB.net
>外国人は鼻ほじりながら「おまいら大変だなー」と同情してる
その手の輩も今はemojiに対応するために結局Unicodeと向き合わなくちゃならなくなってるけどな

740:デフォルトの名無しさん
18/08/17 17:39:37.76 6wrElEJt.net
>>717
フォルダ名に半角カナ使うなとか原始人かよw

741:デフォルトの名無しさん
18/08/17 17:52:36.10 KRgOhrj9.net
>>723
??

742:デフォルトの名無しさん
18/08/17 17:57:13.67 RTbKyx/W.net
バカ「半角カナを使うと文字化けするんだぞ!使うの禁止!」
それは昔メールでよく使われていたISO-2022-JPに半角カナがないのが
理由なのでSJISやEUC-JP、今の主流のUnicodeにはあてはまりません。
ISO-2022-JPでなければ半角カナ使って良いんですよ。
バカ「む、難しい言葉でごまかすな!」

743:デフォルトの名無しさん
18/08/17 18:37:13.62 UXylYx1j.net
わざわざ使うようなものでもないけどな

744:デフォルトの名無しさん
18/08/17 20:09:50.97 yTcXDgUV.net
やっぱりバカどもは
なんにもわかってないわ。。。
電子メールでいうテキストというのは
7bitだけで表現されたもんをテキストといってるワケ
つまり、伝統的にascii(7bit)だけで表現されてるデータをテキストと呼称してる
昔は、7bitのデータしかやりとりできなかったネットワークもあったからな
utf-8とかshift-jisとかな、メールでは意味不明なバイナリーなわけ
分かる?
そんなテキストもどきでも
いまでもプロトコルの規定どおり7bitのデータ以外を発信してはいけないのは当然
 
 Content-Transfer-Encoding: 7bit ← コレは絶対だからな
utf-8やshift-jisのテキストもどきならbase64エンコードするとかしないといけない
そのままがいいならunicodeのエンコード形式でutf-7という選択肢もある

745:デフォルトの名無しさん
18/08/17 20:12:42.50 yTcXDgUV.net
お、書けた
ルータ再起動でも書けなかったのに
>>727のレスをサクラで半角全角変換するだけで書けた
どの部分がよくなかったのかよくわからん
サーバーが>>727のレスをセキュリティブロックではじいてるみたいだったからな
まあいいか

746:デフォルトの名無しさん
18/08/17 20:12:47.89 xjFqJl5K.net
今北産業

747:デフォルトの名無しさん
18/08/17 20:14:07.81 yTcXDgUV.net
日本のすべてのシステムではずっとな
メールのテキスト表示まで保証されてるのはiso-2022-jpにマッピングできる文字だけだからな
iso-2022-jpにマッピングできない文字はそもそも保証されてない
※ JISにマッピングできないUnicodeやShift半角カナなんか保証してない
※ 最低でもiso-2022-jpのフォントなら日本のどのシステムにも用意できてるハズだからな
※ そうでないとテキストすら表示できない
保証されなくてもいいなら、そのままばっちいままのテキストもどきをエンコードして発信すればいいワケ
別にUTF-8、Shift_JISで送ってはいけないということはない
※ UTF-8なんかもともとエンコードされてるオクテットをさらに7bitにエンコードしてから発信することになる
わかった?

748:デフォルトの名無しさん
18/08/17 20:17:14.05 yTcXDgUV.net
結論をいえば
受信されるシステムで最終的にそのシステム用にデコードまでできて
表示まできるのなら問題ない
それだったら受信したヤツも腹もたたない
表示できないメールもらったら腹立つだろ
デコード未対応だったり未対応形式だったりするエロ動画をしらずにダウソしてな、
そのエロ動画が再生できないのと同じぐらいの強いイラダチを感じるハズだからな

749:デフォルトの名無しさん
18/08/17 20:18:53.90 yTcXDgUV.net
ホントなこの板は低学歴底辺知恵遅れのゴミクズしかいないのがよく分かるわ
 > あと「8bit のASCII」とか寝惚けたこと言ってるけどそんなこと言うやつは文字コードの話する資格ない。
 > ASCII が 7bit というのは常識レベルの知識。
ID:HgLxU9xgやオレみたいにきわめて常識的なこといってるヤツが叩かれて
しったかテキトーなこといってる低学歴底辺知恵遅れが幅をきかせてるのがこの板だからな。。。

750:デフォルトの名無しさん
18/08/17 20:29:28.96 RgiGOjCt.net
>Content-Transfer-Encoding: 7bit ← コレは絶対だからな
前世紀の遺物かよw
つかオマエ、mohtaみたいでキモいんだが。

751:デフォルトの名無しさん
18/08/17 20:32:13.67 yTcXDgUV.net
 MIME-Version: 1.0
MIME-Versionは1.0しかない
ホントな知恵遅れがいってることは
いつも意味が分からない

752:デフォルトの名無しさん
18/08/17 20:34:01.29 yTcXDgUV.net
低学歴底辺知恵遅れの世界にプロトコルなんかないからな
低学歴底辺知恵遅れドカタは
ネットワークのプログラムなんかやらないから関係ない

753:デフォルトの名無しさん
18/08/17 20:37:37.32 yTcXDgUV.net
低学歴底辺知恵遅れと
まともな人間の間では
そもそも意思疎通は不可能
プロトコルがまったく違う
低学歴底辺知恵遅れ特有のプロトコルがあるらしいが
オレはそのプロトコルがまったく分からない

754:デフォルトの名無しさん
18/08/17 22:48:02.68 dUYwrsCb.net
氏名における「髙」や「𠮷」や「乭」 | yasuokaの日記 | スラド
URLリンク(srad.jp)
読売の元の記事貼ろうと思ったらネット上には無かった……。
JIS X 0213ベースなのか?
戸籍統一文字と住基ネット文字コードの擦り合わせしたデータベースはどうするんだあれ

755:デフォルトの名無しさん
18/08/18 12:04:57.41 TgZCKLMK.net
UNICODEで恥ずかしい書き込みしてた人が
大量レスでスレ流ししてるようにしか見えない

756:デフォルトの名無しさん
18/08/18 12:25:36.64 XOnooV72.net
ID:yTcXDgUV
連投してID赤くしてたら誰もレス読まないぞ

757:デフォルトの名無しさん
18/08/18 12:27:24.39 /9y7PjMS.net
>>739
>ID赤くしてたら
皆が皆、専用ブラウザを使っているとは限らないのでは?

758:デフォルトの名無しさん
18/08/18 12:33:47.22 KC80I9ck.net
unicode の議論と wchar_t の議論を混ぜるやつは素人。
unicode が普及するすっと前から wchar_t は普通に使われてる。

759:デフォルトの名無しさん
18/08/18 14:13:23.54 5gN61dbI.net



760:そりゃ使われてるかどうかで言えば使われてるだろうけど。 そんなことよりも技術的な所気にならない? 問1 16bitのwchar_tで1バイト または 3バイトのEUC-JPを 扱う場合メモリイメージはどのようになるでしょうか? 問2 32bitのwchar_tで1バイトのEUC-JPを扱う場合 メモリイメージはどのようになるでしょうか? 答えわかる?意外すぎてびっくりするよ。



761:デフォルトの名無しさん
18/08/18 14:15:44.35 5BnyFmRJ.net
16bitのwchar_tや32bitのwchar_tの使い方(エンコーディング)によるとしか

762:デフォルトの名無しさん
18/08/18 14:18:12.19 5gN61dbI.net
>>743
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ

763:デフォルトの名無しさん
18/08/18 14:33:57.87 KC80I9ck.net
>>744
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。

764:デフォルトの名無しさん
18/08/18 14:42:51.01 5gN61dbI.net
> 昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
それはwchar_tが32bitってことかな?
16bitでは不可能だよね?

765:デフォルトの名無しさん
18/08/18 14:48:48.76 /4eOy7p1.net
wchar_t自体はcharset/encoding独立だとしても、実際にEUC-JPを格納する実装が
存在していたとは知らなかったな。

766:デフォルトの名無しさん
18/08/18 14:55:58.85 KC80I9ck.net
>>746
知らないなら、変な知ったかぶりせずに黙ってるべき。
実装によって色々差があるけど最上位ビットとかをフラグに使用して16ビットに詰め込んでたんだよ。
うろ覚えだけど、例えば
0021-007e に ascii
00a1-00fe に jis kana
2121-7e7e に 0208
a1a1-fefe に 0212
とか、そんな感じ。

767:デフォルトの名無しさん
18/08/18 15:23:20.80 bNUWoVQ1.net
やけに wchar_t にこだわる(かみつく)奴がいるけど理由がわからん
内部がどういうエンコーディングかはプログラマは意識する必要ないのに

768:デフォルトの名無しさん
18/08/18 15:32:18.21 KC80I9ck.net
>>747
16ビットでなくて 32ビットで良いなら、今でも FreeBSD は EUC-JP をそのまま wchar_t に入れてる。
32bit なのでフラグ操作とかもなくて生のまま 0x008fa2be とか 0x00008ea0 とか。

769:デフォルトの名無しさん
18/08/18 16:04:03.91 M4v7ary7.net
低学歴低知能のククソニートどもや底辺ドカタどもは
自分がどんだけ知恵遅れなこと書いてるのか
なかったことにししてる
サマータイムスレでも同じだからな
コイツラ

770:デフォルトの名無しさん
18/08/18 19:02:32.17 IyhzoKxX.net
>>742
漏れの知ってる答えは
1も2もそういうコード書く奴はクビ

771:デフォルトの名無しさん
18/08/21 10:01:44.15 O500W7m7.net
RFC 8369 - Internationalizing IPv6 Using 128-Bit Unicode
URLリンク(tools.ietf.org)

772:デフォルトの名無しさん
18/08/21 14:20:52.24 avvvfppX.net
あれだろうなと確認したらやはりあれだった

773:デフォルトの名無しさん
18/08/21 14:31:10.12 Y1HyydAv.net
ああ、アレだな

774:デフォルトの名無しさん
18/08/21 15:54:58.52 R5Y2p11o.net
あれだよねあれ。あれ安くて美味しいよね

775:デフォルトの名無しさん
18/08/21 15:56:11.80 dhW5/kUC.net
え?ハトが?

776:デフォルトの名無しさん
18/08/24 18:18:47.09 mVdVBkdF.net
すいません 文字コードについて教えてほしいことがあります マジものの初心者なんですがどうかおねがいします
Unicodeの一種(?)で65280文字ある種類のものを、なんと呼ぶのでしょうか。
(最初の方は透明に見えるフォントで始まり、最後の方は全角英数などが割り当てられています
URLリンク(www.m-hoz.com)
このページと想定しているものはまったく同じです)
WikipediaなどでUnicodeの記事を読んだのですが、バージョンや面やサブセットなどたくさんの種類があり
私が利用したいと思っている65280文字を含むUnicodeの一集合のことをなんと呼べばいいのか分かりませんでした。
というか 正直、Unicodeというのは65280文字(0xFFFF番目ですから)までしかないものと思っていましたが
なんかそれを遥かに凌ぐ量の文字が収録されていると書いてあり 余計に混乱してしまいました
文字コードに関する知識がほとんどなく おかしい文章になってしまいすいません よろしくおねがいします。

777:デフォルトの名無しさん
18/08/24 18:42:02.68 NFTQhSIK.net
65536-256

778:デフォルトの名無しさん
18/08/24 18:46:30.51 qhlQ/zrJ.net
>>758
正直なところ何を言いたいのか理解できないのだが、Unicode で定義されている文字なら公式サイトで全部見られるよ。
Code Charts
URLリンク(unicode.org)

779:デフォルトの名無しさん
18/08/24 19:19:57.24 wXpFbMeR.net
>>758
基本多言語面
URLリンク(ja.wikipedia.org)(%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89)#%E5%9F%BA%E6%9C%AC%E5%A4%9A%E8%A8%80%E8%AA%9E%E9%9D%A2
Unicodeは似てる文字を一つにまとめて約6万5000文字(16bit)に収めるぞーって
言っていたのが、案の定無理だと破綻し(だから言っただろうがバカメリケンが)、
21bitを使い最大で約111万文字収録可能になってる
最新のUnicode 11.0 では13万7439文字が収録されてる

780:デフォルトの名無しさん
18/08/24 19:24:24.02 wXpFbMeR.net
Unicodeはもはや文字コードじゃない
文字シーケンスというべきだろう
複数の文字を使って1文字を表している

781:デフォルトの名無しさん
18/08/24 20:11:02.68 mVdVBkdF.net
>>761
「基本多言語面」
ありがとうございます! すみません。言い方がボケナスで余計な労力をお掛けしました。
この言葉が知りたかったのです。
ちなみに極めてどうでもいいことですが
マインクラフトというゲームのフォントを変えたいと思っており
その為のフォントおよび文字コードの勉強していこうとしていたところでした。

782:デフォルトの名無しさん
18/08/25 06:50:31.16 gxBSyOuw.net
HTML のフォント指定は、こういう感じ。
「html フォント指定」で検索!
HTMLの文字コードは、UTF-8
<font face="候補1,候補2,候補3">フォントを変更します</font>
<p><font face="MS P明朝,MS 明朝">これは明朝体を指定</font></p>
それとも、マインクラフトはHTMLじゃないのか?

783:デフォルトの名無しさん
18/08/25 07:11:24.89 5ar3I1wr.net
>>762
合字はそうすることが自然だからそうなってるんだと思ってるんだけど、全部個別に文字コードを割り当てたほうがいいってこと?

784:デフォルトの名無しさん
18/08/25 09:10:13.50 2/0/KxdV.net
>>764
マインクラフトのフォントは
./assets/minecraft/textures/font
というディレクトリに16ドットフォントが16列16行配置されたPNG形式の画像が0xFF枚格納されてる
というような仕様になってますね
HTMLはあんまり関係ないです。

785:デフォルトの名無しさん
18/09/07 14:01:42.05 NnTKHa0h.net
&hearts;

786:デフォルトの名無しさん
18/09/10 17:53:51.80 wWJP5KoS.net
Unicodeの公式サイト(URLリンク(unicode.org))で,Unicodeの最新安定バージョンがなにかを調べるにはどこを見ればいいんですかね。
今11.0だそうですが,他サイトの情報なので,なるべく本家本元の情報が欲しいんです。

787:デフォルトの名無しさん
18/09/10 19:07:05.53 Xr++yj7Q.net
>>768
ちゃんとメニューを見よう。
サイトの左側のメニューから The Unicode Standard プルダウンの中にある Latest Version を選べばよい。
というわけで、現時点では 11.0 が最新という認識で正解です。

788:デフォルトの名無しさん
18/09/11 03:10:58.81 zLtJmO+E.net
>>769
あざす。
URLリンク(www.unicode.org)
ここにアクセスしたら自動的に最新版に繋がりますね。

789:デフォルトの名無しさん
18/09/12 15:59:00.59 DAmcAY4y.net
Unicodeって,なんで初めに多バイト文字のことを考えなかったんだろう。
そもそも多バイト文字を統一するために設立したようなもんなんだから,
2^16では済まないことくらい予測できた筈なのにね

790:デフォルトの名無しさん
18/09/12 16:00:08.88 3JFFS4nO.net
The Unicode Blog: New Japanese Era
URLリンク(blog.unicode.org)
Unicodeの方でも記事になってたのか。

791:デフォルトの名無しさん
18/09/12 16:39:35.87 1j3hWxX7.net
>>771
アルファベット二十数文字しか使ってない奴らが
六万文字もあれば世界中全部の文字カバーできるよな
って雑に考えたから

792:デフォルトの名無しさん
18/09/12 17:33:44.29 lrlSblfi.net
>>773
ちょっと漢字の知識があっても漢字が5万字くらいだろ?
漢字で5万使って残り1万5千だな、余裕だろって感じだったんだろうな

793:デフォルトの名無しさん
18/09/12 22:23:14.60 DAmcAY4y.net
>>774
まあ正直,日本人でも特段勉強してなかったらそういう感覚やろうしな

794:デフォルトの名無しさん
18/09/12 22:25:38.00 yfKtIfo2.net
で、バカは5マンの漢字全部読めるの?
で、バカは5マンの漢字全部書けるの?
で、バカは5マンの漢字全部使えるの?
で、バカは5マンの漢字全部使ってるの?

795:デフォルトの名無しさん
18/09/12 22:30:26.22 yfKtIfo2.net
卜部の卜
トナカイの卜
見た目でも違いなんかまったくわからない

796:デフォルトの名無しさん
18/09/13 02:31:52.28 cMp+qWRQ.net
でもコンピュータに合わせて世界を
作り変えることができるなら、
65535文字に抑えるだろうな
サマータイムもない世の中
文字も16進数が基本かな
電気の流れもマイナスからプラスへだ

797:デフォルトの名無しさん
18/09/13 08:51:11.89 wI3BpnoI.net
君が代によれば、天皇の世は八千代続くので、
元号の合字も8000個必要になる。
Unicodeのどこかの面にまとめて確保できないものだろうか。

798:デフォルトの名無しさん
18/09/13 09:03:45.21 1sKEH3Wo.net
>>778
おおむね賛同するが
電流の流れが電子の流れと逆なのは電算機登場以前の話だぞ

799:デフォルトの名無しさん
18/09/13 09:54:19.07 l9KSlvFS.net
>>774
宇宙人と交信する予定は無かったのか

800:デフォルトの名無しさん
18/09/13 09:56:12.02 l9KSlvFS.net
>電気の流れもマイナスからプラスへだ
これいつかやっても良いと思うけど
どこにどんな影響が出るんやろね
数学の外積の定義とかも変えたくなりそう

801:デフォルトの名無しさん
18/09/13 16:01:34.38 Mtznb6SP.net
>>782
電子がマイナスからプラスへと流れると電流がプラスからマイナスへ流れるという理解で問題ない

802:デフォルトの名無しさん
18/09/13 17:09:43.69 1sKEH3Wo.net
数字が連続してない符号化文字集合ってあるのかな。
EBCDICとかは英語が連続してないことで有名だけど。

803:デフォルトの名無しさん
18/09/13 19:23:35.05 U1nKZv8x.net
C言語の規格で'0'から'9'は連続していることになってたと思うから
そうじゃない文字コードがあったとしてもとっくに淘汰されてるのでは

804:デフォルトの名無しさん
18/09/13 19:34:24.00 l9KSlvFS.net
どうせ文字集合じゃねーって言われるけど
漢数字

805:デフォルトの名無しさん
18/09/13 19:47:56.84 QXoXnqLA.net
0~9は世界共通文字
どの国でも同じ文字が使える

806:デフォルトの名無しさん
18/09/13 20:25:28.42 U1nKZv8x.net
世界共通になる前に6と9のどちらかを変更しておいて欲しかった

807:デフォルトの名無しさん
18/09/13 21:10:29.13 1sKEH3Wo.net
>>786
毎日のように使うのに、普通に気が付いてなかった。
おもしろい。
けど文字集合ではないなw
>>788
あと1と7

808:デフォルトの名無しさん
18/09/13 21:35:44.08 1sKEH3Wo.net
漢数字がそれが表わす数字順に並ばないって結構有名だったのか……恥かしい

809:デフォルトの名無しさん
18/09/14 06:35:40.18 gu26jl1+.net
>>788
9って手で書くときはqみたいな形じゃない?
なんでコンピュータのフォントだと丸まるんだろう。

810:デフォルトの名無しさん
18/09/14 07:22:37.60 jXQgdfuV.net
>>791
ビリヤードの玉なんかわざわざ区別のつかないような字形にした上で
区別が付くように線を引いてるんだぜ

811:デフォルトの名無しさん
18/09/14 12:40:21.98 5xDSXwp0.net
>>788
RとЯ

812:デフォルトの名無しさん
18/09/14 15:58:06.01 V0YFlSa+.net
1960年代1970年代では、
コーディングシート上で「O(オー)」」と「0(ゼロ9)とを
区別するために
Fortranは「「O(オー)」の上に傍線を書いたし、
COBOLでは、「0(ゼロ)」に斜線を引いて区別
してたような気がする。
「I(あい)」と「1(いち)」の場合は、「I(アイ)」を
小文字の「i」を使っていたような気がする。
なにぶん、古い話なので、間違っているかもしれないが
一応参考までに

813:デフォルトの名無しさん
18/09/14 16:10:40.01 cGEdpT46.net
斜線入りの0
VS使ってU+0030 U+FE00で表せるように
なってたんだな。

814:デフォルトの名無しさん
18/09/14 16:32:11.43 jXQgdfuV.net
>>795
本当だ!
って、なぜVS?重ね書きでいいのだから合成では、って探したらU+0338 U+0030でもいいらしい……
二重収録……

815:デフォルトの名無しさん
18/09/14 18:22:58.68 q3l06dS7.net
まーーた「異字体」という概念を欧米のやつらがめちゃめちゃにしやがったな

816:デフォルトの名無しさん
18/09/14 19:03:02.27 YqXme0/t.net
>>794
Dも横線入れたり、Uは必ず小文字のヒゲ書いたな
今でも手書きアルファベットでついやっちまうw

817:デフォルトの名無しさん
18/09/14 19:03:15.35 TqoCD1dQ.net
Unicodeをめちゃくちゃにしてるのは大昔の馬鹿な中国人

818:デフォルトの名無しさん
18/09/14 21:49:17.28 J5fDz/kR.net
斜線入りゼロの全角版もU+FF10 U+FE00で規定しようとしてるな。
もうアホかと。

819:デフォルトの名無しさん
18/09/14 22:09:46.77 zZtMiOUI.net
あーあもうめちゃくちゃだよ…

820:デフォルトの名無しさん
18/09/14 22:50:34.15 G7suMYm4.net
21bitも使わせるからそんな浪費するんだよ。16bitで我慢させておくべきだった。

821:デフォルトの名無しさん
18/09/15 00:35:10.02 RLWLi0Yo.net
多コードポイント文字(←?)なのでビット数関係ない
むしろ、16bitに詰め込むために合成やVS、ZWJのような小細工が作られてしまって
それが乱用されてる

822:デフォルトの名無しさん
18/09/15 00:49:16.31 KIanXBkQ.net
UCS-4でコードポイントで利用できる領域は21bitまでときまってる
コードのレンジはMSBを除く31bitまで
コードポイントのビット数とエンコードのビット数は関係ない
相変わらず低学歴知恵遅れは
意味不明なことばっかりいう

823:デフォルトの名無しさん
18/09/15 08:00:03.75 JGlclHBn.net
>>804
知恵遅れは自分の思慮の浅さを認識出来ないから知恵遅れなんだぞ
仮に間違っていても何らかの意図や思惑があって発言したものを
意味不明と思考停止した時点で自分が馬鹿だと宣言するようなものだから
賢いつもりならもっと謙虚な態度を取るべきだ
>>803は複数のコードポイントのシーケンスで一文字を表す体系を採用した時点で
コードポイントが何ビットかはそれほど重要な問題じゃないと言っているわけだし
基本面しかなかったころにUCS2でコードポイントを16bitで表現していたのだが
賢いつもりならそれを分かっててそんな馬鹿のことを書いてるのか?

824:デフォルトの名無しさん
18/09/15 10:09:57.93 RLWLi0Yo.net
お、おう……ありがとう
「誰一人エンコーディングの話はしてねーだろ幻視かそれともセレクタ知らんのか」ぐらいは書こうとしたんだが

825:デフォルトの名無しさん
18/09/16 22:47:16.05 R5KpyTLY.net
>>796
U+0030 U+FE00は標準化されてるけどU+0030 U+0338の方はそうじゃない
スラッシュ0っぽいものになるかもしれないという程度
あとVSは検索時には無視されるんで0030と等価になる

826:デフォルトの名無しさん
18/09/18 13:57:58.92 5qlr0JT7.net
>>807
従来のやり方に合わせるとU+0030 U+0338に対応するNFC形式を用意して検索は互換分解で対応ってならね?
逆にVSを検索時無視するという仕様を活用するなら、互換分解よりもそっちが良かったって文字が他に沢山ない?
まあ、今更言ってもなんだ

827:デフォルトの名無しさん
18/09/18 13:58:59.04 5qlr0JT7.net
訂正、合成文字の方が先だからU+0338 U+0030

828:デフォルトの名無しさん
18/09/18 22:20:07.57 rWjVnVL/.net
なんで混同している人がいるのかえあからないけど合字と変種は別のものだよ。
合字はもとの文字と別物として扱われるのに対して、変種はあくまで同じ文字の字形違い。

829:デフォルトの名無しさん
18/09/21 03:58:13.13 dtC8HZuo.net
すいません
「�����������d」
という文字列を解読したいです。
$ echo '<当該文字列>' | od -A xn -t x1
の結果は
000000 ef bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef
000010 bf bd ef bf bd ef bf bd ef bf bd ef bf bd ef bf
000020 bd 64
のような感じです。
個人的には\0x0eや\0x0fが多く登場しているのでUTF-16あたりをUTF-8で解釈しているのかなとも思いまして
iconv(1)などでどうにかしようとしました(iconv -c -f utf16 -t utf8)が 駄目でした。
どうかよろしくおねがいします。

830:デフォルトの名無しさん
18/09/21 06:10:45.73 v8LFlyn0.net
>>811
無理です

831:デフォルトの名無しさん
18/09/21 08:54:48.61 YSf5+rmt.net
>>811
utf8のEF BF BDは、utf16ではFFFD(非文字)。
例えば、エンコードに失敗した時に使われる。

832:デフォルトの名無しさん
18/09/21 16:14:43.03 dtC8HZuo.net
>>813
なるほど。復元は無理ってことですね。thx

833:デフォルトの名無しさん
18/09/21 22:27:01.36 VETs/R35.net
URLエンコードとか16進文字列で表示してほしいよね。
文字化け文字列を表示されても途方に暮れる。

834:デフォルトの名無しさん
18/09/22 12:49:11.01 xOVRbYWf.net
>>815
表示したい文字とそれ以外をどうやって区別させる?

835:デフォルトの名無しさん
18/09/22 13:55:53.33 PGp2AKzL.net
低学歴知恵遅れの世界ではグリフが違うように見えれば
その字じたいがもつ意味もかわる

836:デフォルトの名無しさん
18/09/22 16:15:38.71 lyt/iYyi.net
φと Φ の小さい字が小文字 ɸ だと一緒のはずなんだが環境によって違うのが困る unicode のくせに

837:デフォルトの名無しさん
18/09/23 04:36:37.16 D4/zD5nR.net
URLリンク(github.com)
これすばらしいね。
UTF8の煩雑な処理がC89という極めて汎用で互換性の高い言語で扱えるなんて。
ただUnicode11対応を謳ってる割には曖昧文字幅が考慮されてないのが難点
issueやPRを見てるとそれっぽい対応がされてるのかどうなのか……。
URLリンク(github.com) 👀
Rock54: Caution(BBR-MD5:1341adc37120578f18dba9451e6c8c3b)


838:デフォルトの名無しさん
18/09/23 13:00:23.58 7oyGtio1.net
>>816
書き手と読み手で共通のルールを作ればいいだけのこと。
どのみちASCII文字しか使えないので禁則文字が必要。

839:デフォルトの名無しさん
18/09/25 01:23:30.21 lmrEE7TE.net
URLリンク(www.softek.co.jp)
ここのページのエンコーディングって分かる?
EUC-JPで読みこむと漢字だらけ
Shift JISで読みこむと半角カナの「ス」だらけ
UTF-8で読みこむと非文字だらけ

840:デフォルトの名無しさん
18/09/25 11:23:08.18 Ldj267OX.net
chrome で開いたけど問題なく日本語出るぞ
おまいのブラウザが糞なんじゃね
ブラウザ経由せずに python でダウソしたら中身 UTF-8 のファイルが出来た
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
EUC-JP ってことになってるな

841:デフォルトの名無しさん
18/09/25 12:50:25.51 lmrEE7TE.net
やっぱFirefoxはゴミですね

842:デフォルトの名無しさん
18/09/25 13:50:17.89 O6wzDQwM.net
そのサイトうちのffタソは普通に日本語出してる

843:デフォルトの名無しさん
18/09/25 15:39:49.76 po7dXpcK.net
夜に見たときはFirefoxでもChromiumでもWaterfoxでも
ID:lmrEE7TEが言うような文字化けになってたけど
今はFirefoxでもChromiumでもWaterfoxでも文字化けせずに見られる
そのサイトのほうがおかしくなってたんじゃないか?

844:デフォルトの名無しさん
18/09/25 15:45:45.33 O6wzDQwM.net
apacheとかデフォでutf-8に強制変更とかあるからな

845:デフォルトの名無しさん
18/09/25 16:40:21.10 hDTNQGQ/.net
>>825
同じく
夕べ、バイナリモードでgetしたhtmlが思いきり文字化けしてたわ

846:デフォルトの名無しさん
18/09/25 16:45:52.15 EqDfiqim.net
奇遇ですね
私もちょうど昨日そのサイト見てました

847:デフォルトの名無しさん
18/09/25 17:23:14.79 lmrEE7TE.net
あっっれ。
まさかなと思ってもう一度行ったら なんかちゃんと読めるようになってたわ。
うーん。向こうの不具合かな。とりあえずFirefoxに濡れ衣を着せてしまったことをお詫びします。
ただしFirefoxには
URLリンク(www.am.ics.keio.ac.jp)
↑このページが読めないという前科があるんだよね。

848:デフォルトの名無しさん
18/09/25 17:33:32.27 EqDfiqim.net
最近のブラウザは一時的に文字コード指定するメニュー無くなった

849:デフォルトの名無しさん
18/09/25 17:41:54.78 UWcApuPo.net
>>829
そのページはサーバーでUTF-8決め打ちで送って来てる
ファイル内に書かれたcharsetとどっちを優先するかって話なのかな

850:デフォルトの名無しさん
18/09/25 18:07:13.36 po7dXpcK.net
URLリンク(www.am.ics.keio.ac.jp)
WaterfoxやChromiumでも文字化けする
Waterfoxだと文字コードの手動切り替えで対応できるけど
自動判定できない状況に陥っているのだからサイト側の問題なんだろうね

851:デフォルトの名無しさん
18/09/25 18:35:00.27 EqDfiqim.net
HTTPはheaderみてそっち優先のブラウザばっかになってつまらんぬ

852:デフォルトの名無しさん
18/09/25 18:40:37.62 YBMAwOu6.net
そういえば、昔おまじない文字ってあったよな
「京」とか

853:デフォルトの名無しさん
18/09/25 19:00:03.09 lmrEE7TE.net
だいたい日本語TeXを使ってるのなら文字コードに関する知識はそれなりにある筈なんだけどなぁ

854:デフォルトの名無しさん
18/09/25 19:01:52.45 EqDfiqim.net
>>834
美乳

855:デフォルトの名無しさん
18/09/25 23:09:37.69 dH/9GcKQ.net
>>829
EdgeでもIE11でも読めないぞ。
これもFirefoxのせいじゃない。
ちなみにw3mでは読めた。
>>832
サーバーがレスポンスヘッダで文字コードをUTF-8と返してるからそれに従ってるだけ。
そもそも自動判定しようとしてない。それなのにコンテンツはUTF-8以外(ISO-2022-JP)で出来てる。
要はサーバーの設定とコンテンツの不整合。
恐らくサーバー更新時に古いコンテンツのことを考慮してなかったんだろうな。

856:デフォルトの名無しさん
18/10/01 00:48:09.88 MJnLVykJ.net
これってよくあるよな

857:デフォルトの名無しさん
18/10/01 06:54:49.15 lrLCBstk.net
なにが?

858:デフォルトの名無しさん
18/10/01 09:18:19.81 CSe7Ol42.net
サーバーが余計なこといってるやつ

859:デフォルトの名無しさん
18/10/02 15:20:38.65 YIYqcJyy.net
RedHat や CentOS のパッケージで Apache をインストールするとデフォルトで AddDefaultCharset UTF-8 が有効になっているのが原因。
この設定をコメントアウトし忘れると今回のようなことが起きてしまう。
これ、わりと迷惑度合いの高いデフォルト設定なんだよねえ……

860:デフォルトの名無しさん
18/10/02 15:47:12.77 yDKwoLm6.net
何を今更

861:デフォルトの名無しさん
18/10/03 08:04:57.07 ej0n10jM.net
UTF-8デフォルトはそれこそLinux機にとっては嬉しいんだけどねぇ
ちなみにnghttp2というHTTP/2に特化したWebサーバーは
HTTP/2の既定エンコーディングがUTF-8であるにもかかわらずなんとASCII。
いつの時代だよ……。しかも古いプロジェクトじゃなくてめっちゃ新しいのに……。

862:デフォルトの名無しさん
18/10/09 21:29:38.61 cJ7fFqob.net
最近またUnicodeが分からなくなってしまった。
単にShift_JISのような
「一部コードを拡張マップ専用の文字にして後続のコードを
その拡張マップ専用の文字のコードと連続した(つまり2次元的な配置の)コードとして
処理する」
っていう方法ではないのか。

863:デフォルトの名無しさん
18/10/10 01:30:32.33 cxHjn/W/.net
違う

864:デフォルトの名無しさん
18/10/10 02:38:09.95 cuDZW5pF.net
サロゲートペアの話?

865:デフォルトの名無しさん
18/10/10 16:28:58.28 WmZeX0g1.net
ISOのダウンロードサイトがもう何年も
本文はちゃんとcharset=ISO-8859-1だと書いてるのに
HTTPヘッダでcharset=UTF-8宣言してて台無しになってる。
ASCIIはいいけどフランス語のとこがずっと文字化けしてるんだけど誰も気付かないのかね。
……と書き込もうと思って確認したらいつの間にか直ってたわ、ちっ

866:デフォルトの名無しさん
18/10/15 00:47:51.51 FbFcpKzK.net
実際に使用されていた、おもしろい文字コードとかない?
例えばBaudot Codeは英数字がバラバラの順番で出現する、非直感的な配置になってる。

867:デフォルトの名無しさん
18/10/15 04:39:56.62 /DZZgAIK.net
EBSDICのことか

868:デフォルトの名無しさん
18/10/15 04:40:51.83 /DZZgAIK.net
EBCDICだったすまそ

869:デフォルトの名無しさん
18/10/16 14:17:09.82 lPgoIDQ1.net
Apple、「ベーグル」の絵文字にクリームチーズを追加─要望を受け
URLリンク(www.itmedia.co.jp)

870:デフォルトの名無しさん
18/10/16 21:00:39.00 +1MBTbsX.net
IEC646を使う事ももやめてUS-ASCIIに統一した方がいいよな。
それで問題が起きる時はフォントの方を変えて対処すればいい

871:デフォルトの名無しさん
18/10/16 22:29:11.24 xkS5MTi4.net
絵文字はどんどん規格にない不文律が増えていくんだな

872:
18/10/16 22:46:32.20 YZqafHqA.net
誰がunicodeに絵文字顔文字なんかいれたんだ?

873:デフォルトの名無しさん
18/10/18 09:37:48.19 9Pcdnt1S.net
>>854
Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
URLリンク(japan.googleblog.com)

874:デフォルトの名無しさん
18/10/21 02:11:42.72 fBvnF/D1.net
つまり結局のところどうしたらええんじゃ?

875:デフォルトの名無しさん
18/10/21 11:20:10.64 sjXodBVw.net


876:デフォルトの名無しさん
18/10/21 21:31:47.23 8BH3p2hm.net
URLリンク(en.wikipedia.org)
ここの絵文字のソースコードを見ると<abbr>要素を使ってマークアップしてるんだけど
こういうのって一般的なのかな。

877:デフォルトの名無しさん
18/10/21 23:19:14.44 j+lXdzx1.net
Wikipediaはある種独特じゃね

878:デフォルトの名無しさん
18/10/29 01:00:18.66 OPK1oA4w.net
URLリンク(s.codepen.io)
ここでは
<span role="img" aria-label="Snowman">☃</span>
としてるね

879:デフォルトの名無しさん
18/10/29 11:18:13.71 rTl7m6mf.net


880:デフォルトの名無しさん
18/10/29 12:04:33.69 oLCvh0eX.net
マルチバイト文字を2つのシングルバイト文字で囲いたい場合
マルチバイト文字の中にそのシングルバイト文字があった場合、囲えないんですけど
マルチバイト文字を理解しないで囲うにはどうしたらいいですか?

881:デフォルトの名無しさん
18/10/29 12:49:16.57 VtmwN/uo.net
utf8

882:デフォルトの名無しさん
18/10/29 15:46:00.93 AJZhbohO.net
>>862
仮にUTF-32で処理したところで、今は合成やらIVSやらZWJやら絵文字やらで
特殊ルール満載で境界が曖昧なので、理解しないで1文字切り出すのは無理

883:デフォルトの名無しさん
18/10/29 16:16:56.56 oLCvh0eX.net
ありがとうございます
自己解決しました。

884:デフォルトの名無しさん
18/10/30 22:48:53.83 sNif6dsM.net
Draft Emoji Candidates
URLリンク(www.unicode.org)
何個目だよハート
そして色つきの丸と四角がいっぱい

885:デフォルトの名無しさん
18/10/31 00:23:40.01 W1Oq41Ld.net
オイスターは動物じゃなくて食いもん枠なのか

886:デフォルトの名無しさん
18/10/31 23:32:52.14 VU8NOm8y.net
U+2053のSWUNG DASHってどういうときに使うか分かる?
波ダッシュと同じ使い方でいいのかな。

887:デフォルトの名無しさん
18/11/01 00:15:41.30 +UpfaFuk.net
ホゲエ~だと力が足りない時に使う

888:デフォルトの名無しさん
18/11/01 10:43:45.13 z733lC2q.net




~
~








~

~



889:デフォルトの名無しさん
18/11/01 12:02:35.35 rRwKTtG6.net
>>870
床に落ちてる縮れ毛みたいだね

890:デフォルトの名無しさん
18/11/01 1


891:2:10:10.60 ID:VLboL17t.net



892:デフォルトの名無しさん
18/11/01 13:23:41.33 EuhtjlAA.net
>>871
こんなきれいに並べんやろ

893:デフォルトの名無しさん
18/11/04 22:18:26.79 V6s3/sLe.net
>>860
alia-label=属性は絵文字の音声読み上げが上手くできなかった時代の対処療法。
今はほとんどの(特に視覚障碍者が使うような)音声読み上げが絵文字に対応してるので
必要ないかと。role=属性をimgにするという案はいいね。

894:デフォルトの名無しさん
18/11/05 15:43:44.70 TZRFRfjm.net
今でもASCII制御文字で使われている物はHT CR LFくらいかな?

895:デフォルトの名無しさん
18/11/05 17:16:04.95 o5QGnfIr.net
C/C++なら今でも\aで音出るよ

896:デフォルトの名無しさん
18/11/05 20:56:08.29 4CVibwX5.net
今のPCもマザボにスピーカー入ってるの?

897:デフォルトの名無しさん
18/11/06 02:07:29.32 dakOghSY.net
NUL SO SI ESC SPACE DEL 辺りも使うかな

898:デフォルトの名無しさん
18/11/06 11:04:20.63 FAqyZmup.net
RLOも現役ぽいなあ

899:デフォルトの名無しさん
18/11/06 11:35:39.71 vyXuaWzf.net
^C

900:デフォルトの名無しさん
18/11/06 11:46:12.83 rqFrnjhJ.net
BSも利く

901:デフォルトの名無しさん
18/11/06 13:19:35.81 e09+EfP6.net
^cはシグナルを送るキーとして使われてるだけで改ページの意味があるわけではないからなあ
とはいえ改ページとしてのFFがあるテキストファイルもたまにある

902:デフォルトの名無しさん
18/11/06 13:28:10.62 qdniag2/.net
Win32APIのMessageBoxはテキストに0x03が含まれてるとゴニョゴニョ

903:デフォルトの名無しさん
18/11/09 01:31:09.73 c1qAdcQz.net


904:デフォルトの名無しさん
18/11/09 19:51:09.78 3ZHBVzZ5.net
Unicodeの概念そのものは好きだけど
太字の「>」とか 要る? そういう太字にしたり斜体にしたりするのはワードプロセッサーや写植システムの役割だろう。

905:デフォルトの名無しさん
18/11/09 21:06:14.08 romiKFBS.net
知らんけどもともとどっかにあったんじゃないの?
とりあえずなんでも拾っとくことこそUnicodeの概念とやらの本質じゃないの?

906:デフォルトの名無しさん
18/11/10 02:40:35.70 1I6WGnS3.net
なんでも拾っておくってなら、CJKまとめるなんて暴挙はなかったろ

907:デフォルトの名無しさん
18/11/10 12:59:04.24 RdMcj9Zd.net
別々の集合からならまとめても元に戻せるから矛盾しないぞ

908:
18/11/10 13:35:27.91 gF+s2COR.net
>>887
それは16ビットで収めるためのMSの暴挙

909:デフォルトの名無しさん
18/11/10 13:36:04.74 6fDrSpR2.net
太字よりも、色付き絵文字に呆れた。

910:デフォルトの名無しさん
18/11/10 15:49:00.28 gwVpzklH.net
絵文字排除するはずだったのに何のための文字コードだったのか

911:デフォルトの名無しさん
18/11/10 15:52:17.38 mjExs0JA.net
むしろいちいちフォントなんか使わずに画像使えばいい

912:デフォルトの名無しさん
18/11/10 16:19:59.30 gwVpzklH.net
害児のための外字

913:デフォルトの名無しさん
18/11/12 16:28:58.15 sDbkVTfY.net
記号類にもUnihan Databaseみたいな典拠集積したやつを作っておくべきだったなとは思う。

914:デフォルトの名無しさん
18/11/13 03:51:59.47 T2RztKBH.net
テスト
🐱‍👤🐱‍🏍🐱‍💻🐱‍🐉🐱‍👓🐱‍🚀

915:デフォルトの名無しさん
18/11/14 00:25:03.52 7Ifnwzhb.net
test󾬄󾌰󾍇󾌵󾔣󾔥󾹄

916:デフォルトの名無しさん
18/11/14 15:22:06.98 DziNZxCd.net
test123

917:デフォルトの名無しさん
18/11/23 10:18:33.14 e4GZHgy/.net
URLリンク(pbs.twimg.com)

918:デフォルトの名無しさん
18/11/23 22:12:04.21 8npogZAr.net
「画数の多い文字」として知られているけれども本当に実用されていた文字なのか誰も確認できず、
しかし「画数の多い文字の例」として使われているために少なくともそれ以後は実在していると考えるしかないという

919:デフォルトの名無しさん
18/11/23 23:52:57.64 LJvBE/cy.net
>>899
じゃあ実用されていた漢字で一番画数が多いのはなんですか?

920:デフォルトの名無しさん
18/11/24 00:12:46.90 GcFLRWmR.net
実用なら身も蓋もありませんが親鸞の「鸞」と、2chでもおなじみの「鬱」でしょうね
新聞で使う文字に限るなら「鑑」で、
本当の意味での常用漢字なら「襲う」と「驚く」でしょうね
本当に身近な字ですが無駄に画数多いよね!
子供の日記でも「~でおどろいた」と良く使われるフレーズなのにね!

921:デフォルトの名無しさん
18/11/24 00:16:41.62 jHhCYnAM.net
ためになるなあ

922:デフォルトの名無しさん
18/11/24 09:56:10.66 b7FMpfFJ.net
URLリンク(map.goo.ne.jp)
浜松市に「たいと(雲雲雲龍龍龍)」という四川料理店があるが、
これで「実用化」されたことになるだろう。

923:デフォルトの名無しさん
18/11/24 13:17:41.92 4kdGLnPd.net
學校
臺灣
國體
驛辯
やめたくなるわな

924:デフォルトの名無しさん
18/11/24 13:24:00.06 4kdGLnPd.net
>>903
看板と幟で確認出来るようだ
肝心な部分が隠れてるけど
URLリンク(dotup.org)
他のアングルだと欝ってなかった

925:デフォルトの名無しさん
18/11/24 13:49:21.65 rXljiVhx.net
複雑な文様・難解な表記ほど有難いと思ってるやつがいるうちは漢字は世にはばかり続けるだろう

926:デフォルトの名無しさん
18/11/24 14:28:12.34 4kdGLnPd.net
明後日の方向からレスが来た

927:
18/11/24 14:33:23.15 nrZVZwkF.net
>>904
>驛辯
辨・辧・瓣・辮・? かもしれませんよ…それらが合わさって弁になったんです

928:デフォルトの名無しさん
18/11/24 22:16:10.34 nC23MCFq.net
メールも8bit文字ををBase64などでエンコードせずにそのまま送れるのが標準になってほしいよ
普段使っているメールサーバーにtelnetを使ってEHLOではなく従来のHELOでログインして
ヘッダーにshift jisをエンコードせずに入れたメールを送ってみたが問題なく送れたから
SMTPUTF8対応を明言していなくても8bitを送れるメールサーバーは結構あるんだろうけど

929:デフォルトの名無しさん
18/11/24 22:31:27.28 3CbvFbkZ.net
20年くらい前にfjで「8bit通らないMTAってまだどっかで稼働してるのかね?」って話をしてたような気がするが。

930:デフォルトの名無しさん
18/11/24 23:28:09.38 or35NFsF.net
ならUTF-7使うしかない

931:デフォルトの名無しさん
18/11/24 23:36:50.36 nC23MCFq.net
20年前でもほぼ8bitが通る状況だったならMUAの側も
8bit文字をエンコードせずに送る設定を用意してもよさそうだが
それができるMUAはあるんだろうか

932:デフォルトの名無しさん
18/11/25 00:05:18.90 KC5pxzP6.net
>>903
店名って公的な機関に届け出る書類に記載したりすることあるのかな?
この漢字は使えたのだろうか...

933:デフォルトの名無しさん
18/11/25 00:12:25.76 nGQiRV3b.net
税の申告書で屋号とか書く欄があったような無かったような

934:デフォルトの名無しさん
18/11/25 01:10:56.47 Tmpw9nku.net
URLリンク(hitosara.com)
既になくなってしまったみたい
文字だけでなく読みさえも実在の怪しい「おとど」のほうは元気なようだが

935:デフォルトの名無しさん
18/11/25 17:37:13.70 arFqKMW0.net
>>909
>問題なく送れた
おま環だけうまくいっても意味無いんだ

936:デフォルトの名無しさん
18/11/26 00:16:22.18 55zKdsET.net
>>905
局部の隠し方が絶妙すぎて笑う

937:デフォルトの名無しさん
18/11/26 11:27:31.30 SVaivieI.net
>>914
昔はあった、今もあるかは知らん

938:板の新参者ですが
18/11/27 07:32:04.24 bOfqa3Yp.net
5chでは、スレッドによってか板によってか知りませんが、
Unicode文字が数値文字参照に化けたりって、どういう場合
なのでしょうか?
スレの立て方で決められるのでしょうか?
 ⇒設定方法など、どなたか詳細をご存知でしたらご教示願います。
それとも板ごとに決まっているのでしょうか?
 ⇒設定一覧など、どなたか詳細をご存知でしたらご教示願います。
基本的なことようですが、自分では検索でうまくヒットできません。

939:デフォルトの名無しさん
18/11/27 08:48:35.30 vqp/19EL.net
>>919
URLリンク(info.5ch.net)


940:x.php/SETTING.TXT その板のSETTING.TXTのBBS_UNICODE による



941:デフォルトの名無しさん
18/11/27 10:50:58.56 zH6Yh8LQ.net
BBS_UNICODE=passでも、今は数値文字参照(10進数)だけが使えるんだよな。
以前は数値文字参照(16進数)も文字実体参照も使えたんだけど。
js使った変換ツールで変換してるわ。

942:デフォルトの名無しさん
18/11/27 14:22:21.18 pHjl6gJ9.net
>>921
へえ、知らなかった。
なんかある時期から使えなくなった気がして、
ちゃんとできてる書き込みが謎だったわ。10進限定とは。

943:デフォルトの名無しさん
18/11/27 16:22:46.53 zH6Yh8LQ.net
とりあえず現状を試しておこう。
ハートの全角文字テスト
&#9829; → ♥
&#x2665; → &#x2665;
&hearts; → &hearts;
さて、どうかな?

944:デフォルトの名無しさん
18/11/27 19:32:26.19 t2TLQBob.net
📛 日本人には幼稚園児の名札に見える絵文字は、外国人には何なのかさっぱりわからず『燃えるトーフ』と呼ばれていた - Togetter
URLリンク(togetter.com)

945:デフォルトの名無しさん
18/11/27 19:57:48.88 gXLD+0BO.net
顔文字はこれ以上増やすよりZWJを使って目とか口とかを組み合わせて
自分で作れるようにした方がいいと思う

946:デフォルトの名無しさん
18/11/27 20:14:23.30 +uQVAXpU.net
全角とは

947:デフォルトの名無しさん
18/11/28 02:59:23.88 BkKDQWNJ.net
FULL WIDTH

948:デフォルトの名無しさん
18/11/28 04:06:11.10 A2M+lx4Y.net
>>926
全てにおいて角こそが至上であると妄信する一種のトランス状態
一例をだすと漫画「おれは直角」の主人公がそうである

949:デフォルトの名無しさん
18/11/28 09:49:40.91 zomCLGU3.net
横方向に Full Width 全角
縦方向に Full Width 倍角


950:デフォルトの名無しさん
18/11/28 12:51:43.14 b91COmuR.net
ワープロ専用機時代、横倍角なんていう気持ち悪いのがあったな

951:デフォルトの名無しさん
18/11/28 15:08:09.04 N7oZ3GQl.net


気持ち悪いってもこれよりはマシやろ

952:デフォルトの名無しさん
18/11/29 01:40:08.15 lIzTCHsu.net
HALF WIDTH  (^-^)
FULL WIDTH  (    ^    _    ^    )

953:デフォルトの名無しさん
18/11/29 14:33:52.79 Msn7clch.net
iconvの文字集合オプションに「EUC-JISX0213」っていうのがあったんだけど
これシステムはEUC-jpと認識するけど中にはJIS X 0213で定められた新しい文字を
入れられるって意味……じゃないよね。
というのはSKK-JISYOで使いたい異字体があったのでこのエンコーディングをしてみたけど無理だったので。

954:デフォルトの名無しさん
18/11/30 13:11:19.56 FBzo8MwT.net
>>933
少しぐらいは調べろよ……検索したら幾らでも情報が出てくるよ。
EUC-JPの一種だけど今は廃止されてる。
EUC-JIS-2004 - Wikipedia
URLリンク(ja.wikipedia.org)
EUC-JISX0213 ‐ 通信用語の基礎知識
URLリンク(www.wdic.org)

955:デフォルトの名無しさん
18/11/30 14:13:45.09 P5LXHiB7.net
廃止されたんか…

956:デフォルトの名無しさん
18/11/30 14:42:42.21 XOMh22Gb.net
廃止されたんよ

957:デフォルトの名無しさん
18/11/30 14:59:53.47 5jWhYr7h.net
そうなんかい…

958:デフォルトの名無しさん
18/12/01 01:50:51.78 V6WUEvLt.net
EUCで0213したいときはどうすればいいんだ…

959:デフォルトの名無しさん
18/12/01 02:27:14.32 O7l2nkqH.net
普通にEUC-JIS-2004を使え

960:デフォルトの名無しさん
18/12/01 02:33:51.02 LH+8CiFR.net
えぇ…

961:デフォルトの名無しさん
18/12/01 04:17:45.98 r8gMvw+h.net
なんで廃止するんだ…

962:デフォルトの名無しさん
18/12/01 15:43:51.59 4cHgv8YS.net
よう分からん。
EUC-JISX0213(JIS X 0213:2000ベース)は廃止されて、EUC-JIS-2004(JIS X 0213:2004ベース)になったってことでいいのか


963:?



964:デフォルトの名無しさん
18/12/01 16:34:03.50 bl/45R/s.net
改訂のタイミングでX0213から-2004に名前が変わっただけってこと?

965:デフォルトの名無しさん
18/12/03 16:03:32.93 FWFg2HSw.net
>>942
そゆこと。
実際にはEUC-JIS-2004が上位互換だし、ウィキペディアからの引用だけど、
>なお、この符号化方式はJIS X 0213の初版 (2000年) ではEUC-JISX0213と命名されていた。
>2004年改正におけるUCS互換漢字10文字の有無だけが異なるが、大きな違いではないためEUC-JIS-2004と同一視されることもある。
とのことなので、ほぼ同じものと思ってよい。

966:デフォルトの名無しさん
18/12/04 00:06:31.38 kEiJOL5a.net
なあんだ

967:デフォルトの名無しさん
18/12/05 23:26:18.07 0a3ULp4B.net
JISの漢字コードってたまにそういうのあるよね
2文字増えただけのJIS0208-1990とか

968:デフォルトの名無しさん
18/12/07 11:12:03.49 baVD1zSv.net
日本マイクロソフトやAdobeが改元対応を説明
URLリンク(pc.watch.impress.co.jp)
同社では、1993年に「マイクロソフト標準キャラクタセット」として、
相互運用を目的とした文字コードを策定しているが、
今回の新元号対応では同社独自の対応は行なわず、ベースとなる標準に準拠し、
Code Page 932/拡張文字を含むシフトJISでは対応を行なわないと説明。
Unicodeについては標準の対応に準じた更新を予定する。
フォント更新については、同社のシステム標準フォントである
MSゴシックやMeiryo UI、Yu Gothic UIなどで新元号に対応するとした。
なお、IME辞書の更新については、フォントを含むすべての更新作業後の対応となる。

969:デフォルトの名無しさん
18/12/07 16:19:20.12 qBlHhwTE.net
え、これってひょっとして新元号合字が使えるのはUnicode系統だけで、
JIS X0208/SJIS/CP932系統では今後永遠に使えるようにならないってこと?
元号合字を必要としてるとこって、まさに未だそういう系統を使ってるとこだと思うんだけど…

970:デフォルトの名無しさん
18/12/07 16:48:04.41 7WHjGWxq.net
独自の文字セットで運用すりゃいいだけ

971:デフォルトの名無しさん
18/12/07 21:50:22.19 0/x3pMw+.net
JIS X 0213に入ったら
当然Shift_JISにもいれるべき
㍻ 2D5F
㍼ 2D6F
㍽ 2D6E
㍾ 2D6D
2D5Eが空いてる

972:デフォルトの名無しさん
18/12/07 22:22:10.91 nIptkpuh.net
和田研細丸ゴシックのU+32FFのグリフ
平成
の次
で吹いたw

973:デフォルトの名無しさん
18/12/07 22:28:33.61 Z7Pkiqbl.net
しかし年号の余裕も言うほどないよな
10人くらいがばばーっと毎年のように亡くなって年号も変わったらどうするつもりなのだろう
なんだかんだで西暦が一番よねえ
もしくはネトウヨが言うような皇紀とやらにしちゃいなよ
人で変わらない数字って楽ちんよー
四桁にもなれば先頭はまず変わらないわけだし

974:デフォルトの名無しさん
18/12/07 23:44:21.45 Sv6zm0b9.net
そんなにしょっちゅう変わったらさすがに文字コード需要のほうがなくなりそうだが

975:デフォルトの名無しさん
18/12/08 01:15:36.39 7zz08Xs4.net
どのみち継承者を今後10年で10人確保するのは無理なので…

976:デフォルトの名無しさん
18/12/08 02:21:31.30 nIDZ4yFF.net
赤ちゃんでもいいので可能性はある

977:デフォルトの名無しさん
18/12/08 03:58:41.86 xmV4OmOO.net
既にある文字を組み合わせた合字が増え続けるとわかっているなら次の文字が半分の大きさであることを
表す


978:コントロールコードを作ってしまってそれを付加した2文字を使った方が良いのではないか? そうしないと延々と文字が増え続ける。



979:デフォルトの名無しさん
18/12/08 05:46:24.58 4O5fRXD5.net
なんかプレッシャーに耐えかねてホモに走って断絶なんてことになりそうな気もするけどなあ

980:デフォルトの名無しさん
18/12/08 08:49:48.25 VbRdNM0/.net
縦書きも考慮しなきゃいけないとか面倒くさすぎだな
新元号対応について
URLリンク(citpc.jp)

981:デフォルトの名無しさん
18/12/09 20:48:07.44 NLNV6qg6.net
>>948
JIS X 0213が話題になった時もMicrosoftが表明したのは
「マイクロソフト標準キャラクタセットはもう凍結、
CP932の拡張はしない、UCS/Unicodeとしてはサポートする」
だったから既定の方針通りですな。
URLリンク(www.jepa.or.jp)
URLリンク(www.itscj.ipsj.or.jp)

982:デフォルトの名無しさん
18/12/10 08:46:40.86 S9fSc6ei.net
Unifontだと、32FFは
32
FF  (undefined)
だね。こうゆうのが、一番解りやすくていいんだけど、
なぜ他のフォントは、マネをしないんだろうか?

983:デフォルトの名無しさん
18/12/10 13:28:03.68 7KZwr80a.net
Firefoxとかはフォントにない文字は自動でその表示になるよね。
まあ、文字コードがどうとか関係ない大多数の人にとって、
そんなデバッグモードみたいな出力されても逆に意味不明だから広がらないんだろうな。

984:デフォルトの名無しさん
18/12/10 17:39:24.58 A+rv6wMQ.net
未収録のままにして他のフォントで表示してくれたほうがありがたいからなあ

985:デフォルトの名無しさん
18/12/10 19:51:03.00 hinx2Zbo.net
それだな
グリフがあると自動フォールバックが利かなくなる

986:デフォルトの名無しさん
18/12/10 22:52:22.99 N5SCf3O2.net
U+32FFは初期のUnicodeでは現在U+3004にあるJISマークだったんだな。
で、当時U+3004は記号扱いの「仝」で漢字扱いの「仝」(U+4EDD)とは区別してたらしい。

987:デフォルトの名無しさん
18/12/10 23:18:14.27 hinx2Zbo.net
新元号はM/T/S/H以外が実用上望ましいんだよな。
Jか…いけるなあ。

988:デフォルトの名無しさん
18/12/11 13:17:12.25 eQLW3H68.net
放送大学のUnicodeの番組わかりやすかった

989:デフォルトの名無しさん
18/12/11 16:17:48.41 gC3VOuLX.net
地上波で映らなくなったから見れない…

990:デフォルトの名無しさん
18/12/11 18:11:21.44 uSURGRNJ.net
残念だ

991:デフォルトの名無しさん
18/12/11 20:34:24.45 ku/Zz2dV.net
囲みCJK文字/月ブロックは平成の次で全て埋まると思ったが、U+321Fがまだ空いてるな。
次の次の元号はもしその時になっても空きだったらそこになるのかな。

992:デフォルトの名無しさん
18/12/11 21:42:40.13 Hrs/4e8e.net
>>960
フォントサイズが増えるからでしょ?

993:デフォルトの名無しさん
18/12/15 07:05:36.47 LC13wD1r.net
>>966
紹介サイトのURLとか貼れます?

994:デフォルトの名無しさん
18/12/15 13:39:28.60 ciQUdpOi.net
シラバス
URLリンク(www.ouj.ac.jp)
この前見たのはこれだったかな
情報理論とデジタル表現(’19)
の 第11回 テキストの符号化
これもおすすめ
デジタル情報の処理と認識(’18)
通信概論(’14)
URLリンク(www.ouj.ac.jp)
公開番組もあり
URLリンク(vod.ouj.ac.jp)
URLリンク(www.youtube.com)

995:デフォルトの名無しさん
18/12/15 14:24:01.62 /xz8BzsC.net
Windows 10 Insider Preview、メモ帳でBOMなしのUTF-8が選択可能に | スラド デベロッパー
URLリンク(developers.srad.jp)
ついに

996:デフォルトの名無しさん
18/12/15 14:46:24.79 Sg9amITu.net
BOMカットするのなんてマなら簡単だろ

997:デフォルトの名無しさん
18/12/15 15:14:00.77 +6LwXb2C.net
マジかよ圧倒的シェアのWindowsがBOM付きだからという理由で自分は全部BOM月にしてたのに梯子外されたのかよ

998:デフォルトの名無しさん
18/12/15 15:21:32.65 Sg9amITu.net
SJIS絶滅はよ

999:デフォルトの名無しさん
18/12/15 15:27:12.87 EyhC0X8P.net
>>975
わざとらしい。Windowsのネイティブ文字コードはUTF16なんだから普通はUTF16を使うだろ
メモ帳で保存するときに、Unicodeを選んだらUTF16になる
UnicodeといえばUTF16のこと

1000:
18/12/15 15:27:58.81 jYtCORiK.net
>>975
そもそも Byte Order Mark の必要のない UTF-8 に BOM を付けていることが論理的に矛盾していますよね

1001:デフォルトの名無しさん
18/12/15 15:44:04.63 EyhC0X8P.net
>>978
UTF-8の使用によると、BOMは文書がUnicodeであることを
自動判定するためにも用いられるらしい
だから名前がおかしいってのはあるけど、機能的には仕様どおりの使い方

1002:
18/12/15 20:22:50.48 jYtCORiK.net
>>979
>UTF-8の仕様によると、BOMは文書がUnicodeであることを自動判定するためにも用いられる
>らしい
らしい、ですか…
本当にそうなのか確かめてみました。RFC3629 URLリンク(tools.ietf.org) の記述は
The UCS character U+FEFF "ZERO WIDTH NO-BREAK SPACE" is also known
informally as "BYTE ORDER MARK" (abbreviated "BOM").
BOM は本来は「ゼロ長割り込みなしスペース」という意味らしいですね…
ながながとあれやこれは書いてあったのですが結論はよくわからないです、誰か英語のできる人、どこを読めばいいか教えてください…

1003:デフォルトの名無しさん
18/12/15 21:51:17.49 px2y3yP7.net
ISO10646では誤解を受けそうなBOMという呼び名は使われていなくてSignatureと言うらしい。
現在ではU+FEFFは専らSignatureを表すものとして、もともとのゼロ幅ノーブレークスペースの意味で
使用することは推奨されていない。代わりにU+2060 WORD JOINERを使用することになっている。

1004:デフォルトの名無しさん
18/12/15 23:06:31.96 8aRCy95z.net
やはり頭悪いのはunicodeと符号化を混同してる
文書は符号化されたunicodeということになる
2つ以上のオクテットを使う符号単位で
BOM入れないヤツは池沼だからな

1005:デフォルトの名無しさん
18/12/16 00:59:01.64 0WbTxJge.net
WindowsがなぜUTF-16のことをUnicodeといっているかというと、
Windows NT 初代の3.1(1994年)当時は世界中の文字は16bitで
全て表現できると思われていたからだよ。
Windows NTは最初からUnicodeに対応したOSなのだが、
当時はUnicode = 16bit = UTF-16が成り立っていた
それが間違っているとわかってUnicodeが21bitに拡張されたのが
Unicode 2.0 (1996年7月)
メモ帳がUTF-16をUnicodeと表現するのはその名残りだよ
そういう歴史を知らないで語ると恥をかく

1006:デフォルトの名無しさん
18/12/16 02:37:42.34 /e3hQGaS.net
その当時の話をするならUCS-2じゃないの?

1007:デフォルトの名無しさん
18/12/16 05:34:39.63 oz52hRFm.net
寿司と言えば江戸だったから江戸前って名前になった、まで読んだ。

1008:デフォルトの名無しさん
18/12/16 11:01:00.63 0qV7OEGg.net
時すでにお寿司

1009:デフォルトの名無しさん
18/12/16 12:33:16.52 GapmNYlr.net
>>985
��������������

1010:デフォルトの名無しさん
18/12/16 12:35:57.48 VlX3xGEw.net
寿司と言えば江戸ではなかったから、
江戸の寿司と強調したいときは、わざわざ江戸前寿司というようになった
ではないのか?

1011:デフォルトの名無しさん
18/12/16 13:50:47.39 52dtexo8.net
寿司食いねえ! 🍣

1012:デフォルトの名無しさん
18/12/16 15:02:40.57 /e3hQGaS.net
押し寿司とかなれ寿司が寿司だよな。
酢で酸っぱくした寿司なんかフェイク寿司もいいところ。

1013:デフォルトの名無しさん
18/12/16 18:49:12.48 A6SlBDUO.net
押し寿司も酢飯使ってるよ

1014:デフォルトの名無しさん
18/12/16 20:12:23.42 oz52hRFm.net
火縄銃といえば種子島だから種子島って名前になった、まで読んだ

1015:デフォルトの名無しさん
18/12/16 20:40:53.56 Ux2imWCY.net
違うぞ。種子島の種とは、
子種のことだぞ。
種子島=子種島=ザーメン島

1016:デフォルトの名無しさん
18/12/16 21:01:19.88 /e3hQGaS.net
だから鉄砲はぴゅぴゅっと出るんですね

1017:デフォルトの名無しさん
18/12/16 21:10:12.52 oz52hRFm.net
>>987
日本語でok

1018:デフォルトの名無しさん
18/12/17 16:59:55.19 Pfqpaohb.net
新スレ
文字コード総合スレ Part12
スレリンク(tech板)

1019:デフォルトの名無しさん
18/12/17 21:10:45.75 ncIi/eoH.net
ドイツ語だと植物の種子も同じだからどうでもいい。

1020:デフォルトの名無しさん
18/12/17 21:18:37.04 lO+98ZHR.net
次スレ
文字コード総合スレ Part12
スレリンク(tech板)

1021:デフォルトの名無しさん
18/12/17 22:43:33.00 iPWzsOu1.net
>>996
thanx

1022:デフォルトの名無しさん
18/12/18 01:01:53.52 dCapM8E2.net
次スレなぜか分裂

1023:1001
Over 1000 Thread.net
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 329日 2時間 3分 30秒

1024:過去ログ ★
[過去ログ]
■ このスレッドは過去ログ倉庫に格納されています


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch