文字コード総合スレ Part12at TECH
文字コード総合スレ Part12 - 暇つぶし2ch533:デフォルトの名無しさん
19/07/23 15:56:55.39 vatz3/hX.net
URLリンク(github.com)
↑Unicodeの基本多言語面を使ったエンコード方法w

534:デフォルトの名無しさん
19/07/23 17:04:19.76 yKl7I/yp.net
高度に発達したエンコードはMojibakeと見分けがつかない

535:デフォルトの名無しさん
19/07/24 00:37:51.21 ArGZw8p9.net
基本多言語面って制御文字含んでるよね。
それbaseXXの�


536:{来の意味を成してないw



537:デフォルトの名無しさん
19/08/18 16:07:01.10 zqR8kD3Y.net
W3Cのwebページが文字化けしてて草。
文字コードの本元の一つがこんな体たらくでいいのだろうか…w
URLリンク(www.w3.org)

538:デフォルトの名無しさん
19/08/18 17:27:15.46 wpOWgZAQ.net
読めるけど...?

539:デフォルトの名無しさん
19/08/18 23:04:31.46 8LEpKI7v.net
ISO-2022-JP のくせに content-type: text/html; charset=shift_jis で送ってきてるからなあ

540:デフォルトの名無しさん
19/08/19 01:20:35.42 JKQq3Dbg.net
(´・・∀・・`)ほう

541:デフォルトの名無しさん
19/08/19 06:07:28.33 xlQPwL5+.net
>>533
あ、そういうことか。と思ったけどChromiumだとどうしようもねぇわ。
最近のブラウザって文字コードを修正する機能みたいなのって消えてるね。

542:デフォルトの名無しさん
19/08/19 07:31:42.15 SJok1opV.net
>>535
Firefox68には文字コード指定が残ってる
通常は無効になってるけど>>531のリンク先を表示したときは有効になって
ISO-2022-JPを指定すると文字化けなしで読めた

543:デフォルトの名無しさん
19/08/19 08:38:57.28 xlQPwL5+.net
ところでW3Cって文字コードの制定とかに関わってたっけ?
XMLが使う符号化文字集合にUnicodeを推奨してるくらいじゃない?

544:デフォルトの名無しさん
19/08/20 11:37:07.61 zlJnj2O9.net
>>531
これはひどいω

545:デフォルトの名無しさん
19/08/20 11:39:07.12 zlJnj2O9.net
>>533
ファイル名まで .sjis つけてるくせになんで iso-2022-jp で保存してるのかイミフ

546:デフォルトの名無しさん
19/08/20 18:30:12.77 Gkd3xMH4.net
なんか同じような原因で文字化けしてるページに対して
同じようなレスをした記憶が…と思ったら前スレにあった。
記憶障害じゃなくてよかったw
スレリンク(tech板:821番)-843

547:デフォルトの名無しさん
19/08/20 21:44:07.86 Y189B2BT.net
HTMLをiso-2022-jpにするのって
どこの文化なんだろうか?
Windowsはsjisだからありえないし
Linuxも昔の普通はEUC-JPだろ?
iso-2022-jpはメールにしか使われてなかったはずだが

548:デフォルトの名無しさん
19/08/20 21:47:57.43 UVunetX1.net
>>531
イシカワ マサヤスというのは誰だろうね。

549:デフォルトの名無しさん
19/08/20 21:51:25.41 Y189B2BT.net
イシカワ マサヤスさんでは?

550:デフォルトの名無しさん
19/08/20 21:52:36.86 UVunetX1.net
石川雅康と石川哲志は親族だろうか?
どちらもICT業界から去ったのかな。

551:デフォルトの名無しさん
19/08/20 21:54:13.55 Y189B2BT.net
またつまらんものを

552:デフォルトの名無しさん
19/08/20 21:58:33.22 UVunetX1.net
XHTMLが終わってしまって、そのまま放置の石川さん。

553:デフォルトの名無しさん
19/08/20 22:46:49.05 anpoimU7.net
>>541
sjisやeuc-jpが整う前は、HTMLをiso-2022-jpにするのも選択肢の一つだったらしい
URLリンク(www.tohoho-web.com)

554:デフォルトの名無しさん
19/08/20 23:01:02.75 UVunetX1.net
>>547
http://の先頭のhを取っても付けても同じですよ。

555:デフォルトの名無しさん
19/08/20 23:43:43.88 Gkd3xMH4.net
> どこかの雑誌で、「charset=iso-2022-jp は自動判別の指定」と堂々と紹介された
URLリンク(web.archive.org)
えぇ……。

556:デフォルトの名無しさん
19/08/21 00:08:09.19 /FRdjxvW.net
1998年当時のWebブラウザはキャラクタセットの判定すら怪しかった。

557:デフォルトの名無しさん
19/08/21 02:35:13.27 GZen3C6t.net
>>549
そのリンク先に書いてあるけど、iso-2022-jp が使われてるのはMSが発端なのか?
> name="GENERATOR" content="Microsoft FrontPage 2.0"
> というのが各HTMLファイルの先頭にあることから、Microsoft の FrontPage が 漢字コードがシフトJISのファイルであるにもか かわらず、iso-2022-jp の指定するからではないかと思われます。

558:デフォルトの名無しさん
19/08/21 03:44:23.93 jDiMObB6.net
>>540
流れは似てるが今回は指摘されてるURLが問題なんだろ
よりによってアイツがってやつさ

559:551
19/08/21 05:07:33.18 GZen3C6t.net
あ、違ったわ。MSのはMicrosoft FrontPage 2.0がmetaタグの指定を間違ってるって話で
HTMLの内容がiso-2022-jpというのはまた別問題か
sjis以外あるかな?ってやってみたら他のエンコーディングも見つかったし
>>531は単なる文字コード変換ミスかな?
URLリンク(www.w3.org)

560:デフォルトの名無しさん
19/08/21 14:49:37.63 ur92HW83.net
拡張子付け間違いか

561:デフォルトの名無しさん
19/08/22 06:16:14.71 mlpPC2JR.net
ブラウザって一時だけでも拡張子によって文字コードを判断してた時期があったの?
俺の記憶にはないのだけども……。

562:デフォルトの名無しさん
19/08/22 06:36:57.94 jM8tCXZ0.net
だからこれはjisという拡張子でHTTPヘッダのcharsetもshift_jisなのに
中身がiso-2022-jpなんだってば
iso-2022-jpが使えるテキストエディタで書いたか
sjisに変換すべきところをiso-2022-jpに変換してしまったということ
昔のWindowsで書いたならsjisになるだろうから変換ミスかなって話

563:デフォルトの名無しさん
19/08/22 08:04:31.58 jlFkmCtz.net
jisって拡張子ならiso-2022-jp(JISコード)なのは意図通りだろ
HTTPヘッダのcharsetが食い違ってるだけで

564:デフォルトの名無しさん
19/08/22 09:50:35.92 xQsiKIbM.net
鯖の仕様が変わってcharsetのデフォが変わったからな
サーバー引越のときに設定間違えた可能性はあり得る

565:デフォルトの名無しさん
19/08/22 10:23:09.36 jM8tCXZ0.net
>>557
拡張子はjisじゃなくてsjisな
だからドキュメントの文字コードが明らかに間違ってるんだよ

566:デフォルトの名無しさん
19/08/22 10:30:34.86 jM8tCXZ0.net
昔のブラウザはHTTPヘッダのcharsetよりも
ドキュメントからの文字コード判定の方を重視していた。
なぜならセキュリティというかサーバー運営者がよくわかっておらず
設定変更の必要性を理解できていなかったので設定されてなかった
たとえ設定変更ができるサーバーでもユーザーが理解していなかった
そんな時代だからブラウザで表示できれば良し程度のレベルが普通で
今からするとチェックが甘かった。その当時の間違った文字コードのページが今も残っている。
たぶんこんなところ

567:デフォルトの名無しさん
19/08/22 10:33:49.69 8JJS2LZD.net
>>559
お前のレスの >>556 には jis って書いてあるだろω
お前が原因

568:デフォルトの名無しさん
19/08/22 10:35:00.76 jM8tCXZ0.net
>>561
単なる書き間違えじゃね?
リンク先見ればわかるでしょ

569:デフォルトの名無しさん
19/08/22 10:38:26.99 8JJS2LZD.net
>だからこれはjisという拡張子でHTTPヘッダのcharsetもshift_jis
こういうおっちょこちょいが >>531 みたいなミス連発するんだろうな

570:デフォルトの名無しさん
19/08/22 15:58:03.72 mlpPC2JR.net
皆さん落ち着いて

571:デフォルトの名無しさん
19/08/23 17:29:19.40 bWgnQwQ7.net
なんでUTF8以外違法になった今そんな話してんだか・・・

572:デフォルトの名無しさん
19/08/23 17:59:07.09 UifFOlyJ.net
× 違法 ○ 非推奨

573:デフォルトの名無しさん
19/08/24 00:05:20.43 Ka96Zrl8.net
秘宝とか緋水晶とか何の話をしてるんだ?

574:デフォルトの名無しさん
19/08/25 20:34:39.12 ++G8a3I1.net
ムーンプリズムパワー!メイクアップ!

575:デフォルトの名無しさん
19/08/25 22:05:01.03 E2o3oeEK.net
タリスマン

576:デフォルトの名無しさん
19/08/25 22:36:09.44 heTmUHGD.net
クリマタスミ

577:デフォルトの名無しさん
19/08/28 13:35:52.48 AiVdwxrR.net
ひまだ

578:デフォルトの名無しさん
19/08/28 19:19:16.62 lfvHhqTB.net
サクラエディタがとうの昔にUTF32対応していた事実をいまごろ知った。

579:デフォルトの名無しさん
19/08/28 20:04:07.93 FG4A80Dg.net
じっさい32じたいそんな使わないだろw

580:デフォルトの名無しさん
19/08/29 18:28:30.40 VG5IecJ5.net
でもUTF-16の「どんな文字でも固定ビット幅」という利点が失われてしまった今,
固定ビット幅が実現できる唯一の規格であるUTF-32は希少では。

581:デフォルトの名無しさん
19/08/29 18:42:08.11 y3rrvHgi.net
読むぶんにはナイーブな実装で足りるからいいけど実際使うとなったら00が無駄に思えてきて敬遠しがち
だからもしかすると文字コードでさえ適材適所なのかと考え始めている

582:デフォルトの名無しさん
19/08/29 18:49:00.69 1ks18uap.net
内部表現は32bit単位で固定長の方が楽
ファイル読み書きのときはutf-8で勝利
あとはcps932が滅ぶのを待つだけ

583:デフォルトの名無しさん
19/08/29 19:05:33.35 VG5IecJ5.net
OSのインターフェースはUTF-8,内部表現はUTF-32が一番いいのかもね。
UTF-32だとASCIIに比べて単純計算で四倍弱の容量を食ってしまうのが難点。
でもOSの本体くらいならそもそもテキストとして表現されてるファイルも少ないし案外肥大化は防げるのかも。

584:デフォルトの名無しさん
19/08/29 19:09:37.98 CAV+1+Xc.net
という会話を何年も前にこのスレで観た

585:デフォルトの名無しさん
19/08/29 19:11:19.48 YrWceYNE.net
複数のコードポイントのシーケンスで一文字を表現するUNICODEだから
UTF-32でも一文字が32bitで収まるとは限らないからUTF-8でも大差ない

586:デフォルトの名無しさん
19/08/29 20:02:33.30 jljmwQsV.net
プログラミング言語C++に関していうと、x64版Linux用gccは既定でwchar_tのサイズが4バイト。
つまりx64版Linux用gccはstd::wstringがUTF-32。誰も使っていないように見えてそうでもない。

587:デフォルトの名無しさん
19/08/29 21:00:32.68 FJllEP/G.net
【名案】0~9の代わりにUnicode全文字を使えば「65536進法」になり,なんでも1桁で表現できるから2桁の計算が不要! ・・・ためしに「65021-65018=3」ってどう書くの?
URLリンク(togetter.com)

588:デフォルトの名無しさん
19/08/29 22:50:02.31 azXlKn0W.net
UTF-16でも8バイト必要なのに、32bit(4バイト)に収まるわけ無いだろうw
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
URLリンク(tech.nikkeibp.co.jp)

589:デフォルトの名無しさん
19/08/29 23:01:38.50 jljmwQsV.net
UTF-8だけで必要十分という結論に到達せざるをえない現実

590:デフォルトの名無しさん
19/08/29 23:09:19.19 azXlKn0W.net
逆なんだよな。
本来UTF-32だけで必要十分だったのにどんどん複雑にしていって、
UTF-32でも不便になったからUTF-8でいいでしょ?
どうせ単純には扱えずライブラリ使うしか無いんだから。
という必要十分な文字コードを捨てたというのが現実

591:デフォルトの名無しさん
19/08/29 23:11:55.32 jljmwQsV.net
宇宙に存在するすべての知的生命体が用いている文字すべてを網羅するのがUnicodeの理念。
たったの32bitで足りるわけがない。

592:デフォルトの名無しさん
19/08/30 00:11:25.73 h/StilS8.net
文字コードのスレッドなのにUnicodeがわかっていないやつらばかりw

593:デフォルトの名無しさん
19/08/30 01:01:22.62 LpXSw35l.net
UTF-32じゃなくてUCS4じゃないの?内部コードに便利なのは

594:デフォルトの名無しさん
19/08/30 01:29:38.44 /ghu33Nb.net
>>586
ではどうぞ御説明をどうぞw

595:デフォルトの名無しさん
19/08/30 13:00:23.27 oVszNH41.net
>>579
codecvtは糞だ

596:デフォルトの名無しさん
19/08/30 13:03:12.55 oVszNH41.net
>>580
だった
まあどっちでもいいけど

597:デフォルトの名無しさん
19/08/30 15:32:59.58 6uSriybI.net
>>588
UTF-16を16ビットで1文字を表すと思い込んでいる人間がいるが、16ビット単位でデータ扱うだけで、1文字が32ビットのこともある。

598:デフォルトの名無しさん
19/08/30 15:56:24.57 iPGqG8dk.net
>>591
それぐらいみんな知ってる

599:デフォルトの名無しさん
19/08/30 17:05:21.42 GEn/r+mZ.net
>>592
それぐらいみんな知ってる

600:デフォルトの名無しさん
19/08/30 17:19:36.31 57FOZgRt.net
ビットサイズ固定でどうにかなると思っていた時期が俺にもありました。

601:デフォルトの名無しさん
19/08/30 17:27:36.02 GEn/r+mZ.net
定期
貼れるんかこれ
URLリンク(qiita.com)

602:デフォルトの名無しさん
19/08/31 10:08:53.77 0iGUnrw4.net
>>591
スレの流れみた?UTF-32の話をしてんだぞ?

603:デフォルトの名無しさん
19/08/31 15:33:43.16 SHne0DDt.net
>>596
そのまえ

604:デフォルトの名無しさん
19/08/31 15:35:30.15 SHne0DDt.net
6 仕様書無しさん sage 2019/08/31(土) 11:36:13.12
日本人ならUTF16を掲げるJavaを支持すべきだ

605:デフォルトの名無しさん
19/08/31 15:37:04.56 3i1dPJsj.net
>>598
それは理由が書いてないから、読む価値ある?

606:デフォルトの名無しさん
19/08/31 15:45:23.47 4qIvp+ND.net
なんで毛唐の決めたコードを支持するのか、意味が分からん
ネットウヨの類は米英には尻の穴まで晒すようだし困ったものだ

607:デフォルトの名無しさん
19/08/31 15:56:52.05 3i1dPJsj.net
ん?支持しなくて良いよ

608:デフォルトの名無しさん
19/08/31 17:12:51.44 0iGUnrw4.net
>>597
じゃあ >>586 はスレの流れを遮って,古い話題を煽り文句で蒸し返した挙句,
碌な知識も持ってないことを晒してしまったヤベー奴ってことになるけどいいの?

609:デフォルトの名無しさん
19/08/31 17:59:12.56 Yn5v13ie.net
ネットウヨw

610:デフォルトの名無しさん
19/08/31 20:21:37.85 5EL66xzp.net
re2のようにUTF-8にしか正式対応していない正規表現ライブラリもある。

611:デフォルトの名無しさん
19/08/31 22:52:53.39 0iGUnrw4.net
寧ろre2がUTF-32に対応すべきでは。
もしくはiconv使う。

612:デフォルトの名無しさん
19/08/31 22:58:57.55 3i1dPJsj.net
UTF-32対応は難しいから無理だろ

613:デフォルトの名無しさん
19/09/01 01:36:48.58 sYwYgS29.net
iconv禁止

614:デフォルトの名無しさん
19/09/01 09:07:17.74 XF6G4Ohn.net
NKF(Network Kanji code conversion Filter)を使えば?
Ruby にも、NKF モジュールがある

615:デフォルトの名無しさん
19/09/01 10:46:26.40 YneNC5Ev.net
別にコード変換ツールを探してるわけじゃなくね?w

616:デフォルトの名無しさん
19/09/01 10:52:49.46 kCJZVLuH.net
どこぞの皇帝や中国王朝みたいに文字の方を変えて宇宙統一してしまえば良い
文字コードに合った文字だけ使えば解決

617:デフォルトの名無しさん
19/09/01 12:53:54.91 k0czTyLP.net
収録文字数が2の16乗を超えた時点でUTF16は破綻したんだから、サロゲートペアなんて
煩雑な延命策を取らず、UTF32に完全移行すべきだった。
UTF16を残したせいでUTF32にも皺寄せが来ている。UTF32ではU+FFFFFFFFまで
対応できるはずなのに、UTF16のサロゲートペアで表せるU+10FFFFまでに符号空間が
制約されてしまった。つまり、実質的に32ビットではなく21ビットコードになってしまった。
UTF16を全廃しUTF32を本来の32ビットまで拡張すれば、異字体を異字体セレクタなしで
収録できるから、すべての文字を32ビットで表せて単純明快になる。

618:デフォルトの名無しさん
19/09/01 13:07:58.05 lmQdJ5gb.net
>>611
いろいろ間違ってるなw
まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
既に使われてるものを簡単に変えられるわけがない。
UTF32が21bitコードになってしまったのはUTF-8のせいだ
21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる

619:デフォルトの名無しさん
19/09/01 13:11:25.72 xmxF7u0H.net
異体字セレクタが導入されたのは別にコードポイントが足りないからじゃないだろ。
異体字なんて数が限られているし、それ以上に役に立たない絵文字をバンバン追加している状況だし。

620:デフォルトの名無しさん
19/09/01 13:35:49.57 JCPxJyAV.net
MSがUTF-16を採用したせいで廃止しようにもできないだろ
CP932とSJISとUTF16が生き残ってるのもだいたいこいつのせいだ

621:デフォルトの名無しさん
19/09/01 13:40:59.73 kCJZVLuH.net
>>612
おまいもかなり可笑しいなω

622:デフォルトの名無しさん
19/09/01 13:42:43.07 k0czTyLP.net
>>612
>まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
あれ、そうだった? だとしたら、UTF16は最初から破綻していたってことだな。
変なものを作らずにUTF32を導入すべきだった。
>UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
>既に使われてるものを簡単に変えられるわけがない。
シフトJISからUnicodeへも互換性がないのに移行が進んだだろ。
>UTF32が21bitコードになってしまったのはUTF-8のせいだ
UTF8は可変長だから、32ビットでも表そう思えば表せる。
21ビットになったのはUTF16のせい。
>21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる
収録した記号は他にも色々あるし、U+F0000~U+10FFFFは外字領域だし、
21ビットだけでは心許ない。
>>613
異字体セレクタは同じコードでもAdobe-Japan1とMoji_Johoで字体が違う
滅茶苦茶な欠陥規格だから、さっさと廃止した方が良い。

623:デフォルトの名無しさん
19/09/01 14:01:22.04 JCPxJyAV.net
(もしかして: フォント)

624:デフォルトの名無しさん
19/09/01 14:17:44.56 Cv4S4gQH.net
>>616
> UTF8は可変長だから、32ビットでも表そう思えば表せる。
無理。UTF-8は「自由に可変にできる文字コード」ではない。
ビットパターンが決まっていて最大21bitまでしか表現できない

625:デフォルトの名無しさん
19/09/01 14:29:25.97 k0czTyLP.net
>>618
原理的にはUTF8は「自由に可変にできる文字コード」で32ビットも表せる。
UTF16の制約で符号空間が21ビットのU+10FFFFまでと定められたから、
UTF8もそれを超えるコードを規格外とみなすようにしただけ。

626:デフォルトの名無しさん
19/09/01 14:38:49.28 5y1tL0M+.net
>>619
エンコードと文字コードを混ぜんな
おまえみたいな奴がいるから混乱するんだよ
少しは馬鹿を自覚して黙ってろ

627:デフォルトの名無しさん
19/09/01 15:12:24.21 VpClr4jS.net
>>614
JavaやJavaScriptの内部エンコーディングもUTF-16だが

628:デフォルトの名無しさん
19/09/01 15:24:13.07 Cv4S4gQH.net
>>614
MSがSJISやめたら、世の中の既存の文書が
UTF8にでも変わると思ってんの?
魔法ですか?www

629:デフォルトの名無しさん
19/09/02 15:56:23.21 8MncpZHQ.net
魔法(圧力)

630:デフォルトの名無しさん
19/09/02 16:24:11.77 KSSQVEnP.net
>>623
どこからの?
セブンイレブンとか?

631:デフォルトの名無しさん
19/09/02 22:33:53.67 8MncpZHQ.net
マジレスするとOOXMLとかXPSとか「ある程度便利だけど既存の規格で十分じゃない?」というMS独自規格を、
MSが企業に圧力を掛けたりして広めてきた歴史を言ってるんじゃなかろうか。
念の為言っておくとOOXML←OpenDocument、XPS←PDFね。

632:デフォルトの名無しさん
19/09/03 00:26:14.39 EcUF0HHf.net
そんな圧力あったかなあ

633:デフォルトの名無しさん
19/09/03 06:39:22.40 KovswbEV.net
>>625
所でLinuxもデスクトップ環境も
一つに統一したほうが良いのではないか?ん?

634:デフォルトの名無しさん
19/09/03 08:49:15.73 /ybqtULG.net
MSがXPSを作った時、まだPDFは標準規格化されてなかったはずだが
それにPDFの競合規格はXPS以外にもたくさんある
URLリンク(ja.wikipedia.org)

635:デフォルトの名無しさん
19/09/03 10:21:51.94 KovswbEV.net
PDFはアドビのプロプラフォーマットってイメージが抜けないw

636:デフォルトの名無しさん
19/09/03 10:34:53.29 gWEsYspA.net
JavaだってSunのプロプラ言語だぞ

637:667
19/09/03 12:40:23.25 JzHlK+VD.net
今は違うけどね

638:デフォルトの名無しさん
19/09/03 15:04:07.63 jfAsT/N5.net
そのうち「MSはUnicodeを潰すためにCP932を作った」とか言い出す奴が出てくる

639:デフォルトの名無しさん
19/09/03 15:40:05.81 KovswbEV.net
Windowsの内部でCP932に依存している。
英語版Windowsも含めて日本語文字コードが内部で使われている
って思ってるやつは本当にいる

640:デフォルトの名無しさん
19/09/03 16:56:31.60 MR8tgZNH.net
>>627
LinuxはWindowsとは思想がほぼ真逆だからね。
多様性を重んじる。俺はそっちのほうが好きかな。
でもそれを至高とするあまり,古いカーネルや別の派生版との互換性が,Windowsのそれらに比べてない。

641:デフォルトの名無しさん
19/09/03 16:58:35.78 MR8tgZNH.net
>>628
当時PDFは国際標準にこそなってなかったが,
オープンフォーマットだったし,様々な場面で使われてた。
ただ描画ソフトがクソ重たいのしかなかった記憶がw

642:デフォルトの名無しさん
19/09/03 17:26:28.25 KovswbEV.net
>>634
だから多様性を重んじるっていうのは
競合するフォーマットが複数できるってことで
(例えば画像フォーマットや圧縮フォーマット)
Microsoftが独自フォーマットを作るのと同じ思想なんだよ

643:デフォルトの名無しさん
19/09/03 17:35:15.54 KovswbEV.net
>>635
> オープンフォーマットだったし
PDFはオープンではありませんでした。
プロプライエタリだって言ってるだろ

644:デフォルトの名無しさん
19/09/03 19:23:12.90 i0SweFPn.net
>>633
いつの知識なのかw
Windowsは表面的にはSJISで、内部ではUTF-16だ。

645:デフォルトの名無しさん
19/09/03 19:25:28.03 KovswbEV.net
> Windowsは表面的にはSJISで
ほらな、SJISじゃないって言ってんのにSJISだっていう
潜在意識レベルでそう思い込んでるから治しようがないw

646:デフォルトの名無しさん
19/09/03 19:51:10.42 9BNoj6TJ.net
WindowsというよりWindowsアプリが特定のOEMコードページやANSIコードページに決め打ちして作られてる物があるということだろ
他言語の状況は知らんけど日本語以外でも似たようなものだろうな

647:デフォルトの名無しさん
19/09/03 21:04:34.10 VgehgunL.net
Linuxの思想自体は多様性を重んじるのかもしれんが、ユーザーはそれに反して
「UTF-8以外死ね」みたいに言う奴多いよな。

648:デフォルトの名無しさん
19/09/03 21:08:34.33 KovswbEV.net
そうはいってもLinuxはASCIIと互換性がない文字コード(例 UTF-32)は死ねだからw
影響範囲が大きすぎて、LinuxはUTF-16とかUTF-32には事実上対応できないんだよね

649:デフォルトの名無しさん
19/09/03 21:51:19.99 kvsGhJj2.net
文字集合を符号化するのは、文字の区切れが判断できないからって解釈してんだけどあってる?

650:デフォルトの名無しさん
19/09/03 22:15:09.34 18+sQUYN.net
>>634
>多様性を重んじる。俺はそっちのほうが好きかな。
ところでホモにつきまとわれたらどうする?

651:デフォルトの名無しさん
19/09/04 01:38:53.56 Gs/bLtCt.net
一橋大学アウティング事件でググれ

652:デフォルトの名無しさん
19/09/04 04:00:00.76 xGPrnpMI.net
>>644
ホモであることは否定しないが、ホモは嫌いという俺の感情も尊重していただきたい
これが多様性だ!

653:デフォルトの名無しさん
19/09/04 09:16:30.39 n47u8TF1.net
>>645
ホモにつきまとわれて困ると友人にこぼしたら、
性癖を暴露されたとか言われて更に嫌がらせで自殺された事件?
ああいうの見てると、ホモの権利拡大とかしちゃいかんよなって思うよなあ

654:デフォルトの名無しさん
19/09/04 18:11:05.05 gX5VYMvu.net
>>639
Windowsが作るシステムファイルもSJISですよ?

655:デフォルトの名無しさん
19/09/04 18:12:22.94 vwhL3cv7.net
>>648
そういうネタはいらんから

656:デフォルトの名無しさん
19/09/04 18:52:19.95 gX5VYMvu.net
>>649
延々と嘘を書くのはやめてもらえませんか?

657:デフォルトの名無しさん
19/09/04 19:01:15.19 vwhL3cv7.net
ネタにネタをかぶせてもつまらんで

658:デフォルトの名無しさん
19/09/04 19:24:35.38 gX5VYMvu.net
妄想か

659:デフォルトの名無しさん
19/09/04 22:41:17.45 n47u8TF1.net
まあWindowsはNTカーネルとは限らないからな

660:デフォルトの名無しさん
19/09/05 00:35:42.74 rtvg+Hab.net
>>653はNTカーネルに限ると完全Unicode対応って意味やで

661:デフォルトの名無しさん
19/09/05 00:50:59.59 5i/MxHnj.net
ここでUnicodeといっちゃうあたりの頭の弱さよ

662:デフォルトの名無しさん
19/09/05 01:09:51.35 rtvg+Hab.net
補足すると、Unicodeは文字列集合で
符号化方式がUTF-16やUTF-8など
どの符号化方式であってもUnicodeといえる
>>655
さて、何か言い返したい言葉は有るかね?

663:デフォルトの名無しさん
19/09/05 01:11:05.81 rtvg+Hab.net
どうせ言い返す言葉は無いだろうから
待ってても時間の無駄なので先に言っておくと
何も言わない or 捨て台詞はくだけ なら俺に喧嘩売らなければいいのにw

664:デフォルトの名無しさん
19/09/05 04:37:49.32 5ZYYoPpa.net
完全Unicode対応ならどの符号化方式も対応してなきゃダメだろ

665:デフォルトの名無しさん
19/09/05 05:59:20.80 rtvg+Hab.net
※ LinuxはUTF-16、UTF-32に対応していません

666:デフォルトの名無しさん
19/09/05 06:00:04.95 rtvg+Hab.net
※ MacもUTF-16、UTF-32に対応していません

667:デフォルトの名無しさん
19/09/05 06:48:35.75 5ZYYoPpa.net
他者を貶めたところで>>654が真実になることはない

668:デフォルトの名無しさん
19/09/05 06:54:53.66 rtvg+Hab.net
他者を貶めるってなんのこと?

669:デフォルトの名無しさん
19/09/05 07:53:38.03 5ZYYoPpa.net
>>662
NTカーネル以外のものは他者だろ

670:デフォルトの名無しさん
19/09/05 08:02:45.45 rtvg+Hab.net
じゃあNTカーネルに限ってはUnicodeっていうのは正しいってこと?

671:デフォルトの名無しさん
19/09/05 12:58:50.41 5R9ffMew.net
どーしても我流を貫きたいんだなw
まあ他人の人生だから干渉するつもりはないが,そういう生き方は苦労すると思うぞ?

672:デフォルトの名無しさん
19/09/11 17:58:19.49 quHYHgkx.net
FEFF
URLリンク(en.wikipedia.org)

673:デフォルトの名無しさん
19/09/12 12:27:59.62 umd/llTn.net
全然関係ないけどWPへのリンクはMWの短縮URLが使える。
URLリンク(w.wiki)

674:デフォルトの名無しさん
19/09/12 12:43:49.99 vEKot6kT.net
本当に短縮したいところは日本語ページのパーセントエンコードされたところだがうまくいかないもんだな

675:デフォルトの名無しさん
19/09/13 09:23:49.73 rpBkWpcK.net
日本語のページも短縮URLにできるんだけど,そうじゃなくて?

676:デフォルトの名無しさん
19/09/13 10:11:35.77 wKEqF87n.net
文字通り文字コードのエンコードを間違えてるんだろう

677:デフォルトの名無しさん
19/09/13 16:18:49.47 nYKvQkSU.net
[%E5は無効なエンコードです。メインページに戻る。]

678:デフォルトの名無しさん
19/09/13 17:19:54.63 PF759nqS.net
当たり前だけど問題ないな
URLリンク(w.wiki)

679:デフォルトの名無しさん
19/09/14 00:14:10.89 UZ9Fxxpp.net
これ使われた順に生成されていくの?
そのうち4文字になるんかな

680:デフォルトの名無しさん
19/09/14 00:23:57.48 FV8dJ/wR.net
絵文字などサロゲートペアが必要な領域をUTF-7で表現するとUTF-32よりもバイトサイズが大きくなる。まめな。

681:デフォルトの名無しさん
19/09/14 11:56:27.23 mIZ3m


682:5oP.net



683:デフォルトの名無しさん
19/09/15 03:21:10.57 TEajZO+5.net
見せたろか

684:デフォルトの名無しさん
19/09/15 04:11:30.07 LMFjfaUx.net
見せて!

685:デフォルトの名無しさん
19/09/15 04:14:52.61 vhYJbDpr.net
utf7ってasciiじゃないっけ?

686:デフォルトの名無しさん
19/09/15 05:00:59.65 cvkFPip1.net
ここにはない

687:デフォルトの名無しさん
19/09/15 10:05:21.58 tu3q64lr.net
>>678
違う
君の理屈だと中国はチベットの一部ということになる

688:デフォルトの名無しさん
19/09/16 06:54:09.51 vTAkg/qq.net
じゃ,そういうことじゃん

689:デフォルトの名無しさん
19/09/21 16:46:43.93 7QW0JGF+.net
UTF-8もUTF-7も「ASCII互換にしようと思えばできる」文字符号化方式で
UTF-16/32は端から過去互換性を捨ててるっていう理解OK?

690:デフォルトの名無しさん
19/09/21 17:12:22.41 icgczTg/.net
互換の意味判ってるか?

691:デフォルトの名無しさん
19/09/21 17:13:19.94 AMltcnvP.net
>>682
ちゃんと仕様読め

692:デフォルトの名無しさん
19/09/22 02:18:18.82 tTe+mIIa.net
>>682
意味がわからない

693:デフォルトの名無しさん
19/09/22 11:35:45.78 LQCFANDg.net
>>682
OK

694:デフォルトの名無しさん
19/09/22 12:48:42.82 Uxh+z88Q.net
684デフォルトの名無しさん2019/09/21(土) 17:13:19.94ID:AMltcnvP
>>682
ちゃんと仕様読め
685デフォルトの名無しさん2019/09/22(日) 02:18:18.82ID:tTe+mIIa
>>682
意味がわからない
686デフォルトの名無しさん2019/09/22(日) 11:35:45.78ID:LQCFANDg
>>682
OK
----
どういうことなの…

695:デフォルトの名無しさん
19/09/22 15:28:59.04 yDiw/0G9.net
教訓:5chで情報収集するな

696:デフォルトの名無しさん
19/09/22 21:23:59.11 rg/me2jP.net
互換って何なの

697:デフォルトの名無しさん
19/09/22 22:18:40.20 sBc79exV.net
揚げ足取り終了。
質問。皆さんが普段使っている文字コード変換ライブラリでおススメはなんですか。

698:デフォルトの名無しさん
19/09/22 23:28:10.21 JTFkWMft.net
お勧めもなにもiconvかICUで大体用は足りる
それで満足しなきゃ自分で作るしかない

699:デフォルトの名無しさん
19/09/23 08:58:26.51 10n0KRvd.net
文字コードの変換だけ?
いまどきのまともな言語環境なら変換元のエンコーディングさえ分かってれば標準機能で出来るだろうに
それとも全角⇔半角の変換みたいなのをやりたいってこと?

700:デフォルトの名無しさん
19/09/23 11:35:21.05 3qdqqJ07.net
こっちはだめ
URLリンク(ja.cppreference.com)
URLリンク(ja.cppreference.com)
これ使え
URLリンク(docs.microsoft.com)
URLリンク(docs.microsoft.com)

701:デフォルトの名無しさん
19/09/23 14:54:10.02 FPxFvDjY.net
Windows SDK付属のデバッグ用ソースを見たところmbstowcs_sの文字コード変換は、Win32APIであるMultiByteToWideCharを使っているようですね。

702:デフォルトの名無しさん
19/09/23 15:08:29.22 3qdqqJ07.net
MultiByteToWideChar / WideCharToMultiByte 最強

703:
19/09/23 15:53:59.08 ZLX7TvLd.net
>>695
確かに便利でありがたかったです
スレリンク(tech板:53番)

704:デフォルトの名無しさん
19/09/23 16:01:34.44 51KZjw6P.net
null-terminatedとそうでない場合の仕様の違いをちゃんと理解してなくて
バグった挙句によけいな1byte追加しちゃったりした思い出。

705:デフォルトの名無しさん
19/09/23 16:24:42.75 3qdqqJ07.net
奇遇ですね
URLリンク(www.vector.co.jp)

706:デフォルトの名無しさん
19/09/24 00:23:12.23 FsJR6FDp.net
長い上にださい略し方だ…

707:デフォルトの名無しさん
19/09/24 14:25:04.46 oiN+60ax.net
python3でlogging使ってsyslogに出力すると
ASCIIで出力してもなぜか最後に\0が付いてログが残る
鯖側のsyslogdの方で付いてるのかと思ったが
そうじゃなくてpython3が勝手に付けてるみたい
python3のstringがunicode化したときにバグ入ったんかな
python2のときはそんなこと無かった気がする

708:デフォルトの名無しさん
19/09/25 12:14:01.12 9XZAk7bA.net
URLリンク(bugs.python.org)

709:デフォルトの名無しさん
19/09/25 13:11:07.39 BmMtZLRv.net
深い闇を垣間見た気がする
handler.log_format_string = '<%d>%s'
だと no attribute
handler.setFormatter(logging.Formatter('%(message)s'))
だと結局 \0 付いたままでした

710:デフォルトの名無しさん
19/09/25 13:18:01.66 BmMtZLRv.net
コンストラクタ呼ぶ前に
logging.handlers.SysLogHandler.append_nul = False
で解決しました
thx!

711:デフォルトの名無しさん
19/09/25 14:09:59.51 sdHp2tVC.net
エンコードされた文字のバイト並びが
utf-8 と cp832 で同じ(にみえる)ものってどんなのがあります?
そもそも 3bytes と 2bytes なのは仕方ないのですが
utf-8 だと (xx yy zz)
みたいなのが
cp932 だと (xx yy) 00
逆に
cp932 だと (uu vv) (ww xx) (yy zz)
みたいなのが
utf-8 だと (uu vv ww) (xx yy zz)
みたいなのでも良いです
そもそもありえない?

712:デフォルトの名無しさん
19/09/25 14:11:59.88 cBdVtg+x.net
cp932 ってことはいわゆる半角カナも入れて良いのカナ

713:デフォルトの名無しさん
19/09/25 14:14:32.79 sdHp2tVC.net
出来れば「美乳」みたいなクオリティ高いのが良いです

714:デフォルトの名無しさん
19/09/25 16:32:05.43 vuS5tsH7.net
美乳ってどういう特長を持ってたんだっけ?
エージェントが読み込んだときに確実にShift JISだって判定できるんだっけか。

715:デフォルトの名無しさん
19/09/25 23:44:33.31 2M81F3EH.net
PC初心者です。
あるexeファイルをコマンドウインドウで開く。ということをしなきゃならないんだけどシフト+右クリックしてもコマンドウインドウで開くというのがありませんでした
調べたら、コマンドウインドウで開くを表示したい場合メモ帳で名前を付けて保存の時に文字コードをUnicodeにして保存し実行したらレジストリがどうたら書いてあったんでしようとしたら、文字コードにUnicodeがありませんでした。
どうしたら良いですか?

716:デフォルトの名無しさん
19/09/26 00:04:19.37 Gir9qHZJ.net
↓最高に面白い回答

717:デフォルトの名無しさん
19/09/26 00:06:20.67 1IaRoLf+.net
>>708
>どうしたら良いですか?
諦める
高望みするから人間は苦しむんだよ

718:デフォルトの名無しさん
19/09/26 01:58:07.64 MW37nPtB.net
>>704
ASCII以外ではたぶん無いんじゃないかな
cp932としてもutf-8としても正しいバイト列で
それぞれが別の単語になるケースを探したことがあるけど、
それでも両方が意味のある単語になる例は見つけられかった
どういう目的でそういう例を探してるの?

719:デフォルトの名無しさん
19/09/26 08:30:15.09 NQV5DCT+.net
>>708
cmdにd&dかバッチファイル作れ
これ以上はスレチ

720:デフォルトの名無しさん
19/10/08 14:05:40.55 yxEiS4UK.net
ブログラムソースをUTF16やUTF32で書いてる人いるの?
ブログラム内の文字列のデータじゃなくてブログラムの地の部分

721:デフォルトの名無しさん
19/10/08 14:10:33.38 J68M6wrj.net
そんなゴリホーモおらんやろ

722:デフォルトの名無しさん
19/10/08 15:33:52.08 Dgw8eufS.net
誰が読むんだ

723:デフォルトの名無しさん
19/10/23 21:57:19.58 CiGuyy89.net
まるでUTF-16文書は読むのに向かないかのような発言やな
まともなエディタなら読めて当然。

724:デフォルトの名無しさん
19/10/23 23:42:00.06 /s0IRa9G.net
ICUなんてほぼほぼUTF-16ですよ。

725:デフォルトの名無しさん
19/10/24 17:29:35.02 mthfJT/n.net
なんかUnicodeのサイト分裂した?

726:デフォルトの名無しさん
19/10/24 18:37:57.14 FCkKS+Hu.net
青っぽいデザイン変更で入口が使いにくくなってる辺り?

727:デフォルトの名無しさん
19/10/27 00:29:12.62 DVVulqOc.net
なにそれこわい

728:デフォルトの名無しさん
19/10/29 16:20:42.34 A7Naqht0.net
URLリンク(home.unicode.org)
これやな。
なんか謎の意匠がw

729:デフォルトの名無しさん
19/11/01 01:07:36.40 iOCNEHbC.net
結局見つかったのは何なの

730:デフォルトの名無しさん
19/11/01 01:07:53.40 iOCNEHbC.net
書くとこ間違えた失礼

731:デフォルトの名無しさん
19/11/15 19:48:26.91 CD4iEOnB.net
文を書くときに?や()などの半角にも全角にもある文字はどっちを使うべきなのか迷う。
数字やアルファベットは半角を使うのが普通だからASCIIコードにある文字はASCIIコードを使った方がいいんだろうか

732:デフォルトの名無しさん
19/11/15 21:21:21.06 NIGKt6uf.net
特に拘りが無いならNFKCに倣う

733:デフォルトの名無しさん
19/11/15 23:13:58.98 csRpQu7P.net
JIS X 0208 を 0201 のスーパーセットにしなかったのが諸悪の根源

734:デフォルトの名無しさん
19/11/15 23:28:13.72 69Rrw1ZJ.net
そもそも世界中の文字を一つの体系で包括できると考えたりしたのが…ブツブツ

735:デフォルトの名無しさん
19/11/16 09:13:00.94 0g4G1zYO.net
サル共がコンピュータを使わなければ面倒がないのに
とか思われてるよ

736:デフォルトの名無しさん
19/11/16 10:56:43.05 t6zcY+AG.net
ASCII に含まれてる記号は半角で入力してる
っていうか IME で半角優先にしてるのでそっちばっかりになる
IME ON の状態であってもスペースももちろん半角だ

737:デフォルトの名無しさん
19/11/17 00:12:46.29 ZZ8XSzBD.net
チルダとかハイフンマイナス、引用符あたりは迷う。
これらは単に全角と半角の関係ではないんじゃないかという気がする。

738:デフォルトの名無しさん
19/11/19 22:24:19.13 lA4rVXxm.net
0-9A-Za-z は半角だけどその他はちょっと迷うかな
! や ? は書いてるのが日本語漢字仮名交じり文なら全角にするかも

739:デフォルトの名無しさん
19/11/20 09:53:23.76 grCkJCm3.net
公文書の「,」なぜ? 半世紀以上、見直し検討
2019 11 18
URLリンク(www.sankei.com)

740:デフォルトの名無しさん
19/11/21 16:10:59.78 0qs1xY5M.net
俺は「,」のほうが寧ろ収まりがいいように見えるけどな。
感性で判断するんじゃなくて,論理的根拠をもって「,」か「、」かを決めるべきよね。

741:デフォルトの名無しさん
19/11/21 18:03:44.71 oVdD3irj.net
日本語の文章は分かち書きをするわけではないから、
点があるのにコンマのような後ろにスペースを要する記号を使うのはおかしいと思う。
丸の代わりにピリオドを使うのも同じ。
それにしても、公文書の混ぜこぜの用法はどっちつかずだよな。
もともと、和文タイプライターで使われていた用法なのではないか?

742:デフォルトの名無しさん
19/11/21 18:06:42.91 oVdD3irj.net
使ったこと無いからわからなかったが、全角コンマなんてのがあるんだな。
これって、全角英数と同じで、日本語の体裁に合わせるためにわざわざ作られた文字だよねぇ。

743:デフォルトの名無しさん
19/11/21 19:11:00.69 wlMAy4t9.net
>>733
フォント次第ながらも「,」は半角カンマ「,」と一目で見分けることができない。
一方「、」は全角しかない。よって誤植の起きにくい「、」で統一するべき。

744:デフォルトの名無しさん
19/11/21 21:10:52.53 cn6yPDJX.net
>>736
半角の、だってあるだろ
AAとかでよく使われる

745:デフォルトの名無しさん
19/11/21 21:14:37.01 gyc1+QC+.net
見分けられないで言い切られたらコーヒー噴くしかない

746:デフォルトの名無しさん
19/11/21 21:51:21.49 HJrbCtCI.net
文字コードスレなのにいまだに「全角」とか言う奴いるんだな

747:デフォルトの名無しさん
19/11/21 22:11:40.82 Ht1weGMK.net
ここまで無知だと辛いどころか辛さも感じないほどにアホなんだろうな
739は

748:デフォルトの名無しさん
19/11/21 22:27:48.86 T5O6V3Nl.net
カッコは半角と全角でベースラインが違うフォントも少なくないんで
囲う文字に合わせてる

749:デフォルトの名無しさん
19/11/22 00:27:47.62 5/IABJQJ.net
そもそも日本語は句読点は使っていなくて使われ始めたのが
欧米のカンマやピリオドの影響で明治後期くらいからだからな

750:デフォルトの名無しさん
19/11/22 01:42:56 1ACgXjue.net
FULLWIDTHとか出てくるのを全角以外にどう呼べと

751:デフォルトの名無しさん
19/11/22 01:49:03 VSWkIrxm.net
句点の代わりに「候(そうろう)」を使ってたんでしょ、昔の人は。

752:デフォルトの名無しさん
19/11/22 02:26:32 7JxndsMv.net
日本はもともと縦書きで「,」なんて使ってなかっただろ?
縦書きでどの位置に「,」を打てばいいのよ?

753:デフォルトの名無しさん
19/11/22 03:23:33 QBgvTUOv.net
縦書きは、を使って横書きは,を使えばいいじゃん
なんで臨機応変に対応できないんだろう?

754:デフォルトの名無しさん
19/11/22 03:31:46.87 7JxndsMv.net
臨機応変に縦書きと横書きを変換するからだよ
ウェブ上では横書き、本にしたら縦書きとかな

755:デフォルトの名無しさん
19/11/22 15:56:12.49 WtZSxTNA.net
漢文で書かれた本の中には、句点は、文字の横に○をつけていたものがる。
江戸時代のくずし字でかられた読み本は、句読点なし。読む人が判断することになっている。

756:デフォルトの名無しさん
19/11/22 18:59:44.59 VSWkIrxm.net
教科書フォントに慣れ切って高卒レベルの古典教養しかない現代人は「くずし字」の原書をほとんど読めない問題。

757:デフォルトの名無しさん
19/11/22 19:10:33.77 +ybPmekP.net
筆で書かないと身につかんよ

758:デフォルトの名無しさん
19/11/22 19:31:16.58 VSWkIrxm.net
中学高校の古典の授業で、原書を写真印刷した文書を読ませる機会を与えるべきだろう。
活字慣れした現代人は太平洋戦争中の日記や戦場から送られてきた手紙さえ読めない。

759:デフォルトの名無しさん
19/11/22 20:55:41.01 QBgvTUOv.net
厨二満載の文集が他人に読まれなくなる日も近いんだな
よかったワープロが普及する前で

760:デフォルトの名無しさん
19/11/22 21:23:42.16 SnsQ0S1X.net
アメリカでも筆記体が廃れつつあるんじゃなかったか
せいぜいサインする時に使うくらい

761:デフォルトの名無しさん
19/11/22 22:42:29.42 +ybPmekP.net
ラテン文字は筆を選ばないでも問題無いが
漢字や仮名は楷書でも筆の運びをちゃんと学んだ方が近道

762:デフォルトの名無しさん
19/11/22 23:50:42.29 1ACgXjue.net
墨汁ドバー

763:デフォルトの名無しさん
19/11/23 09:52:15.28 StIP5iHr.net
ん? 江戸時代から句読点はあったよ。
多分、由来は漢文の補助点で句の切れ目に「、」を打って読みやすくしたもの。文末も句点だった模様。

764:デフォルトの名無しさん
19/11/23 10:17:05.69 LEhIlmd1.net
>>756
一般に使われ出したのは明治でしょ

765:デフォルトの名無しさん
19/11/23 10:53:20.31 cBKKqL2b.net
>>749-750
今年の漢字の季節ですね

766:デフォルトの名無しさん
19/11/23 14:16:40.50 SCQQhBmf.net
風か水かって感じかなあ
災とかはこの前使ったよね

767:デフォルトの名無しさん
19/11/23 14:20:31.57 Lev/ciM6.net
金とか何回か選ばれてるのはあるな
二年連続とかは知らん

768:デフォルトの名無しさん
19/11/23 15:30:58.21 OKqvuGhi.net


769:デフォルトの名無しさん
19/11/23 16:40:21.39 l4WHmfnE.net
もうそろそろコンピュータの世界では
32ビット固定長の文字コードを使うようにしても
良いのじゃないだろうか?

770:
19/11/23 16:48:42.87 bse8qODO.net
>>762
ascii 的な世界(合衆国界隈とか)が発狂するので、utf-8 がつくられたのだと思います
まあコード内では utf-32 で統一するのがスマートですね

771:デフォルトの名無しさん
19/11/23 17:45:30.08 ExB3uxT/.net
C言語がASCII前提としていたので、
UTF16やUTF32では互換性を保てなかったのが理由

772:デフォルトの名無しさん
19/11/23 18:02:19.00 UeuUKNdC.net
32bitで足りるんか?

773:デフォルトの名無しさん
19/11/23 18:05:22.65 Lev/ciM6.net
今のところ32bitっつってもスカスカだろ

774:デフォルトの名無しさん
19/11/23 18:45:44.31 KvoIJqUR.net
文字が4億も存在するんかいな。

775:デフォルトの名無しさん
19/11/23 18:46:53.89 k/QFWxVo.net
じゃけん戸籍に登録されてる異字体全部収録しましょうね〜(鬼畜)

776:デフォルトの名無しさん
19/11/23 18:51:31.87 KvoIJqUR.net
旧字体はIPAがマップしたんじゃなかったっけ?

777:デフォルトの名無しさん
19/11/23 20:53:37.67 x1VOKq1M.net
固定長好きな人が定期的に出てくるのはなんでなの?
セレクタとか合成文字とか固定長に押し込むの非現実的でしょうに

778:デフォルトの名無しさん
19/11/23 21:03:09.45 pGKd1Nh3.net
21bitもの空間与えたら要らん文字まで突っ込みまくってごみ溜めみたいになってしまったじゃないか。

779:デフォルトの名無しさん
19/11/23 21:12:47.43 LYBJTBw0.net
絵文字は特に漢字に馴染みが無い連中が嬉しがってるけど、象形文字の発明前に戻ったようだよ
具材がどうだとか細かなこと言ってて抽象化とは程遠いし、少なくとも色は与えるべきじゃなかった

780:デフォルトの名無しさん
19/11/23 23:04:09.59 uD1YCxhq.net
>769
ipaは都合約6万字ある

781:デフォルトの名無しさん
19/11/24 00:15:00.98 daL/rw2X.net
16bit固定なら世界中の文字が記述できるとして始まったのがそもそものUnicodeだからな

782:デフォルトの名無しさん
19/11/24 07:48:18.59 wAZlnZnW.net
>>757
お前の一般が何かによる。
正式な正書法になったのは明治から。江戸時代の正書法は漢文の白文か武士の候文。
一方で庶民向けの版本や貸本では江戸期から句読点が使われてるので、本を読む層には馴染みがあった。
あと手習いの手本とかにも句読点があるので文字習う段階で知識として知ってるのでは。

783:デフォルトの名無しさん
19/11/24 11:58:02.36 bBACDgxb.net
>>772
ちんちんの絵文字は
剥けちんと包茎と勃起前とか勃起後とか色々バリエーション必要ですし

784:
19/11/24 12:05:35.45 oHJXyQoT.net
>>776
おもしろいと思っていってるの?

785:デフォルトの名無しさん
19/11/24 12:07:46.48 bBACDgxb.net
QZさんからレスもらえるとは思わなかった

786:デフォルトの名無しさん
19/11/24 12:30:57.16 4a4z1fkQ.net
>>777
竹島はどこの国の領土ですか?
注意:「なぜその質問をしたいと思ったのですか」みたいな
質問を質問で返すようなクズな真似はしないこと

787:デフォルトの名無しさん
19/11/24 12:43:02.24 iwyjZSbL.net
質問じゃなくて、馬鹿にしてるんだろ
え?それ面白くないよ?面白いと思ってんの?プークスクス
という意味

788:デフォルトの名無しさん
19/11/24 12:53:04.27 6n0WdTOH.net
>>780
違うと思う
QZは韓国人だから答えられないんでしょ

789:
19/11/24 13:04:27.62 oHJXyQoT.net
>>779
>「なぜその質問をしたいと思ったのですか」
いやはや、私のパターンを熟知されているようでなにより、です、ちょっとうれしくなりました

790:
19/11/24 13:05:00.77 oHJXyQoT.net
>>781
なぜ韓国人だとおもったのですか?

791:
19/11/24 13:09:00.29 oHJXyQoT.net
>>779
スレリンク(eco板:710番)
スレリンク(eco板:712番)
スレリンク(eco板:714番)

792:デフォルトの名無しさん
19/11/24 13:13:33.28 BlMs70wA.net
憲法9条を改正するだけじゃダメなのよ。
軍の統帥権が天皇と征夷大将軍(内閣総理大臣)のどちらにあるのか明確にしないと。

793:デフォルトの名無しさん
19/11/24 15:33:55.44 EdYAI6jd.net
>>762
そのまえに格納方法をビッグエンディアンかリトルエンディアンで統一してくれ

794:デフォルトの名無しさん
19/11/24 17:10:15.65 5wTOyTy7.net
>>779
竹島は日本の領土で、独島は韓国の領土だよ
なぜか韓国は竹島のことを独島だと言い張ってるけど
独島は別の島ですから、残念

795:デフォルトの名無しさん
19/11/25 15:25:07.92 s1hiXzdE.net
>>787
おっとそれ以上言っちゃあいけない

796:デフォルトの名無しさん
19/11/30 13:54:16.72 eovy2x2M.net
【びっくりサイエンス】 日本古来の「くずし字」にAIで挑む 解読の競技大会は中国が優勝
URLリンク(special.sankei.com)
2019.11.30

797:デフォルトの名無しさん
19/11/30 15:03:21.41 dLS32wGr.net
別に「びっくり」ではないなw

798:デフォルトの名無しさん
19/11/30 21:10:49.04 OkgV2S2L.net
それ言ったらドンキーにも延焼する

799:デフォルトの名無しさん
19/11/30 21:25:08.69 mO6/udRn.net
ドンキーほうけーい

800:デフォルトの名無しさん
19/12/01 17:02:36.55 zxgavQqm.net
今年の漢字は天

801:デフォルトの名無しさん
19/12/01 17:27:44.79 xqkDTdKR.net
いっそU+32FFと書いてほしい

802:デフォルトの名無しさん
19/12/03 02:50:32.39 TSc17kJh.net
「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース
2019年12月2日 19時21分
URLリンク(www3.nhk.or.jp)
「くずし字」解読は「文系」より「理系」向き!?
驚き! ラーメン判別の技を応用
AIの解読能力 高めるポイントは?
数億点もある難読資料 高まるAIへの期待
歴史資料の研究者からも期待の声

803:デフォルトの名無しさん
19/12/03 12:56:42 dBsSbed7.net
可変長の文字コードは、CPUのパイプライン処理とは相性が悪いはず。大量の文字
データのやりとりやファイルサイズが小さくなるのは理解できるけれども。
でもそれは圧縮機構を別途に設けたのではだめなのか?

804:デフォルトの名無しさん
19/12/03 14:48:10.41 32eP5DBa.net
異体字セレクタとして色だけじゃなく斜体、下線、太字などのHTML的な要素も入れてみたらどうか

805:デフォルトの名無しさん
19/12/03 15:19:10.13 9x1aaywv.net
倍角、四倍角も入れて

806:デフォルトの名無しさん
19/12/03 15:35:57 IUIY88nX.net
HTMLががんばってCSSに追い出したスタイル要素を文字コードが取り込んだらかわいそうw

807:デフォルトの名無しさん
19/12/03 17:26:32 Y2nmLwy/.net
Unicodeは文字コードじゃなくて文字シーケンスと名前を変えるべき

808:デフォルトの名無しさん
19/12/04 16:24:48 IlQO2KEp.net
黒板太字 - Wikipedia
URLリンク(ja.wikipedia.org)黒板太字

とかはかなりスタイル要素入ってると思うな。
てか数学用分野だけやけに優遇されてない?

809:デフォルトの名無しさん
19/12/04 19:52:55.02 sxQF45hm.net
連続してないからあくまでも記号扱いなんだろうな。

810:デフォルトの名無しさん
19/12/04 20:23:19.21 bwCWk38v.net
発音記号なんかはただの小文字aの異体字で意味が違ったりするからなあ
でもそもそもを言い出したらYとVが元は同源だったりして、「純粋な文字」を綺麗に定義するのは無理よ

811:デフォルトの名無しさん
19/12/05 15:53:38 1Yvcqq3b.net
>>801
「優遇」っていうか,そういう文字を収録してた符号化文字集合と互換性を持たせるために導入したんでは。
例えば「(株)」っていう文字とかに代表される囲み文字はかなり日本語圏に偏向してるけど,
これだって日本を優遇してるんじゃなくて,日本で開発された符号化文字集合がそういう文字を含んでたから収録されている。

812:デフォルトの名無しさん
19/12/05 16:32:04.91 IbmhSLeW.net
IMEの辞書とかは数学とか物理とか理系用語にめちゃくちゃ弱いイメージ

813:デフォルトの名無しさん
19/12/06 14:18:04 CxS2VDwU.net
>>805
IMEってMS-IMEのこと?
それともかな漢字変換全般?

814:デフォルトの名無しさん
19/12/06 23:32:11.23 Ob0T3VF2.net
SKK使ってるからだけどそんな印象は全く無い

815:デフォルトの名無しさん
19/12/10 22:31:10.24 zD6aLrgM.net
SKKは既定の辞書はすごく弱いけど語句登録がほぼ一瞬でできるのが利点よね。

816:デフォルトの名無しさん
20/01/01 02:03:31.89 ZBRDXVGi.net
あけましておめでとう!
今年もこのスレの皆さんに多幸感がありますように!����������

817:デフォルトの名無しさん
20/01/01 11:19:22.03 tqBP4ADq.net
字にはヒラギノ~ル♪

818:デフォルトの名無しさん
20/01/01 22:58:15.38 fGGzsdYV.net
あけましておめでとうございます
ISO/IEC 10646の新版は今年中に出るかな~?

819:デフォルトの名無しさん
20/01/03 06:32:52.61 wMN1Z8Zd.net
Consolasは良いフォントだとは思うのだけど、全角中黒「・」(U+30FB)が半角中黒(U+FF65)と判別しにくいところが気になる。
まぁ、文字コードの問題ではないんだが。

820:デフォルトの名無しさん
20/01/03 10:33:29.05 lHIykz7y.net
特定のフォントの特定の文字だけ任意に入れ替えるパッチとかフックとか無いんだっけ

821:デフォルトの名無しさん
20/01/03 22:33:53.11 wMN1Z8Zd.net
>>813
レスありがとう。どのOSにもそういう仕組みはないと思う。
よく上げられる例として、フォントの明示的な設定なしに\マークをバックスラッシュとして表示することはできない、というのもあるし。
一文字づつ判定して適切なフォントに変えて描画する処理を個々のアプリ自身が実装する必要があるはず。

822:デフォルトの名無しさん
20/01/07 14:48:29.36 lPDbYu1J.net
どのアプリの絵文字が「実際に使えるはさみの絵文字」なのか? - GIGAZINE
URLリンク(gigazine.net)
面白い

823:デフォルトの名無しさん
20/01/07 15:01:40.99 2Dq0zKSW.net
左利き用のはさみも用意汁ωωω

824:デフォルトの名無しさん
20/01/07 15:12:21.25 dfBogwvq.net
ちなみによく切れるはさみはここが曲線
URLリンク(bungu.plus.co.jp)

825:デフォルトの名無しさん
20/01/07 16:36:04.95 g+gnVlWv.net
はさみディレクションセレクター

826:デフォルトの名無しさん
20/01/18 12:49:25 jQMC+jX5.net
ぷにコードに関するチラ裏

localghost👻ってかわいくね?
→今まで危険そうで敬遠してたIDNに興味をもつ
→WikipediaとRFC3492を頼りにPunycodeのアルゴリズムを調べる
→エンコーダを自前で組んでみて、idn2コマンドやPythonの'idna'エンコーディングと比べてみる
→正規化する必要のある文字がどんどんふえる
→idn2とpythonのidnaってかなり違わくね?? <-イマココ

idn2はギリシャ文字の「語尾のシグマ」ς(U+03C2)をσにしないし、あとチェロキー文字の大文字?を小文字?にしないし、けど小文字?はSupplementなのがなんかあやしいし、でidnaとどっちが正しいのか考えるのが面倒になって投げた

827:デフォルトの名無しさん
20/01/24 09:35:27 jBJ9cIqM.net
6月のWG2は高松になったのか
また国外から来にくそうな

828:デフォルトの名無しさん
20/01/26 00:45:55.40 C+NhYhXj.net
道後温泉に行くか

829:デフォルトの名無しさん
20/01/30 14:46:03 WswUNrPx.net
Unicode Emoji 13.0 - Now final for 2020
URLリンク(blog.unicode.org)

830:デフォルトの名無しさん
20/01/30 16:08:26 m1itn91m.net
今更タピ岡かい

831:デフォルトの名無しさん
20/01/31 12:43:23.65 G4fIlptF.net
Unicodeは完全にコンソーシアムのおもちゃになってんな

832:デフォルトの名無しさん
20/01/31 15:08:09 OCbveUqO.net
タピオカミルクティーがあるのに、将棋の駒がフルセット揃っていないのは納得できない。

833:◆QZaw55cn4c
20/01/31 19:55:14 tTpxWp9S.net
>>825
詰将棋用に上下逆の漢字を入れて欲しかった

834:デフォルトの名無しさん
20/01/31 22:55:44.99 GHfVRZCY.net
G入れるのまじやめて

835:デフォルトの名無しさん
20/02/01 00:49:18.17 6vnUAWit.net
要するに新種の漢字なんだな
国ごとに生活が違うから、結局何万種必要になる

836:デフォルトの名無しさん
20/02/02 00:50:49.11 wzqxdRGo.net
将棋の駒は多分誰も提案書を出さないせい

837:デフォルトの名無しさん
20/02/02 01:02:15 0w4OLLiX.net
それ通ったらドンジャラ提案するわ

838:デフォルトの名無しさん
20/02/02 01:17:07.29 Vi9q8JVy.net
漢字の扱いは本当に難しい
手書きの分析しているソフトは本当に賢いと思うわ
まああれは面倒な文字はそもそも判定せず、
主要な文字から似たものを選んでいるだけではあるが・・・

839:デフォルトの名無しさん
20/02/03 01:41:22 qflv74w2.net
テスト٩( 'ω' )و

840:デフォルトの名無しさん
20/02/03 08:57:05 uSBWqXrE.net
825だが、将棋の駒がダメな理由は、>>469 にある通り、
> インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
ということらしいが、なら、タピオカミルクティーにインラインテキスト中で
使われている用例があるのか、と言いたい。だから納得できない。

841:デフォルトの名無しさん
20/02/03 11:59:58 62FLJlST.net
解説本だと普通に使われてるよな

842:デフォルトの名無しさん
20/02/03 13:40:49 yHobSnyY.net
タピオカが使われているのかと誤読

843:デフォルトの名無しさん
20/02/03 13:47:35 62FLJlST.net
読み手のリテラシーが問われます

844:デフォルトの名無しさん
20/02/03 13:54:08 eKPmxfCz.net
天使を天便と読み取ったまま放置するとか割とマジ。

845:デフォルトの名無しさん
20/02/03 22:56:08 KZTuy2Ys.net
架空の文字は登録しないというポリシーもあったと思ったが、emojiに関してはやりたい放題だな。

846:デフォルトの名無しさん
20/02/03 22:59:18 wgq762c2.net
漢字以前の象形文字モドキの再発明だからなぁ
取捨選択もなく全然洗練されないまま数だけ増えてる

847:デフォルトの名無しさん
20/02/03 23:33:42 s4V/Vj8i.net
そのうち抽象化が進んでいくのか

848:デフォルトの名無しさん
20/02/04 13:26:51.57 gTERf/2s.net
政治的に正しい仏教徒としては、墓石のバリエーションの少なさには納得いかんぞ

849:デフォルトの名無しさん
20/02/04 13:28:31.24 c6iCZcrL.net
コーヒー、お茶、タクシー、台風もほしい

850:デフォルトの名無しさん
20/02/04 20:12:02 U7azh68T.net
>>841
政治的に正しい仏教徒とは何ですかね?

アホな創価学会員が言いそうな発言ですが。

851:デフォルトの名無しさん
20/02/04 21:29:49 t1/0lpTx.net
絵文字ってここにどう書き込めばいいんです?
&#9784;&#65039;


専ブラでは絵文字として読めるがWebブラウザー(Chrome/旧Edge/IE11@Win10)で見ても◆◆�


852:ヤでうまく表示されない…



853:デフォルトの名無しさん
20/02/05 08:47:40.80 fZOBAWLP.net
>>842
全部あるぞ。お茶は「湯呑み」として。検索の仕方が足りない。

854:デフォルトの名無しさん
20/02/05 10:08:51 So1jciyU.net
🍵 you know me.

855:デフォルトの名無しさん
20/02/05 10:23:19.19 MS9bo9CR.net
固定フォントのターミナルのような環境である文字のフォントの幅が全幅か半幅か判別する確実な方法ってありますか?
Unicode前提です
Unicode的にアジアンなんとかというドキュメントでそれに触れられているのを見つけましたが
結局のところ使用されているフォントで決まるような気がします
となるとCLIアプリが表示する前に判別する方法はないような
表示したあとならターミナルにカーソル位置問い合わせればわかりそうだと思いましたが

856:デフォルトの名無しさん
20/02/05 10:24:42 MS9bo9CR.net
固定フォントじゃなくて等幅フォントでした

857:デフォルトの名無しさん
20/02/05 16:23:36 2rKdW1Ec.net
てすと


858:デフォルトの名無しさん
20/02/05 16:24:56 2rKdW1Ec.net
>>844
うちのChromeはちゃんと出てる
ffでも問題なし

859:デフォルトの名無しさん
20/02/05 16:28:36 2rKdW1Ec.net
>>847
前にpythonで書いたときは
unicodedata.east_asian_width()
使ったと思う
Win32APIだと表示前に文字列全体の描画幅を求める方法があったと思う

860:デフォルトの名無しさん
20/02/05 16:30:38 So1jciyU.net
☸ 法輪ラブ ☸

861:デフォルトの名無しさん
20/02/05 18:34:07 qBm/0cTb.net
>>847

・Unicodeでは文字幅は 0(結合文字)、1(いわゆる半角)、2(いわゆる全角)、1か2(曖昧幅) のいずれかに決まっている
・1か2になるのはαや☆などであり、東アジアの環境で2、それ以外で1

・wcwidthで調べるとその値を返すが、曖昧幅への対応がどうなっているかは分からない
・linuxのglibcは、データを自分で修正しない限り曖昧幅は1扱い(LANG=ja_JP.eucJPすれば2にはなる)

・CLIでのカーソル位置はカーネルのttyドライバが担当しており、そもそもフォン卜の情報を持っていない
・linuxカーネルでは全ての文字が(全角も)幅1扱い
・行編集もtty担当なので、catをそのまま実行して全角文字を入力後backspaceするとカーソルがずれる
・多くのシェルはwcwidthで入力/削除された文字やプロンプトに表示する文字の幅を調べ、必要に応じてカーソルを移動させる

・ターミナルはwcwidthまたは同等の独自関数(曖昧幅の設定ができることが多い)で文字幅を調べて、実際に表示させる
・等幅フォントでも曖昧幅の文字がどちらで実装されているかそれぞれ異なる上、ターミナルはフォントの文字幅情報を使わないことが多い(プロポーショナルでないことのみ確認)
・↑により、文字が重なったり変な隙間ができたりすることがある
・一部のターミナルはwcwidthの結果に従うように文字を潰したり引きのばしたりして表示する(minttyとか)

・アプリ(シェルとか)、ライブラリ(ncursesとか)、端末マルチプレクサ(tmuxとか)、端末エミュレータ、カーネル(tty)、フォント全てで想定する幅がそろっていないとうまく動かない
・日本語フォントの多くは曖昧幅2なので、linuxのCLIではαや☆がおかしくなることが多い(wcwidthが1を返すせい)

・Unicodeを作った西洋人は馬鹿だから、罫線素片の幅も曖昧で、ncursesがバグる
・絵文字は文字幅1だが、フォン卜の多くは2で実装されているのでおかしくなる

862:デフォルトの名無しさん
20/02/05 20:43:09 f5dE3Mu+.net
>>853
詳しい解説サンクス

863:デフォルトの名無しさん
20/02/05 23:12:39 zWcxLf4u.net
>>853
あざす
やっぱり混沌としてるのですね
とりあえず一度ターミナルの中を追ってみようかな

864:デフォルトの名無しさん
20/02/06 00:00:39 SQAVqXtr.net
>>844うちでも見れた

865:デフォルトの名無しさん
20/02/07 22:23:32 DCA95dh2.net
継ぎ接ぎだらけの一貫してない仕様だからな

866:デフォルトの名無しさん
20/02/08 17:47:47 hv0txQ7A.net
Unicodeの時代に今更だけど、
シフトJISの第2バイトがA0~FFでなく
40~FCにしたのは何でだろう

867:デフォルトの名無しさん
20/02/08 17:48:29 hv0txQ7A.net
訂正
×A0~FF
〇80~FF

868:デフォルトの名無しさん
20/02/08 18:36:07.73 zjMP9HD4.net
JISの区点は1区あたり94点
0x40開始で0x7Fを避けて2区分取ると0xFCになる

869:デフォルトの名無しさん
20/02/09 12:59:57 tCetl5aZ.net
やっぱ漢字1文字は2バイトの方がいい

870:デフォルトの名無しさん
20/02/09 15:51:09 gml78nRc.net
>>858
半角カナのせいで80~FFでは足りないから

871:デフォルトの名無しさん
20/02/09 19:30:21 tCetl5aZ.net
シフトJISはもう少し工夫すれば
JISコードの変換式もより簡単にでき
2バイト目もASCII領域を使わずにダメ文字も発生せず
補助漢字も全て入れられた

872:デフォルトの名無しさん
20/02/09 19:32:13 tCetl5aZ.net
補助漢字は半角カナと排他だけど

873:デフォルトの名無しさん
20/02/10 16:27:01 TGcYvj29.net
EUCで良かったんよ

874:デフォルトの名無しさん
20/02/10 19:14:50 hRmPfOYI.net
EUCだと半角カナも補助漢字もバイト数が増えるからな...

875:
20/02/10 21:20:39.00 3bnN/FFY.net
>>863
あのスペースの狭さでは、それは無理だったのでは?
どうするのがよかったのですか?具体的にいってみてよ

876:デフォルトの名無しさん
20/02/11 08:36:25.76 K5Jxm44G.net
非漢字_:[81-98] [80-9F]
第1水準:[80-9F] [A1-FE]
第2水準:[E0-FF] [A1-FE],[E0-EB] [80-9F]
補助漢字:[A0-DD] [A1-FE],[A4-C1] [80-9F]
補助漢字は半角カナと排他利用

877:◆QZaw55cn4c
20/02/11 17:40:51 Sh/x76Zj.net
>>868
それは結局半角カナを潰しただけのことでは?

878:デフォルトの名無しさん
20/02/11 18:51:44 K5Jxm44G.net
>>869
補助漢字6000字近くを使えるというメリットがあれば
半角カナをフェードアウトするには十分な機会になっただろう
補助漢字(JIS X 0212)が制定されたのは1990年だから
その翌年の1991年に発売されたMS-DOS 5.0あたりで
KANA ON/OFFコマンドを追加し、半角カナ/補助漢字の切り替えが出来れば
従来のテキストファイルの読み込みなども対応できる

879:◆QZaw55cn4c
20/02/11 19:27:04 Sh/x76Zj.net
>>870
文字コードのマップ切り替えはコンテンツ側で指示するべきことであって、OS/アプリ側で切り替えて対応するとか、発想が変だとおもいますね

880:デフォルトの名無しさん
20/02/12 01:19:59.31 l8Pmdafn.net
いっその事1byte=32bitにすればサロゲートペアもBOMも要らなくなるし多バイト文字という概念もなくなる

881:デフォルトの名無しさん
20/02/12 02:15:22.28 H21UjGBC.net
なくならない
合成文字はなくせない

882:デフォルトの名無しさん
20/02/12 05:02:58 K3E1Z6OS.net
>>871
コンテンツ側でなくユーザー側

883:デフォルトの名無しさん
20/02/12 10:06:52 a1w2Xqz0.net
1文字=64bitやろ

884:デフォルトの名無しさん
20/02/12 13:30:20 KzEjZzkq.net
>>875
イングランドの旗はUnicodeで7コードポイント必要なので64bitでは無理
128bitで

885:デフォルトの名無しさん
20/02/12 13:32:59.34 yKNbCROk.net
👽 全宇宙の未知なる知的生命体の使用言語を網羅しなきゃならないのだから可変長は必須

886:デフォルトの名無しさん
20/02/12 20:36:54 ytylQgpT.net
>>876
え、じゃあイギリスの旗はさらにそれにスコットランド分とアイルランド分が追加されるの

887:デフォルトの名無しさん
20/02/12 21:06:37.28 Kml/rCmZ.net
>>878がおもしろいことを言った

888:デフォルトの名無しさん
20/02/13 15:10:18.42 Xqo24CtP.net
ウェールズ「俺は?」

889:デフォルトの名無しさん
20/02/13 21:26:26 KYt0SeFn.net
Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
URLリンク(www.itmedia.co.jp)

890:デフォルトの名無しさん
20/02/14 11:14:07.77 SoYJxWJg.net
そんな文字要らんわ

891:デフォルトの名無しさん
20/02/14 13:42:19 4TN7y+1I.net
グーグルってしょっちゅう意味のわからんことするよな

892:デフォルトの名無しさん
20/02/14 14:22:25 WtuYdkw5.net
MSやAppleだって訳判らんことするときもある

893:デフォルトの名無しさん
20/02/14 14:26:10 MCgyW5To.net
実行ファイルがテキストとデータで構成されるように、絵文字表現もテキストとデータを組み合わせた文法が出てきそう。

894:デフォルトの名無しさん
20/02/14 17:14:21 CPLKNT1n.net
顔文字より正規表現のためのメタ文字とかあったほうが良いのにね。
まあGoogleじゃ無理か。

895:デフォルトの名無しさん
20/02/14 21:11:02 qxpoECq4.net
(.*_*)

896:デフォルトの名無しさん
20/02/14 22:37:55 cKxgCMj+.net
そのメタ文字にマッチしたい正規表現を書く日が来るぞ

897:デフォルトの名無しさん
20/02/15 00:14:12 W/mb2gir.net
\��

898:デフォルトの名無しさん
20/02/15 05:28:54.23 uhBKJdO0.net
規格名:JIS X 0215
文字数:15000字超(非漢字:1700字超,漢字:13300字超)
区点域:0~127区,0~127点(最大16384字収納)
通 称:いちごJIS

899:デフォルトの名無しさん
20/02/21 14:33:03 MAyK0RyJ.net
URLリンク(twitter.com)

修正の入った Cygwin 3.1.4 のリリースノートが来て、見てみたら @cjksingle という不穏な locale が発明されてる。
何かと思ったら「CJK文字も全て半角にすれば文字幅問題解決じゃん」という欧米人(東欧系?)の思いつきで、これは新しい悪夢なのでは…。mintty は仕事が早すぎ
URLリンク(gitlab.freedesktop.org)

因みにこの東欧人を追うともっと面白い(?)ものが。。漢字や絵文字が行末に収まらない時は左半分はその行に右半分は次の行に表示するのが合理的だと Windows Terminal に赴いて主張してる。
曰く、殆どの漢字は偏(へん)と旁(つくり)から成るので分断しても意味を失わないとか…
URLリンク(github.com)
(deleted an unsolicited ad)

900:デフォルトの名無しさん
20/02/21 15:07:53.93 5cQWFY2c.net







901:デフォルトの名無しさん
20/02/21 20:47:45 cxQoHGS6.net
半角と全角の区別付かなくなると困るから元の半角文字はさらに半分で表示したらどうかな

902:デフォルトの名無しさん
20/02/21 22:45:17 gYJx2Nw8.net
まぁ、全部全角にすれば万事解決なんだけどな。

903:デフォルトの名無しさん
20/02/22 03:15:16.13 s2EVAxz+.net
絵文字っていわゆる全角よね

904:デフォルトの名無しさん
20/03/02 02:11:23 dBpw1NjL.net
いわゆるって何を指してる?

905:デフォルトの名無しさん
20/03/02 16:54:16.25 HI7PDIWr.net
公式定義ではなく現実によく目にする幅、かな

906:デフォルトの名無しさん
20/03/02 17:38:15.13 glnmwhpK.net
最近は倍角とか4倍角とか聴かなくなったな

907:デフォルトの名無しさん
20/03/07 16:24:06 dtD2Xrrp.net
Microsoft、Shift_JISや外字からUnicodeへの移行を呼びかけ | スラド
URLリンク(srad.jp)

Windows と日本語のテキストについて - Windows Blog for Japan
URLリンク(blogs.windows.com)

908:デフォルトの名無しさん
20/03/07 18:02:03 8MkGFgNt.net
外字というと丸囲みの数字が?~?以外にもほしくて
21以降も外字で作ってしまっていた事務所を思い出す

何度かPCを入れ替えるうちに使わなくなり、忘れ去られ、
久々に古い文書を引っ張り出して来たら謎の文字化けで外字の存在が発覚
外字が何故か?から始まってたり途中に別の字が挟まってたりしてもはや解読作業

909:デフォルトの名無しさん
20/03/08 21:08:48.53 LYEGO22Q.net


910:デフォルトの名無しさん
20/03/08 22:48:15.28 NQM2xZbu.net
今は㊿まであるんだな、知らんかったわ

911:デフォルトの名無しさん
20/03/09 05:26:10.28 z9inAChS.net
(0)とか黒丸の小文字英字とか白丸のンとか黒丸の仮名とかは
Unicodeですら未だに無いんだよな...

912:デフォルトの名無しさん
20/03/09 14:12:03.27 A2Epg0dL.net
それはわいせつだからでは

913:デフォルトの名無しさん
20/03/09 14:20:33.44 o76Az6W+.net
わいせつだって文字情報じゃないか!
それともなにか君は辞書から陰茎とか陰核という単語を削除せよというのか!

914:デフォルトの名無しさん
20/03/09 16:04:20 5ouitKt0.net
��

915:デフォルトの名無しさん
20/03/09 17:52:27 T4gz2l9R.net
>>903
◎と字形が同じとかで一緒にされそう

あと将棋の駒(上下とか白黒)も欲しいとか言ってた人?

916:デフォルトの名無しさん
20/03/09 20:31:39 D+UZfSM4.net
お城マークってある?
凸の下辺がないようなやつ

917:デフォルトの名無しさん
20/03/09 21:26:52.19 bpMBC8cG.net
>>902
50まで作るんだったら、99まで作れば良かったのに。
できれば、100まで欲しかった。

918:デフォルトの名無しさん
20/03/09 22:01:13 d9MHF8Nm.net
>>908


919:デフォルトの名無しさん
20/03/09 23:06:46.00 5OM/DcPa.net
ゴリッパだな

920:デフォルトの名無しさん
20/03/10 07:55:14.17 LhHy3+ze.net
>>900
Unicodeがまさにそんな感じだよ
符号位置なんて空いてりゃなんでも詰め込んでくる

921:デフォルトの名無しさん
20/03/10 09:32:00.64 Ae1RdIX3.net
一方場所が足りない云々でCJK統合漢字爆誕

922:デフォルトの名無しさん
20/03/10 12:18:50 QGyf5BSI.net
アレはUNICODEが16ビットだったときの産物だからなー

囲み付き文字は合字でなんぼでも表示できるんじゃなかったのか?
黒字に白抜きはないか。

923:デフォルトの名無しさん
20/03/11 00:27:59 GChSseC+.net
⓿と🄌は何が違うのこれ

924:デフォルトの名無しさん
20/03/12 14:56:02.24 PErtSW6n.net
Announcing The Unicode$#174; Standard, Version 13.0
URLリンク(home.unicode.org)

925:デフォルトの名無しさん
20/03/13 04:51:42.81 XfurYgbf.net
要らん文字ばっか増えていくな

926:デフォルトの名無しさん
20/03/13 07:25:49 YqqN4LBM.net
う、うん…

927:デフォルトの名無しさん
20/03/13 20:00:06.77 gnCwby5S.net
Unicode 13.0.0
URLリンク(www.unicode.org)
Components of Unicode 13.0.0
URLリンク(www.unicode.org)
Core Specification (PDF)
URLリンク(www.unicode.org)
Code Charts (PDF・110 MB)
URLリンク(www.unicode.org)

928:デフォルトの名無しさん
20/03/13 20:29:09.67 No4fNSBg.net
でっかいPDFだなあ

929:デフォルトの名無しさん
20/03/13 22:24:02.25 4HcCQorc.net
あれ、もうUnicode 13.0.0出たの?
改訂するのは確か毎年6月ねって決めたんじゃ……と思ったら去年から3月だった。

930:デフォルトの名無しさん
20/03/14 04:49:42 vXPyxgSI.net
Win10は頻繁にバージョンアップしてるけど、
使ってるUnicodeは2015年に出た8.0のままなんだよな...

931:デフォルトの名無しさん
20/03/14 05:08:58.28 3vkWqFOe.net
そーそー
新しいフォント入れてもリンクが効かんという...
全部入りフォント作るにゃ16bitの壁

932:デフォルトの名無しさん
20/03/14 16:17:25.81 Vl0/NIrd.net
え、そうなんだ
そんな罠が

933:デフォルトの名無しさん
20/03/18 09:00:29 z60BWivb.net
高松もキャンセルなのかな
それともISO/IECはまた別の判断か
URLリンク(www.iso.org)

934:デフォルトの名無しさん
20/04/09 14:28:17.94 +HIZu5X+.net
Unicode 14.0 Delayed for 6 Months
URLリンク(blog.unicode.org)
Due to COVID-19, the Unicode Consortium has


935:decided to postpone the release of version 14.0 of the Unicode Standard by 6 months, from March to September of 2021. This delay will also impact related specifications and data, such as new emoji characters. This announcement does not affect the new emoji included in Unicode Standard version 13.0 announced on March 10, 2020.



936:デフォルトの名無しさん
20/04/09 17:31:08 gZ/Igrwb.net
せっかくだから細菌��とは別にウイルスの絵文字つくってくれ

937:デフォルトの名無しさん
20/04/09 23:42:25 V4nj16/7.net
コロナ菌入れるの?

938:デフォルトの名無しさん
20/04/10 03:17:26 8l6zYGEZ.net
��マスク
��トイレットペーパー

939:デフォルトの名無しさん
20/04/10 14:38:09 4/xjxgO5.net
細菌の絵文字なんてあるのか
🦠

940:デフォルトの名無しさん
20/04/10 15:29:18 CRpi4reg.net
最近出来た

941:デフォルトの名無しさん
20/04/11 06:13:53.13 AQJyoftj.net
外人が絵文字大好きなのは勝手だけど、既存コードの部分もちゃんとして欲しい

942:デフォルトの名無しさん
20/04/11 16:23:43.45 c2aeXPYf.net
e門司

943:デフォルトの名無しさん
20/04/18 12:50:14 VYQrLT4k.net
最近出来た細菌の絵文字・・・

944:デフォルトの名無しさん
20/04/18 14:58:29 7V75MQ+C.net
なるほど、最近と細菌がかかってる、とこういうわけですな

945:デフォルトの名無しさん
20/05/07 16:04:22 yKMQxEI8.net
するってえと何かい?
最近と細菌がかかってるというわけかい?

946:デフォルトの名無しさん
20/05/08 15:47:36 5Vn36V2D.net
ウィルスの絵文字も頼むわ

947:デフォルトの名無しさん
20/05/09 15:44:09 c4xb28ev.net
corona emoji ��

948:デフォルトの名無しさん
20/05/20 21:19:51 KtsKIWM6.net
URLリンク(lister.tokyo)

絵文字
🦠

意味
微生物
【類似・説明】細菌、ウイルス、アメーバなどを表す

949:デフォルトの名無しさん
20/05/21 14:54:55 iHD0We8W.net
ちょっといくらなんでも雑やな

950:デフォルトの名無しさん
20/05/22 00:52:38.66 JDT7oTvt.net
ウィルスを生物扱いする悪い子はここか?

951:デフォルトの名無しさん
20/05/22 21:40:13 Olq8ijH/.net
ゴブリン��&オーガ��

952:デフォルトの名無しさん
20/06/20 20:24:55.95 vzEBoOvQ.net
>>891
超遅レスだが、全角半角問題の亡霊が絵文字とかで再燃してる感じ?
そっか絵文字ってサロゲートの領域のやつ以外にVSを使ってるのもあるのか。面倒だな。
>>897
Unicodeには公式定義があるでしょ
話は違うが、外人は絵文字をEmotional Iconかなんかの略だと思ってる感があって
そこはどうなんだという。

953:デフォルトの名無しさん
20/06/20 20:46:42.29 p75lHsHl.net
ひらがなの'あ'よりも'W'のほうが幅広だったり、
★マークが半角幅だったりするフォントが溢れてるのに、
半角全角区別しても仕方ないだろ

954:デフォルトの名無しさん
20/06/20 21:34:59.63 IMDB9vKB.net
まあだからそこはターミナルとか限られた環境の話で。
フォントもそれ用のを選ぶし。
そろそろ全角半角なんてのをやめて、文字のカラム位置を揃えたいならフォントの
メトリックスの方で調整すればいいだけ、かもしれないけど。

955:デフォルトの名無しさん
20/06/21 00:33:45 MWbXBJfF.net
>>943
絵文字の幅って公式定義があるの?

956:デフォルトの名無しさん
20/06/21 14:21:00.23 la0O1Akk.net
>>946
Unicodeに収録された文字には文字幅のプロパティがある、という意味で。

957:デフォルトの名無しさん
20/06/22 00:32:43.95 DUn6aEuN.net
>>947
かみ合ってないやん
>>894からの流れなんだから

958:デフォルトの名無しさん
20/06/22 19:13:13.28 Y25pVs1y.net
>>894 ? 知らんがなw
そもそも「全部」ってどういう意味だ? 全部の文字? 全部のターミナルに関わるソフトの挙動?

959:デフォルトの名無しさん
20/06/22 20:41:37 NxxL+RwQ.net
発端は>>891だろう

960:デフォルトの名無しさん
20/06/23 00:16:31.95 regXwJpa.net
既存定義とは違う新しい定義の話題に
「既存定義があるぞ」は全然かみ合ってないし
知らんがなと笑われてもそれこそ知らんがな

961:デフォルトの名無しさん
20/06/23 10:14:55.66 4kHZmTBE.net
倍角と2倍角は違うんだっけ
4倍角もあったような

962:デフォルトの名無しさん
20/06/24 00:49:18.29 U0shKhxD.net
倍角って横だよね
縦倍角ってのもあった気がする

963:デフォルトの名無しさん
20/06/24 02:37:42.69 Qbz2qwLg.net
〴〳
〵〵
これの有効活用をしたい

964:デフォルトの名無しさん
20/06/24 12:14:26.52 deVcUtEo.net
>>951
というかどういうレベルの話をしているのか掴みかねてね。
「絵文字にはUnicodeで文字幅が定義されている」これは大雑把に正しいぞ。
リンク先の元ネタをフォローしてみようか? U+2764 U+FE0F はどうするか、という話。
ここでは誰もフォローしてなかったのでこのレベルの話はしてないと理解した。
でもフォローしてみよう。

965:デフォルトの名無しさん
20/06/24 12:28:35.59 deVcUtEo.net
と思ったがまたそのうちw

966:デフォルトの名無しさん
20/06/24 13:08:49.76 Qbz2qwLg.net
どこまでもかみあわんやっちゃな

967:デフォルトの名無しさん
20/06/24 19:38:46.76 e6Wuxio/.net
というか、既存の定義とは何かもはっきりしてなかったのに新しい定義?
なので既存の定義(の一つ)を示してみたのだが。
全角半角というのは、SJISとかEUCとか使ってた頃の化石の概念だが、ターミナルでの
文字表示にナニゲに悪くはないので、むやみに廃止せず、Unicodeの種類が増殖していく中
如何にサポートできるか? それとも廃止した方がいいのか? あるいはターミナル自体が化石w?
みたいな問題意識を共有? できるならば話はできるかもw

968:デフォルトの名無しさん
20/06/24 22:24:49.91 N310/pVU.net
んだからUnicodeは全角半角を再定義してるんだよ
URLリンク(ja.wikipedia.org)東アジアの文字幅

969:デフォルトの名無しさん
20/06/25 18:59:45.90 xHxuQznk.net
>>959
なんだそれを「再」定義というのか。だったらその前の「定義」って何? どれのこと?
SJISやEUCで、文字のバイト数=幅という「慣習」はあったと思うが。大昔に。
で、U+2764 U+FE0Fはその再定義では駄目なので再々定義しないといけないw
個人的な意見ではU+2764 U+FE0Fは半角でいい(せざるを得ない)と判断する。
その根拠は... 省略w
ただ、ターミナルの特殊性 vs フォントのデザイン vs 文字コードで幅を決定 等、
いろいろと無理がある中で妥協点を見つけるとすると、そうなるかな、という感じ。

970:デフォルトの名無しさん
20/06/25 22:37:41 5bjWZftZ.net
曖昧な定義は定義じゃないというならべつに「再」は削ってもいいが?

971:デフォルトの名無しさん
20/06/26 13:02:51 PjbtVFt+.net
%s の文字数とかで文字列の幅調整出来ないんだよな

972:デフォルトの名無しさん
20/06/26 20:34:46.91 gjCuj5Av.net
しかし絵文字の力はすごい。
これを使いたいがために外人共もUnicodeを以前よりはるかに意識するようになってきてる。
VSとか、漢字の字形の微妙な差とかの用途より、もはや絵文字がメインユーザー。
同様なことが「文字幅」にも起きつつあるようだ。もはや東アジアだけの問題ではないのかもw

973:デフォルトの名無しさん
20/06/26 20:59:35.95 7oUp4uPe.net
そして線がごちゃごちゃしてる漢字はいらなくね?って話になって排除されるんでしょう?
白人のやることはいつもそうだ

974:
20/06/26 21:31:32.20 9IxUvn/4.net
>>964
それはグレートチャイナ様が抵抗してくださるのでは?

975:デフォルトの名無しさん
20/06/26 22:11:14.85 7oUp4uPe.net
彼らも漢字から線減らしてるじゃん
そのうち中共の悪事を次世代に隠すために漢字を扱えるのは中共の上の方だけになりかねない気もする
そのとき中国の一般人民が使ってるのが絵文字だよ

976:
20/06/26 22:22:00.35 9IxUvn/4.net
>>966
それは失策だったという評判です、実際、現行である第一次案は通りましたが、第二次漢字簡化方案は失敗しました

977:デフォルトの名無しさん
20/06/27 00:33:35.05 swJlVBV3.net
簡字体は半角でも行けそう感あるな

978:デフォルトの名無しさん
20/06/27 01:47:56.80 9wE9An+g.net
斎と斉と齊と齋は一緒だから一つにしろとかな
渡辺渡邊渡邉もどうせ一緒だろうとか

979:デフォルトの名無しさん
20/06/27 01:53:30.16 2VXy+TcG.net
ひどいよな
一と二や三などたかが横線の一本二本すら妥協できないのに、
異体字はひとつにまとめようとするひどい話だ。

980:デフォルトの名無しさん
20/06/27 02:06:13.19 a36N+BtR.net
>>969
これは一緒にしろよと思うことはある
文献で必要だから分けて欲しいが、明治の戸籍作成時の書き間違いまで
大事に引き継ぐ必要はないだろ

981:デフォルトの名無しさん
20/06/27 02:22:38.17 n/FbqQvh.net
そして再委託で中国人アルバイトに丸投げして
年金記録問題になるとな

982:デフォルトの名無しさん
20/06/27 02:25:59.19 cFHckwkh.net
カンジカナヘンカン(キリッ

983:デフォルトの名無しさん
20/06/27 03:48:57.43 N26qrFyY.net
でもそれ用途があってのことだから規格側の仕事じゃないのよね
統合したいのなら運用のほうを変えないことにはね
いずれにしてももう入れちゃったから永久保存だね

984:◆QZaw55cn4c
20/06/27 03:56:37 5JNhQ0LT.net
はしご高とくち高は無理やり統合されちゃって有耶無耶らしいのですが…

985:デフォルトの名無しさん
20/06/27 08:30:57.19 fTkQtmqM.net
>>970
マジレスすると「異体字」という言葉は正しく使って欲しい気が。

986:デフォルトの名無しさん
20/06/27 08:59:10 8YWxnx/1.net
>>969
> 斎と斉と齊と齋は一緒だから一つにしろとかな

しっかり区別できない限り、乃木坂ファンにはなれない。

987:デフォルトの名無しさん
20/06/27 09:13:49.81 wwwZDyDi.net
イタイ痔でイタイ字
ミミズ腫れでミミズ字
老眼でヨタヨタ字震え字
ギャル文字マルモジオタ字ハングル文字
° &deg; ° &#x00B0;
± &plusmn; ± &#x00B1;
² &sup2; ² &#x00B2;
³ &sup3; ³ &#x00B3;

988:デフォルトの名無しさん
20/06/27 09:39:39.53 twDHZDh4.net
>>977
メンバーの斉の字どころか、なんとか坂っグループ自体も区別できてないので何ら問題ないなw

989:デフォルトの名無しさん
20/06/27 09:58:34.18 g61E5/Hd.net
>>963
あと絵文字と言えば、今流行りの、肌の色がどうたらってやつな。このせいで複雑化した。
でも、他にも目の色とか髪の色とかもあるが、独立には選べないぞ?
ここら辺はいいのか? 大騒ぎしてる奴ら。
なんてことを書いてるとそのうちそれぞれのトーンセレクタが入ってさらに複雑化したりして。
あとは目がツリ目で気に入らないorその逆とかでそういうセレクタとか。
唇が分厚いorその逆のセレクタとか。
おっと誰か来たようだ


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch