19/06/10 14:06:48.56 DwfAnHcn.net
ていうかそもそも漢字構成記述文字列自体がポーランド記法っぽい性格を持ってる。
⿰⿱山上下なら⿰(⿱(山, 上), 下)みたいな関数表示になって↑>>434みたいな字形になる。
443:デフォルトの名無しさん
19/06/10 14:17:40.77 g6tidy/F.net
同じ文字を二通り以上の表現方法があるのはセキュリティ上やばいと爺さんが言ってた
UTF-8みたいなやつ
444:デフォルトの名無しさん
19/06/10 14:19:52.70 g6tidy/F.net
例えば
⿰男⿰女男
と
⿰⿰男女男
445:デフォルトの名無しさん
19/06/10 14:43:12.52 VjrzvIQA.net
男女 男
右端は俺orz
446:デフォルトの名無しさん
19/06/10 14:45:35.90 AYc4wpPC.net
全然関係ないが男女男男女女男女男女を思い出した。おっさんだな、俺。
447:デフォルトの名無しさん
19/06/10 14:55:32.08 DwfAnHcn.net
>>439
嬲は「⿲男女男」じゃないの?
448:デフォルトの名無しさん
19/06/10 14:56:33.42 g6tidy/F.net
だから複数あるっていう意味で書いたんだが
正規化で一つにっていうのは判る
449:デフォルトの名無しさん
19/06/10 20:42:06.03 QC59E/Dz.net
表現意図としては比が2:1:1と1:1:2と1:1:1で違いがあるような
450:デフォルトの名無しさん
19/06/10 23:11:41.70 rO86gbFX.net
>>399-400
鼻濁音付き仮名文字は日本NBから提案したけど蹴られて今の姿になった。
URLリンク(std.dkuug.dk)
仮名文字に限らずシーケンスで表現可能な文字に単体の文字コードを割り振ってもらうのは
相当説得力のある理由が要る。
逆に辞書用の記号は提案書を出せば通る可能性ありそう。
451:デフォルトの名無しさん
19/06/11 01:59:35.04 SK3ydrDR.net
ぽげむたは?
452:デフォルトの名無しさん
19/06/11 04:13:44.44 Yb3f0IhW.net
>>443
いや、>>444も言っている通り嬲は「⿲男女男」以外で表わせないと思うよ。
453:デフォルトの名無しさん
19/06/11 08:44:46.66 GW+sQhXS.net
将棋好きのおいらとしては、ひっくり返った「玉」「飛」「歩」とかも
登録してほしいと思うのだが。
454:デフォルトの名無しさん
19/06/11 10:41:29.12 Yb3f0IhW.net
>>448
Unicodeってそもそも将棋の駒 全部登録されてないんじゃ?
455:デフォルトの名無しさん
19/06/11 11:48:29.98 9Qw6sZwd.net
笑→ケケ夭
とか
禁→木木示
とか
哭→口口犬
とか
と
畿→糸糸田戈
は同じ表現?
456:デフォルトの名無しさん
19/06/11 12:18:11.06 Yb3f0IhW.net
>>450
まあ機械処理向けの言語じゃないから
人が「分解できる」と思うかどうかだよね
ちなみに「畿」の部首って「田」なんだな。すげー意外。
457:デフォルトの名無しさん
19/06/11 12:35:42.68 GW+sQhXS.net
>>449
ないよ。黒塗り五角形と白ヌキ五角形だけ。
458:デフォルトの名無しさん
19/06/11 14:57:42.64 Y18rXsQw.net
文字表現ってことで
●●構えっていうと門しか思い出せないし
●●囲いっていうと口しか思い出せないけど
将棋の駒の白抜き五角形は囲いなんだろうか
459:デフォルトの名無しさん
19/06/11 17:55:27.24 Yb3f0IhW.net
いっそのことCombining Diacritical Marks for Symbolsあたりに将棋の駒の枠線を登録してもらえればいい
460:デフォルトの名無しさん
19/06/12 00:03:22.24 82Q6hISi.net
>>424
そこ日本の会社
461:デフォルトの名無しさん
19/06/12 01:16:49.13 ynCJAfYS.net
>>454
枠線の中に複数文字入れるのどうするとか
中に「と」みたいなのを表示したい場合それは本当に「と」で表現するのかとかいろいろややこしくなりそう
将棋みたいに中身が決まってるやつは一通り個別に並べてもらったほうがシンプルじゃないのかな…
462:デフォルトの名無しさん
19/06/12 01:57:37.00 qj/fM2VI.net
URLリンク(www.unicode.org)
逆さのまではなくてもいいと思うがなあ
463:デフォルトの名無しさん
19/06/12 07:01:32.61 XwhNnAHz.net
あ、すでに議論の対象にはなってるのか。
464:デフォルトの名無しさん
19/06/12 08:39:27.70 QJXYMRLU.net
>>453
黒と白で、先手と後手を表しているだけだよ。
465:デフォルトの名無しさん
19/06/12 09:02:03.43 om/mzkP2.net
文章中に書くなら白黒五角形で十分だと思うが、なんで盤面まで表現したがるかな。
466:デフォルトの名無しさん
19/06/12 11:21:19.79 tqvE0DW+.net
歩の裏の「と」があるべき位置に
「テ」だったか「〒EL」みたいな
意味不明な文字が書いてある駒セットを
観たことがあるけど
あれはなんだったんだろう
朝鮮語か?
467:デフォルトの名無しさん
19/06/12 12:54:03.65 QJXYMRLU.net
T
三 みたいなやつ?
全ての「成金」の文字は「金」を崩した文字だよ。
「と金」も、本当は「と」と書いてあるわけではなく、
「金」を崩した結果、「と」みたいになっているだけだよ。
468:デフォルトの名無しさん
19/06/12 13:18:58.92 tqvE0DW+.net
Tも三も金なんですね
469:デフォルトの名無しさん
19/06/12 17:24:29.90 XwhNnAHz.net
どうでもいいけどそのレスを見て
その内 崩し字も登録されそう…とか思ったw
太字のaとかがなぜか「文字」として登録されてるんだから金の崩し字が登録されてもおかしくない
470:デフォルトの名無しさん
19/06/12 17:54:37.18 o59LDmQW.net
歩兵の裏は金と同じ読みの今(きん)の崩し字をあてたので
「と」と極めて似た文字になったという説がある
471:デフォルトの名無しさん
19/06/12 23:56:15.89 4S3+zhe0.net
T
ニ
ヘ
なんでこれで金になるのかさっぱり判らん
URLリンク(blogimg.goo.ne.jp)
あと
|
とか
レ
とか
謎のが多すぎ
472:デフォルトの名無しさん
19/06/13 01:03:53.78 WD6Kvaf7.net
崩し字はむずかしうてわからん
473:デフォルトの名無しさん
19/06/13 01:05:01.31 WD6Kvaf7.net
崩し字というかバラし字?
474:デフォルトの名無しさん
19/06/13 01:11:22.08 uH0MzXQS.net
>>457
どうなったか調べてみた。L2/18-170は2018年8月開催のUTC #156で議論され、
議事録には提案者にfeedbackを返したとだけ記録されている。
URLリンク(www.unicode.org) のe.5
で、この文書番号で検索すると同じ提案者の出したL2/18-342が引っかかって
そこにこう書いてある。
> Shogi proposal. The proposal I am talking about is (L2/18-170), the committee's
> rationale for rejection was that: “the symbols in question were not attested in
> lines of text”.
インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
475:デフォルトの名無しさん
19/06/13 01:32:11.84 domb7+if.net
なるほどなあ。
チェストーはインラインで使ったりするもんなんだろうか
476:デフォルトの名無しさん
19/06/13 06:29:39.15 IV8IxRGq.net
日本NBが後押しすれば10646に入りそうな気がするけどね
漢字以外は興味持たないだろうって見透かされてるんだろうな
477:デフォルトの名無しさん
19/06/14 11:32:49.03 BMAIfRwQ.net
まあ言いたかないけど 欧米が制定した企画だからね……。
あきらかに文化的な偏りはあると思う。
この間もモンゴル文字かなんかを文字の結合方式とかをほとんど考慮しないで登録してしまった
という旨でUnicode共同体を批判してるブログ見掛けたし。
478:デフォルトの名無しさん
19/06/14 12:45:36.88 AVMOMmmV.net
URLリンク(nixeneko.hatenablog.com)
モンゴル文字のことはよくわからんが、ここに書いてあることによると、
> モンゴル文字は、語の中のどの位置にくるかによって、また母音調和等によって形が変化する。
> 中国・モンゴル国の両国ともに現状と地続きの音声アプローチの方を支持しているようであるが、
> 最終的にどの方式が選ばれるにしろ、相互運用性が確保されることは期待できそうである。
ということだから、現状の規格は、中国・モンゴル国が希望したものであって
欧米人が悪いというわけではないと思う。
479:デフォルトの名無しさん
19/06/14 12:54:39.24 AVMOMmmV.net
ただ、似たようなものは英文にもあるわけで、fish や office のように、
f,i,j,l が続く場合は、文字を合字(リガチャ)にする場合が多い。
しかし、MSword も TeX も、「合字にせよ」という指定を入れなくても、
勝手に合字にしてくれるわけで、モンゴル文字も(よく解らんけど)
同じようにできないのかな、とは思う。
480:デフォルトの名無しさん
19/06/14 13:00:53.97 AVMOMmmV.net
ごめん。誤り。MSwordは指定しない限り、合字にはならなかった。
481:デフォルトの名無しさん
19/06/14 21:13:23.45 bakZpKUF.net
ガチャーン合体!
482:デフォルトの名無しさん
19/06/15 12:06:26.17 s4HbSmAb.net
>>466
筆で金とうい字を1000回くらい書くとわかるようになるよ。ようは手抜き。
483:デフォルトの名無しさん
19/06/15 21:00:26.68 dgVxOSWc.net
わけわからんまで崩していくのは日本独特?
484:デフォルトの名無しさん
19/06/16 11:45:02.01 NdAq/MEw.net
これもなんで金になるのか判らんやつ
と
でいいのに
URLリンク(encrypted-tbn0.gstatic.com)
485:デフォルトの名無しさん
19/06/16 13:03:35.22 8f8EXiHl.net
木天火土水で6人目のゴールドは光です・・・
486:デフォルトの名無しさん
19/06/16 17:16:00.47 UaT4ATnR.net
>>479-480
わらったw
487:デフォルトの名無しさん
19/06/18 06:18:41.06 3nOE2mBA.net
プログラム板にキチガイ降臨中!botに一晩も反応する異常さ
一般人(学校恩師)に殺害予告をしているのでスレ建て通報してください。
スレリンク(tech板)
142 名前:a4 ◆700L1Efzuv 投稿日:2019/06/18(火) 05:29:55 ID://qVkzO
>>141
名古屋の人な 俺ね、君の問題を大橋先生と混ぜないことにする。つまりね、
片桐孝洋のことをボコろうと思う。普通に顎の骨を折る。これくらいで警察来るか?
一般市民とかさ、普通にさ、俺らの秘密なんだけどさ、日本人なんて復活ねーから。
488:デフォルトの名無しさん
19/06/22 01:57:21.14 t+lz7b+S.net
>>482
釣られて そのスレ見に行ったけど
寧ろそのa4っていう小手の人が被害に遭ってるように思えたけどな
489:デフォルトの名無しさん
19/06/25 03:50:40.53 wcrPNuwW.net
ヲシテ文字って使えないの?
490:デフォルトの名無しさん
19/06/25 05:40:01.35 DXMPLOPq.net
Unicode協会が配布してるプログラムでシェルスクリプトでUTF-8文字列を扱えるデータってないかな。
入力されたUTF-8文字列が何文字かを判定したりするのに都合の良いスクリプト。
491:デフォルトの名無しさん
19/06/25 06:09:39.19 1JIWmrxD.net
にほんごでおk
492:デフォルトの名無しさん
19/06/25 06:42:32.78 DXMPLOPq.net
CLDR for shellみたいなのがないかなと。
493:デフォルトの名無しさん
19/06/25 13:49:53.45 takEpFxW.net
Unicode協会って書かれると、アグネスがやってるパチモンに見えてくる
494:デフォルトの名無しさん
19/06/28 22:59:11.92 NkHCwivq.net
使えないよ
その手の文字が登録されたことはあるのかな
495:デフォルトの名無しさん
19/06/29 01:02:31.02 P81PdZpf.net
Dohentaiyagana
496:デフォルトの名無しさん
19/06/29 01:49:55.29 LWdOpl9S.net
神代VSでまとめてしまおう
497:デフォルトの名無しさん
19/06/29 02:20:12.41 g9Pe6ky6.net
最近Kenのツイートが酷い
LunaticとかAdobe的にいいのか
498:デフォルトの名無しさん
19/06/30 02:04:42.75 1ALBmyOB.net
絵文字をリガチャとして実装するという話を聞いたことがあるが
良いアイデアだと思う。
これ以上貴重な符号位置を占有しないで欲しい。
499:デフォルトの名無しさん
19/06/30 02:44:42.35 KxegnpZe.net
絵文字ガチャに見えた
500:デフォルトの名無しさん
19/06/30 18:46:20.88 1ALBmyOB.net
URLリンク(symbolset.com)
これとか。素晴しい発想だと思いませんこと?(お嬢様風)
501:デフォルトの名無しさん
19/06/30 19:55:14.68 VWoLS78P.net
全然
502:デフォルトの名無しさん
19/06/30 20:32:53.74 MkBgWLvD.net
見る側の環境によって、絵文字を使った側の人が意図しなかった単語に化ける現象が発生してしまう
503:デフォルトの名無しさん
19/06/30 21:02:05.57 1ALBmyOB.net
>>497
実はそれを意図しているんだな、これが。
Webフォントが使えなかった場合に,意味不明な私的領域のコードポイントではなくその絵文字の「意味」の単語になるっていうフェールセーフ。
この発想はアクセシビリティの面からしてすごいと思う。
今までも↑こういうことを実現する手段はあったが(aria-*とか::beforeとかを活用する),
いささかハックじみた手法だったのに対して,この方法はほとんど何のひねりもないし,かつ
高いアクセシビリティを誇る。
504:デフォルトの名無しさん
19/06/30 21:31:19.26 2juPiYlp.net
なんか公式ページの説明が簡素すぎてよく分からん。
素晴らしさを伝える記事とかないの?
505:デフォルトの名無しさん
19/06/30 22:16:35.89 MkBgWLvD.net
>>498
全然意図してないと思うぞ。>使った側の人が意図しなかった単語に化ける現象
これがアクセシビリティ向上になるのは入力者が単語と絵文字の対応を把握している場合だけで、
把握してない場合は入力者が知らない結果が出力される謎フォールバックになる。
入力者が絵文字パレットから選ぶ仕組みなら単語を把握してない可能性が高まるし、
個別に校正かけるなら元々あるimg altとかではなくWebフォントを使う強みは何?ってなるし
506:デフォルトの名無しさん
19/06/30 23:23:56.67 sPnkqdOZ.net
どのフォントでどこからどこまでリガチャっていう指定を含めないといけないからプレーンテキストで利用できない
リッチテキスト使えるなら画像でいい
507:デフォルトの名無しさん
19/07/01 00:12:01.52 vOsPyG+v.net
This is a pen.とか[ Download Now!]みたいにもともと並べて使うことも多いしな。
This is a penpen.や[Download Download Now!]は変やろ。あとThat is a guin.の誤爆避けも必要になる。
508:デフォルトの名無しさん
19/07/01 05:12:02.84 2smzn43h.net
URLリンク(8beat-studio.net)
とか? >>499
509:デフォルトの名無しさん
19/07/01 05:12:32.89 2smzn43h.net
>>500
Webフォントを使う強みはページ読み込み速度の向上だと思うよ。
510:デフォルトの名無しさん
19/07/01 05:13:03.16 2smzn43h.net
>>500
あ、それと色とか大きさとかをCSSでより柔軟に調整できる。
511:デフォルトの名無しさん
19/07/01 12:02:58.02 liKrIWIO.net
SVGベタ書きがいいと思う
512:デフォルトの名無しさん
19/07/01 13:38:09.58 Ltl936Sg.net
WebフォントってDL待ちでむしろ遅いイメージしかないな…
513:デフォルトの名無しさん
19/07/01 16:21:02.28 MoEwNeEz.net
日本語だとどうしても…
サブセット化もこれから足してくコンテンツ考えるとあんまりいいソリューションとは…
514:デフォルトの名無しさん
19/07/01 19:16:16.83 2smzn43h.net
>>507
>>508
絵文字リガチャフォントだと高々100個くらいだから
日本語Webフォントの常識は当て嵌らんぞ
515:デフォルトの名無しさん
19/07/01 21:01:31.88 1h0unusf.net
推すなあ。
あえてこれ使いたいと思うならもちろん自由に使えばいいと思うが、
正直これを選ぶメリットがある局面はすごく限られてる気しかしない。
516:デフォルトの名無しさん
19/07/04 14:48:01.78 nXaEmuLe.net
ISO/IEC 10646:2017/Amd 2:2019 - Nandinagari, Georgian extension, and other characters
URLリンク(www.iso.org)
いつの間にか完成していた。
517:デフォルトの名無しさん
19/07/05 07:31:35.09 CMdnJVDV.net
JISにも取り込まれるかな?
518:デフォルトの名無しさん
19/07/12 14:32:58.64 q8HbeEfz.net
>>97
BCってなに?
519:デフォルトの名無しさん
19/07/12 23:51:11.25 aHiS7zOG.net
ブラックキャップ
520:デフォルトの名無しさん
19/07/13 19:08:40.33 Wy302ne8.net
まじめに答えてほしかった。。。
521:デフォルトの名無しさん
19/07/13 20:43:48.97 tESkaNg7.net
?
522:デフォルトの名無しさん
19/07/13 22:47:35.97 0DH1k/wL.net
>>516
何これ?
523:デフォルトの名無しさん
19/07/14 01:25:41.28 cxt0+A+5.net
ブラックキャップ
524:デフォルトの名無しさん
19/07/14 09:54:29.74 N6Jg+9Qo.net
ワロタ
525:デフォルトの名無しさん
19/07/14 22:04:02.29 GSQZGuhE.net
>>513
>>97じゃないから確かなことは言えないけど
「better choice」じゃないかな?
つまり絵文字を「入れざるを得ない」ってことね。
526:デフォルトの名無しさん
19/07/15 03:44:17.27 GN7I2Kmp.net
単に後方互換だろ…
527:デフォルトの名無しさん
19/07/15 04:14:22.81 GXO+LVjR.net
BA-90使いたいのに斑の黄顔になるのはなんだかなー
528:デフォルトの名無しさん
19/07/16 23:08:05.64 6ZdisLnD.net
IC: 相互互換性
FC: 前方互換性
BC: 後方互換性
UC: 上位互換性
LC: 下位互換性
ちい覚えた
529:デフォルトの名無しさん
19/07/17 11:56:39.82 FD/sfaX1.net
LeftとかRightとかCorrectは無いんか
530:デフォルトの名無しさん
19/07/17 16:54:36.95 Lq1+nMLH.net
>>524
correctはともかく左右は確実にねーだろw
531:デフォルトの名無しさん
19/07/18 14:33:21.11 44Ax18Yo.net
共産とりっけんと社民社と国民主と令和革命はLC互換
532:デフォルトの名無しさん
19/07/18 23:12:28.17 BkvY1rKv.net
>>526
わろたw
533:デフォルトの名無しさん
19/07/23 15:56:55.39 vatz3/hX.net
URLリンク(github.com)
↑Unicodeの基本多言語面を使ったエンコード方法w
534:デフォルトの名無しさん
19/07/23 17:04:19.76 yKl7I/yp.net
高度に発達したエンコードはMojibakeと見分けがつかない
535:デフォルトの名無しさん
19/07/24 00:37:51.21 ArGZw8p9.net
基本多言語面って制御文字含んでるよね。
それbaseXXの�
536:{来の意味を成してないw
537:デフォルトの名無しさん
19/08/18 16:07:01.10 zqR8kD3Y.net
W3Cのwebページが文字化けしてて草。
文字コードの本元の一つがこんな体たらくでいいのだろうか…w
URLリンク(www.w3.org)
538:デフォルトの名無しさん
19/08/18 17:27:15.46 wpOWgZAQ.net
読めるけど...?
539:デフォルトの名無しさん
19/08/18 23:04:31.46 8LEpKI7v.net
ISO-2022-JP のくせに content-type: text/html; charset=shift_jis で送ってきてるからなあ
540:デフォルトの名無しさん
19/08/19 01:20:35.42 JKQq3Dbg.net
(´・・∀・・`)ほう
541:デフォルトの名無しさん
19/08/19 06:07:28.33 xlQPwL5+.net
>>533
あ、そういうことか。と思ったけどChromiumだとどうしようもねぇわ。
最近のブラウザって文字コードを修正する機能みたいなのって消えてるね。
542:デフォルトの名無しさん
19/08/19 07:31:42.15 SJok1opV.net
>>535
Firefox68には文字コード指定が残ってる
通常は無効になってるけど>>531のリンク先を表示したときは有効になって
ISO-2022-JPを指定すると文字化けなしで読めた
543:デフォルトの名無しさん
19/08/19 08:38:57.28 xlQPwL5+.net
ところでW3Cって文字コードの制定とかに関わってたっけ?
XMLが使う符号化文字集合にUnicodeを推奨してるくらいじゃない?
544:デフォルトの名無しさん
19/08/20 11:37:07.61 zlJnj2O9.net
>>531
これはひどいω
545:デフォルトの名無しさん
19/08/20 11:39:07.12 zlJnj2O9.net
>>533
ファイル名まで .sjis つけてるくせになんで iso-2022-jp で保存してるのかイミフ
546:デフォルトの名無しさん
19/08/20 18:30:12.77 Gkd3xMH4.net
なんか同じような原因で文字化けしてるページに対して
同じようなレスをした記憶が…と思ったら前スレにあった。
記憶障害じゃなくてよかったw
スレリンク(tech板:821番)-843
547:デフォルトの名無しさん
19/08/20 21:44:07.86 Y189B2BT.net
HTMLをiso-2022-jpにするのって
どこの文化なんだろうか?
Windowsはsjisだからありえないし
Linuxも昔の普通はEUC-JPだろ?
iso-2022-jpはメールにしか使われてなかったはずだが
548:デフォルトの名無しさん
19/08/20 21:47:57.43 UVunetX1.net
>>531
イシカワ マサヤスというのは誰だろうね。
549:デフォルトの名無しさん
19/08/20 21:51:25.41 Y189B2BT.net
イシカワ マサヤスさんでは?
550:デフォルトの名無しさん
19/08/20 21:52:36.86 UVunetX1.net
石川雅康と石川哲志は親族だろうか?
どちらもICT業界から去ったのかな。
551:デフォルトの名無しさん
19/08/20 21:54:13.55 Y189B2BT.net
またつまらんものを
552:デフォルトの名無しさん
19/08/20 21:58:33.22 UVunetX1.net
XHTMLが終わってしまって、そのまま放置の石川さん。
553:デフォルトの名無しさん
19/08/20 22:46:49.05 anpoimU7.net
>>541
sjisやeuc-jpが整う前は、HTMLをiso-2022-jpにするのも選択肢の一つだったらしい
URLリンク(www.tohoho-web.com)
554:デフォルトの名無しさん
19/08/20 23:01:02.75 UVunetX1.net
>>547
http://の先頭のhを取っても付けても同じですよ。
555:デフォルトの名無しさん
19/08/20 23:43:43.88 Gkd3xMH4.net
> どこかの雑誌で、「charset=iso-2022-jp は自動判別の指定」と堂々と紹介された
URLリンク(web.archive.org)
えぇ……。
556:デフォルトの名無しさん
19/08/21 00:08:09.19 /FRdjxvW.net
1998年当時のWebブラウザはキャラクタセットの判定すら怪しかった。
557:デフォルトの名無しさん
19/08/21 02:35:13.27 GZen3C6t.net
>>549
そのリンク先に書いてあるけど、iso-2022-jp が使われてるのはMSが発端なのか?
> name="GENERATOR" content="Microsoft FrontPage 2.0"
> というのが各HTMLファイルの先頭にあることから、Microsoft の FrontPage が 漢字コードがシフトJISのファイルであるにもか かわらず、iso-2022-jp の指定するからではないかと思われます。
558:デフォルトの名無しさん
19/08/21 03:44:23.93 jDiMObB6.net
>>540
流れは似てるが今回は指摘されてるURLが問題なんだろ
よりによってアイツがってやつさ
559:551
19/08/21 05:07:33.18 GZen3C6t.net
あ、違ったわ。MSのはMicrosoft FrontPage 2.0がmetaタグの指定を間違ってるって話で
HTMLの内容がiso-2022-jpというのはまた別問題か
sjis以外あるかな?ってやってみたら他のエンコーディングも見つかったし
>>531は単なる文字コード変換ミスかな?
URLリンク(www.w3.org)
560:デフォルトの名無しさん
19/08/21 14:49:37.63 ur92HW83.net
拡張子付け間違いか
561:デフォルトの名無しさん
19/08/22 06:16:14.71 mlpPC2JR.net
ブラウザって一時だけでも拡張子によって文字コードを判断してた時期があったの?
俺の記憶にはないのだけども……。
562:デフォルトの名無しさん
19/08/22 06:36:57.94 jM8tCXZ0.net
だからこれはjisという拡張子でHTTPヘッダのcharsetもshift_jisなのに
中身がiso-2022-jpなんだってば
iso-2022-jpが使えるテキストエディタで書いたか
sjisに変換すべきところをiso-2022-jpに変換してしまったということ
昔のWindowsで書いたならsjisになるだろうから変換ミスかなって話
563:デフォルトの名無しさん
19/08/22 08:04:31.58 jlFkmCtz.net
jisって拡張子ならiso-2022-jp(JISコード)なのは意図通りだろ
HTTPヘッダのcharsetが食い違ってるだけで
564:デフォルトの名無しさん
19/08/22 09:50:35.92 xQsiKIbM.net
鯖の仕様が変わってcharsetのデフォが変わったからな
サーバー引越のときに設定間違えた可能性はあり得る
565:デフォルトの名無しさん
19/08/22 10:23:09.36 jM8tCXZ0.net
>>557
拡張子はjisじゃなくてsjisな
だからドキュメントの文字コードが明らかに間違ってるんだよ
566:デフォルトの名無しさん
19/08/22 10:30:34.86 jM8tCXZ0.net
昔のブラウザはHTTPヘッダのcharsetよりも
ドキュメントからの文字コード判定の方を重視していた。
なぜならセキュリティというかサーバー運営者がよくわかっておらず
設定変更の必要性を理解できていなかったので設定されてなかった
たとえ設定変更ができるサーバーでもユーザーが理解していなかった
そんな時代だからブラウザで表示できれば良し程度のレベルが普通で
今からするとチェックが甘かった。その当時の間違った文字コードのページが今も残っている。
たぶんこんなところ
567:デフォルトの名無しさん
19/08/22 10:33:49.69 8JJS2LZD.net
>>559
お前のレスの >>556 には jis って書いてあるだろω
お前が原因
568:デフォルトの名無しさん
19/08/22 10:35:00.76 jM8tCXZ0.net
>>561
単なる書き間違えじゃね?
リンク先見ればわかるでしょ
569:デフォルトの名無しさん
19/08/22 10:38:26.99 8JJS2LZD.net
>だからこれはjisという拡張子でHTTPヘッダのcharsetもshift_jis
こういうおっちょこちょいが >>531 みたいなミス連発するんだろうな
570:デフォルトの名無しさん
19/08/22 15:58:03.72 mlpPC2JR.net
皆さん落ち着いて
571:デフォルトの名無しさん
19/08/23 17:29:19.40 bWgnQwQ7.net
なんでUTF8以外違法になった今そんな話してんだか・・・
572:デフォルトの名無しさん
19/08/23 17:59:07.09 UifFOlyJ.net
× 違法 ○ 非推奨
573:デフォルトの名無しさん
19/08/24 00:05:20.43 Ka96Zrl8.net
秘宝とか緋水晶とか何の話をしてるんだ?
574:デフォルトの名無しさん
19/08/25 20:34:39.12 ++G8a3I1.net
ムーンプリズムパワー!メイクアップ!
575:デフォルトの名無しさん
19/08/25 22:05:01.03 E2o3oeEK.net
タリスマン
576:デフォルトの名無しさん
19/08/25 22:36:09.44 heTmUHGD.net
クリマタスミ
577:デフォルトの名無しさん
19/08/28 13:35:52.48 AiVdwxrR.net
ひまだ
578:デフォルトの名無しさん
19/08/28 19:19:16.62 lfvHhqTB.net
サクラエディタがとうの昔にUTF32対応していた事実をいまごろ知った。
579:デフォルトの名無しさん
19/08/28 20:04:07.93 FG4A80Dg.net
じっさい32じたいそんな使わないだろw
580:デフォルトの名無しさん
19/08/29 18:28:30.40 VG5IecJ5.net
でもUTF-16の「どんな文字でも固定ビット幅」という利点が失われてしまった今,
固定ビット幅が実現できる唯一の規格であるUTF-32は希少では。
581:デフォルトの名無しさん
19/08/29 18:42:08.11 y3rrvHgi.net
読むぶんにはナイーブな実装で足りるからいいけど実際使うとなったら00が無駄に思えてきて敬遠しがち
だからもしかすると文字コードでさえ適材適所なのかと考え始めている
582:デフォルトの名無しさん
19/08/29 18:49:00.69 1ks18uap.net
内部表現は32bit単位で固定長の方が楽
ファイル読み書きのときはutf-8で勝利
あとはcps932が滅ぶのを待つだけ
583:デフォルトの名無しさん
19/08/29 19:05:33.35 VG5IecJ5.net
OSのインターフェースはUTF-8,内部表現はUTF-32が一番いいのかもね。
UTF-32だとASCIIに比べて単純計算で四倍弱の容量を食ってしまうのが難点。
でもOSの本体くらいならそもそもテキストとして表現されてるファイルも少ないし案外肥大化は防げるのかも。
584:デフォルトの名無しさん
19/08/29 19:09:37.98 CAV+1+Xc.net
という会話を何年も前にこのスレで観た
585:デフォルトの名無しさん
19/08/29 19:11:19.48 YrWceYNE.net
複数のコードポイントのシーケンスで一文字を表現するUNICODEだから
UTF-32でも一文字が32bitで収まるとは限らないからUTF-8でも大差ない
586:デフォルトの名無しさん
19/08/29 20:02:33.30 jljmwQsV.net
プログラミング言語C++に関していうと、x64版Linux用gccは既定でwchar_tのサイズが4バイト。
つまりx64版Linux用gccはstd::wstringがUTF-32。誰も使っていないように見えてそうでもない。
587:デフォルトの名無しさん
19/08/29 21:00:32.68 FJllEP/G.net
【名案】0~9の代わりにUnicode全文字を使えば「65536進法」になり,なんでも1桁で表現できるから2桁の計算が不要! ・・・ためしに「65021-65018=3」ってどう書くの?
URLリンク(togetter.com)
588:デフォルトの名無しさん
19/08/29 22:50:02.31 azXlKn0W.net
UTF-16でも8バイト必要なのに、32bit(4バイト)に収まるわけ無いだろうw
漢字1文字が最大8バイト、Unicodeの「IVS」とは?
URLリンク(tech.nikkeibp.co.jp)
589:デフォルトの名無しさん
19/08/29 23:01:38.50 jljmwQsV.net
UTF-8だけで必要十分という結論に到達せざるをえない現実
590:デフォルトの名無しさん
19/08/29 23:09:19.19 azXlKn0W.net
逆なんだよな。
本来UTF-32だけで必要十分だったのにどんどん複雑にしていって、
UTF-32でも不便になったからUTF-8でいいでしょ?
どうせ単純には扱えずライブラリ使うしか無いんだから。
という必要十分な文字コードを捨てたというのが現実
591:デフォルトの名無しさん
19/08/29 23:11:55.32 jljmwQsV.net
宇宙に存在するすべての知的生命体が用いている文字すべてを網羅するのがUnicodeの理念。
たったの32bitで足りるわけがない。
592:デフォルトの名無しさん
19/08/30 00:11:25.73 h/StilS8.net
文字コードのスレッドなのにUnicodeがわかっていないやつらばかりw
593:デフォルトの名無しさん
19/08/30 01:01:22.62 LpXSw35l.net
UTF-32じゃなくてUCS4じゃないの?内部コードに便利なのは
594:デフォルトの名無しさん
19/08/30 01:29:38.44 /ghu33Nb.net
>>586
ではどうぞ御説明をどうぞw
595:デフォルトの名無しさん
19/08/30 13:00:23.27 oVszNH41.net
>>579
codecvtは糞だ
596:デフォルトの名無しさん
19/08/30 13:03:12.55 oVszNH41.net
>>580
だった
まあどっちでもいいけど
597:デフォルトの名無しさん
19/08/30 15:32:59.58 6uSriybI.net
>>588
UTF-16を16ビットで1文字を表すと思い込んでいる人間がいるが、16ビット単位でデータ扱うだけで、1文字が32ビットのこともある。
598:デフォルトの名無しさん
19/08/30 15:56:24.57 iPGqG8dk.net
>>591
それぐらいみんな知ってる
599:デフォルトの名無しさん
19/08/30 17:05:21.42 GEn/r+mZ.net
>>592
それぐらいみんな知ってる
600:デフォルトの名無しさん
19/08/30 17:19:36.31 57FOZgRt.net
ビットサイズ固定でどうにかなると思っていた時期が俺にもありました。
601:デフォルトの名無しさん
19/08/30 17:27:36.02 GEn/r+mZ.net
定期
貼れるんかこれ
URLリンク(qiita.com)
602:デフォルトの名無しさん
19/08/31 10:08:53.77 0iGUnrw4.net
>>591
スレの流れみた?UTF-32の話をしてんだぞ?
603:デフォルトの名無しさん
19/08/31 15:33:43.16 SHne0DDt.net
>>596
そのまえ
604:デフォルトの名無しさん
19/08/31 15:35:30.15 SHne0DDt.net
6 仕様書無しさん sage 2019/08/31(土) 11:36:13.12
日本人ならUTF16を掲げるJavaを支持すべきだ
605:デフォルトの名無しさん
19/08/31 15:37:04.56 3i1dPJsj.net
>>598
それは理由が書いてないから、読む価値ある?
606:デフォルトの名無しさん
19/08/31 15:45:23.47 4qIvp+ND.net
なんで毛唐の決めたコードを支持するのか、意味が分からん
ネットウヨの類は米英には尻の穴まで晒すようだし困ったものだ
607:デフォルトの名無しさん
19/08/31 15:56:52.05 3i1dPJsj.net
ん?支持しなくて良いよ
608:デフォルトの名無しさん
19/08/31 17:12:51.44 0iGUnrw4.net
>>597
じゃあ >>586 はスレの流れを遮って,古い話題を煽り文句で蒸し返した挙句,
碌な知識も持ってないことを晒してしまったヤベー奴ってことになるけどいいの?
609:デフォルトの名無しさん
19/08/31 17:59:12.56 Yn5v13ie.net
ネットウヨw
610:デフォルトの名無しさん
19/08/31 20:21:37.85 5EL66xzp.net
re2のようにUTF-8にしか正式対応していない正規表現ライブラリもある。
611:デフォルトの名無しさん
19/08/31 22:52:53.39 0iGUnrw4.net
寧ろre2がUTF-32に対応すべきでは。
もしくはiconv使う。
612:デフォルトの名無しさん
19/08/31 22:58:57.55 3i1dPJsj.net
UTF-32対応は難しいから無理だろ
613:デフォルトの名無しさん
19/09/01 01:36:48.58 sYwYgS29.net
iconv禁止
614:デフォルトの名無しさん
19/09/01 09:07:17.74 XF6G4Ohn.net
NKF(Network Kanji code conversion Filter)を使えば?
Ruby にも、NKF モジュールがある
615:デフォルトの名無しさん
19/09/01 10:46:26.40 YneNC5Ev.net
別にコード変換ツールを探してるわけじゃなくね?w
616:デフォルトの名無しさん
19/09/01 10:52:49.46 kCJZVLuH.net
どこぞの皇帝や中国王朝みたいに文字の方を変えて宇宙統一してしまえば良い
文字コードに合った文字だけ使えば解決
617:デフォルトの名無しさん
19/09/01 12:53:54.91 k0czTyLP.net
収録文字数が2の16乗を超えた時点でUTF16は破綻したんだから、サロゲートペアなんて
煩雑な延命策を取らず、UTF32に完全移行すべきだった。
UTF16を残したせいでUTF32にも皺寄せが来ている。UTF32ではU+FFFFFFFFまで
対応できるはずなのに、UTF16のサロゲートペアで表せるU+10FFFFまでに符号空間が
制約されてしまった。つまり、実質的に32ビットではなく21ビットコードになってしまった。
UTF16を全廃しUTF32を本来の32ビットまで拡張すれば、異字体を異字体セレクタなしで
収録できるから、すべての文字を32ビットで表せて単純明快になる。
618:デフォルトの名無しさん
19/09/01 13:07:58.05 lmQdJ5gb.net
>>611
いろいろ間違ってるなw
まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
既に使われてるものを簡単に変えられるわけがない。
UTF32が21bitコードになってしまったのはUTF-8のせいだ
21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる
619:デフォルトの名無しさん
19/09/01 13:11:25.72 xmxF7u0H.net
異体字セレクタが導入されたのは別にコードポイントが足りないからじゃないだろ。
異体字なんて数が限られているし、それ以上に役に立たない絵文字をバンバン追加している状況だし。
620:デフォルトの名無しさん
19/09/01 13:35:49.57 JCPxJyAV.net
MSがUTF-16を採用したせいで廃止しようにもできないだろ
CP932とSJISとUTF16が生き残ってるのもだいたいこいつのせいだ
621:デフォルトの名無しさん
19/09/01 13:40:59.73 kCJZVLuH.net
>>612
おまいもかなり可笑しいなω
622:デフォルトの名無しさん
19/09/01 13:42:43.07 k0czTyLP.net
>>612
>まずUTF-16という仕様にはサロゲートペアが最初から含まれてる
あれ、そうだった? だとしたら、UTF16は最初から破綻していたってことだな。
変なものを作らずにUTF32を導入すべきだった。
>UTF32に完全移行って何を移行するっていうんだ?互換性がないんだから
>既に使われてるものを簡単に変えられるわけがない。
シフトJISからUnicodeへも互換性がないのに移行が進んだだろ。
>UTF32が21bitコードになってしまったのはUTF-8のせいだ
UTF8は可変長だから、32ビットでも表そう思えば表せる。
21ビットになったのはUTF16のせい。
>21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる
収録した記号は他にも色々あるし、U+F0000~U+10FFFFは外字領域だし、
21ビットだけでは心許ない。
>>613
異字体セレクタは同じコードでもAdobe-Japan1とMoji_Johoで字体が違う
滅茶苦茶な欠陥規格だから、さっさと廃止した方が良い。
623:デフォルトの名無しさん
19/09/01 14:01:22.04 JCPxJyAV.net
(もしかして: フォント)
624:デフォルトの名無しさん
19/09/01 14:17:44.56 Cv4S4gQH.net
>>616
> UTF8は可変長だから、32ビットでも表そう思えば表せる。
無理。UTF-8は「自由に可変にできる文字コード」ではない。
ビットパターンが決まっていて最大21bitまでしか表現できない
625:デフォルトの名無しさん
19/09/01 14:29:25.97 k0czTyLP.net
>>618
原理的にはUTF8は「自由に可変にできる文字コード」で32ビットも表せる。
UTF16の制約で符号空間が21ビットのU+10FFFFまでと定められたから、
UTF8もそれを超えるコードを規格外とみなすようにしただけ。
626:デフォルトの名無しさん
19/09/01 14:38:49.28 5y1tL0M+.net
>>619
エンコードと文字コードを混ぜんな
おまえみたいな奴がいるから混乱するんだよ
少しは馬鹿を自覚して黙ってろ
627:デフォルトの名無しさん
19/09/01 15:12:24.21 VpClr4jS.net
>>614
JavaやJavaScriptの内部エンコーディングもUTF-16だが
628:デフォルトの名無しさん
19/09/01 15:24:13.07 Cv4S4gQH.net
>>614
MSがSJISやめたら、世の中の既存の文書が
UTF8にでも変わると思ってんの?
魔法ですか?www
629:デフォルトの名無しさん
19/09/02 15:56:23.21 8MncpZHQ.net
魔法(圧力)
630:デフォルトの名無しさん
19/09/02 16:24:11.77 KSSQVEnP.net
>>623
どこからの?
セブンイレブンとか?
631:デフォルトの名無しさん
19/09/02 22:33:53.67 8MncpZHQ.net
マジレスするとOOXMLとかXPSとか「ある程度便利だけど既存の規格で十分じゃない?」というMS独自規格を、
MSが企業に圧力を掛けたりして広めてきた歴史を言ってるんじゃなかろうか。
念の為言っておくとOOXML←OpenDocument、XPS←PDFね。
632:デフォルトの名無しさん
19/09/03 00:26:14.39 EcUF0HHf.net
そんな圧力あったかなあ
633:デフォルトの名無しさん
19/09/03 06:39:22.40 KovswbEV.net
>>625
所でLinuxもデスクトップ環境も
一つに統一したほうが良いのではないか?ん?
634:デフォルトの名無しさん
19/09/03 08:49:15.73 /ybqtULG.net
MSがXPSを作った時、まだPDFは標準規格化されてなかったはずだが
それにPDFの競合規格はXPS以外にもたくさんある
URLリンク(ja.wikipedia.org)
635:デフォルトの名無しさん
19/09/03 10:21:51.94 KovswbEV.net
PDFはアドビのプロプラフォーマットってイメージが抜けないw
636:デフォルトの名無しさん
19/09/03 10:34:53.29 gWEsYspA.net
JavaだってSunのプロプラ言語だぞ
637:667
19/09/03 12:40:23.25 JzHlK+VD.net
今は違うけどね
638:デフォルトの名無しさん
19/09/03 15:04:07.63 jfAsT/N5.net
そのうち「MSはUnicodeを潰すためにCP932を作った」とか言い出す奴が出てくる
639:デフォルトの名無しさん
19/09/03 15:40:05.81 KovswbEV.net
Windowsの内部でCP932に依存している。
英語版Windowsも含めて日本語文字コードが内部で使われている
って思ってるやつは本当にいる
640:デフォルトの名無しさん
19/09/03 16:56:31.60 MR8tgZNH.net
>>627
LinuxはWindowsとは思想がほぼ真逆だからね。
多様性を重んじる。俺はそっちのほうが好きかな。
でもそれを至高とするあまり,古いカーネルや別の派生版との互換性が,Windowsのそれらに比べてない。
641:デフォルトの名無しさん
19/09/03 16:58:35.78 MR8tgZNH.net
>>628
当時PDFは国際標準にこそなってなかったが,
オープンフォーマットだったし,様々な場面で使われてた。
ただ描画ソフトがクソ重たいのしかなかった記憶がw
642:デフォルトの名無しさん
19/09/03 17:26:28.25 KovswbEV.net
>>634
だから多様性を重んじるっていうのは
競合するフォーマットが複数できるってことで
(例えば画像フォーマットや圧縮フォーマット)
Microsoftが独自フォーマットを作るのと同じ思想なんだよ
643:デフォルトの名無しさん
19/09/03 17:35:15.54 KovswbEV.net
>>635
> オープンフォーマットだったし
PDFはオープンではありませんでした。
プロプライエタリだって言ってるだろ
644:デフォルトの名無しさん
19/09/03 19:23:12.90 i0SweFPn.net
>>633
いつの知識なのかw
Windowsは表面的にはSJISで、内部ではUTF-16だ。
645:デフォルトの名無しさん
19/09/03 19:25:28.03 KovswbEV.net
> Windowsは表面的にはSJISで
ほらな、SJISじゃないって言ってんのにSJISだっていう
潜在意識レベルでそう思い込んでるから治しようがないw
646:デフォルトの名無しさん
19/09/03 19:51:10.42 9BNoj6TJ.net
WindowsというよりWindowsアプリが特定のOEMコードページやANSIコードページに決め打ちして作られてる物があるということだろ
他言語の状況は知らんけど日本語以外でも似たようなものだろうな
647:デフォルトの名無しさん
19/09/03 21:04:34.10 VgehgunL.net
Linuxの思想自体は多様性を重んじるのかもしれんが、ユーザーはそれに反して
「UTF-8以外死ね」みたいに言う奴多いよな。
648:デフォルトの名無しさん
19/09/03 21:08:34.33 KovswbEV.net
そうはいってもLinuxはASCIIと互換性がない文字コード(例 UTF-32)は死ねだからw
影響範囲が大きすぎて、LinuxはUTF-16とかUTF-32には事実上対応できないんだよね
649:デフォルトの名無しさん
19/09/03 21:51:19.99 kvsGhJj2.net
文字集合を符号化するのは、文字の区切れが判断できないからって解釈してんだけどあってる?
650:デフォルトの名無しさん
19/09/03 22:15:09.34 18+sQUYN.net
>>634
>多様性を重んじる。俺はそっちのほうが好きかな。
ところでホモにつきまとわれたらどうする?
651:デフォルトの名無しさん
19/09/04 01:38:53.56 Gs/bLtCt.net
一橋大学アウティング事件でググれ
652:デフォルトの名無しさん
19/09/04 04:00:00.76 xGPrnpMI.net
>>644
ホモであることは否定しないが、ホモは嫌いという俺の感情も尊重していただきたい
これが多様性だ!
653:デフォルトの名無しさん
19/09/04 09:16:30.39 n47u8TF1.net
>>645
ホモにつきまとわれて困ると友人にこぼしたら、
性癖を暴露されたとか言われて更に嫌がらせで自殺された事件?
ああいうの見てると、ホモの権利拡大とかしちゃいかんよなって思うよなあ
654:デフォルトの名無しさん
19/09/04 18:11:05.05 gX5VYMvu.net
>>639
Windowsが作るシステムファイルもSJISですよ?
655:デフォルトの名無しさん
19/09/04 18:12:22.94 vwhL3cv7.net
>>648
そういうネタはいらんから
656:デフォルトの名無しさん
19/09/04 18:52:19.95 gX5VYMvu.net
>>649
延々と嘘を書くのはやめてもらえませんか?
657:デフォルトの名無しさん
19/09/04 19:01:15.19 vwhL3cv7.net
ネタにネタをかぶせてもつまらんで
658:デフォルトの名無しさん
19/09/04 19:24:35.38 gX5VYMvu.net
妄想か
659:デフォルトの名無しさん
19/09/04 22:41:17.45 n47u8TF1.net
まあWindowsはNTカーネルとは限らないからな
660:デフォルトの名無しさん
19/09/05 00:35:42.74 rtvg+Hab.net
>>653はNTカーネルに限ると完全Unicode対応って意味やで
661:デフォルトの名無しさん
19/09/05 00:50:59.59 5i/MxHnj.net
ここでUnicodeといっちゃうあたりの頭の弱さよ
662:デフォルトの名無しさん
19/09/05 01:09:51.35 rtvg+Hab.net
補足すると、Unicodeは文字列集合で
符号化方式がUTF-16やUTF-8など
どの符号化方式であってもUnicodeといえる
>>655
さて、何か言い返したい言葉は有るかね?
663:デフォルトの名無しさん
19/09/05 01:11:05.81 rtvg+Hab.net
どうせ言い返す言葉は無いだろうから
待ってても時間の無駄なので先に言っておくと
何も言わない or 捨て台詞はくだけ なら俺に喧嘩売らなければいいのにw
664:デフォルトの名無しさん
19/09/05 04:37:49.32 5ZYYoPpa.net
完全Unicode対応ならどの符号化方式も対応してなきゃダメだろ
665:デフォルトの名無しさん
19/09/05 05:59:20.80 rtvg+Hab.net
※ LinuxはUTF-16、UTF-32に対応していません
666:デフォルトの名無しさん
19/09/05 06:00:04.95 rtvg+Hab.net
※ MacもUTF-16、UTF-32に対応していません
667:デフォルトの名無しさん
19/09/05 06:48:35.75 5ZYYoPpa.net
他者を貶めたところで>>654が真実になることはない
668:デフォルトの名無しさん
19/09/05 06:54:53.66 rtvg+Hab.net
他者を貶めるってなんのこと?
669:デフォルトの名無しさん
19/09/05 07:53:38.03 5ZYYoPpa.net
>>662
NTカーネル以外のものは他者だろ
670:デフォルトの名無しさん
19/09/05 08:02:45.45 rtvg+Hab.net
じゃあNTカーネルに限ってはUnicodeっていうのは正しいってこと?
671:デフォルトの名無しさん
19/09/05 12:58:50.41 5R9ffMew.net
どーしても我流を貫きたいんだなw
まあ他人の人生だから干渉するつもりはないが,そういう生き方は苦労すると思うぞ?
672:デフォルトの名無しさん
19/09/11 17:58:19.49 quHYHgkx.net
FEFF
URLリンク(en.wikipedia.org)
673:デフォルトの名無しさん
19/09/12 12:27:59.62 umd/llTn.net
全然関係ないけどWPへのリンクはMWの短縮URLが使える。
URLリンク(w.wiki)
674:デフォルトの名無しさん
19/09/12 12:43:49.99 vEKot6kT.net
本当に短縮したいところは日本語ページのパーセントエンコードされたところだがうまくいかないもんだな
675:デフォルトの名無しさん
19/09/13 09:23:49.73 rpBkWpcK.net
日本語のページも短縮URLにできるんだけど,そうじゃなくて?
676:デフォルトの名無しさん
19/09/13 10:11:35.77 wKEqF87n.net
文字通り文字コードのエンコードを間違えてるんだろう
677:デフォルトの名無しさん
19/09/13 16:18:49.47 nYKvQkSU.net
[%E5は無効なエンコードです。メインページに戻る。]
678:デフォルトの名無しさん
19/09/13 17:19:54.63 PF759nqS.net
当たり前だけど問題ないな
URLリンク(w.wiki)
679:デフォルトの名無しさん
19/09/14 00:14:10.89 UZ9Fxxpp.net
これ使われた順に生成されていくの?
そのうち4文字になるんかな
680:デフォルトの名無しさん
19/09/14 00:23:57.48 FV8dJ/wR.net
絵文字などサロゲートペアが必要な領域をUTF-7で表現するとUTF-32よりもバイトサイズが大きくなる。まめな。
681:デフォルトの名無しさん
19/09/14 11:56:27.23 mIZ3m
682:5oP.net
683:デフォルトの名無しさん
19/09/15 03:21:10.57 TEajZO+5.net
見せたろか
684:デフォルトの名無しさん
19/09/15 04:11:30.07 LMFjfaUx.net
見せて!
685:デフォルトの名無しさん
19/09/15 04:14:52.61 vhYJbDpr.net
utf7ってasciiじゃないっけ?
686:デフォルトの名無しさん
19/09/15 05:00:59.65 cvkFPip1.net
ここにはない
687:デフォルトの名無しさん
19/09/15 10:05:21.58 tu3q64lr.net
>>678
違う
君の理屈だと中国はチベットの一部ということになる
688:デフォルトの名無しさん
19/09/16 06:54:09.51 vTAkg/qq.net
じゃ,そういうことじゃん
689:デフォルトの名無しさん
19/09/21 16:46:43.93 7QW0JGF+.net
UTF-8もUTF-7も「ASCII互換にしようと思えばできる」文字符号化方式で
UTF-16/32は端から過去互換性を捨ててるっていう理解OK?
690:デフォルトの名無しさん
19/09/21 17:12:22.41 icgczTg/.net
互換の意味判ってるか?
691:デフォルトの名無しさん
19/09/21 17:13:19.94 AMltcnvP.net
>>682
ちゃんと仕様読め
692:デフォルトの名無しさん
19/09/22 02:18:18.82 tTe+mIIa.net
>>682
意味がわからない
693:デフォルトの名無しさん
19/09/22 11:35:45.78 LQCFANDg.net
>>682
OK
694:デフォルトの名無しさん
19/09/22 12:48:42.82 Uxh+z88Q.net
684デフォルトの名無しさん2019/09/21(土) 17:13:19.94ID:AMltcnvP
>>682
ちゃんと仕様読め
685デフォルトの名無しさん2019/09/22(日) 02:18:18.82ID:tTe+mIIa
>>682
意味がわからない
686デフォルトの名無しさん2019/09/22(日) 11:35:45.78ID:LQCFANDg
>>682
OK
----
どういうことなの…
695:デフォルトの名無しさん
19/09/22 15:28:59.04 yDiw/0G9.net
教訓:5chで情報収集するな
696:デフォルトの名無しさん
19/09/22 21:23:59.11 rg/me2jP.net
互換って何なの
697:デフォルトの名無しさん
19/09/22 22:18:40.20 sBc79exV.net
揚げ足取り終了。
質問。皆さんが普段使っている文字コード変換ライブラリでおススメはなんですか。
698:デフォルトの名無しさん
19/09/22 23:28:10.21 JTFkWMft.net
お勧めもなにもiconvかICUで大体用は足りる
それで満足しなきゃ自分で作るしかない
699:デフォルトの名無しさん
19/09/23 08:58:26.51 10n0KRvd.net
文字コードの変換だけ?
いまどきのまともな言語環境なら変換元のエンコーディングさえ分かってれば標準機能で出来るだろうに
それとも全角⇔半角の変換みたいなのをやりたいってこと?
700:デフォルトの名無しさん
19/09/23 11:35:21.05 3qdqqJ07.net
こっちはだめ
URLリンク(ja.cppreference.com)
URLリンク(ja.cppreference.com)
これ使え
URLリンク(docs.microsoft.com)
URLリンク(docs.microsoft.com)
701:デフォルトの名無しさん
19/09/23 14:54:10.02 FPxFvDjY.net
Windows SDK付属のデバッグ用ソースを見たところmbstowcs_sの文字コード変換は、Win32APIであるMultiByteToWideCharを使っているようですね。
702:デフォルトの名無しさん
19/09/23 15:08:29.22 3qdqqJ07.net
MultiByteToWideChar / WideCharToMultiByte 最強
703:
19/09/23 15:53:59.08 ZLX7TvLd.net
>>695
確かに便利でありがたかったです
スレリンク(tech板:53番)
704:デフォルトの名無しさん
19/09/23 16:01:34.44 51KZjw6P.net
null-terminatedとそうでない場合の仕様の違いをちゃんと理解してなくて
バグった挙句によけいな1byte追加しちゃったりした思い出。
705:デフォルトの名無しさん
19/09/23 16:24:42.75 3qdqqJ07.net
奇遇ですね
URLリンク(www.vector.co.jp)
706:デフォルトの名無しさん
19/09/24 00:23:12.23 FsJR6FDp.net
長い上にださい略し方だ…
707:デフォルトの名無しさん
19/09/24 14:25:04.46 oiN+60ax.net
python3でlogging使ってsyslogに出力すると
ASCIIで出力してもなぜか最後に\0が付いてログが残る
鯖側のsyslogdの方で付いてるのかと思ったが
そうじゃなくてpython3が勝手に付けてるみたい
python3のstringがunicode化したときにバグ入ったんかな
python2のときはそんなこと無かった気がする
708:デフォルトの名無しさん
19/09/25 12:14:01.12 9XZAk7bA.net
URLリンク(bugs.python.org)
709:デフォルトの名無しさん
19/09/25 13:11:07.39 BmMtZLRv.net
深い闇を垣間見た気がする
handler.log_format_string = '<%d>%s'
だと no attribute
handler.setFormatter(logging.Formatter('%(message)s'))
だと結局 \0 付いたままでした
710:デフォルトの名無しさん
19/09/25 13:18:01.66 BmMtZLRv.net
コンストラクタ呼ぶ前に
logging.handlers.SysLogHandler.append_nul = False
で解決しました
thx!
711:デフォルトの名無しさん
19/09/25 14:09:59.51 sdHp2tVC.net
エンコードされた文字のバイト並びが
utf-8 と cp832 で同じ(にみえる)ものってどんなのがあります?
そもそも 3bytes と 2bytes なのは仕方ないのですが
utf-8 だと (xx yy zz)
みたいなのが
cp932 だと (xx yy) 00
逆に
cp932 だと (uu vv) (ww xx) (yy zz)
みたいなのが
utf-8 だと (uu vv ww) (xx yy zz)
みたいなのでも良いです
そもそもありえない?
712:デフォルトの名無しさん
19/09/25 14:11:59.88 cBdVtg+x.net
cp932 ってことはいわゆる半角カナも入れて良いのカナ
713:デフォルトの名無しさん
19/09/25 14:14:32.79 sdHp2tVC.net
出来れば「美乳」みたいなクオリティ高いのが良いです
714:デフォルトの名無しさん
19/09/25 16:32:05.43 vuS5tsH7.net
美乳ってどういう特長を持ってたんだっけ?
エージェントが読み込んだときに確実にShift JISだって判定できるんだっけか。
715:デフォルトの名無しさん
19/09/25 23:44:33.31 2M81F3EH.net
PC初心者です。
あるexeファイルをコマンドウインドウで開く。ということをしなきゃならないんだけどシフト+右クリックしてもコマンドウインドウで開くというのがありませんでした
調べたら、コマンドウインドウで開くを表示したい場合メモ帳で名前を付けて保存の時に文字コードをUnicodeにして保存し実行したらレジストリがどうたら書いてあったんでしようとしたら、文字コードにUnicodeがありませんでした。
どうしたら良いですか?
716:デフォルトの名無しさん
19/09/26 00:04:19.37 Gir9qHZJ.net
↓最高に面白い回答
717:デフォルトの名無しさん
19/09/26 00:06:20.67 1IaRoLf+.net
>>708
>どうしたら良いですか?
諦める
高望みするから人間は苦しむんだよ
718:デフォルトの名無しさん
19/09/26 01:58:07.64 MW37nPtB.net
>>704
ASCII以外ではたぶん無いんじゃないかな
cp932としてもutf-8としても正しいバイト列で
それぞれが別の単語になるケースを探したことがあるけど、
それでも両方が意味のある単語になる例は見つけられかった
どういう目的でそういう例を探してるの?
719:デフォルトの名無しさん
19/09/26 08:30:15.09 NQV5DCT+.net
>>708
cmdにd&dかバッチファイル作れ
これ以上はスレチ
720:デフォルトの名無しさん
19/10/08 14:05:40.55 yxEiS4UK.net
ブログラムソースをUTF16やUTF32で書いてる人いるの?
ブログラム内の文字列のデータじゃなくてブログラムの地の部分
721:デフォルトの名無しさん
19/10/08 14:10:33.38 J68M6wrj.net
そんなゴリホーモおらんやろ
722:デフォルトの名無しさん
19/10/08 15:33:52.08 Dgw8eufS.net
誰が読むんだ
723:デフォルトの名無しさん
19/10/23 21:57:19.58 CiGuyy89.net
まるでUTF-16文書は読むのに向かないかのような発言やな
まともなエディタなら読めて当然。
724:デフォルトの名無しさん
19/10/23 23:42:00.06 /s0IRa9G.net
ICUなんてほぼほぼUTF-16ですよ。
725:デフォルトの名無しさん
19/10/24 17:29:35.02 mthfJT/n.net
なんかUnicodeのサイト分裂した?
726:デフォルトの名無しさん
19/10/24 18:37:57.14 FCkKS+Hu.net
青っぽいデザイン変更で入口が使いにくくなってる辺り?
727:デフォルトの名無しさん
19/10/27 00:29:12.62 DVVulqOc.net
なにそれこわい
728:デフォルトの名無しさん
19/10/29 16:20:42.34 A7Naqht0.net
URLリンク(home.unicode.org)
これやな。
なんか謎の意匠がw
729:デフォルトの名無しさん
19/11/01 01:07:36.40 iOCNEHbC.net
結局見つかったのは何なの
730:デフォルトの名無しさん
19/11/01 01:07:53.40 iOCNEHbC.net
書くとこ間違えた失礼
731:デフォルトの名無しさん
19/11/15 19:48:26.91 CD4iEOnB.net
文を書くときに?や()などの半角にも全角にもある文字はどっちを使うべきなのか迷う。
数字やアルファベットは半角を使うのが普通だからASCIIコードにある文字はASCIIコードを使った方がいいんだろうか
732:デフォルトの名無しさん
19/11/15 21:21:21.06 NIGKt6uf.net
特に拘りが無いならNFKCに倣う
733:デフォルトの名無しさん
19/11/15 23:13:58.98 csRpQu7P.net
JIS X 0208 を 0201 のスーパーセットにしなかったのが諸悪の根源
734:デフォルトの名無しさん
19/11/15 23:28:13.72 69Rrw1ZJ.net
そもそも世界中の文字を一つの体系で包括できると考えたりしたのが…ブツブツ
735:デフォルトの名無しさん
19/11/16 09:13:00.94 0g4G1zYO.net
サル共がコンピュータを使わなければ面倒がないのに
とか思われてるよ
736:デフォルトの名無しさん
19/11/16 10:56:43.05 t6zcY+AG.net
ASCII に含まれてる記号は半角で入力してる
っていうか IME で半角優先にしてるのでそっちばっかりになる
IME ON の状態であってもスペースももちろん半角だ
737:デフォルトの名無しさん
19/11/17 00:12:46.29 ZZ8XSzBD.net
チルダとかハイフンマイナス、引用符あたりは迷う。
これらは単に全角と半角の関係ではないんじゃないかという気がする。
738:デフォルトの名無しさん
19/11/19 22:24:19.13 lA4rVXxm.net
0-9A-Za-z は半角だけどその他はちょっと迷うかな
! や ? は書いてるのが日本語漢字仮名交じり文なら全角にするかも
739:デフォルトの名無しさん
19/11/20 09:53:23.76 grCkJCm3.net
公文書の「,」なぜ? 半世紀以上、見直し検討
2019 11 18
URLリンク(www.sankei.com)
740:デフォルトの名無しさん
19/11/21 16:10:59.78 0qs1xY5M.net
俺は「,」のほうが寧ろ収まりがいいように見えるけどな。
感性で判断するんじゃなくて,論理的根拠をもって「,」か「、」かを決めるべきよね。
741:デフォルトの名無しさん
19/11/21 18:03:44.71 oVdD3irj.net
日本語の文章は分かち書きをするわけではないから、
点があるのにコンマのような後ろにスペースを要する記号を使うのはおかしいと思う。
丸の代わりにピリオドを使うのも同じ。
それにしても、公文書の混ぜこぜの用法はどっちつかずだよな。
もともと、和文タイプライターで使われていた用法なのではないか?
742:デフォルトの名無しさん
19/11/21 18:06:42.91 oVdD3irj.net
使ったこと無いからわからなかったが、全角コンマなんてのがあるんだな。
これって、全角英数と同じで、日本語の体裁に合わせるためにわざわざ作られた文字だよねぇ。
743:デフォルトの名無しさん
19/11/21 19:11:00.69 wlMAy4t9.net
>>733
フォント次第ながらも「,」は半角カンマ「,」と一目で見分けることができない。
一方「、」は全角しかない。よって誤植の起きにくい「、」で統一するべき。
744:デフォルトの名無しさん
19/11/21 21:10:52.53 cn6yPDJX.net
>>736
半角の、だってあるだろ
AAとかでよく使われる
745:デフォルトの名無しさん
19/11/21 21:14:37.01 gyc1+QC+.net
見分けられないで言い切られたらコーヒー噴くしかない
746:デフォルトの名無しさん
19/11/21 21:51:21.49 HJrbCtCI.net
文字コードスレなのにいまだに「全角」とか言う奴いるんだな
747:デフォルトの名無しさん
19/11/21 22:11:40.82 Ht1weGMK.net
ここまで無知だと辛いどころか辛さも感じないほどにアホなんだろうな
739は
748:デフォルトの名無しさん
19/11/21 22:27:48.86 T5O6V3Nl.net
カッコは半角と全角でベースラインが違うフォントも少なくないんで
囲う文字に合わせてる
749:デフォルトの名無しさん
19/11/22 00:27:47.62 5/IABJQJ.net
そもそも日本語は句読点は使っていなくて使われ始めたのが
欧米のカンマやピリオドの影響で明治後期くらいからだからな
750:デフォルトの名無しさん
19/11/22 01:42:56 1ACgXjue.net
FULLWIDTHとか出てくるのを全角以外にどう呼べと
751:デフォルトの名無しさん
19/11/22 01:49:03 VSWkIrxm.net
句点の代わりに「候(そうろう)」を使ってたんでしょ、昔の人は。
752:デフォルトの名無しさん
19/11/22 02:26:32 7JxndsMv.net
日本はもともと縦書きで「,」なんて使ってなかっただろ?
縦書きでどの位置に「,」を打てばいいのよ?
753:デフォルトの名無しさん
19/11/22 03:23:33 QBgvTUOv.net
縦書きは、を使って横書きは,を使えばいいじゃん
なんで臨機応変に対応できないんだろう?
754:デフォルトの名無しさん
19/11/22 03:31:46.87 7JxndsMv.net
臨機応変に縦書きと横書きを変換するからだよ
ウェブ上では横書き、本にしたら縦書きとかな
755:デフォルトの名無しさん
19/11/22 15:56:12.49 WtZSxTNA.net
漢文で書かれた本の中には、句点は、文字の横に○をつけていたものがる。
江戸時代のくずし字でかられた読み本は、句読点なし。読む人が判断することになっている。
756:デフォルトの名無しさん
19/11/22 18:59:44.59 VSWkIrxm.net
教科書フォントに慣れ切って高卒レベルの古典教養しかない現代人は「くずし字」の原書をほとんど読めない問題。
757:デフォルトの名無しさん
19/11/22 19:10:33.77 +ybPmekP.net
筆で書かないと身につかんよ
758:デフォルトの名無しさん
19/11/22 19:31:16.58 VSWkIrxm.net
中学高校の古典の授業で、原書を写真印刷した文書を読ませる機会を与えるべきだろう。
活字慣れした現代人は太平洋戦争中の日記や戦場から送られてきた手紙さえ読めない。
759:デフォルトの名無しさん
19/11/22 20:55:41.01 QBgvTUOv.net
厨二満載の文集が他人に読まれなくなる日も近いんだな
よかったワープロが普及する前で
760:デフォルトの名無しさん
19/11/22 21:23:42.16 SnsQ0S1X.net
アメリカでも筆記体が廃れつつあるんじゃなかったか
せいぜいサインする時に使うくらい
761:デフォルトの名無しさん
19/11/22 22:42:29.42 +ybPmekP.net
ラテン文字は筆を選ばないでも問題無いが
漢字や仮名は楷書でも筆の運びをちゃんと学んだ方が近道
762:デフォルトの名無しさん
19/11/22 23:50:42.29 1ACgXjue.net
墨汁ドバー
763:デフォルトの名無しさん
19/11/23 09:52:15.28 StIP5iHr.net
ん? 江戸時代から句読点はあったよ。
多分、由来は漢文の補助点で句の切れ目に「、」を打って読みやすくしたもの。文末も句点だった模様。
764:デフォルトの名無しさん
19/11/23 10:17:05.69 LEhIlmd1.net
>>756
一般に使われ出したのは明治でしょ
765:デフォルトの名無しさん
19/11/23 10:53:20.31 cBKKqL2b.net
>>749-750
今年の漢字の季節ですね
766:デフォルトの名無しさん
19/11/23 14:16:40.50 SCQQhBmf.net
風か水かって感じかなあ
災とかはこの前使ったよね
767:デフォルトの名無しさん
19/11/23 14:20:31.57 Lev/ciM6.net
金とか何回か選ばれてるのはあるな
二年連続とかは知らん
768:デフォルトの名無しさん
19/11/23 15:30:58.21 OKqvuGhi.net
令
769:デフォルトの名無しさん
19/11/23 16:40:21.39 l4WHmfnE.net
もうそろそろコンピュータの世界では
32ビット固定長の文字コードを使うようにしても
良いのじゃないだろうか?
770:
19/11/23 16:48:42.87 bse8qODO.net
>>762
ascii 的な世界(合衆国界隈とか)が発狂するので、utf-8 がつくられたのだと思います
まあコード内では utf-32 で統一するのがスマートですね
771:デフォルトの名無しさん
19/11/23 17:45:30.08 ExB3uxT/.net
C言語がASCII前提としていたので、
UTF16やUTF32では互換性を保てなかったのが理由
772:デフォルトの名無しさん
19/11/23 18:02:19.00 UeuUKNdC.net
32bitで足りるんか?
773:デフォルトの名無しさん
19/11/23 18:05:22.65 Lev/ciM6.net
今のところ32bitっつってもスカスカだろ
774:デフォルトの名無しさん
19/11/23 18:45:44.31 KvoIJqUR.net
文字が4億も存在するんかいな。
775:デフォルトの名無しさん
19/11/23 18:46:53.89 k/QFWxVo.net
じゃけん戸籍に登録されてる異字体全部収録しましょうね〜(鬼畜)
776:デフォルトの名無しさん
19/11/23 18:51:31.87 KvoIJqUR.net
旧字体はIPAがマップしたんじゃなかったっけ?
777:デフォルトの名無しさん
19/11/23 20:53:37.67 x1VOKq1M.net
固定長好きな人が定期的に出てくるのはなんでなの?
セレクタとか合成文字とか固定長に押し込むの非現実的でしょうに
778:デフォルトの名無しさん
19/11/23 21:03:09.45 pGKd1Nh3.net
21bitもの空間与えたら要らん文字まで突っ込みまくってごみ溜めみたいになってしまったじゃないか。
779:デフォルトの名無しさん
19/11/23 21:12:47.43 LYBJTBw0.net
絵文字は特に漢字に馴染みが無い連中が嬉しがってるけど、象形文字の発明前に戻ったようだよ
具材がどうだとか細かなこと言ってて抽象化とは程遠いし、少なくとも色は与えるべきじゃなかった
780:デフォルトの名無しさん
19/11/23 23:04:09.59 uD1YCxhq.net
>769
ipaは都合約6万字ある
781:デフォルトの名無しさん
19/11/24 00:15:00.98 daL/rw2X.net
16bit固定なら世界中の文字が記述できるとして始まったのがそもそものUnicodeだからな
782:デフォルトの名無しさん
19/11/24 07:48:18.59 wAZlnZnW.net
>>757
お前の一般が何かによる。
正式な正書法になったのは明治から。江戸時代の正書法は漢文の白文か武士の候文。
一方で庶民向けの版本や貸本では江戸期から句読点が使われてるので、本を読む層には馴染みがあった。
あと手習いの手本とかにも句読点があるので文字習う段階で知識として知ってるのでは。
783:デフォルトの名無しさん
19/11/24 11:58:02.36 bBACDgxb.net
>>772
ちんちんの絵文字は
剥けちんと包茎と勃起前とか勃起後とか色々バリエーション必要ですし
784:
19/11/24 12:05:35.45 oHJXyQoT.net
>>776
おもしろいと思っていってるの?
785:デフォルトの名無しさん
19/11/24 12:07:46.48 bBACDgxb.net
QZさんからレスもらえるとは思わなかった
786:デフォルトの名無しさん
19/11/24 12:30:57.16 4a4z1fkQ.net
>>777
竹島はどこの国の領土ですか?
注意:「なぜその質問をしたいと思ったのですか」みたいな
質問を質問で返すようなクズな真似はしないこと
787:デフォルトの名無しさん
19/11/24 12:43:02.24 iwyjZSbL.net
質問じゃなくて、馬鹿にしてるんだろ
え?それ面白くないよ?面白いと思ってんの?プークスクス
という意味
788:デフォルトの名無しさん
19/11/24 12:53:04.27 6n0WdTOH.net
>>780
違うと思う
QZは韓国人だから答えられないんでしょ
789:
19/11/24 13:04:27.62 oHJXyQoT.net
>>779
>「なぜその質問をしたいと思ったのですか」
いやはや、私のパターンを熟知されているようでなにより、です、ちょっとうれしくなりました
790:
19/11/24 13:05:00.77 oHJXyQoT.net
>>781
なぜ韓国人だとおもったのですか?
791:
19/11/24 13:09:00.29 oHJXyQoT.net
>>779
スレリンク(eco板:710番)
スレリンク(eco板:712番)
スレリンク(eco板:714番)
792:デフォルトの名無しさん
19/11/24 13:13:33.28 BlMs70wA.net
憲法9条を改正するだけじゃダメなのよ。
軍の統帥権が天皇と征夷大将軍(内閣総理大臣)のどちらにあるのか明確にしないと。
793:デフォルトの名無しさん
19/11/24 15:33:55.44 EdYAI6jd.net
>>762
そのまえに格納方法をビッグエンディアンかリトルエンディアンで統一してくれ
794:デフォルトの名無しさん
19/11/24 17:10:15.65 5wTOyTy7.net
>>779
竹島は日本の領土で、独島は韓国の領土だよ
なぜか韓国は竹島のことを独島だと言い張ってるけど
独島は別の島ですから、残念
795:デフォルトの名無しさん
19/11/25 15:25:07.92 s1hiXzdE.net
>>787
おっとそれ以上言っちゃあいけない
796:デフォルトの名無しさん
19/11/30 13:54:16.72 eovy2x2M.net
【びっくりサイエンス】 日本古来の「くずし字」にAIで挑む 解読の競技大会は中国が優勝
URLリンク(special.sankei.com)
2019.11.30
797:デフォルトの名無しさん
19/11/30 15:03:21.41 dLS32wGr.net
別に「びっくり」ではないなw
798:デフォルトの名無しさん
19/11/30 21:10:49.04 OkgV2S2L.net
それ言ったらドンキーにも延焼する
799:デフォルトの名無しさん
19/11/30 21:25:08.69 mO6/udRn.net
ドンキーほうけーい
800:デフォルトの名無しさん
19/12/01 17:02:36.55 zxgavQqm.net
今年の漢字は天
801:デフォルトの名無しさん
19/12/01 17:27:44.79 xqkDTdKR.net
いっそU+32FFと書いてほしい
802:デフォルトの名無しさん
19/12/03 02:50:32.39 TSc17kJh.net
「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース
2019年12月2日 19時21分
URLリンク(www3.nhk.or.jp)
「くずし字」解読は「文系」より「理系」向き!?
驚き! ラーメン判別の技を応用
AIの解読能力 高めるポイントは?
数億点もある難読資料 高まるAIへの期待
歴史資料の研究者からも期待の声
803:デフォルトの名無しさん
19/12/03 12:56:42 dBsSbed7.net
可変長の文字コードは、CPUのパイプライン処理とは相性が悪いはず。大量の文字
データのやりとりやファイルサイズが小さくなるのは理解できるけれども。
でもそれは圧縮機構を別途に設けたのではだめなのか?
804:デフォルトの名無しさん
19/12/03 14:48:10.41 32eP5DBa.net
異体字セレクタとして色だけじゃなく斜体、下線、太字などのHTML的な要素も入れてみたらどうか
805:デフォルトの名無しさん
19/12/03 15:19:10.13 9x1aaywv.net
倍角、四倍角も入れて
806:デフォルトの名無しさん
19/12/03 15:35:57 IUIY88nX.net
HTMLががんばってCSSに追い出したスタイル要素を文字コードが取り込んだらかわいそうw
807:デフォルトの名無しさん
19/12/03 17:26:32 Y2nmLwy/.net
Unicodeは文字コードじゃなくて文字シーケンスと名前を変えるべき
808:デフォルトの名無しさん
19/12/04 16:24:48 IlQO2KEp.net
黒板太字 - Wikipedia
URLリンク(ja.wikipedia.org)黒板太字
とかはかなりスタイル要素入ってると思うな。
てか数学用分野だけやけに優遇されてない?
809:デフォルトの名無しさん
19/12/04 19:52:55.02 sxQF45hm.net
連続してないからあくまでも記号扱いなんだろうな。
810:デフォルトの名無しさん
19/12/04 20:23:19.21 bwCWk38v.net
発音記号なんかはただの小文字aの異体字で意味が違ったりするからなあ
でもそもそもを言い出したらYとVが元は同源だったりして、「純粋な文字」を綺麗に定義するのは無理よ
811:デフォルトの名無しさん
19/12/05 15:53:38 1Yvcqq3b.net
>>801
「優遇」っていうか,そういう文字を収録してた符号化文字集合と互換性を持たせるために導入したんでは。
例えば「(株)」っていう文字とかに代表される囲み文字はかなり日本語圏に偏向してるけど,
これだって日本を優遇してるんじゃなくて,日本で開発された符号化文字集合がそういう文字を含んでたから収録されている。
812:デフォルトの名無しさん
19/12/05 16:32:04.91 IbmhSLeW.net
IMEの辞書とかは数学とか物理とか理系用語にめちゃくちゃ弱いイメージ
813:デフォルトの名無しさん
19/12/06 14:18:04 CxS2VDwU.net
>>805
IMEってMS-IMEのこと?
それともかな漢字変換全般?
814:デフォルトの名無しさん
19/12/06 23:32:11.23 Ob0T3VF2.net
SKK使ってるからだけどそんな印象は全く無い
815:デフォルトの名無しさん
19/12/10 22:31:10.24 zD6aLrgM.net
SKKは既定の辞書はすごく弱いけど語句登録がほぼ一瞬でできるのが利点よね。
816:デフォルトの名無しさん
20/01/01 02:03:31.89 ZBRDXVGi.net
あけましておめでとう!
今年もこのスレの皆さんに多幸感がありますように!
817:デフォルトの名無しさん
20/01/01 11:19:22.03 tqBP4ADq.net
字にはヒラギノ~ル♪
818:デフォルトの名無しさん
20/01/01 22:58:15.38 fGGzsdYV.net
あけましておめでとうございます
ISO/IEC 10646の新版は今年中に出るかな~?
819:デフォルトの名無しさん
20/01/03 06:32:52.61 wMN1Z8Zd.net
Consolasは良いフォントだとは思うのだけど、全角中黒「・」(U+30FB)が半角中黒(U+FF65)と判別しにくいところが気になる。
まぁ、文字コードの問題ではないんだが。
820:デフォルトの名無しさん
20/01/03 10:33:29.05 lHIykz7y.net
特定のフォントの特定の文字だけ任意に入れ替えるパッチとかフックとか無いんだっけ
821:デフォルトの名無しさん
20/01/03 22:33:53.11 wMN1Z8Zd.net
>>813
レスありがとう。どのOSにもそういう仕組みはないと思う。
よく上げられる例として、フォントの明示的な設定なしに\マークをバックスラッシュとして表示することはできない、というのもあるし。
一文字づつ判定して適切なフォントに変えて描画する処理を個々のアプリ自身が実装する必要があるはず。
822:デフォルトの名無しさん
20/01/07 14:48:29.36 lPDbYu1J.net
どのアプリの絵文字が「実際に使えるはさみの絵文字」なのか? - GIGAZINE
URLリンク(gigazine.net)
面白い
823:デフォルトの名無しさん
20/01/07 15:01:40.99 2Dq0zKSW.net
左利き用のはさみも用意汁ωωω
824:デフォルトの名無しさん
20/01/07 15:12:21.25 dfBogwvq.net
ちなみによく切れるはさみはここが曲線
URLリンク(bungu.plus.co.jp)
825:デフォルトの名無しさん
20/01/07 16:36:04.95 g+gnVlWv.net
はさみディレクションセレクター
826:デフォルトの名無しさん
20/01/18 12:49:25 jQMC+jX5.net
ぷにコードに関するチラ裏
localghost👻ってかわいくね?
→今まで危険そうで敬遠してたIDNに興味をもつ
→WikipediaとRFC3492を頼りにPunycodeのアルゴリズムを調べる
→エンコーダを自前で組んでみて、idn2コマンドやPythonの'idna'エンコーディングと比べてみる
→正規化する必要のある文字がどんどんふえる
→idn2とpythonのidnaってかなり違わくね?? <-イマココ
idn2はギリシャ文字の「語尾のシグマ」ς(U+03C2)をσにしないし、あとチェロキー文字の大文字?を小文字?にしないし、けど小文字?はSupplementなのがなんかあやしいし、でidnaとどっちが正しいのか考えるのが面倒になって投げた
827:デフォルトの名無しさん
20/01/24 09:35:27 jBJ9cIqM.net
6月のWG2は高松になったのか
また国外から来にくそうな
828:デフォルトの名無しさん
20/01/26 00:45:55.40 C+NhYhXj.net
道後温泉に行くか
829:デフォルトの名無しさん
20/01/30 14:46:03 WswUNrPx.net
Unicode Emoji 13.0 - Now final for 2020
URLリンク(blog.unicode.org)
830:デフォルトの名無しさん
20/01/30 16:08:26 m1itn91m.net
今更タピ岡かい
831:デフォルトの名無しさん
20/01/31 12:43:23.65 G4fIlptF.net
Unicodeは完全にコンソーシアムのおもちゃになってんな
832:デフォルトの名無しさん
20/01/31 15:08:09 OCbveUqO.net
タピオカミルクティーがあるのに、将棋の駒がフルセット揃っていないのは納得できない。
833:◆QZaw55cn4c
20/01/31 19:55:14 tTpxWp9S.net
>>825
詰将棋用に上下逆の漢字を入れて欲しかった
834:デフォルトの名無しさん
20/01/31 22:55:44.99 GHfVRZCY.net
G入れるのまじやめて
835:デフォルトの名無しさん
20/02/01 00:49:18.17 6vnUAWit.net
要するに新種の漢字なんだな
国ごとに生活が違うから、結局何万種必要になる
836:デフォルトの名無しさん
20/02/02 00:50:49.11 wzqxdRGo.net
将棋の駒は多分誰も提案書を出さないせい
837:デフォルトの名無しさん
20/02/02 01:02:15 0w4OLLiX.net
それ通ったらドンジャラ提案するわ
838:デフォルトの名無しさん
20/02/02 01:17:07.29 Vi9q8JVy.net
漢字の扱いは本当に難しい
手書きの分析しているソフトは本当に賢いと思うわ
まああれは面倒な文字はそもそも判定せず、
主要な文字から似たものを選んでいるだけではあるが・・・
839:デフォルトの名無しさん
20/02/03 01:41:22 qflv74w2.net
テスト٩( 'ω' )و
840:デフォルトの名無しさん
20/02/03 08:57:05 uSBWqXrE.net
825だが、将棋の駒がダメな理由は、>>469 にある通り、
> インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
ということらしいが、なら、タピオカミルクティーにインラインテキスト中で
使われている用例があるのか、と言いたい。だから納得できない。
841:デフォルトの名無しさん
20/02/03 11:59:58 62FLJlST.net
解説本だと普通に使われてるよな
842:デフォルトの名無しさん
20/02/03 13:40:49 yHobSnyY.net
タピオカが使われているのかと誤読
843:デフォルトの名無しさん
20/02/03 13:47:35 62FLJlST.net
読み手のリテラシーが問われます
844:デフォルトの名無しさん
20/02/03 13:54:08 eKPmxfCz.net
天使を天便と読み取ったまま放置するとか割とマジ。
845:デフォルトの名無しさん
20/02/03 22:56:08 KZTuy2Ys.net
架空の文字は登録しないというポリシーもあったと思ったが、emojiに関してはやりたい放題だな。
846:デフォルトの名無しさん
20/02/03 22:59:18 wgq762c2.net
漢字以前の象形文字モドキの再発明だからなぁ
取捨選択もなく全然洗練されないまま数だけ増えてる
847:デフォルトの名無しさん
20/02/03 23:33:42 s4V/Vj8i.net
そのうち抽象化が進んでいくのか
848:デフォルトの名無しさん
20/02/04 13:26:51.57 gTERf/2s.net
政治的に正しい仏教徒としては、墓石のバリエーションの少なさには納得いかんぞ
849:デフォルトの名無しさん
20/02/04 13:28:31.24 c6iCZcrL.net
コーヒー、お茶、タクシー、台風もほしい
850:デフォルトの名無しさん
20/02/04 20:12:02 U7azh68T.net
>>841
政治的に正しい仏教徒とは何ですかね?
アホな創価学会員が言いそうな発言ですが。
851:デフォルトの名無しさん
20/02/04 21:29:49 t1/0lpTx.net
絵文字ってここにどう書き込めばいいんです?
☸️
↓
☸
専ブラでは絵文字として読めるがWebブラウザー(Chrome/旧Edge/IE11@Win10)で見ても◆◆�
852:ヤでうまく表示されない…
853:デフォルトの名無しさん
20/02/05 08:47:40.80 fZOBAWLP.net
>>842
全部あるぞ。お茶は「湯呑み」として。検索の仕方が足りない。
854:デフォルトの名無しさん
20/02/05 10:08:51 So1jciyU.net
🍵 you know me.
855:デフォルトの名無しさん
20/02/05 10:23:19.19 MS9bo9CR.net
固定フォントのターミナルのような環境である文字のフォントの幅が全幅か半幅か判別する確実な方法ってありますか?
Unicode前提です
Unicode的にアジアンなんとかというドキュメントでそれに触れられているのを見つけましたが
結局のところ使用されているフォントで決まるような気がします
となるとCLIアプリが表示する前に判別する方法はないような
表示したあとならターミナルにカーソル位置問い合わせればわかりそうだと思いましたが
856:デフォルトの名無しさん
20/02/05 10:24:42 MS9bo9CR.net
固定フォントじゃなくて等幅フォントでした
857:デフォルトの名無しさん
20/02/05 16:23:36 2rKdW1Ec.net
てすと
☸
858:デフォルトの名無しさん
20/02/05 16:24:56 2rKdW1Ec.net
>>844
うちのChromeはちゃんと出てる
ffでも問題なし
859:デフォルトの名無しさん
20/02/05 16:28:36 2rKdW1Ec.net
>>847
前にpythonで書いたときは
unicodedata.east_asian_width()
使ったと思う
Win32APIだと表示前に文字列全体の描画幅を求める方法があったと思う
860:デフォルトの名無しさん
20/02/05 16:30:38 So1jciyU.net
☸ 法輪ラブ ☸
861:デフォルトの名無しさん
20/02/05 18:34:07 qBm/0cTb.net
>>847
・Unicodeでは文字幅は 0(結合文字)、1(いわゆる半角)、2(いわゆる全角)、1か2(曖昧幅) のいずれかに決まっている
・1か2になるのはαや☆などであり、東アジアの環境で2、それ以外で1
・wcwidthで調べるとその値を返すが、曖昧幅への対応がどうなっているかは分からない
・linuxのglibcは、データを自分で修正しない限り曖昧幅は1扱い(LANG=ja_JP.eucJPすれば2にはなる)
・CLIでのカーソル位置はカーネルのttyドライバが担当しており、そもそもフォン卜の情報を持っていない
・linuxカーネルでは全ての文字が(全角も)幅1扱い
・行編集もtty担当なので、catをそのまま実行して全角文字を入力後backspaceするとカーソルがずれる
・多くのシェルはwcwidthで入力/削除された文字やプロンプトに表示する文字の幅を調べ、必要に応じてカーソルを移動させる
・ターミナルはwcwidthまたは同等の独自関数(曖昧幅の設定ができることが多い)で文字幅を調べて、実際に表示させる
・等幅フォントでも曖昧幅の文字がどちらで実装されているかそれぞれ異なる上、ターミナルはフォントの文字幅情報を使わないことが多い(プロポーショナルでないことのみ確認)
・↑により、文字が重なったり変な隙間ができたりすることがある
・一部のターミナルはwcwidthの結果に従うように文字を潰したり引きのばしたりして表示する(minttyとか)
・アプリ(シェルとか)、ライブラリ(ncursesとか)、端末マルチプレクサ(tmuxとか)、端末エミュレータ、カーネル(tty)、フォント全てで想定する幅がそろっていないとうまく動かない
・日本語フォントの多くは曖昧幅2なので、linuxのCLIではαや☆がおかしくなることが多い(wcwidthが1を返すせい)
・Unicodeを作った西洋人は馬鹿だから、罫線素片の幅も曖昧で、ncursesがバグる
・絵文字は文字幅1だが、フォン卜の多くは2で実装されているのでおかしくなる
862:デフォルトの名無しさん
20/02/05 20:43:09 f5dE3Mu+.net
>>853
詳しい解説サンクス
863:デフォルトの名無しさん
20/02/05 23:12:39 zWcxLf4u.net
>>853
あざす
やっぱり混沌としてるのですね
とりあえず一度ターミナルの中を追ってみようかな
864:デフォルトの名無しさん
20/02/06 00:00:39 SQAVqXtr.net
>>844うちでも見れた
865:デフォルトの名無しさん
20/02/07 22:23:32 DCA95dh2.net
継ぎ接ぎだらけの一貫してない仕様だからな
866:デフォルトの名無しさん
20/02/08 17:47:47 hv0txQ7A.net
Unicodeの時代に今更だけど、
シフトJISの第2バイトがA0~FFでなく
40~FCにしたのは何でだろう
867:デフォルトの名無しさん
20/02/08 17:48:29 hv0txQ7A.net
訂正
×A0~FF
〇80~FF
868:デフォルトの名無しさん
20/02/08 18:36:07.73 zjMP9HD4.net
JISの区点は1区あたり94点
0x40開始で0x7Fを避けて2区分取ると0xFCになる
869:デフォルトの名無しさん
20/02/09 12:59:57 tCetl5aZ.net
やっぱ漢字1文字は2バイトの方がいい
870:デフォルトの名無しさん
20/02/09 15:51:09 gml78nRc.net
>>858
半角カナのせいで80~FFでは足りないから
871:デフォルトの名無しさん
20/02/09 19:30:21 tCetl5aZ.net
シフトJISはもう少し工夫すれば
JISコードの変換式もより簡単にでき
2バイト目もASCII領域を使わずにダメ文字も発生せず
補助漢字も全て入れられた
872:デフォルトの名無しさん
20/02/09 19:32:13 tCetl5aZ.net
補助漢字は半角カナと排他だけど
873:デフォルトの名無しさん
20/02/10 16:27:01 TGcYvj29.net
EUCで良かったんよ
874:デフォルトの名無しさん
20/02/10 19:14:50 hRmPfOYI.net
EUCだと半角カナも補助漢字もバイト数が増えるからな...
875:
20/02/10 21:20:39.00 3bnN/FFY.net
>>863
あのスペースの狭さでは、それは無理だったのでは?
どうするのがよかったのですか?具体的にいってみてよ
876:デフォルトの名無しさん
20/02/11 08:36:25.76 K5Jxm44G.net
非漢字_:[81-98] [80-9F]
第1水準:[80-9F] [A1-FE]
第2水準:[E0-FF] [A1-FE],[E0-EB] [80-9F]
補助漢字:[A0-DD] [A1-FE],[A4-C1] [80-9F]
補助漢字は半角カナと排他利用
877:◆QZaw55cn4c
20/02/11 17:40:51 Sh/x76Zj.net
>>868
それは結局半角カナを潰しただけのことでは?
878:デフォルトの名無しさん
20/02/11 18:51:44 K5Jxm44G.net
>>869
補助漢字6000字近くを使えるというメリットがあれば
半角カナをフェードアウトするには十分な機会になっただろう
補助漢字(JIS X 0212)が制定されたのは1990年だから
その翌年の1991年に発売されたMS-DOS 5.0あたりで
KANA ON/OFFコマンドを追加し、半角カナ/補助漢字の切り替えが出来れば
従来のテキストファイルの読み込みなども対応できる
879:◆QZaw55cn4c
20/02/11 19:27:04 Sh/x76Zj.net
>>870
文字コードのマップ切り替えはコンテンツ側で指示するべきことであって、OS/アプリ側で切り替えて対応するとか、発想が変だとおもいますね
880:デフォルトの名無しさん
20/02/12 01:19:59.31 l8Pmdafn.net
いっその事1byte=32bitにすればサロゲートペアもBOMも要らなくなるし多バイト文字という概念もなくなる
881:デフォルトの名無しさん
20/02/12 02:15:22.28 H21UjGBC.net
なくならない
合成文字はなくせない
882:デフォルトの名無しさん
20/02/12 05:02:58 K3E1Z6OS.net
>>871
コンテンツ側でなくユーザー側
883:デフォルトの名無しさん
20/02/12 10:06:52 a1w2Xqz0.net
1文字=64bitやろ
884:デフォルトの名無しさん
20/02/12 13:30:20 KzEjZzkq.net
>>875
イングランドの旗はUnicodeで7コードポイント必要なので64bitでは無理
128bitで
885:デフォルトの名無しさん
20/02/12 13:32:59.34 yKNbCROk.net
👽 全宇宙の未知なる知的生命体の使用言語を網羅しなきゃならないのだから可変長は必須
886:デフォルトの名無しさん
20/02/12 20:36:54 ytylQgpT.net
>>876
え、じゃあイギリスの旗はさらにそれにスコットランド分とアイルランド分が追加されるの
887:デフォルトの名無しさん
20/02/12 21:06:37.28 Kml/rCmZ.net
>>878がおもしろいことを言った