文字コード総合スレ part15at TECH
文字コード総合スレ part15 - 暇つぶし2ch469:デフォルトの名無しさん
25/09/15 20:12:18.82 oqgL1+ac.net
>>465
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?

470:デフォルトの名無しさん
25/09/16 03:15:46.45 HhaKFttb.net
>>469
手元に「汉字海」の2018年版があるけど、10万2千字超えてるよ
音未詳、義未詳、同〇〇、みたいな漢字が多数掲載

471:デフォルトの名無しさん
25/09/17 13:27:21.24 JKPLurCd.net
>>470
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね

ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ

472:デフォルトの名無しさん
25/11/07 08:24:41.35 Su4lsdFM.net
macOS 26 Tahoeアップグレード後に、正規化形式(NFD/NFC)の不具合により日本語環境でNASに接続されたTime Machineバックアップが行えない問題はmacOS 26.1でも修正されていないので注意を。
URLリンク(applech2.com)

Synologyサポートチームによる調査の結果、この問題はTime MachineバックアップをNASストレージ上に作成すると、日本語環境ではデフォルトで「Hogeのバックアップ」という名前がUnicde NFC形式で自動的に付けられ保存されるものの、macOS 26.0 Tahoeではボリューム名をNFD形式で探すようになっていることが原因だとして、
SynologyはAppleがこの問題を修正するまでの一時的な対応策として、バックアップ先のフォルダ名およびボリューム名をアルファベットのみで構成するという対処法を公開していましたが、Appleが2025年11月03日にリリースした「macOS 26.1 Tahoe」でもこの問題は修正されていませんでした。

473:デフォルトの名無しさん
25/11/10 05:32:30.23 CxzRdolU.net
>>472
macOSの正規化の問題はもはや定期

474:デフォルトの名無しさん
25/11/18 16:46:15.76 MyYbum19.net
なんかMac上のAdobeのアプリが動かなくなってるらしいけどけどパス関連
じゃないだろうね
以前、システムのドライブを大文字小文字を区別するファイルシステムにすると
動かなくなったりしたことはある

475:デフォルトの名無しさん
25/11/19 19:08:44.33 ZdmqM0ve.net
>>474
原因はまだ公表されていないが症状的にそういうOS寄りの話じゃなさそう
adobe がオンライン経由でライセンスの強制取り消しか何かの仕組みをいれようとしてバグったとかそんな感じのやつ

476:デフォルトの名無しさん
25/11/27 22:04:02.60 GJJrzAsD.net
AIにテキストが読み取られるのを防ぐために目に見えないUnicode文字を挿入する「Gibberifier」
URLリンク(gigazine.net)

文字コードの標準規格であるUnicodeには世界中で使われるさまざまな文字が登録されていますが、中には「目に見えないUnicode文字」も多数含まれています。また、そのうちの一部は目に見えない「ゼロ幅文字」となっています。

Gibberifierは入力したテキストの文字間に、ゼロ幅文字を挿入するツールです。目には見えないもののコンピューター上では存在しているゼロ幅文字を挿入することで、テキストの見た目はそのままに文字数が大幅に増加し、難読化されることでAIによる読み取りを防ぐとのこと。また、実際の文字数が見かけより大幅に増えるため、AIユーザーのトークンを無駄遣いさせることも可能です

477:デフォルトの名無しさん
25/11/27 22:14:49.16 iCPj88WE.net
HTMLや画像でも文章認識できるのは前処理してるからで
こんなもん瞬で対策されておわりでしょ

478:デフォルトの名無しさん
25/12/10 11:51:06.42 yiGhfSNm.net
皆さんUTF-8 code pageでのテストしましょう

Fix corrupted file loading on Windows system using the full UTF-8 code page. (Fix #17234)
URLリンク(github.com)

479:デフォルトの名無しさん
25/12/10 12:14:52.51 bincyYU2.net
Windows で BOM 付き UTF-8 使った時にバグるのか。
ちゃんと実装できないんなら滅んでしまえ

480:デフォルトの名無しさん
25/12/10 21:28:59.81 iFFXWT3a.net
NPP v8.8.6 32bitでは再現出来なかった

481:デフォルトの名無しさん
25/12/11 00:51:43.45 Y1AYgkFO.net
>>480
多分英語版の Windows のバグ
日本語版の Windows ならデフォルトロケールを英語 codepage 1252 に変更しないと再現しないと思う
SJISにはSJISで別の文字で類似バグがあったりするかもしれないけど

482:デフォルトの名無しさん
25/12/11 04:34:26.04 m6irsJON.net
そういえば少し前ベンダーから送られてくるログがやたら文字化けしていて
うんざりしたが、ちゃんと見てないが関係あるのかなあ
データ的にWindows上でSJISとUTF-8を混ぜこぜにしてる感じだったが
しかしいつまでこの手の問題が続くんだろ

483:デフォルトの名無しさん
25/12/11 06:20:41.73 Dn+T9u5Z.net
ちゃんと見て原因を特定しないお前のような奴がいる限り無理だろ

484:デフォルトの名無しさん
25/12/13 06:14:20.73 HDRAHpzv.net
>>483
自分がメンテしているソフトウェアで文字化けが発生しているのではなく
ベンダーがログのデータの扱い中になんかやらかしている
ログのデータをそのまんま送るだけでいいのに余計なことすんなと
そんなものに付き合ってるほど暇じゃない

485:デフォルトの名無しさん
25/12/13 14:45:54.42 ZLcC3CPk.net
最近のネット関係の実装とか脆弱性の問題をおいかけてると
セキュリティリスクになるので
・通信にはUTF8以外は使うな
・BOMは拒否しろ(付けるな認識するな)
という方向に収束していきそうだな

486:デフォルトの名無しさん
25/12/13 15:00:06.21 klNuhF9X.net
バイナリやASCIIに回帰するならわかる
Unicodeは太っちょだし実装がまだ枯れていない

487:デフォルトの名無しさん
25/12/13 17:36:17.84 4WR0tL0m.net
英数字だけならSJIS,UTF-8,ASCIIは同じなのでいいよね
改行コードの問題はあるけど。

488:デフォルトの名無しさん
25/12/13 23:27:14.26 ZLcC3CPk.net
>>486
つい最近も致命的なやつが見つかって大騒ぎ

unicode の使い方を今更統一するのは無理
文字コード変換とかあると重大的なセキュリティホールになる
UTF-8限定で他の文字コードを一切許さなければバイナリ扱いでリスクは低い
ASCIIはUTF-8の完全なサブセットなのでUTF-8扱いしても問題ない

ということらしい。

489:デフォルトの名無しさん
25/12/13 23:30:44.14 ZLcC3CPk.net
>>487
SJIS さんはバックスラッシュと円記号問題があるので駄目です。仲間には入れてもらえません。


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch