文字コード総合スレ Part10at TECH
文字コード総合スレ Part10 - 暇つぶし2ch2:デフォルトの名無しさん
15/10/14 20:30:38.15 xctG4AAd.net
■参考サイト
Unicode Home Page
URLリンク(www.unicode.org)
Java Character Encodings
URLリンク(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLリンク(euc.jp)
IANA: Character Sets
URLリンク(www.iana.org)
Legacy Encoding Project
URLリンク(sourceforge.jp)
CP50220
森山さんの説明
URLリンク(lists.sourceforge.jp)
JISX4061
日本語文字列照合順番
URLリンク(www.jisc.go.jp)

3:デフォルトの名無しさん
15/10/14 20:31:02.98 xctG4AAd.net
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
 内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
 機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

4:デフォルトの名無しさん
15/10/14 20:31:39.28 xctG4AAd.net
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「?心」簡化政策によると「?(U+6076)」に統一。口偏+?(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
 UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
 サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
 ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか

5:デフォルトの名無しさん
15/10/14 20:31:59.03 xctG4AAd.net
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
  → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
 Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
 コントロールパネル-地域と言語のオプション-[言語]タブで
 「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

6:デフォルトの名無しさん
15/10/14 23:23:47.69 obUlIRbX.net


7:デフォルトの名無しさん
15/10/14 23:28:48.06 +mXu/6rb.net
もうひとつの過去スレ:
文字コード統一スレ 1文字目
スレリンク(tech板)
隔離スレ:
UnicodeとUTF-8の違いは?
スレリンク(tech板)
UnicodeとUTF-8の違いは? その2
スレリンク(tech板)
UnicodeとUTF-8の違いは? その2
スレリンク(tech板)
UnicodeとUTF-8の違い4(インディアン隔離スレ)
スレリンク(tech板)

8:デフォルトの名無しさん
15/10/14 23:29:44.73 +mXu/6rb.net
■ライブラリ
IBM Globalization - ICU
URLリンク(www-306.ibm.com)
NKF32.DLL
URLリンク(www.vector.co.jp)
バベル
URLリンク(tricklib.com)
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
URLリンク(tricklib.com)
mlang
URLリンク(msdn.microsoft.com)(en-us).aspx
iconv
URLリンク(www.gnu.org)
ICU
URLリンク(www.icu-project.org)

9:デフォルトの名無しさん
15/10/14 23:30:41.28 +mXu/6rb.net
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
 あるいはURLリンク(masaka.dw.land.to)とか。

10:デフォルトの名無しさん
15/10/14 23:31:54.53 +mXu/6rb.net
JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
URLリンク(std.dkuug.dk)
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
URLリンク(appsrv.cse.cuhk.edu.hk)

11:デフォルトの名無しさん
15/10/15 18:31:09.40 xOsbEBDE.net
>>4が化けてるな前スレもだが

12:デフォルトの名無しさん
15/10/15 18:40:33.47 jm/ZzoYR.net
4とか5とかもう引き継がなくていいのでは

13:デフォルトの名無しさん
15/10/16 16:24:02.87 rHUq12EW.net
&amp;#x6076;

14:デフォルトの名無しさん
15/10/16 16:24:47.61 rHUq12EW.net


15:デフォルトの名無しさん
15/10/17 20:16:21.68 E+N5KQ+e.net
文化庁の文化審議会漢字小委員会は16日、漢字の手書き文字について、「とめる」か「はらう」かなど、細部にこだわって正誤を判断せず、多様な字形を認めるべきだとする指針の中間報告案をまとめた。

16:デフォルトの名無しさん
15/10/18 22:08:48.48 /JqZyvWj.net
明日から松江でWG2らしいけど文書非公開だと流れが追えなくてつまらんな

17:デフォルトの名無しさん
15/10/19 00:12:31.07 Vwmjvaq0.net
うむつまらん

18:デフォルトの名無しさん
15/10/22 19:44:06.99 HJqUYTXB.net
Unicodeおじさんがミラーしてくれた
URLリンク(www.unicode.org)
Nushuが1b170からになってるってことはKana Supplementがそこまで広がったのかな

19:デフォルトの名無しさん
15/10/24 00:34:11.18 5L65oHkd.net
>>15
これか。
URLリンク(srad.jp)
ただでさえ漢字が多すぎて困っている。それをさらに増やすような法務省の莫迦に対する歯止めとして期待。

20:デフォルトの名無しさん
15/10/25 03:36:16.82 fgAWLXG9.net
>>12
同意
古いのが多すぎるし

21:デフォルトの名無しさん
15/10/25 12:49:19.83 ekYyyren.net
>>12
引き継がないとはどういう意味ですか?

22:デフォルトの名無しさん
15/10/25 18:50:42.59 zgU7ZYeY.net
3-5と9はもうテンプレから外していいんじゃないかなって話かと
20も言うように古いし更新されてないしどういう文脈の話かわからないのもあるし
レス番指定してるレスが混じってるけどPart何スレかもわからないしよく見ると色々あれ

23:デフォルトの名無しさん
15/10/25 19:24:02.31 A/UjGnAW.net
>>3-5はいらないけど、しれっと>>9を紛れ込ませるのは許さん

24:デフォルトの名無しさん
15/10/25 19:33:16.94 8Ekj0BDy.net
>>9は議論の軌跡としては正しいのかも知れないけど内容が間違いだらけなので消した方が吉

25:デフォルトの名無しさん
15/10/26 20:48:28.23 hvOVpGBH.net
絵文字馬鹿のOむかつく
とっとと干されりゃいいのに

26:デフォルトの名無しさん
15/10/27 07:41:18.41 ecThD4uO.net
ほんとにな
他に実績ない絵を字として登録してない?
そのうちLINEスタンプとか報道写真も登録するんじゃねえの。
一方で互換性ガー言って過去のミス登録を修正しないし。
WAVE DASH例示字形ですら25年かかるという無能揃いの組織。
過去版との互換性なんかとうの昔になくなってるのに。

27:デフォルトの名無しさん
15/10/27 23:40:44.85 b1wh6dDM.net
Unicodeコンソーシアムがアレなのは否定しないってか同意だが
WAVE DASHの問題はMSが独自の変換表を使ってるからなので
正直例示字形だけ直されてもあまり意味がってか字形だけならWindows Vista以降修正されてるし
いやそりゃ正しい波の形になったから気分はすっきりするけど。

28:デフォルトの名無しさん
15/10/28 02:14:09.30 6/ByidLc.net
ってか全角チルダのほうの字形(?)を上に寄せてくれんかな。

29:デフォルトの名無しさん
15/10/28 07:10:47.43 en6I5N16.net
>WAVE DASHの問題はMSが独自の変換表を使ってるから
どうしてこういう見え透いた嘘を平気でつけるんだろうか

30:デフォルトの名無しさん
15/10/29 20:27:41.85 Lz+b+/gX.net
>>29
無知?それとも俺には問題ないという青年の主張?

31:デフォルトの名無しさん
15/11/02 21:17:58.86 AsQYV5Wm.net
>>29
勉強し直そうね

32:デフォルトの名無しさん
15/11/02 21:18:31.16 AsQYV5Wm.net
>>28
ほんまそれ

33:デフォルトの名無しさん
15/11/03 04:49:27.68 i5nTnJv9.net
逆Sの記号ってなんでないんだろう?

34:デフォルトの名無しさん
15/11/03 05:49:15.31 zO1n76ez.net
M?

35:デフォルトの名無しさん
15/11/03 07:38:16.60 sxF23lrF.net
Ƨ

36:デフォルトの名無しさん
15/11/03 17:26:02.76 P1Dl09Tr.net
クローゼットの中にそういうハンガーみたいな金具たくさん入ってるけど
どういうときに使えるのか未だにわからない。

37:デフォルトの名無しさん
15/11/04 00:41:30.22 L8/5F95r.net
肩の厚みのあるハンガーをたくさんかけると、
スペースが無駄になるので互い違いに高さを変える。

38:デフォルトの名無しさん
15/11/04 01:28:04.95 uMca4o1w.net
向きが90度ずれない?
S字のを2個連結すれば戻るけど2個使い前提の道具なの?

39:デフォルトの名無しさん
15/11/04 16:58:03.51 QtO4ndAT.net
あれはスペースの有効活用が優先で
向きがずれる(逆になる)のは承知で使うんじゃないか?
>>31
しかし、チルダの全角形を本来の意味(?)で必要としているユーザーはどれだけいるんだろうかと思う

40:デフォルトの名無しさん
15/11/05 23:49:21.72 clXjiXU8.net
スレ違いかもしれんが
ネットで、ある日本語のテキストファイルを見たら化け化けだった
3分の1くらいのみ見れる
これをブラウザで簡体字中国語を選ぶと見れるという書き込みを見つけたので、
そうしたら見れた
これはどういうこと?
中国語扱う人が日本語をGB2312でエンコードしてたってこと?

41:デフォルトの名無しさん
15/11/05 23:59:17.68 gSAo/oaU.net
ふつうに考えるとそうだろうな

42:デフォルトの名無しさん
15/11/06 06:30:43.46 6Ax8SlYK.net
>>39
使用頻度は気にしなくていいんだよ
全チルがあればそれでいい
あとはマッピング直してくれれば。

43:デフォルトの名無しさん
15/11/07 23:09:16.59 NHx999Nj.net
URLリンク(wired.jp)

44:デフォルトの名無しさん
15/11/08 14:35:15.95 y8uRNach.net
お国自慢絵文字か。文字コードに押し込もうというわけでなければ、
ありふれたご当地ゆるキャラを何匹か並べたら大体同じ趣旨の日本版になるな。

45:デフォルトの名無しさん
15/11/08 17:13:00.26 BjW4Fik6.net
絵文字は文字以上に定義も難しいしキリがないからユーザー外字領域に閉じ込めておけばよかったのに。

46:デフォルトの名無しさん
15/11/09 00:23:08.17 loOQ2SCd.net
作った奴と押し込む奴は往々にして別、

47:デフォルトの名無しさん
15/11/09 01:28:50.80 9QpSgphP.net
>>46
?

48:デフォルトの名無しさん
15/11/09 07:42:22.13 L+fm0eEi.net
さすがに、外字領域での大規模な運用ぐらいはされてないと押し込みの提案も出ないんじゃなかろうか

49:デフォルトの名無しさん
15/11/09 09:49:40.58 Yjqxj+LL.net
nokiaの端末に入っちゃったんでしょう?

50:デフォルトの名無しさん
15/11/09 14:08:54.96 wh2HsxEX.net
Unicode 10.0あたりになったら収録されるんだろうか?

51:デフォルトの名無しさん
15/11/09 22:16:17.29 yLbPQAdL.net
>>49
そうなの?文字として?

52:デフォルトの名無しさん
15/11/09 23:44:45.41 BJx9eA+t.net
ビットコインマーク、Unicodeに収録へ | スラド IT
URLリンク(it.srad.jp)
Bitcoin 'B' Approved By Computer Text Standards Body
URLリンク(www.coindesk.com)
URLリンク(www.unicode.org)

53:デフォルトの名無しさん
15/11/10 12:10:29.99 tU9IcOly.net
ペリカもはよ

54:デフォルトの名無しさん
15/11/11 22:12:58.76 mDE1AFdu.net




55:& ◆Pw.ZL0FkaP42
15/11/11 22:13:45.21 mDE1AFdu.net
s

56:デフォルトの名無しさん
15/11/11 22:23:37.04 rMaJFptQ.net
GB2312に平仮名、片仮名が収録されているというのも不可解なもんだ。
あいつら反日、嫌日のはずなのに。

57:デフォルトの名無しさん
15/11/11 23:13:58.34 oIjjO58x.net
シュエエアィサィ的な使い方を想定していたんじゃなかろうか

58:デフォルトの名無しさん
15/11/12 23:09:21.24 fGMv4NR4.net
しかも簡体字フォントの仮名のデザインが脱力。
日本語版Windowsにも標準で付いている。たぶんMacにも。

59:デフォルトの名無しさん
15/11/13 14:48:06.39 tDbTQZeN.net
韓国のKS C 5601(KS X 1001)にも平仮名、片仮名入ってるし
単にJIS C 6226(JIS X 0208)の構造コピーして必要なところ以外はそのまま放置しただけなんじゃ……。

60:デフォルトの名無しさん
15/11/13 16:17:05.05 UEuwKYUJ.net
日本語の文章捏造するために必要だから

61:デフォルトの名無しさん
15/11/13 17:57:15.36 P1S0o/po.net
GBKはX 0208をベースに作った
韓国はX 0208をパクった上に起源を主張し出した

62:デフォルトの名無しさん
15/11/14 12:15:58.19 cxUMG3m7.net
そういうのは嫌韓嫌中スレでやってねw

63:デフォルトの名無しさん
15/11/14 16:21:16.08 JBEqdozk.net
Androidでのダウンロードしたアプリのapkファイルを取り出してESファイルエクスプローラというアプリでapkファイルの拡張子をzipにして中身を見てるんだけど文字化けしてみえない
どの文字コードにしても見えない

64:デフォルトの名無しさん
15/11/14 16:31:04.02 1yIT8GQx.net
文字コード関係なし

65:デフォルトの名無しさん
15/11/18 16:49:52.57 UgIpz7zK.net
すみません
今ISO-IRの資料を収集してるんですが
URLリンク(www.itscj.ipsj.or.jp)
の対応表ファイル持ってる方いらっしゃいませんか?
PDFはサーバーにデータ残ってるみたいで保存出来たんですが
他は消されちゃったみたいなんですよね。。。

66:デフォルトの名無しさん
15/11/19 01:28:49.91 Cr0FNu0Z.net
これ?
URLリンク(www.itscj.ipsj.or.jp)

67:デフォルトの名無しさん
15/11/20 02:58:25.44 n24r8VSJ.net
人名漢字など「文字情報基盤」約6万字の暫定私用コードと対応フォント公開 -INTERNET Watch
URLリンク(internet.watch.impress.co.jp)

68:デフォルトの名無しさん
15/11/20 16:27:32.87 Q3IEXjzg.net
>>66
そう、これです!
ありがとうございます!
ずっと
URLリンク(www.itscj.ipsj.or.jp)

URLリンク(kikaku.itscj.ipsj.or.jp)
の方ばかり探してたんですが、
https://の方にまだあったんですね、気付かなかった。。。
ありがとうございました。

69:デフォルトの名無しさん
15/11/21 03:23:51.12 YeqL1+4P.net
gbkの ひらがな はEUC-JPと互換性がある
ひらがなが含まれてるgbkなテキストファイルを自動判別すると
EUC-JPと認識される

70:デフォルトの名無しさん
15/11/21 06:36:56.04 GdR6w5S8.net
お前かお前の使ってるクソソフトが認識したことを
さも普遍的であるかのように「認識される」と書かれても

71:デフォルトの名無しさん
15/11/21 14:00:50.43 EEYvP2Nj.net
>>70
EmEditor と 日本語しか対応してないものはすべて同様なんだが
英語圏の方がまとも

72:デフォルトの名無しさん
15/11/21 14:57:31.75 w+2inzGV.net
全てって…
具体名を十個挙げてみてくれ。

73:デフォルトの名無しさん
15/11/22 15:40:38.08 CReeeeGe.net
仕様と実装をごちゃ混ぜにしないでほしい

74:デフォルトの名無しさん
15/11/24 07:50:30.03 CRysEeOZ.net
grepをutf16対応にして欲しいわ

75:デフォルトの名無しさん
15/11/24 12:09:48.94 BW2JWDBU.net
>>73
ANSI(SJIS) / JIS / EUC(EUC-JP) / UNICODE / UTF-8
だけしか対応してないんなら仕様だろうけど
EmEditorはgbk / big5も表示可能だが自動識別はダメ

76:デフォルトの名無しさん
15/11/24 16:09:46.89 y63rqxtS.net
EUC系の自動判別には限界があるってだけの話じゃないのそれ

77:デフォルトの名無しさん
15/11/24 17:13:28.90 AzY4Y1Jb.net
馬鹿に言ってもしょうがないんだよなあ

78:デフォルトの名無しさん
15/11/24 21:06:35.37 T8a74y+F.net
文字コードの仕様の話と製品の仕様(実装)の話をごっちゃにしないでください

79:デフォルトの名無しさん
15/11/25 13:54:24.53 5G4DFNSQ.net
文字化けし辛い・自動判別に強いという意味ではISO-2022-JP最強だな

80:デフォルトの名無しさん
15/11/25 21:01:53.81 Bzkw7eST.net
>>74
utf-8でガマンガマン

81:デフォルトの名無しさん
15/11/26 10:04:26.60 esn3xG4v.net
プログラミングやマークアップで場面によって"utf8"だったり"utf-8"だったり"UTF8"だったり"UTF-8"だったりするのは何とかならんのですかね

82:デフォルトの名無しさん
15/11/26 18:52:12.64 V1IifTg+.net
>>81
それな。
動きおかしいと思ったらハイフンついてたとかある。

83:デフォルトの名無しさん
15/11/26 20:23:24.34 k6+g+Go3.net
>>79
URLリンク(ja.wikipedia.org)
独自拡張しすぎだろ
utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな

84:デフォルトの名無しさん
15/11/26 22:39:18.80 i5VTRdPj.net
>>82
utf-8に関しては-が付いてておかしくなる方がおかしい。

85:デフォルトの名無しさん
15/11/26 22:43:40.69 i5VTRdPj.net
>>83
> ANSI(s-jis)
糞表現w

86:デフォルトの名無しさん
15/11/26 23:24:19.12 dmQOYIsX.net
>>85
悪かったな

糞やろう。

87:デフォルトの名無しさん
15/11/26 23:37:04.25 o1tgPu22.net
そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ

88:デフォルトの名無しさん
15/11/26 23:41:50.71 1gB3GczG.net
お前が馬鹿だ

89:デフォルトの名無しさん
15/11/27 07:32:51.99 B8BSEsh/.net
>>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな?
コマンドですか? GUIですか?
コマンドなら、画面の環境に依存したりする

90:デフォルトの名無しさん
15/11/27 15:43:44.97 ssdfMMFk.net
>>89
検索対象のデータだけでなく、
引数や端末のencoding systemも関係するからねえ。

91:デフォルトの名無しさん
15/11/30 21:59:17.66 jgXroiuo.net
「して欲しい」じゃなく自分でやってみればいいのに。

92:デフォルトの名無しさん
15/11/30 22:34:12.03 CwTedwfo.net
UTF-8って日本語はほぼ3バイトだと思っていいんだっけ?
仕事仲間がそう言ってたけど不安。

93:デフォルトの名無しさん
15/11/30 22:58:14.64 /7/T57pL.net
そういう曖昧な表現なら答えはyesでありnoでもあるだろう

94:デフォルトの名無しさん
15/12/01 02:33:52.32 juK8PVcx.net
iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい
# 日本人にとってUTF-8がいいわけない

95:デフォルトの名無しさん
15/12/01 02:44:11.35 juK8PVcx.net
ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.
3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.
URLリンク(forum.dlang.org)

96:デフォルトの名無しさん
15/12/01 03:51:29.82 Ik5f2d1Y.net
>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな
UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった
$ wc -c 1444822140-*
&nbsp;26775 1444822140-cp932.dat
&nbsp;40234 1444822140-utf16.dat
&nbsp;33434 1444822140-utf8.dat
ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない

97:デフォルトの名無しさん
15/12/01 10:01:27.63 2Tu3vetc.net
UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える
%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93
とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング?する時の問題だけれど。

98:デフォルトの名無しさん
15/12/01 19:29:51.08 k1p/Pdr9.net
パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。

99:デフォルトの名無しさん
15/12/01 20:03:05.10 ampHwdqN.net
別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ

100:デフォルトの名無しさん
15/12/01 20:18:47.62 cchxtPU5.net
>>94
そんな程度のことでutf-8を辞める訳にはいかない。

101:デフォルトの名無しさん
15/12/01 20:40:03.81 RA+mqEJ1.net
>>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない

102:デフォルトの名無しさん
15/12/01 22:44:13.88 /t42lLyY.net
URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ

103:デフォルトの名無しさん
15/12/01 23:03:02.39 csnzGfyE.net
なんでやめないといけないぷに?
いいじゃないかぷに。

104:デフォルトの名無しさん
15/12/02 01:31:49.86 3/uIxAsF.net
日本語のソート順くらい日本人に決めさせろや

105:デフォルトの名無しさん
15/12/02 09:35:48.18 wYxvpGTD.net
人の感覚じゃなくて、機械的な感覚がないと・・・

106:デフォルトの名無しさん
15/12/02 10:05:36.38 amR8vvu9.net
>>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。

107:デフォルトの名無しさん
15/12/02 10:18:22.35 wYxvpGTD.net
JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・
脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも あ・・・

108:デフォルトの名無しさん
15/12/02 13:55:56.97 NJ9kFAss.net
日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。

109:デフォルトの名無しさん
15/12/04 12:30:36.89 ujmgtERp.net
最近勉強し出したのか?
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね?
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。

110:デフォルトの名無しさん
15/12/04 12:38:17.66 kxI+vXrK.net
シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。

111:デフォルトの名無しさん
15/12/04 12:53:33.88 gpSQ8UEd.net
でもJISコードなら希望通りのソートができるわけでもないだろ

112:デフォルトの名無しさん
15/12/04 14:24:16.07 616grxEX.net
何のために仮名文字があると思っているのか。

113:デフォルトの名無しさん
15/12/04 18:29:07.64 zfbjjPeM.net
文字コード順でソートしてるアホ

114:デフォルトの名無しさん
15/12/04 20:17:25.57 urrQLDlj.net
いつまでたっても文字集合順序バカはいなくならないね。
全てのいじたいに

115:デフォルトの名無しさん
15/12/05 09:09:04.31 0xZl9ZTr.net
半角カタカナで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角カタカナで比較して行を並べ替える

116:デフォルトの名無しさん
15/12/05 10:43:28.38 oE97tTMi.net
なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?

117:デフォルトの名無しさん
15/12/05 11:20:47.89 VAg3AW+y.net
>>116
アメリカ人がバカだから

118:デフォルトの名無しさん
15/12/05 19:58:46.22 kjmBg6FK.net
>>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。

119:デフォルトの名無しさん
15/12/05 20:50:07.85 K2AVyHLa.net
>>116
あれアンジーって読むのか。
なんとなくアンザイとかだと思ってた。

120:デフォルトの名無しさん
15/12/06 00:47:45.72 ods/Bdie.net
英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし

121:デフォルトの名無しさん
15/12/06 09:58:13.03 pIhfFp+J.net
>>119
普通はアンシだけど、調べてみたらアンジでもいいみたい。
アンシ以外は聞いたことがなかった。

122:デフォルトの名無しさん
15/12/06 10:48:45.84 snTz5MuC.net
お前らも意味不明な文章を見たときに
「日本語でおK」って言うだろ?
それと同じ事だ

123:デフォルトの名無しさん
15/12/06 11:36:05.85 jSbqCg57.net
答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される

124:デフォルトの名無しさん
15/12/06 12:39:48.92 61iq3tHI.net
>>120
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という理解だろうね。

125:デフォルトの名無しさん
15/12/07 08:05:52.84 jRU2iLzO.net
>>120
なるほど。
ドラフトに噛んでただけなのか

126:デフォルトの名無しさん
15/12/09 07:55:39.86 jI2VmBLr.net
というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。

127:デフォルトの名無しさん
15/12/09 08:29:25.15 Kwr/X5Fv.net
ほうほう、シフトジスもANSIが決めたのですか
それは初耳です

128:デフォルトの名無しさん
15/12/09 09:52:29.63 jI2VmBLr.net
>>127
>>124みたいな話でしょ

129:デフォルトの名無しさん
15/12/09 16:27:04.50 lqAlbDFw.net
カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna

130:デフォルトの名無しさん
15/12/09 22:54:10.41 wiCS3usg.net
朝感度
磯感度

131:デフォルトの名無しさん
15/12/10 08:01:54.07 XGY4goXY.net
>>127
えっ!?何言ってんの⁇

132:デフォルトの名無しさん
15/12/18 18:25:49.47 HJbW+QnG.net
>>108
NDL-70のマネだからな
URLリンク(www.wdic.org)

133:デフォルトの名無しさん
15/12/19 00:00:59.61 CW6jl8Ze.net
第一水準のなんでこの漢字訓読みなんだって漢字もそれ由来なん?

134:デフォルトの名無しさん
15/12/19 09:33:24.36 HazuH4Vs.net
たとえばおしえて

135:デフォルトの名無しさん
15/12/19 22:28:28.39 dMkmHKK1.net
NDL-70の「扱」は「圧」と「安」の間

136:デフォルトの名無しさん
15/12/20 02:41:57.27 YliIi6mv.net
あっあっあん

137:デフォルトの名無しさん
15/12/20 10:16:50.75 XCzWC+ME.net
しごく
こく

138:デフォルトの名無しさん
15/12/20 10:19:07.37 XCzWC+ME.net
音読みが表外

139:デフォルトの名無しさん
16/01/01 03:45:50.30 doWmnGIT.net
あけまして

140:デフォルトの名無しさん
16/01/01 10:51:09.09 w8UZcEt0.net
しめました

141:デフォルトの名無しさん
16/01/01 23:48:50.10 AG0KIon8.net
ISO/IEC 10646のAmd.はもう無料公開されないのかしら

142:デフォルトの名無しさん
16/01/03 11:09:11.17 dkSYzm34.net
安岡センセイ絶賛ステマ中
URLリンク(srad.jp)
>MZ-80Kの文字コードはなぜ変態的だったのか

143:デフォルトの名無しさん
16/01/06 19:04:13.23 JzbnS0qc.net
年寄りの昔話だな

144:デフォルトの名無しさん
16/01/06 20:12:47.63 iuDSHbH+.net
書き起こして記録しておくことは大切

145:デフォルトの名無しさん
16/01/06 20:53:18.67 PPpC6D2R.net
確かに。

146:デフォルトの名無しさん
16/01/15 16:58:58.27 KQq8mMFq.net
特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。

147:デフォルトの名無しさん
16/01/15 18:41:54.97 P2RUw3PT.net
豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では

148:デフォルトの名無しさん
16/01/16 01:02:26.88 JNkmPv0K.net
何個の豆腐かにもよるんじゃなかろうか

149:デフォルトの名無しさん
16/01/19 13:39:56.61 dtt1X0Ve.net
URLリンク(srad.jp)
安岡センセイ荒れてるけど
Unihanフリーだから論文に使ってもいいんじゃないの?

150:デフォルトの名無しさん
16/01/19 20:31:34.42 AH+kA+fr.net
使ったならちゃんとそう書けって話で
使うなということではない

151:デフォルトの名無しさん
16/01/22 19:46:47.72 Eb9O6glo.net
[要出典]
てか

152:デフォルトの名無しさん
16/01/22 20:00:04.23 QBUelO2B.net
アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は

153:デフォルトの名無しさん
16/01/25 22:08:23.80 hLxKxz0/.net
Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス

154:デフォルトの名無しさん
16/01/25 22:37:19.56 1JcfbMU3.net
そんな甘い考えでやっちまったんだろうなあ


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch