文字コード総合スレ Part10at TECH
文字コード総合スレ Part10 - 暇つぶし2ch83:デフォルトの名無しさん
15/11/26 20:23:24.34 k6+g+Go3.net
>>79
URLリンク(ja.wikipedia.org)
独自拡張しすぎだろ
utf-8最強なのだが
Win9x時代に ANSI(s-jis) + utf-8(※s-jisに無い文字をutf-8にしてる) なんてファイル作る糞ソフトがあったな

84:デフォルトの名無しさん
15/11/26 22:39:18.80 i5VTRdPj.net
>>82
utf-8に関しては-が付いてておかしくなる方がおかしい。

85:デフォルトの名無しさん
15/11/26 22:43:40.69 i5VTRdPj.net
>>83
> ANSI(s-jis)
糞表現w

86:デフォルトの名無しさん
15/11/26 23:24:19.12 dmQOYIsX.net
>>85
悪かったな

糞やろう。

87:デフォルトの名無しさん
15/11/26 23:37:04.25 o1tgPu22.net
そんなのはプログラミングやマークアップでの指定方法の仕様次第
おかしくなると思うのはバカ

88:デフォルトの名無しさん
15/11/26 23:41:50.71 1gB3GczG.net
お前が馬鹿だ

89:デフォルトの名無しさん
15/11/27 07:32:51.99 B8BSEsh/.net
>>74
がまんしないで、要望をかいたほうがいいとおもう
どういうgrepがいいのかな?
コマンドですか? GUIですか?
コマンドなら、画面の環境に依存したりする

90:デフォルトの名無しさん
15/11/27 15:43:44.97 ssdfMMFk.net
>>89
検索対象のデータだけでなく、
引数や端末のencoding systemも関係するからねえ。

91:デフォルトの名無しさん
15/11/30 21:59:17.66 jgXroiuo.net
「して欲しい」じゃなく自分でやってみればいいのに。

92:デフォルトの名無しさん
15/11/30 22:34:12.03 CwTedwfo.net
UTF-8って日本語はほぼ3バイトだと思っていいんだっけ?
仕事仲間がそう言ってたけど不安。

93:デフォルトの名無しさん
15/11/30 22:58:14.64 /7/T57pL.net
そういう曖昧な表現なら答えはyesでありnoでもあるだろう

94:デフォルトの名無しさん
15/12/01 02:33:52.32 juK8PVcx.net
iconv -f Shift_JIS -t UTF-8 file_name > new_file
サイズを比較
new_fileは、file_nameより1.5倍おおきい
# 日本人にとってUTF-8がいいわけない

95:デフォルトの名無しさん
15/12/01 02:44:11.35 juK8PVcx.net
ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.
3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.
URLリンク(forum.dlang.org)

96:デフォルトの名無しさん
15/12/01 03:51:29.82 Ik5f2d1Y.net
>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな
UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった
$ wc -c 1444822140-*
 26775 1444822140-cp932.dat
 40234 1444822140-utf16.dat
 33434 1444822140-utf8.dat
ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない

97:デフォルトの名無しさん
15/12/01 10:01:27.63 2Tu3vetc.net
UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える
%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93
とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング?する時の問題だけれど。

98:デフォルトの名無しさん
15/12/01 19:29:51.08 k1p/Pdr9.net
パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。

99:デフォルトの名無しさん
15/12/01 20:03:05.10 ampHwdqN.net
別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ

100:デフォルトの名無しさん
15/12/01 20:18:47.62 cchxtPU5.net
>>94
そんな程度のことでutf-8を辞める訳にはいかない。

101:デフォルトの名無しさん
15/12/01 20:40:03.81 RA+mqEJ1.net
>>99
完全に隠蔽されてりゃいいけど
日常生活で目に入ってしまうんだから
糞としか言いようがない

102:デフォルトの名無しさん
15/12/01 22:44:13.88 /t42lLyY.net
URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ

103:デフォルトの名無しさん
15/12/01 23:03:02.39 csnzGfyE.net
なんでやめないといけないぷに?
いいじゃないかぷに。

104:デフォルトの名無しさん
15/12/02 01:31:49.86 3/uIxAsF.net
日本語のソート順くらい日本人に決めさせろや

105:デフォルトの名無しさん
15/12/02 09:35:48.18 wYxvpGTD.net
人の感覚じゃなくて、機械的な感覚がないと・・・

106:デフォルトの名無しさん
15/12/02 10:05:36.38 amR8vvu9.net
>>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。

107:デフォルトの名無しさん
15/12/02 10:18:22.35 wYxvpGTD.net
JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・
脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも あ・・・

108:デフォルトの名無しさん
15/12/02 13:55:56.97 NJ9kFAss.net
日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。

109:デフォルトの名無しさん
15/12/04 12:30:36.89 ujmgtERp.net
最近勉強し出したのか?
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね?
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。

110:デフォルトの名無しさん
15/12/04 12:38:17.66 kxI+vXrK.net
シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。

111:デフォルトの名無しさん
15/12/04 12:53:33.88 gpSQ8UEd.net
でもJISコードなら希望通りのソートができるわけでもないだろ

112:デフォルトの名無しさん
15/12/04 14:24:16.07 616grxEX.net
何のために仮名文字があると思っているのか。

113:デフォルトの名無しさん
15/12/04 18:29:07.64 zfbjjPeM.net
文字コード順でソートしてるアホ

114:デフォルトの名無しさん
15/12/04 20:17:25.57 urrQLDlj.net
いつまでたっても文字集合順序バカはいなくならないね。
全てのいじたいに

115:デフォルトの名無しさん
15/12/05 09:09:04.31 0xZl9ZTr.net
半角カタカナで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角カタカナで比較して行を並べ替える

116:デフォルトの名無しさん
15/12/05 10:43:28.38 oE97tTMi.net
なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?

117:デフォルトの名無しさん
15/12/05 11:20:47.89 VAg3AW+y.net
>>116
アメリカ人がバカだから

118:デフォルトの名無しさん
15/12/05 19:58:46.22 kjmBg6FK.net
>>117
Unicodeもね。
なんで符号化方式の名前じゃなくて制定した組織の名称なのかは謎。
しかも日本語環境ならANSI(=ASCII)ですらないっていう嘘表記。

119:デフォルトの名無しさん
15/12/05 20:50:07.85 K2AVyHLa.net
>>116
あれアンジーって読むのか。
なんとなくアンザイとかだと思ってた。

120:デフォルトの名無しさん
15/12/06 00:47:45.72 ods/Bdie.net
英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし

121:デフォルトの名無しさん
15/12/06 09:58:13.03 pIhfFp+J.net
>>119
普通はアンシだけど、調べてみたらアンジでもいいみたい。
アンシ以外は聞いたことがなかった。

122:デフォルトの名無しさん
15/12/06 10:48:45.84 snTz5MuC.net
お前らも意味不明な文章を見たときに
「日本語でおK」って言うだろ?
それと同じ事だ

123:デフォルトの名無しさん
15/12/06 11:36:05.85 jSbqCg57.net
答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される

124:デフォルトの名無しさん
15/12/06 12:39:48.92 61iq3tHI.net
>>120
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という理解だろうね。

125:デフォルトの名無しさん
15/12/07 08:05:52.84 jRU2iLzO.net
>>120
なるほど。
ドラフトに噛んでただけなのか

126:デフォルトの名無しさん
15/12/09 07:55:39.86 jI2VmBLr.net
というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。

127:デフォルトの名無しさん
15/12/09 08:29:25.15 Kwr/X5Fv.net
ほうほう、シフトジスもANSIが決めたのですか
それは初耳です

128:デフォルトの名無しさん
15/12/09 09:52:29.63 jI2VmBLr.net
>>127
>>124みたいな話でしょ

129:デフォルトの名無しさん
15/12/09 16:27:04.50 lqAlbDFw.net
カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna

130:デフォルトの名無しさん
15/12/09 22:54:10.41 wiCS3usg.net
朝感度
磯感度

131:デフォルトの名無しさん
15/12/10 08:01:54.07 XGY4goXY.net
>>127
えっ!?何言ってんの⁇

132:デフォルトの名無しさん
15/12/18 18:25:49.47 HJbW+QnG.net
>>108
NDL-70のマネだからな
URLリンク(www.wdic.org)

133:デフォルトの名無しさん
15/12/19 00:00:59.61 CW6jl8Ze.net
第一水準のなんでこの漢字訓読みなんだって漢字もそれ由来なん?

134:デフォルトの名無しさん
15/12/19 09:33:24.36 HazuH4Vs.net
たとえばおしえて

135:デフォルトの名無しさん
15/12/19 22:28:28.39 dMkmHKK1.net
NDL-70の「扱」は「圧」と「安」の間

136:デフォルトの名無しさん
15/12/20 02:41:57.27 YliIi6mv.net
あっあっあん

137:デフォルトの名無しさん
15/12/20 10:16:50.75 XCzWC+ME.net
しごく
こく

138:デフォルトの名無しさん
15/12/20 10:19:07.37 XCzWC+ME.net
音読みが表外

139:デフォルトの名無しさん
16/01/01 03:45:50.30 doWmnGIT.net
あけまして

140:デフォルトの名無しさん
16/01/01 10:51:09.09 w8UZcEt0.net
しめました

141:デフォルトの名無しさん
16/01/01 23:48:50.10 AG0KIon8.net
ISO/IEC 10646のAmd.はもう無料公開されないのかしら

142:デフォルトの名無しさん
16/01/03 11:09:11.17 dkSYzm34.net
安岡センセイ絶賛ステマ中
URLリンク(srad.jp)
>MZ-80Kの文字コードはなぜ変態的だったのか

143:デフォルトの名無しさん
16/01/06 19:04:13.23 JzbnS0qc.net
年寄りの昔話だな

144:デフォルトの名無しさん
16/01/06 20:12:47.63 iuDSHbH+.net
書き起こして記録しておくことは大切

145:デフォルトの名無しさん
16/01/06 20:53:18.67 PPpC6D2R.net
確かに。

146:デフォルトの名無しさん
16/01/15 16:58:58.27 KQq8mMFq.net
特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。

147:デフォルトの名無しさん
16/01/15 18:41:54.97 P2RUw3PT.net
豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では

148:デフォルトの名無しさん
16/01/16 01:02:26.88 JNkmPv0K.net
何個の豆腐かにもよるんじゃなかろうか

149:デフォルトの名無しさん
16/01/19 13:39:56.61 dtt1X0Ve.net
URLリンク(srad.jp)
安岡センセイ荒れてるけど
Unihanフリーだから論文に使ってもいいんじゃないの?

150:デフォルトの名無しさん
16/01/19 20:31:34.42 AH+kA+fr.net
使ったならちゃんとそう書けって話で
使うなということではない

151:デフォルトの名無しさん
16/01/22 19:46:47.72 Eb9O6glo.net
[要出典]
てか

152:デフォルトの名無しさん
16/01/22 20:00:04.23 QBUelO2B.net
アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は

153:デフォルトの名無しさん
16/01/25 22:08:23.80 hLxKxz0/.net
Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス

154:デフォルトの名無しさん
16/01/25 22:37:19.56 1JcfbMU3.net
そんな甘い考えでやっちまったんだろうなあ


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch