SJIS撲滅運動at UNIX
SJIS撲滅運動 - 暇つぶし2ch250:名無しさん@お腹いっぱい。
03/07/01 22:02.net
Unicode って字を組み合わせる規格なかったっけ?
〇と 1 とか。

251:名無しさん@お腹いっぱい。
03/07/01 22:46.net
あるけどさ。
口{〇, 1} こんな感じで三文字に。(丸付き一)
口{〇, ∥{3, 4}} こんな感じで四文字に。(丸付き三十四)
こういうので済むなら、丸つき数字を文字集合に含める必要ないしな。
白抜きがどうにもならんし。

252:あぼーん
あぼーん.net
あぼーん

253:あぼーん
あぼーん.net
あぼーん

254:名無しさん@お腹いっぱい。
03/08/14 07:57.net
へーこんな仕組みできたなんて知らなかった。
管直人もいろいろ工夫してるもんだね。なにが条件になってるんだろう?

255:あぼーん
あぼーん.net
あぼーん

256:名無しさん@お腹いっぱい。
03/08/14 17:05.net
SJISよりも関西弁を撲滅してください

257:名無しさん@Emacs
03/08/15 01:19.net
>>256
なんでやねん?


258:あぼーん
あぼーん.net
あぼーん

259:あぼーん
あぼーん.net
あぼーん

260:ヽ(´ー`)ノ
03/08/18 11:21.net
>>254
山崎渉って From に書くと fushianasan になるんじゃなかったっけ?


261:名無しさん@お腹いっぱい。
03/10/09 04:56.net
www.cbook24.com/bm_detail.asp?sku=4901676156

262:名無しさん@お腹いっぱい。
03/10/09 23:45.net
SJISはいいけどCP932を撲滅しる。

263:名無しさん@お腹いっぱい。
03/10/10 17:57.net
互換性がなくなるから無理

264:名無しさん@お腹いっぱい。
03/10/11 00:36.net
つーかCP932が非互換の元凶。

265:名無しさん@お腹いっぱい。
03/10/11 02:02.net
うにコードだって、別にUTF-8だけじゃないしなぁ・・・









いわゆる駄スレってこれのことか?

266:名無しさん@お腹いっぱい。
03/10/11 13:43.net
UCS-4 で満足だとでも?

267:名無しさん@お腹いっぱい。
03/10/11 14:25.net
ゼロから作りなおさないかぎり Unicode はすべてクソ。

268:名無しさん@お腹いっぱい。
03/10/11 14:39.net
>>267
ゼロは無だと思うから「作りなおす」ことはできない
ゼロから作りあげるが適切

269:名無しさん@お腹いっぱい。
03/10/11 21:41.net
UnicodeはBOMがウザい。誰だよあんな余計なもの考えた奴は。

まぁ、実際は文字コード以上に改行コードの違いがウザい訳だが。

270:名無しさん@お腹いっぱい。
03/10/12 02:43.net
URLリンク(www.alanwood.net)

271:名無しさん@お腹いっぱい。
03/10/12 13:05.net
どれでもいいからひとつにしてくれ・・・マジで

272:名無しさん@お腹いっぱい。
03/10/12 23:18.net
>>232
> URLリンク(www2d.biglobe.ne.jp)

そのWebサイトに書いてあることは嘘があったり重要なことが抜けてたりするので
あまり参考にしない方がいい。

たいていの場合、JIS X 0201の片仮名用図形文字集合(いわゆる半角カタカナ)は
使ってはいけない。ISO-2022(例外あり)もISO-2022-JPもShift JISもEUC-JPも
UTF-8もUTF-16も。
同様にJIS X 0208の一部の文字(いわゆる全角英数)も使ってはいけない。
「?」や「/」のJIS X 0208の方もダメ。

273:名無しさん@お腹いっぱい。
03/10/12 23:40.net
UTF-8撲滅sage

274:名無しさん@お腹いっぱい。
03/10/12 23:55.net
>>272
で、使ってはいけない理由を言おうとはしないわけですね。

275:名無しさん@お腹いっぱい。
03/10/13 00:11.net
>>272
> そのWebサイトに書いてあることは嘘があったり重要なことが抜けてたりするので
たとえばどの辺ですか?

276:名無しさん@お腹いっぱい。
03/10/13 00:30.net
「半角片仮名」という言葉が間違いで「JIS X 0201片仮名」というのが
正しいのだ、と覚えた人には、単に言葉を置き換えればよいと思って
いる場合があるようだ。これは肝心なところを誤解している。

何が誤解かというと、JIS X 0201に含まれる片仮名は、普通の「片仮名」
なのであって、「半角片仮名」でもなければ「『JIS X 0201の片仮名』
という名の特殊な片仮名」でもないということ。普通の片仮名なのだから、
JIS X 0208に含まれている片仮名と何の違いもない。

つまり、シフトJISのようにJIS X 0201と0208を組み合わせたコードでは、
同じ「ア」という文字に対して(1バイトと2バイトの)ふたつの異なる
符号化表現を割り当てている(重複符号化)のであって、「半角ア」と
「全角ア」という(あるいは「JIS X 0201のア」などと呼ぶにせよ)
2つの異なる文字があるのではないということ。ここを勘違いした議論は、
どこまでいっても勘違いに終わっている。

勘違いの典型は、「UnicodeでJIS X 0201の片仮名は使えますか?」などと
いう質問で、「JIS X 0201の片仮名」などという特殊な片仮名がこの世に
存在しない以上、「Unicodeには片仮名はありますよ」と答えるほかない。
(意地悪な答えだけど)

277:272
03/10/13 03:18.net
ISO-2022-JP、EUC-JPの場合:
使ってはいけない理由の根本はISO/IEC 2022にあります。JISでいうとJIS X
0202。「7.5 図形文字の一意な符号化」にはこう書かれています。
----ここから引用----
同じ文字が8ビット又は7ビットの符号の符号要素のG0, G1, G2及びG3として、指
示される複数の図形文字集合に現れることがある。このような文字は、二つの集
合を定義する仕様又はISO符号化文字集合の国際登録簿で同じ名前をもつ場合、
同じ文字とみなされる。
同一の文字が複数の集合に割り当てられている場合、その文字は、その文字が割
り当てられた任意の符号要素のG0, G1, G2又はG3から取り出された符号化表現で
表現されてよい。
この規格を適用する場合、情報交換の際にすべての文字が一意の符号化表現をも
つことを要求されるとき、符号の版の規定(10.1参照)で、その制限を明らかにし
なければならない。
符号の一意化の制限を適用した場合、その文字が割り当てられた最下位番号の符
号要素(G0, G1, G2及びG3の順)から符号化表現が表現される。この場合、たとえ、
高位番号の符号要素が既に呼び出されていて、かつ、その文字が割り当てられて
いる下位番号の符号要素が呼び出されていないときでも、高位番号の符号要素の
文字の符号化表現は、使用しない。
----ここまで引用----

「二つの集合を定義する仕様」というのはこの場合JIS X 0201とJIS X 0208です。
さて、例の「使うとまずい文字」の名称はどうなっているか? なんとJIS X 0201
とJIS X 0208でまったく同じです。たとえば「ア」は両方とも「KATAKANA
LETTER A」ですし「?」は「QUESTION MARK」です。つまり半角と全角の二つの文
字があるのではなく、「ア」という文字があってそれが二つの集合に存在するわ
けです。続きを読みます。

278:272
03/10/13 03:19.net
・一意の符号化表現が要求された場合はG0~G3のうち、若い数字の方を使う。
・そうでなければG0~G3のどれを使っても良い。

ISO-2022-JPはASCII、JIS X 0201 ラテン、JIS X 0208をG0に指示して使います。
EUC-JPはASCIIをG0、JIS X 0208をG1、JIS X 0201 片仮名をG2、JIS X 0212をG3
にあらかじめ指示してあります。ですから、EUC-JPで一意の符号化表現が要求さ
れた場合は、JIS X 0201 片仮名とJIS X 0208の一部は使えません。
ところで、ISO-2022-JPはそもそもJIS X 0201 片仮名を含んでいません。なので
ISO-2022-JPでJIS X 0201 片仮名を使おうとするのは「論外」です。ちなみに
ISO-2022-JP-2、ISO-2022-JP-3にも含まれていません……。
閑話休題。実は、ISO-2022-JPやEUC-JP自身は一意の符号化表現を要求していま
せん。よってかぶっている文字はJIS X 0201とJIS X 0208のどちらを使ってもか
まわないわけです。結局同じ文字なのですから、そもそも使い分け自体が無意味。
日本語を処理したり表示するときには、二つともまったく同じ文字として扱わな
ければいけません。現存する処理系は壊滅状態ですね。
さて本当にどちらを使ってもいいのかというと、これはJISで決まっていて、JIS
X 0208のかぶっている方については「過去との互換性が要求されるとき以外は使
うな」と書いてあります(JIS X 0208の7.2, 7.3, 9.2)。

まとめますと、
ISO-2022-JP……全角英数は使えない。半角カナは存在しないので論外。
EUC-JP……全角英数は使えない。半角カナは一意の符号化表現が要求されない場
合問題ない。ただし、その場合は全角カナとまったく同じ表示・処理にすること。
しかし、実現出来ていない現状では半角カナは使わない方がいいと思います。

Shift JISの場合:
JIS X 0208の4.2, 4.3, 4.5に書いてあります。「全角英数・半角カナは使うな」
あとJIS X 0201 片仮名の割り当ては削除の予定だそうです。

279:272
03/10/13 03:20.net
例外として、ISO-2022-JP、Shift JIS、EUC-JPで過去との互換を目的として、二
つの文字を区別したい場合はどうするか。JIS X 0208の付属書5にあるように、
JIS X 0201 片仮名にHALFWIDTH、JIS X 0208 数字・ラテン文字・特殊文字に
FULLWIDTHをつけた代替名称を使って区別します。この場合のみ、かぶっている
二つの文字は別物として扱うことが出来ます。

Unicodeの場合:
○East Asian Scripts
・Halfwidth and Fullwidth Forms: U+FF00?U+FFEF
(省略)
As with other compatibility characters, the preferred Unicode encoding
is to use the nominal counterparts of these characters and use rich text
font or style bindings to select the appropriate glyph size and width.
まずい方の文字は使うな、ということです。ただし全角・半角は別物として扱う
ようです。


280:名無しさん@お腹いっぱい。
03/10/13 07:21.net
>>272
> UTF-8もUTF-16も。

こりゃ言い過ぎだ。

281:名無しさん@Emacs
03/10/13 14:18.net
>>276-279
理想論をただ書き連ねただけのオナニーだな。

実際のアプリケーションでは、過去の文書データと
一切関わりなく使用されるようなことはまずない。
「過去との互換性が要求されるとき以外は使うな」というのは
文字コードの世界ではほとんど意味のない制限だ。
UnicodeもCP932も、いわゆる「半角カナ」も「機種依存文字」も
既に存在しているものであり、技術者の一方的な都合で
「なかったこと」にすることはできない。

282:名無しさん@お腹いっぱい。
03/10/13 14:22.net
>>281

> UnicodeもCP932も、いわゆる「半角*カナ*」も「機種依存文字」も

今あなたが書いたのは「新規」のものだろう。
どこに必要性があるんだ。使うなよ。


283:281
03/10/13 15:00.net
>>282
いやあ、スマンスマン。
本当は「オナニー」の部分も半角カナで書くつもりだったんだけどね。

「文字コード」ってのは、コミュニケーションの手段である文章を
どうやってデジタルデータに落とすかって話の一部でしかなく、
規格書に記述されていることが全てではない。

半角カナを使って煽りの気持ちを表現したり、
Ascii artのように文字のグリフだけに意味を持たせたりと、
そういう規格書では定義されていない「文化」が
既にあちこちで使われている。

そういう背景を無視して、機械的に「半角カナ→全角カナ」のような
フィルタをかけ、(行間じゃなく)文字コードの間に込められた意味を
消してしまうのは、技術者のエゴじゃないかなと漏れは思うわけよ。

284:名無しさん@お腹いっぱい。
03/10/13 15:11.net
>>283

そういうのは上のレイヤーでやるべきことで、文字自身にもたせるものではないんです。
所詮、フォントを変えただけで消し飛ぶようなものですから。

285:281
03/10/13 15:22.net
>>284
> そういうのは上のレイヤーでやるべきことで、文字自身にもたせるものではないんです。
> 所詮、フォントを変えただけで消し飛ぶようなものですから。

もちろん漏れも技術者のはしくれなんで、そういう「理想論」は理解できる。
# つーか、仕事でも文字コード関連の問題には何度もぶち当たっているし。

ただ、そういう事情を理解した上で、
「結局、『理想論』は理想論でしかない。」
と言いたいわけよ。

286:名無しさん@お腹いっぱい。
03/10/13 15:33.net
>>285

> # つーか、仕事でも文字コード関連の問題には何度もぶち当たっているし。

ぶつかるだけなら日本語を含むHTMLを書くだけでもぶつかります。
JISは読みましたか?

> ただ、そういう事情を理解した上で、

全然理解してないですね。

> いやあ、スマンスマン。
> 本当は「オナニー」の部分も半角カナで書くつもりだったんだけどね。

こんなことを書く程度ですし。

287:名無しさん@お腹いっぱい。
03/10/13 15:33.net
手書きでも半角カタカナとか全角英数字を浸透させちゃえばいいんだよ。

288:名無しさん@お腹いっぱい。
03/10/13 15:39.net
四半角仮名や四倍角英数字が Unicode に入るのはいつですか?

289:名無しさん@お腹いっぱい。
03/10/13 15:47.net
>>286
かっかし過ぎ。

290:名無しさん@お腹いっぱい。
03/10/13 15:59.net
>>289
かっかしてるわけじゃなくてね、>>281 程度の認識しか持たない人が
しばしば愚かなことを書くからガッカリしてるの。>>281 程度の話は、
今まで数え切れないほど行われてきた。>>276-279 を読めば、こちらが
もっと上のレベルの話をしたいってことは分かると思うんだけどね……

本当は >>276 の人と意見を交換したくて、がんばって長文を書いたんだけど
出てこないかなぁ。

291:名無しさん@お腹いっぱい。
03/10/13 16:01.net
>>290
> もっと上のレベルの
レイヤは上かもしれないが
レベルは上じゃねーよ。
過去の実装を無視して規格だけこねくりまわしても無意味。

292:名無しさん@お腹いっぱい。
03/10/13 16:03.net
>>291
そういうのは規格を読んでから言ってね。

293:292
03/10/13 16:11.net
> そういうのは規格を読んでから言ってね。
こんなことを書くと、またアホが「規格規格とうるさい原理主義者」とか言いかねないので
補足しておく。まともな技術者なら、なにかを実装したりする場合一次情報にあたるのは
当然のことなんだ。たとえばHTMLを扱うならW3Cの勧告を読むのは当然だし、もしかすると
HTTPのRFCを読まないといけないかもしれない。
こちらが言っているのは、「規格は至上のものである」ということじゃなくて、日本語の処理を
するなら、読んで当然だってことなんだ。

294:名無しさん@お腹いっぱい。
03/10/13 16:13.net
厨な質問ですいませんが、たとえば、2ちゃんねるなんかは、
「半角カナ」と「全角カタカナ」の使い分けが当然のように行われているわけですが、
これは「過去との互換性が要求されるとき」に合致するのではないの?

295:291
03/10/13 16:31.net
「だけ」と書いたのが読めんのか。

296:名無しさん@お腹いっぱい。
03/10/13 16:39.net
>>295
だから、規格さえ読んでない人は論外なんだって。

297:281
03/10/13 17:28.net
>>286
> > # つーか、仕事でも文字コード関連の問題には何度もぶち当たっているし。
> ぶつかるだけなら日本語を含むHTMLを書くだけでもぶつかります。
> JISは読みましたか?
当然読んでいる。
技術者として、JISやW3Cなどの規格を読むのが
最低限必要なことなのは言われなくてもわかっている。

おそらく、>>286はHTML3.2などで(規格に厳密に従った場合)
日本語を使用することができないってことなどを言いたいんだと思うが、
そういう国際化の規格が決まる前から多くの実装で
日本語を含むHTMLを扱うことができていた。

規格ってのは、その実装ができる前から(もしくはリファレンス実装の作成と並行して)
作られるものもあるが、現状の実装を後追いする形で決まるものも多い。
そのような実装の後追いで決まった規格を使う場合は、
過去の実装や慣例についても十分考慮する必要がある。

特に文字コードのように、「非技術者」に対する影響も非常に大きい分野では、
「規格で推奨されていないから」という理由だけで
過去の慣例を排除するのは、現状を見ていない技術者のエゴでしかない。
# 完全に技術的分野で閉じた話なら構わんと思うがね。

> > いやあ、スマンスマン。
> > 本当は「オナニー」の部分も半角カナで書くつもりだったんだけどね。
> こんなことを書く程度ですし。
じゃあ、>>281のはじめの一文は
「<煽り>理想論をただ書き連ねただけのオナニーだな。</煽り>」
とでも書くべきだったのか?
俺は「2chでの慣習」に従った書き方をしているだけだ。

298:名無しさん@お腹いっぱい。
03/10/13 17:55.net
>>297
> そのような実装の後追いで決まった規格を使う場合は、
> 過去の実装や慣例についても十分考慮する必要がある。

はい、そのとおりです。
しかしながらまだその先があります。
たとえば既存の実装が規格とずれていた場合、次の改訂の際に規格に合わせてく
る可能性があるわけです。改訂版では過去との互換性があるとは限りません。
また未知・未来の実装は、基本的に規格どおりに実装する可能性が高いでしょう。
このとき、自分が確認して合わせた実装との互換性をとってくれるとは限りません。
ようするに過去の実装より、規格の方を重視すべきなのです。
もちろんこれは原則にすぎず、他のシステムとやりとりである以上、可能な限り
データ交換可能なものにするべきです。

つまり、「規格より過去の実装の方が重要」という点が間違っているということ
です。規格の重みづけをする場合、過去の実装以外にも考慮しなければいけない
要素がある、ということ。

> 「<煽り>理想論をただ書き連ねただけのオナニーだな。</煽り>」
> とでも書くべきだったのか?

「煽り」とか書いてる時点で人間的にどうかと思います。
それは置いておくとしても、

> 俺は「2chでの慣習」に従った書き方をしているだけだ。

これはただの責任転嫁ですよ。

299:281
03/10/13 19:09.net
>>298
> たとえば既存の実装が規格とずれていた場合、次の改訂の際に規格に合わせてく
> る可能性があるわけです。改訂版では過去との互換性があるとは限りません。
> また未知・未来の実装は、基本的に規格どおりに実装する可能性が高いでしょう。
> このとき、自分が確認して合わせた実装との互換性をとってくれるとは限りません。
> ようするに過去の実装より、規格の方を重視すべきなのです。

それが現実を見ていない理想論に過ぎないと言いたいわけ。
GNU libiconvにcp932パッチがあるのは何故だ?
過去の実装や慣習を無視して新たな規格や実装を作っても、
それは新たな混乱を招くだけ。

300:名無しさん@お腹いっぱい。
03/10/13 20:00.net
>>299

ちゃんと >>298 を読みましたか?
あなたは「過去の実装」だけしか考えていないので、規格の重みづけが
低すぎるといっているのです。「過去の実装との互換性」以外にも、規格
の重みづけの要素はあるんだよ、と。

> GNU libiconvにcp932パッチがあるのは何故だ?

Microsoftが他者(他社・Unicodeコンソーシアム)と協調してShift JISの
マッピングテーブルを決めるべきところを、無視して独自に実装したためです。
Microsoftのテーブルは個人的には現実的だと思っていますが、まさに

> 過去の実装や慣習を無視して新たな規格や実装を作っても、
> それは新たな混乱を招くだけ。

こういうことです。

301:名無しさん@お腹いっぱい。
03/10/13 20:58.net
そういえば、どっかの携帯会社が規格の予約領域を勝手に使っていましたね。

302:名無しさん@お腹いっぱい。
03/10/13 22:17.net
で、何番の発言が AoiMoe なの?

303:281
03/10/13 22:42.net
>>300
> あなたは「過去の実装」だけしか考えていないので、規格の重みづけが
> 低すぎるといっているのです。

そうか? 別に規格をないがしろにしている気はないのだが。

ただ、「Shift JISにおいてJIS X 0201片仮名が割り当てられている部分の
文字のグリフが、JIS X 0208の部分のものの半分の横幅になると
期待すること」および「そういう表示のされ方を期待して、
JIS X 0201片仮名とJIS X 0208片仮名を使いわけること」は
慣習として既に広まっていることだし、
今更目くじらを立てることではないと思っているのだが。

> > GNU libiconvにcp932パッチがあるのは何故だ?

これは俺の表現がまずかった。
俺が言いたかったのは、「何故cp932パッチが本家に統合されずに
別々に配布されなきゃならんのか」ってこと。

確かに>>300の言う通り、cp932のマッピングテーブルはMicrosoftが
勝手に決めてしまったもの。そのためGNU libiconv本家は
cp932パッチの統合をかたくなに拒んでいる。
しかし、日本でiconvを使う場合、cp932のサポートは
もはや必須と言えるため、日本の多くのユーザが
GNU libiconvにわざわざcp932パッチを当てて使っている。

規格至上主義に走り過ぎると、かえってユーザの利便性が
損なわれることがあるって例のつもりだったんだけどね。

304:281
03/10/13 22:46.net
>>302
少なくとも俺は違うぞ。(w

305:名無しさん@お腹いっぱい。
03/10/13 22:48.net
>>303
> 確かに>>300の言う通り、cp932のマッピングテーブルはMicrosoftが
> 勝手に決めてしまったもの。そのためGNU libiconv本家は
> cp932パッチの統合をかたくなに拒んでいる。

少し前に、libiconvのCVSの方に入ってます。


306:281
03/10/13 22:52.net
>>305
> 少し前に、libiconvのCVSの方に入ってます。

おお、それは良かった。
1.9.1にも入らなかったから、もうダメかなとあきらめていたんだけど。

パッチのマージに尽力された方々にこの場を借りてお礼を申し上げます。

307:名無しさん@お腹いっぱい。
03/10/13 23:34.net
>>303
> ただ、「Shift JISにおいてJIS X 0201片仮名が割り当てられている部分の
> 文字のグリフが、JIS X 0208の部分のものの半分の横幅になると
> 期待すること」および「そういう表示のされ方を期待して、
> JIS X 0201片仮名とJIS X 0208片仮名を使いわけること」は
> 慣習として既に広まっていることだし、

広まってませんよ。WindowsのMS UI Gothicを使ったことはありますか?
そんな期待はフォントが違うだけで無意味になる程度のものです。

> 今更目くじらを立てることではないと思っているのだが。

やれやれ……
あなたのような適当な考えによる実装が、今の混乱を引き起こしているのです。

予想では今後、Unicodeへの移行によってさらに種は増えるでしょう。

・CJK間で、かなり異なったグリフの漢字が統合されていることによる問題。
上のレイヤーで解決すればいいのですが(たとえばHTMLのlang指定)、
安易な方法としてUnicodeの言語タグを使って実装されてしまう。
言語タグの使用は推奨されていません。

・JIS X 0208の和字間隔、いわゆる全角空白の扱い。
存在が微妙なので、実装のされ方に互換性が無くなる可能性があります。

> 規格至上主義に走り過ぎると、

不適切な例でしたね。こちらは至上主義じゃないって言ってるのに。

予想(>>290)どおりの愚かな展開(平行線)になってしまった。
規格自身について話を振っているのに、「規格なんて二の次だ」なんて的はずれな
返事を返すなんて……。もうちょっと認識のある人の意見を望みます。

308:名無しさん@お腹いっぱい。
03/10/13 23:44.net
>>281
> 技術者の一方的な都合で「なかったこと」にすることはできない。

日本文藝家協会の方ですか?

309:名無しさん@お腹いっぱい。
03/10/14 01:35.net
>>307
> 返事を返すなんて……。もうちょっと認識のある人の意見を望みます。
気持ちはわかるが、そういう書き方をするから不毛なやり合いになる。

310:名無しさん@お腹いっぱい。
03/10/14 12:42.net
>たとえば既存の実装が規格とずれていた場合、次の改訂の際に規格に合わせてく
>る可能性があるわけです。改訂版では過去との互換性があるとは限りません。

日本で作られたソフトは、まず無いと思う。
今までそれが行われていれば、今のような状況とは違ったと思うが。

もっとも、JIS X 0208:1983 やら、うにコードのように、
規格自体が腐ってる事が多い

311:名無しさん@お腹いっぱい。
03/10/14 13:12.net
>>307 あなたのような適当な考えによる実装が、今の混乱を引き起こしているのです。
どのような考えによる、どのような実装が、規格にもなるべく沿いつつ現実的である事ができるでしょうか。

今まで 272 さんは「規格の話をしている」と仰ってました。その通り、276-279 は規格では
否定しているという話にすぎない訳です。(その後は主観の争いになってますが…)
JISは中国のGB18030とは違い、何の強制力もありません。「いけません」と言ったところで、
結局はどこかに落ち着かなければ使い物にならないのが現実ですよね。

312:名無しさん@お腹いっぱい。
03/10/14 14:21.net
>>311
とはいっても、>>307が言うように、
fullwidth/halfwidthは過去のものにすべく努力していくべきだろ?

313:フグ/ハリセン本について
03/10/14 16:48.net
フグ/ハリセン本について

CJKV日中韓越情報処理
Ken Lunde著
2002年12月発行 12,800円
URLリンク(www.oreilly.co.jp)

Data Table & Sample Code
URLリンク(examples.oreilly.com)

Ken Lunde's Home Page
URLリンク(www.praxagora.com)

314:名無しさん@お腹いっぱい。
03/10/16 04:31.net
>>311
> 今まで 272 さんは「規格の話をしている」と仰ってました。その通り、276-279 は規格では
> 否定しているという話にすぎない訳です。

そ、それで終わりですか?
あの話は掘り下げるところがまだまだあると思うのですが……

> (その後は主観の争いになってますが…)

人の意見・主調なんてすべて主観です。問題はその妥当性。

> どのような考えによる、どのような実装が、規格にもなるべく沿いつつ現実的である事が
> できるでしょうか。

普通、実装をするまえに規格を洗って、それを整理しますよね。
それをおざなりにして、いきなり実装をしてもまともなものは出来ないでしょう。
過去の実装との互換性があればいい、という適当な考えならいざしらず。

> JISは中国のGB18030とは違い、何の強制力もありません。

強制力とかそんなのはどうでもよくて、使うべきではない文字は使うべきではないのです。
例えばある通信プロトコルで、RFC違反のデータを送受信することは簡単です。互換性
などの理由で、やらざるをえないこともあるでしょう。しかしそれは基本的には「やるべきで
はない」のです。理由は分かりますよね?

315:名無しさん@お腹いっぱい。
03/10/16 23:26.net
>>314
>強制力とかそんなのはどうでもよくて、使うべきではない文字は使うべきではないのです。

「使うべきではない文字」ってのを誰がどうやって決めるかっていうと、それは
情報の送り手と受け手、両者の合意によるわけだ。
「規格」というのも結局、すべての二者関係毎に個別に合意を取り付ける
手間を省くためのものだし。

316:名無しさん@お腹いっぱい。
03/10/17 02:21.net
通信かよ!?

317:名無しさん@お腹いっぱい。
03/10/17 07:44.net
通信だよ

318:名無しさん@お腹いっぱい。
03/10/17 12:34.net
問題は、技術者だけではなく、ソフトウェアの顧客がそのことを理解して、
いわゆる半角カナを JIS X 0208コードに修正する費用と時間を出してくれるかということもある。

319:名無しさん@お腹いっぱい。
03/10/18 20:41.net
いまだにJEFつかってる銀行なんか多いくらいなので、、、

やっぱ変更せずに走らせるケースが多いのでは?


320:名無しさん@お腹いっぱい。
03/10/24 01:00.net
> 嘘があったり
「使うべきでない」を「使ってはいけない」と表現したり
まさかMUSTとSHOULDの区別も付かないわけじゃないですよね
> 重要なことが抜けてたりするので
「過去との互換を目的として」とかの例外事項を無視して
「使ってはいけない」としか書かなかったり
しかも知ってて抜かすんだからより悪質ですね

321:名無しさん@お腹いっぱい。
03/10/24 01:03.net
文字コードが通信が終わったら端から消えていくなら
実装を変えればそれで終わりだろうけど実際には
データとしてどんどん蓄積されていくから途中で変えて
はいおしまい、過去のデータは全部捨ててください
なんて簡単に言えるわけない。

322:名無しさん@お腹いっぱい。
03/10/24 01:43.net
そういえば>>232の何が結局「嘘」なのかも説明してませんね。

323:名無しさん@お腹いっぱい。
03/10/24 20:06.net
> 「規格」というのも結局、すべての二者関係毎に個別に合意を取り付ける
> 手間を省くためのものだし。

はい、そのとおりです。

> 問題は、技術者だけではなく、ソフトウェアの顧客がそのことを理解して、
> いわゆる半角カナを JIS X 0208コードに修正する費用と時間を出してくれるかということもある。

実装の話が好きですね……。
さかのぼって修正する必要はないんでは? そのために「過去との互換性」うんぬんの
くだりがあるわけだし。したいのなら止めませんが。


324:名無しさん@お腹いっぱい。
03/10/24 20:08.net
> 「使うべきでない」を「使ってはいけない」と表現したり
> まさかMUSTとSHOULDの区別も付かないわけじゃないですよね

「使うべきではない」ものを、相当の理由なく使おうとしている場合、
「使ってはいけない」と伝えても問題ないでしょう。

> 「過去との互換を目的として」とかの例外事項を無視して
> 「使ってはいけない」としか書かなかったり
> しかも知ってて抜かすんだからより悪質ですね

また低レベルな、平行線の話を繰り返したいのですね。

> はいおしまい、過去のデータは全部捨ててください
> なんて簡単に言えるわけない。

どうして捨てる必要があるのでしょうか?
新規で使わなければいいだけなのに。

> そういえば>>232の何が結局「嘘」なのかも説明してませんね。

>>277-279 を読みましたか? 読んでも分かりませんか?
そこに含めてあるんですが……

325:名無しさん@お腹いっぱい。
03/10/24 21:55.net
>>324
> 新規で使わなければいいだけなのに。
"今まで使えてただろ! どうにかしろ !"

326:名無しさん@お腹いっぱい。
03/10/24 21:56.net
> "今まで使えてただろ! どうにかしろ !"

そんな人いますか?

327:名無しさん@お腹いっぱい。
03/10/25 01:28.net
とりあえず、既存の規格を無視するやつをなんとかしろよ。
docomo とか。

328:名無しさん@お腹いっぱい。
03/10/25 07:05.net
わざと無死してるわけですが

329:名無しさん@お腹いっぱい。
03/10/26 03:22.net
>>326
います


330:名無しさん@お腹いっぱい。
03/10/27 17:01.net
> 「使うべきではない」ものを、相当の理由なく使おうとしている場合、
誰がそんなことしてるんですか?

> また低レベルな、平行線の話を繰り返したいのですね。
そもそも>>272が低レベルな煽りから始まっているのです。
そういうのを自業自得といいます。

> どうして捨てる必要があるのでしょうか?
新しい実装で読めないからです。

331:名無しさん@お腹いっぱい。
03/10/27 17:04.net
> さかのぼって修正する必要はないんでは? そのために「過去との互換性」うんぬんの
> くだりがあるわけだし。
それこそがまさに「相当の理由」でしょうが。

332:名無しさん@お腹いっぱい。
03/10/27 17:11.net
> >>277-279 を読みましたか? 読んでも分かりませんか?
> そこに含めてあるんですが……
順番に検証してみようか。
>>276
リンク先のどこにも「JIS X 0201のカタカナ」が特殊なカタカナだ
なんて一言も書いてない。自分以外の愚民は使うべきでないものを
使いたくて使いたくてたまらないから「JIS X 0201のカタカナ」と
書かれていたらそれは即特殊な意味を持たせていてそれ以外の
解釈はありえないとか妄想したけりゃしてもいいけど。

333:名無しさん@お腹いっぱい。
03/10/27 17:16.net
> ISO-2022-JPで
リンク先は「ISO-2022-JPで」使うなんて話はしていない。
7bit-JISの話なら出てくるけど。
> EUC-JP
> Shift JIS
そもそも「使ってはいけない」が嘘だから論外

334:名無しさん@お腹いっぱい。
03/10/27 17:20.net
> Unicodeの場合:
リンク先にはUnicodeの話などまったく出てこないが。
そもそもJIS X 0201の話をしてるのにUnicodeが出てくること自体
ヘンだとお前さんが自分で言ってるだろ。
> 勘違いの典型は、「UnicodeでJIS X 0201の片仮名は使えますか?」などと
> いう質問で、

総論:
リンク先とは無関係な、誰に言ってるのかも不明な論を
一方的にまくし立ててるだけ。
> 6:一見関係ありそうで関係ない話を始める

で、どこが嘘なの?

335:名無しさん@お腹いっぱい。
03/10/27 17:26.net
> 広まってませんよ。WindowsのMS UI Gothicを使ったことはありますか?
> そんな期待はフォントが違うだけで無意味になる程度のものです。

区別しない実装が存在することは区別しない慣習が存在することの
否定にはならない。単に区別しない場合もあれば(規格上区別する
理由はないんだから当然だが)慣習上区別する場合もあるという
だけのこと。

だいたい使い分ける慣習が本当に存在しないならあんたの
大好きな規格書はありもしない慣習との互換性に配慮するために
わざわざページを割いてるの?

こんな初歩的な詭弁にすらツッコミが入らないようじゃ
確かにレベル低いかもね

336:名無しさん@お腹いっぱい。
03/10/27 17:40.net
> 区別しない実装が存在することは区別しない慣習が存在することの
訂正
区別しない実装が存在することは区別する慣習が存在することの

337:名無しさん@お腹いっぱい。
03/10/27 20:50.net
とりあえず引用トークはムカつくっつーことだけは
よ~くわかった。

338:名無しさん@お腹いっぱい。
03/10/27 21:13.net
>>337
> とりあえず引用トークはムカつくっつーことだけは
fjを思い浮かべるからかな。


などと引用してみるテスト。

339:名無しさん@お腹いっぱい。
03/10/29 03:53.net
>> また低レベルな、平行線の話を繰り返したいのですね。
>そもそも>>272が低レベルな煽りから始まっているのです。
> そういうのを自業自得といいます。

責任転嫁をしないように。
低レベルな話を持ち込んだのは、あなた自身の責任です。

さて、>>330-336 には、簡単に分かる間違いがいくつかあります。

・認識不足による誤解・間違いが4つ
・引用部分とは関連のない話を持ち出して、返答しているのが1つ

それぞれどこでしょう。
>>330-336 の人は分からないでしょうから、他の方で結構です。
考えてみてください。

それから、>>330-336 を書いた人への課題も出しておきます。

>> ISO-2022-JPで
> リンク先は「ISO-2022-JPで」使うなんて話はしていない。
> 7bit-JISの話なら出てくるけど。

「7bit-JIS」とは?


340:名無しさん@お腹いっぱい。
03/10/29 03:57.net
間違い探しクイズなんてしてないでハッキリ言う方が良いのでは?
と傍観者は思うのでした。

341:名無しさん@お腹いっぱい。
03/10/29 04:04.net
死めよ。おぬーら。

342:名無しさん@お腹いっぱい。
03/10/29 18:58.net
>>340

論理的思考が出来ない人間とのメタ議論は、しばしば発散するからです。


343:名無しさん@お腹いっぱい。
03/10/29 22:26.net
>>341
はっきり言いすぎですYO!


344:名無しさん@お腹いっぱい。
03/10/29 23:18.net
すんません! この系統に関してはドシロウトなんですが...
o コードセットとグリフの関係とか
o ウニコードとステートフル(ってゆうのか?)なコード体系の関係
とか
に関して, そこそこまとまった資料って, どこ参照すればええんで
すか?
# グリフの合理的指定方法があれば何とかなるもんちゃうの???



345:名無しさん@お腹いっぱい。
03/10/29 23:32.net
>>339
手抜きせずに書いてやれよ。

>>276>>277-279 はあきらかに別人。

>>333-334 は >>272 の↓部分の補足であるものを、リンク先についての言及だと
曲解している。

>たいていの場合、JIS X 0201の片仮名用図形文字集合(いわゆる半角カタカナ)は
>使ってはいけない。ISO-2022(例外あり)もISO-2022-JPもShift JISもEUC-JPも
>UTF-8もUTF-16も。
>同様にJIS X 0208の一部の文字(いわゆる全角英数)も使ってはいけない。
>「?」や「/」のJIS X 0208の方もダメ。

>>335 に対しては、互換性が残されているのは、文字幅の慣習とは無関係。

あと >>272>>232 のリンク先について誤解していると思う。
あのページは誤りであることを承知の上で、JIS コード(と言われている文字コード)で
JIS X0201 の文字集合を使う方法を紹介している。
232氏はネタのつもりだったのでは。

346:名無しさん@お腹いっぱい。
03/10/30 01:59.net
質問
jisx0213の文字って全部unicodeに反映されたの?

347:名無しさん@お腹いっぱい。
03/10/30 02:13.net
されてない


348:名無しさん@お腹いっぱい。
03/10/30 10:49.net
>>347
どの程度反映されてるんでせうか?それともまったく?

349:名無しさん@お腹いっぱい。
03/11/02 00:02.net
補助漢字にある奴は全部あるでしょ。
丸付き数字のような合成文字系は全部拒絶されてんじゃない?

350:名無しさん@お腹いっぱい。
03/11/02 01:48.net
丸付き数字系は全て追加されました。


351:名無しさん@お腹いっぱい。
03/11/02 01:55.net
>>349-350
つーことは一部を覗いてほとんど入れられてるって事ですか。
ありがとうございました。

352:名無しさん@お腹いっぱい。
03/11/02 01:56.net
sage忘れた…すいません。

353:名無しさん@お腹いっぱい。
03/11/02 01:59.net
確か追加されてないのはひらがなとアクセント付きの発音記号だけだったと思う。


354:名無しさん@お腹いっぱい。
03/11/03 13:58.net
Unicodeでの外字の扱いってどうなってんの?
使えんの?

355:名無しさん@お腹いっぱい。
03/11/03 16:55.net
PUAでいいんじゃね?

356:名無しさん@お腹いっぱい。
03/11/03 22:55.net
>>353
ひらがなってのは、'ん'+'゛'みたいなやつのこと?

357:名無しさん@お腹いっぱい。
03/12/06 17:00.net
>>353
Unicode側の言い分では「全部入れた」ことになっているんだろうけどね。
「合成で済むだろゴルァ」って感じで。


358:名無しさん@お腹いっぱい。
03/12/08 11:28.net
結局混乱を増しただけだと思うんだけどなー。
あぁ、日本以外じゃ困らんから、テキトーな国際化には役に立っとるんか。

359:名無しさん@お腹いっぱい。
04/02/25 00:35.net
スレリンク(software板)
>>874
格納がしっかりしてれば文字コードが必ずSJISになり
どの文字コードで格納するか調べる必要も無いでしょう。

>>875
予想だろうがそれが根拠で問題だと『俺は』思う。
俺の思う理由を聞いておいてそれは無いだろう。

360:名無しさん@お腹いっぱい。
04/02/25 00:47.net
>>876
その必要が有る人のみ守ってるだけでは?
普通は日本語使わないけどね。

>>877
殆どはASCIIで書かれてるからな。ASCIIはSJISで無いぞ。
稀に見かける日本語を使った書庫ではeucを使ってる。
でもSJISを使ってるのは見たこと無いとも書いたが。

>>878
作者は仕様を守るべきなんじゃない?
それが出来ないなら作らなければ良いだけ。
仕様を制定するのが自分なら殆ど負担は無いだろう。

361:名無しさん@お腹いっぱい。
04/02/25 01:19.net
>UNIX上でも SJIS 使ったのしか見たこと無いね。
俺は無いな、少なくとも配布されてるものに関しては。

>仕様を制定したのと、UNIX版作ってる人は別人。
>同一人物でも仕様をコロコロ変えるのはどーかと思われ。
これは誤解を生んじゃったな。
lhaの事じゃなくソフトウェア作者の苦労の事を書いただけだから
その辺の事は分かってるし同意。

>仕様が無い場合という仮定の話なので文字コードは SJIS とは限らない。
格納をしっかりすれば仮定の話は何の意味も無い。



362:名無しさん@お腹いっぱい。
04/02/25 01:35.net
>それらの書庫はファイル名に関する仕様を守ってる。
日本語ファイル名を格納してる書庫の話でしょうが。
ASCIIファイル名は日本語扱うときはSJISでって仕様を満たしている訳じゃない。

>必要がある人は自力で実装すれば良い、
>という事のどこに問題があるのかサッパリわからん。
それじゃぁ自力で実装する力の無い人、そもそもそんな事考えて無い人が作った
書庫は不正書庫になってしまうじゃないか。
大抵の人はlhaにそんな仕様が有る事すら知らないだろう。
何べんも書くけど守られない仕様は仕様の機能を果たさない。
仕様がしっかり守られるならば解凍時の文字コードも気にしなくて良い。

363:名無しさん@お腹いっぱい。
04/02/25 01:38.net
>ファイル名に関する仕様が無い場合、
>UTF-8 でも SJIS でも EUC でも仕様的に問題なく「しっかり格納」できる。
lhaはSJISで格納すると言う仕様が有るんでしょ。勝手になくさないで。

364:名無しさん@お腹いっぱい。
04/02/25 01:59.net
>ファイル名に関する仕様は満たしてる。
日本語のファイル名の話をしてるんだから・・・。
関係ない話を持ち出さない。

>何べんも書くけど仕様は概ね守られてる。
>例えば、信号無視する人間が延べで 5%居た場合、信号は機能を果たしてないのか?

たとえ話は嫌いだが、、、この場合その5%は必ず事故るわけだから信号の機能を果たしてるとは言いがたい。


365:名無しさん@お腹いっぱい。
04/02/25 16:30.net
向こうで暴れてる困ったちゃんをどうにかしろよ

366:名無しさん@お腹いっぱい。
04/02/25 16:44.net
lhaの書庫はパス名にShift JISを使うって仕様だったのか。知らなかった。
どこに書いてあるんだろう。

367:名無しさん@お腹いっぱい。
04/02/25 17:57.net
>>365
ここで暴れてる困ったちゃんもどうにかしてください。

368:名無しさん@お腹いっぱい。
04/02/26 08:55.net
>>366
昔のlhaのドキュメント

369:名無しさん@お腹いっぱい。
04/02/26 09:36.net
>>368
Vectorにある吉崎氏の実行ファイルとソースのアーカイブ内には
そういう記述はみあたらなかった。
URLリンク(www.vector.co.jp)
「昔のlha」は持ってないしなぁ。

ただ、UTIL.Cにiskanji(c)というマクロがあって、それはShift JISを
想定しているっぽい。

#define iskanji(c) ((uchar)(c) >= 0x80 && (uchar)(c) <= 0x9f || \
(uchar)(c) >= 0xe0 && (uchar)(c) <= 0xfd)


370:名無しさん@お腹いっぱい。
04/02/26 11:18.net
>>369
lha for UNIXの方だったかもしれん。
だったらそんなに昔じゃないなスマソ


371:名無しさん@お腹いっぱい。
04/02/26 15:56.net
詳しくは知らんが、YosshiがSysopやってたflaboでは
過去ログ(LZHで固めた奴)にSJISファイル名使ってたような…

372:名無しさん@お腹いっぱい。
04/02/26 16:35.net
いや、当初はMS-DOSしかっていうか何も考えなくて生SJISにしたはずなんだけど、
どっかでそれを仕様として確定したと思うんだよ。
それがlha for UNIX以前か以後かがよー分からん。

373:名無しさん@お腹いっぱい。
04/02/26 16:40.net
よーわからんけどlha for UNIX以前か以後かって区分は重要なの?

374:名無しさん@お腹いっぱい。
04/02/26 16:57.net
>>372
> いや、当初はMS-DOSしかっていうか何も考えなくて生SJISにしたはずなんだけど、
だろうね。

> どっかでそれを仕様として確定したと思うんだよ。
これが、「誰が」「どこで」確定したのか情報希望。

375:名無しさん@お腹いっぱい。
04/02/26 18:46.net
よーわからんけど「誰が」はともかく「どこで」は重要なの?

376:名無しさん@お腹いっぱい。
04/02/26 23:01.net
         ☆ チン     マチクタビレタ~
                         マチクタビレタ~
        ☆ チン  〃  ∧_∧   / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
          ヽ ___\(\・∀・) <  「誰が」「どこで」確定したのか情報まだ~?
             \_/⊂ ⊂_ )   \________
           / ̄ ̄ ̄ ̄ ̄ ̄ /|
        | ̄ ̄ ̄ ̄ ̄ ̄ ̄|  |
        | .愛媛みかん.  |/

377:名無しさん@お腹いっぱい。
04/02/26 23:06.net
>>375
> よーわからんけど「誰が」はともかく「どこで」は重要なの?
必ずしも吉崎氏が策定する必要は無いんだよ。
仮に「LHA Open Group」でもいいわけだし。
そういう意味の「どこで」ってこと。

378:名無しさん@お腹いっぱい。
04/02/27 00:38.net
>>377
> 仮に「LHA Open Group」でもいいわけだし。
それは「誰が」だと思うんだが…
まぁどっちでも良いけど。

ところで「LHA Open Group」って実在する組織なん?

379:名無しさん@お腹いっぱい。
04/02/27 00:40.net
>>378
> ところで「LHA Open Group」って実在する組織なん?
いやー俺の脳内団体だよ。「誰が」だけだと「吉崎氏に決まってるだろ」と
なりかねないので書いたのだけれど、よけい混乱させちゃったみたいで
申し訳ない。

380:名無しさん@お腹いっぱい。
04/03/01 10:58.net
過去の経緯としてはShift JISが仕様だったのかもしれないが、
# 補助漢字や第三/四水準はどうなっているのだ?
それだとASCIIな人と日本語な人以外は困るから、
アーカイブ内のパス名はUTF-16で保存することにして、
システムごと、あるいはロケールごとに、iconvして展開するのがいいんじゃないの?
アーカイブ形式に形式のバージョンを持てないの?

大体、今やWindowsやMac OS Xだって、
UTF-8のパス名持てるんだから、Shift JISのままじゃ困るんじゃないの?

381:名無しさん@お腹いっぱい。
04/03/01 11:06.net
>>380
そこでなぜUTF-16。こういう場合はUTF-8だろう。

lhaは圧縮形式としてlh5, lh6, lh7などが選べたはず。
これが規定するレイヤーによっては、「lh8はUTF-8」という風にも
出来るだろうね。多分やらないだろうけど。

382:380
04/03/01 11:16.net
>>381
追記。なぜ「やらない」かというと、lhaは歴史的な経緯では小型の
システム(DOS)で使われてきたし、現在もそういう風に使われている
(マザーボードのBIOSとかね)。ここでUnicodeをサポートために巨大な
変換テーブルを持たせるのは、lhaの方向性にあわないだろう。
そういうのが必要なら、もっと富豪なアルゴリズムを持つ書庫の仕様に
含めればいいのだ。

383:名無しさん@お腹いっぱい。
04/03/02 03:34.net
>>380
> それだとASCIIな人と日本語な人以外は困るから、
日本人以外は使ってないので困らない。

> アーカイブ形式に形式のバージョンを持てないの?
持てません。

384:名無しさん@お腹いっぱい。
04/03/02 03:41.net
>>381
> これが規定するレイヤーによっては、「lh8はUTF-8」という風にも
面白いアイデアだと思うけど、
全く問題無しってわけにもいかないと思うよ。

例えば この新仕様に対応してないバージョンで、
書庫->書庫で圧縮されたファイルコピーする際に
SJIS(元書庫)->EUC(中間処理用)->SJIS(先書庫) みたいな変換
食らった場合、元書庫で UTF-8 使ってると化ける可能性がある。

385:381
04/03/02 09:04.net
おっと、382を書いたのは381だ。名前欄は間違い。

386:名無しさん@お腹いっぱい。
04/03/02 09:27.net
>>384
「規定するレイヤー」っていうのは、「lh5, lh6, lh7などが書庫の形式のレイヤーを
規定しているなら」って意味で書いた。でもどうやらファイル一つ一つの圧縮方法
にしかすぎないようだね。というわけで俺の案は没。理由は384の言うとおり。

387:( ゚Д゚)<ボクメーツ ◆uhiboKUMEQ
04/03/05 10:17.net
( ゚Д゚)<呼ばれた気がした

388:名無しさん@お腹いっぱい。
04/03/05 20:23.net
>今現役でSJISつかってるのMSくらいだし。

NTはunicodeだろ。
むしろsjisもjisもeucも無くなれ
uncode以外のコードは要らん

389:名無しさん@お腹いっぱい。
04/03/05 20:57.net
>>388はMarkus Kuhn

390:名無しさん@お腹いっぱい。
04/03/06 14:12.net
Markus キター。
アイツは頭がオカシイとしか思えん。

391:名無しさん@お腹いっぱい。
04/03/06 20:10.net
388 が欲しいのは
「うんこーど」。
Markus とベクトルは違えど頭がオカシイのです。

392:名無しさん@お腹いっぱい。
04/03/08 08:40.net
>>388
普通のプリンタの内部コードはJISだろ。そうじゃないのもあるのかな?

393:名無しさん@お腹いっぱい。
04/03/08 11:51.net
>>389
Markus KuhnとMarkus Scherer(@IBM)は別人なんだね。混同してた。
Markus Kuhnのいかれたエピソード希望。語ってください。

394:名無しさん@お腹いっぱい。
04/03/08 12:27.net
i18n@XFree86.orgで「UTF-8以外のlocaleを廃止してしまえ。」とか言ってた。
この人の辞書にはsoft landingという言葉はないと思われ。


395:名無しさん@お腹いっぱい。
04/03/08 12:33.net
>>394
> i18n@XFree86.orgで「UTF-8以外のlocaleを廃止してしまえ。」とか言ってた。
> この人の辞書にはsoft landingという言葉はないと思われ。

なんだその程度か。いいんでない? 俺もそう思ってるし。
「漢字なんて絵文字。使ってる奴らはバカ」くらい言ってるのかと思ってた。

396:名無しさん@お腹いっぱい。
04/03/08 13:52.net
> なんだその程度か。いいんでない? 俺もそう思ってるし。

今は随分状況が改善されてるけど、3年くらい前にこんなこと言われたら
正直たまらんですよ。まあそれはそれとしてこんなのもあった。

URLリンク(slashdot.jp)
URLリンク(slashdot.jp)


397:名無しさん@お腹いっぱい。
04/03/08 14:00.net
返す返すも中国がうらやましい

398:名無しさん@お腹いっぱい。
04/03/08 14:09.net
>>396
昔の i18n-ML 読めないんだな。
特に 4.0.2 リリースの頃の発言とか、迷言ばかりだったと思うんだが。

> 今は随分状況が改善されてるけど、3年くらい前にこんなこと言われたら
> 正直たまらんですよ。
改善?
本質を理解せずに、国際化・多言語化はとりあえず Unicode にしとけ、
なんて間違った認識が広まりすぎただけだと思うが。


399:名無しさん@お腹いっぱい。
04/03/08 14:13.net
>>396
おー、ありがとう。読んでみた。
まぁ気持ちは分かる。
そもそもターミナルエミュレータは右から左に書くことを想定して作られて
いないんだから、もっとリッチな環境でのみサポートしろってことだよな。
「不合理な宗教的な理由で使われている」っていうのは滅茶苦茶だが。
関係ないけど、縦書きターミナルエミュレータってあるのかなぁ。

400:名無しさん@お腹いっぱい。
04/03/08 14:29.net
mlterm は縦表示できますよ。

401:名無しさん@お腹いっぱい。
04/03/08 15:45.net
>>398
日本語のロケールとしてUTF-8を採用するかという話では
ないのですか

402:名無しさん@お腹いっぱい。
04/03/08 15:57.net
>>401
(゚Д゚)?

403:名無しさん@お腹いっぱい。
04/03/08 16:03.net
>>401
XUtf8*系のAPIを突っ込もうとしていたときの話。(*1)
つか、UTF-8以外のlocaleを捨てるなら、そもそもそんなものを突っ込む
必要あるのかよと小一時間(ry

*1) 結局4.0.2というマイナーリリースに駆け込みで突っ込まれた。
正直「XFree86のリリースマネージメント終わってるな」と思ったが。




404:名無しさん@お腹いっぱい。
04/03/08 21:45.net
禿げどう

405:名無しさん@お腹いっぱい。
04/03/08 23:49.net
うにこん最強

406:名無しさん@お腹いっぱい。
04/03/09 11:07.net
>>401みたいな的外れなレスが付くあたり、原理主義者の布教は上手く行ったんだろうな。

407:401
04/03/12 15:37.net
> 今は随分状況が改善されてるけど、
についてだったんだが

408:名無しさん@お腹いっぱい。
04/03/13 15:09.net
誰か XF86 fork して Xutf8* 消して CSI xterm 入れてくれYO。


409:名無しさん@お腹いっぱい。
04/03/13 15:25.net
>>408
それってまんまOpenI18Nじゃね?

410:名無しさん@お腹いっぱい。
04/03/13 21:24.net
>>409
openi18n.orgって規格団体みたいのじゃないの?
他に同名のがあるの?


411:名無しさん@お腹いっぱい。
04/03/16 16:27.net
>>410
openi18n.orgでXLib-I18Nとitermが開発されている。
XLib-I18NはXFree86のクライアントライブラリのfork。
itermはCSIなターミナルでフレームバッファ版とX11版がある。


412:名無しさん@お腹いっぱい。
04/03/16 21:31.net
debian では xiterm って名前なのか。
今まで探してもなかったわけだ…

413:名無しさん@お腹いっぱい。
04/03/17 09:09.net
それと fbiterm とにわかれてるからなあ。


414:410
04/03/18 06:32.net
>>411
thx


415:名無しさん@お腹いっぱい。
04/03/23 18:55.net
SJIS2000ってのが有るんだな。
これってどうよ?

416:名無しさん@お腹いっぱい。
04/03/23 21:05.net
>>415
それってJIS X 0213をねじ込んだShift JISのこと?
何年前の話題だ……。

417:名無しさん@お腹いっぱい。
04/03/24 00:43.net
2000つーぐらいだから少なくとも4年以上前?

418:\
04/04/16 18:22.net
\

419:名無しさん@お腹いっぱい。
04/04/17 00:09.net
>>417
2000は、JIS X 0213 2000の2000ね。
JIS X 0213をJIS2000って言う人もいるらしい。(俺は聴いたことないけど)
URLリンク(seclan.dll.jp)

JIS X 0212(補助漢字)の方の埋め込みを使っていたシステムあるのか?


420:名無しさん@お腹いっぱい。
04/04/17 09:38.net
つーかOS Xのクリップボードのテキストはまさに
JISX0213をねじ込んだShift_JISなわけだが

421:名無しさん@お腹いっぱい。
04/04/17 17:18.net
OS X って UTF-8 じゃなかったっけ ?
それともクリップボードだけ Shift JIS なん ?

422:名無しさん@お腹いっぱい。
04/04/18 10:53.net
>>419
JIS X 0213は今年2月に改正されたんで、今後はJIS2004とでも呼ぶのかな?

でもってシフトJIS方式の符号化は Shift_JIS-2004 てな名前になったわけ
ですが。(附属書1)


423:名無しさん@お腹いっぱい。
04/04/18 16:42.net
JISX0213イラネ

424:名無しさん@お腹いっぱい。
04/04/18 21:12.net
まあしかし国内で規格化しておいた方が、
その中の文字がUnicode.orgで採用されやすいし。

425:名無しさん@お腹いっぱい。
04/04/23 12:37.net
>>422
IANAへの登録マダー? (AAry

426:名無しさん@お腹いっぱい。
04/04/23 14:33.net
まず厨房mohtaをどうにかしないと。

427:名無しさん@お腹いっぱい。
04/04/24 07:38.net
登録申請ってRFC2978の手続きに従ってietf-charsetsにメールを投げれば
誰でもできるんじゃないの?

428:名無しさん@お腹いっぱい。
04/04/24 18:09.net
その手続きを踏むこともロクにできなかったmohta氏って・・・

429:名無しさん@お腹いっぱい。
04/04/25 01:01.net
mohtaなんか無視して必要だと思う奴が登録申請すればいいじゃん。
漏れはUnicodeでいいと思うからやらないけど

430:名無しさん@お腹いっぱい。
04/05/07 15:22.net
ねぇねぇ、なんでいつまでも文字コードだけ貧乏くさい発想の元でやってるの?

431:名無しさん@お腹いっぱい。
04/05/07 15:54.net
>>430
貧乏くさい発想ってのは何をさしてるの?

432:名無しさん@お腹いっぱい。
04/05/08 03:03.net
一文字に 32bit なり 64bit なりをババーンと割り当ててしまえってことだろ。

433:名無しさん@お腹いっぱい。
04/05/08 05:46.net
とりあえずおれが今まで書いた文章全部ババーンと変換してよ。

434:名無しさん@お腹いっぱい。
04/05/08 11:20.net
重複符号化や異体字検索のデータベースもババーンと作ってよ
空間だけならISO 10646はすでに31ビットあるし

435:名無しさん@お腹いっぱい。
04/05/12 05:09.net
S-JIS・EUCなんて糞

今後はGB2312だ

436:名無しさん@お腹いっぱい。
04/05/12 13:07.net
大陸でも捨てられたものを使えとは…

437:名無しさん@お腹いっぱい。
04/05/13 01:48.net
ISO 2022もTRONも中国語に関してはGB2312に毛が生えたレベル

438:名無しさん@お腹いっぱい。
04/05/17 03:24.net
1文字64bit固定
1言語につき100,000,000文字分のスペース
後はお好きに

これでどこからも異論の声は上がらない

439:名無しさん@お腹いっぱい。
04/05/17 11:42.net
> これでどこからも異論の声は上がらない
誰も実装しないまま消えていくおかげでな(w

440:名無しさん@お腹いっぱい。
04/05/17 19:46.net
誰も実装できないのか
駄目だな

441:名無しさん@お腹いっぱい。
04/05/20 00:10.net
「たった」47000字くらいのExtension Bすらろくに実装されてないもんな

442:名無しさん@お腹いっぱい。
04/05/21 06:03.net
42711字だった

443:名無しさん@お腹いっぱい。
04/06/18 16:03.net
>>438
これいいな。採用!

444:名無しさん@お腹いっぱい。
04/06/19 01:33.net
少しは過去ログ嫁よ。
これだから漢字文化圏の連中は(ry

445:
04/06/22 15:54.net
.

446:名無しさん@お腹いっぱい。
04/07/08 23:41.net
EUC使いたがるプログラマは目的と手段が入れ替わった発想しかできなくなってる

447:名無しさん@お腹いっぱい。
04/08/02 11:13.net



448:名無しさん@お腹いっぱい。
04/09/02 13:13.net
.

449:
04/11/05 18:39:19.net



450:
05/01/07 12:57:00.net



451:名無しさん@お腹いっぱい。
05/01/17 16:39:56 .net
>>125
># 中国語だと今度は発音の違いもcollationの対象かぁ(w

ウリナラのKSコードは同じ字体でも発音ごとに違うコードを割り当ててる<丶`∀´>ニダ
そのへんがチョッパリの文字コードやメリケンのユニコードとは違う。

452:名無しさん@お腹いっぱい。
05/01/18 16:04:56 .net
全角チルダ化け何とかしてくれ

453:名無しさん@お腹いっぱい。
05/02/20 02:28:59 .net
>>451
フィッシング詐欺にはもってこいですね

# 実際には統合漢字と正規等価だから使えないけど

454:名無しさん@お腹いっぱい。
05/02/20 02:32:24 .net
あーあと北チョソが、今のUnicodeのハングルの並びは科学的じゃないから
より合理的なウリナラの配列に変更するニダとか超愉快な要求も出してたなあ。
もちろん却下されたけど

455:名無しさん@お腹いっぱい。
05/07/14 11:55:46 .net
保守

456:名無しさん@お腹いっぱい。
05/07/18 23:33:56 .net
nihonjin kanji tukauna!
hirakana katakana only.
The great country is China!

457:名無しさん@お腹いっぱい。
05/09/20 16:44:11 .net
KPS9566にすりゃいいじゃん

458:名無しさん@お腹いっぱい。
05/09/20 17:09:47 .net
( ゚∀゚)アハハ八八ノヽノヽノヽノ \ / \ /  \ /  \ /  \ /  \

459:名無しさん@お腹いっぱい。
06/05/24 19:48:34 .net
今や、世界の標準になりつつある。
URLリンク(en.wikipedia.org)


460:ISO2022原理主義者
06/05/29 18:21:43 .net
UTFやめてiso-2022-jp-*復活希望。
UNICODEの文字セットも呼出せるESCシーケンスも定義すれば良い。

461:名無しさん@お腹いっぱい。
06/05/31 00:23:28 .net
>>460
すでにあるんだけど...ちゃんと仕様書読みな。

コーラン読まないイスラム原理主義者はただのDQNテロリストだよん。

462:名無しさん@お腹いっぱい。
06/05/31 02:49:35 .net
共産党員は全員共産党宣言だのなんだのを読んでるんだよもん?


463:名無しさん@お腹いっぱい。
06/05/31 05:35:08 .net
>>462
頭悪そうな突っ込みw

464:名無しさん@お腹いっぱい。
06/05/31 10:21:40 .net
どこがどう頭悪そうか書かない奴も同程度。


465:名無しさん@お腹いっぱい。
06/06/02 16:52:15 .net
>>438
人類の生活圏が全宇宙に広がった頃には足りなくなります

466:名無しさん@お腹いっぱい。
06/06/02 20:20:03 .net
2ちゃんねるって SJIS だよな。
てか、Windows-31j かな。


467:名無しさん@お腹いっぱい。
06/06/09 02:35:13 .net
SJISって嫌われてるの?
自作printf作った時は2byte文字コードが追っかけやすくて便利だった記憶があるんだけど?

468:名無しさん@お腹いっぱい。
06/06/09 06:25:50 .net
0x5cが2byte文字中に入る時点で嫌だ。

469:名無しさん@お腹いっぱい。
06/06/14 22:28:57 .net
つうか、Unicode でいいじゃん

470:名無しさん@お腹いっぱい。
06/06/15 06:59:54 .net
だから、SJISを撲滅するんだろ?

471:名無しさん@お腹いっぱい。
06/06/16 10:28:11 .net
UTF-8/UTF-16/UTF-32
があるのだから

UTF-64が出てもおかしくないな。

472:名無しさん@お腹いっぱい。
06/06/16 23:04:28 .net
>>471はUTF-5を使ってください。

473:名無しさん@お腹いっぱい。
06/06/20 09:58:48 .net
SJIS撲殺天使

474:名無しさん@お腹いっぱい。
06/07/19 23:43:22 .net
UTF-65536

475:名無しさん@お腹いっぱい。
06/07/23 22:49:52 .net
UTF-37564

476:名無しさん@お腹いっぱい。
08/04/01 23:40:15 .net
まあまあ、そうあわてなさんな。
今にSJISを拡張して、4バイトコードにするから。

エスケープシーケンスの候補は 0xFD, 0xFE, 0xFF。



477:名無しさん@お腹いっぱい。
08/04/11 09:33:40 .net
エスケープシーケンスって何
キーボードで入力できないの?

478:名無しさん@お腹いっぱい。
08/04/12 00:13:00 .net
もう、日本語禁止な!><;

479:名無しさん@お腹いっぱい。
08/04/12 20:22:59 .net
おいおい、エスケープシーケンスも知らずにマルチバイト文字の話かよ。
まったくゆとり教育ってやつぁ...


480:名無しさん@お腹いっぱい。
08/04/26 12:20:47 .net
SJIS 2.0 スペック
0xFD [0xA1-0xFC] [0xA1-0xFC]
0xFE [0xA1-0xFC] [0xA1-0xFC] [0xA1-0xFC]
0xFF [0xA1-0xFC] [0xA1-0xFC] [0xA1-0xFC] [0xA1-0xFC]
を基本路線とし、2バイト目に 0x5C が入らないようにする


481:名無しさん@お腹いっぱい。
08/04/27 11:24:19 .net
まずはSJISを撲滅する。話はそれからだ

482:名無しさん@お腹いっぱい。
08/04/28 07:07:00 .net
eyeD3 --help | grep "\--set-encoding"

--set-encoding=latin1|utf8|utf16-BE|utf16-LE

ざまあ

483:名無しさん@お腹いっぱい。
08/04/28 23:18:02 .net
>>482
eyeD3だからだろ...常識的に考えて。
どうせSJIS突っ込む奴は latin1 に突っ込むし。

484:名無しさん@お腹いっぱい。
08/07/13 22:27:05 .net
>>481
ほぉう、それをSJISで書くのか君は。



485:名無しさん@お腹いっぱい。
08/07/14 22:49:01 .net
ス、ヲ、ハ、ホ、ォ?サ釥キ、ヒMozilla1.7b、ホハクサ妺ウ。シ・ノタ゚ト熙TF-8、ヒ、ケ、□ネクタ、ヲヒスオヒスミ、ニ、゚、□」
、ヌ、□、チ、网タ、ネ。ヨSJIS、ヌチテ、ニ、ッ、タ、オ、、。ラ、テ、ニ・ィ・鬘シ、ヒ、ハ、□ク、网ハ、、?
(、ヒ、キ、ニ、篦セ、ャイス、ア、ケ、ョ、ニクォカ□キ、ケ、ョ、□ト)

486:名無しさん@お腹いっぱい。
08/07/22 21:56:14 .net
>>485
もっかいSJISで頼む。



487:名無しさん@お腹いっぱい。
08/08/03 16:18:05 .net
タイ語だのBiDiだので苦労している人達から見れば、
0x5cがどうの、包摂がどうのなんてあまりに贅沢な悩みだろ。
Markus Kuhnが>>396みたいなことを言い出すのも非常にうなずける。
ヨーロッパ人もMとiが同じ幅になるとかハイフネーション出来ないとかを
我慢しながら使っているわけだし。

488:名無しさん@お腹いっぱい。
08/08/04 21:29:09 .net
SJISっていつの時代も現実解でいいよね


489:名無しさん@お腹いっぱい。
08/08/08 03:43:43 .net
>>487

すまそ。Mとiが同じ幅になることとSJIS(ないしSJIS撲滅運動)
との関係が分からんが、SJIS万歳でOK?

490:名無しさん@お腹いっぱい。
08/08/08 07:10:06 .net
いまさら文字コードなんか気にする必要ないじゃーん

491:名無しさん@お腹いっぱい。
08/08/08 10:47:33 .net
>>487
> ヨーロッパ人もMとiが同じ幅になるとかハイフネーション出来ないとかを
> 我慢しながら使っているわけだし。

1950年代にタイムスリップかよ

492:名無しさん@お腹いっぱい。
08/08/09 18:31:30 .net
もしかしてヨーロッパ人は今でもダム端使って、2chとかみてんの?



493:名無しさん@お腹いっぱい。
10/01/31 14:50:00 .net
文字コードの問題は今後30年たっても解決していない。

494:名無しさん@お腹いっぱい。
10/01/31 14:56:08 .net
文字コードはさらに増えるね

495:名無しさん@お腹いっぱい。
10/02/07 16:28:12 .net
世界の文字コードを統一することに失敗したので、今度は
世界中の単語に統一したコードを振ってみるのはどうだろう?

もちろん同じ意味の単語に同じ値を割り振るわけだ。
多義語の場合はどういう意味で使っているのかを選択する
必要がある。多義語は多値になることもある。

今度は最初から32ビットでいくけどいいよね?


496:名無しさん@お腹いっぱい。
10/02/07 21:24:07 .net
PSOのワードセレクトみたいなものだね
日常で使う単語なら32ビットもあれば十分だろうね

497:名無しさん@お腹いっぱい。
10/02/07 21:33:12 .net
16x16のイメージととみなした256ビットをそのままコードにして必要な時は
on the flyでOCR処理しよう。これで全て解決。

498:名無しさん@お腹いっぱい。
10/02/07 22:49:36 .net
非字形文字はどうすんの?

499:名無しさん@お腹いっぱい。
10/02/07 22:50:18 .net
非図形だった。
制御文字とか各種スペース類とか。

500:名無しさん@お腹いっぱい。
10/02/08 14:15:25 .net
16x16 で全ての文字が表せると思っている時点で
16ビットもあれば充分と思ってたのと同程度


501:名無しさん@お腹いっぱい。
10/02/17 00:57:45 .net
>>497

で、そのやり方の場合、OCR 結果は何コードにするの?

# まるでうちの社長レベルだな

502:名無しさん@お腹いっぱい。
10/02/17 13:31:26 .net
>>501
え?UTF-256 じゃないの?


503:名無しさん@お腹いっぱい。
10/03/20 22:15:41 .net
>>502

いいえ。シフトJISです。


504:名無しさん@お腹いっぱい。
10/03/22 13:25:24 .net
撲滅マダー

505:名無しさん@お腹いっぱい。
10/05/23 03:24:10 .net
>>495
lojban の1200の基礎語彙のことか.

lojban:
・文化的に中立の人工言語
・語彙は1200の語根の合成語としていくらでも拡張できる
・同音異義語が存在しえないよう構成されている

いいアイディアをもらった.

506:名無しさん@お腹いっぱい。
10/09/26 21:31:38 .net
撲滅マダー

507:名無しさん@お腹いっぱい。
10/10/23 15:16:26 .net
大手プロバイダのトップページは大多数がshift_jisだね。
まだまだ安泰だ。

ちなみにyahooはトップはutf-8に変えたけど、
その他ほとんどのページやwebメールはeuc_jpのまま。

508:名無しさん@お腹いっぱい。
10/10/24 15:29:05 .net
>>1

つ Samba

509: 忍法帖【Lv=40,xxxPT】(1+0:8) 【37.8m】 電脳プリオン ◆3YKmpu7JR7Ic
12/10/20 14:20:16.04 BE:121623326-PLT(12079).net
撲滅されそうにないな

510:名無しさん@お腹いっぱい。
13/04/13 02:48:10.27 .net
UnicodeでもUTF-16は廃止してもいいと思うな。
UTF-16はUCS-4に置き換えたほうがいい。

511:名無しさん@お腹いっぱい。
13/04/13 16:09:47.04 .net
合成文字あれば、UTF-32(UCS-4)でも64bit以上必要になるぜ?

512:名無しさん@お腹いっぱい。
13/04/21 04:16:11.83 .net
正規化すると64bitでも足りないということか

513:名無しさん@お腹いっぱい。
14/10/22 13:51:16.97 .net
>>495
遊方僧とか来ちゃったよ?

514:名無しさん@お腹いっぱい。
14/11/05 08:51:56.10 .net
半角カナさえ無ければSJISも出てこなかった

515:名無しさん@お腹いっぱい。
15/02/16 07:37:16.99 .net
今日すごいのかなー。1000円へ

516:名無しさん@お腹いっぱい。
15/02/21 22:35:51.38 .net
よく歴史を知らないんだが、SJISが初期の頃にすぐさま圧倒的シェア取ったのに、
なんでUNIXではEUCに固執した馬鹿たちが大勢いたの?

517:名無しさん@お腹いっぱい。
15/02/24 10:12:42.43 .net
ほぼ無改造で大半のソフトが動いたから。SJISはそうはいかなかった。

518:名無しさん@お腹いっぱい。
15/02/26 18:49:35.33 .net
昔の人は日本語テキストを英語しか想定してないソフトで処理しようとしたのか。
今も昔も日本のUinxerは自分でコードが書けないんだな。

519:名無しさん@お腹いっぱい。
15/02/27 07:41:27.33 .net
しかしsendmailみたいな8ビット目を落とすソフトウェアまで出てきたりして、
ISO-2022-JPを制定してメールはそちらを使うようになった。
結果として多くの日本語を扱うソフトは3種類のエンコーディングをサポート
する羽目になった。
今はそれに加えてUTF-8もあるし大変だ。

520:名無しさん@お腹いっぱい。
15/02/27 09:54:28.60 .net
Sendmailが悪いわけじゃないし
「8ビット目を落とすソフトウェアが出てきた」わけじゃない。
7ビットがデフォルトだったところに
8ビットも使えるソフトウェアが出てきた。

521:名無しさん@お腹いっぱい。
15/02/27 18:34:09.85 .net
それに比べてとMSの対応は素晴らしい。
早期にOS内部はunicodeで統一し、APIを二つ用意して、マクロでラップ。
あらゆる言語をターゲットにしてたOSだけはあるな。

522:名無しさん@お腹いっぱい。
15/07/23 11:23:39.14 .net
あとはwindowsとともに滅びゆくのみ
長く苦しい戦いだった

523:.
15/08/26 12:22:34.09 .net
EUCも撲滅しろ

524:名無しさん@お腹いっぱい。
15/08/26 13:30:24.73 .net
自分でやれ


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch