文字コードの種類は何故複数あるのでしょうか?at TECH
文字コードの種類は何故複数あるのでしょうか? - 暇つぶし2ch1:デフォルトの名無しさん
04/08/23 17:55
1つにしてくれればPGが苦労することはなくて
、ミンナうれしいはずなのに。

2:デフォルトの名無しさん
04/08/23 18:00
そんなことでスレを立てないで下さい。

3:デフォルトの名無しさん
04/08/23 18:35
>>1
アニメの世界であれば、そういう迷惑なことをするのは悪の組織ですよね?
現実の社会ではどうでしょう?
クリーンなイメージのあの組織も、もしかすると悪の組織なのかもしれませんね。

私は、大義名分を振りかざすこと、常に勝つことが重要であると考えています。

4:デフォルトの名無しさん
04/08/23 18:59
>>1
それが資本主義。

5:デフォルトの名無しさん
04/08/23 19:11
じゃあ共産圏は一つに統一されているのか。

6:マイク ◆yrBrqfF1Ew
04/08/23 19:14
宗教戦争の為だ。

7:デフォルトの名無しさん
04/08/23 19:34
統一されてないから。

8:デフォルトの名無しさん
04/08/23 20:21
なら、>>1 が新しい統一した文字コードを作れ。


9:デフォルトの名無しさん
04/08/23 20:33
>>8
また増えるからもういいよ

10:デフォルトの名無しさん
04/08/23 20:55
2バイト文字を使わなけりゃいいべや。

11:デフォルトの名無しさん
04/08/23 21:11

おまえら、まだ文字コード使ってるの?
俺はだいぶ前から文字しか使ってないよ。

12:デフォルトの名無しさん
04/08/23 21:36
あめれか人が悪いに決まってるだ

13:デフォルトの名無しさん
04/08/23 21:48
もう全部ビットマップでいいよ。

14:デフォルトの名無しさん
04/08/23 21:54
>>12
欧米人は頭足りないからな

15:デフォルトの名無しさん
04/08/23 22:24
UNICODE がもう少しまともだったらなぁ。

16: ◆Z0vd5w812U
04/08/23 23:09
>>15
所詮は「なんでアルファベット以外が存在してんだよ」と思ってる連中が作った規格。

17:デフォルトの名無しさん
04/08/23 23:23
1.0と比べると3.2はずいぶんマシになってるし
あと20年もすれば納得いくものになるんじゃないの

18:デフォルトの名無しさん
04/08/24 14:16
Unicode1は所詮ローカライズ用

19:デフォルトの名無しさん
04/08/29 03:15
アルファベットの文字コードも複数あるわけですが…

20:デフォルトの名無しさん
04/09/24 18:55:46
ここを見れ!

URLリンク(www.pahoo.org)

21:デフォルトの名無しさん
04/10/12 18:24:05
URLリンク(www005.upp.so-net.ne.jp)
本来神聖なる日本国憲法を記載するに当たり一字一句変える
ことなく記載しなければならないところですが、コンピューター
通信上の禁則文字(JISコードに含まれていない文字)があり、
読み方は一緒なのですが例えば「わゐうゑを」2番目の「ゐ」を「い」
に4番目の「ゑ」を「得」に変更させていただきました。
あしからずご了承下さい。


「ゐ」「ゑ」はJISコードに無い文字なのか?

22:デフォルトの名無しさん
04/10/12 18:35:39
改行コードの種類は何故複数あるのでしょうか?

23:デフォルトの名無しさん
04/10/12 19:52:02
大人の事情

24:デフォルトの名無しさん
04/10/12 23:11:08
>>21
「禁則文字」の用語にも誤解があるようでつね


25:デフォルトの名無しさん
04/10/14 00:12:52
>>22
昔々、テレタイプという通信機には
プラテンを1行分進めるラインフィードという制御コードと
印字ヘッドを左に戻すキャリッジリターンという制御コードが別々にあった
そんでこいつは初期のコンピュータにつないで端末として使ったりもした。

それが今の改行コードの元になったわけだが

MS-DOS,->Windows系列では律儀に上記二つペアを改行コード
としてそのまま引き継いだ

UNIX系だとニューライン(ラインフィード)LFだけになり

Mac系はキャリッジリターンだけを改行コードとして採用した。

ネットワークプロトコルではCRLFが今でも
改行コードの標準だが、
これは

テレタイプ->ダム端末->telnet,rloginの流れで改行コードも
引き継がれたからだ。

26:デフォルトの名無しさん
04/10/16 22:39:45
>>25
答えキタ━━━(゚∀゚)━━━ !!!!
ありがとう
UNIXがLFなのになんでネットワークがCRLFになっちまったのかと思ってたんだよ

27:デフォルトの名無しさん
04/10/16 23:36:27
URLリンク(satosan.jp)
> 遠隔地同士の通信手段としてテレタイプ(通信機能をもった
> タイプライター) が使われていた頃は、ヘッドが行の端まで
> 行ったとき次の行の先頭に戻るま で、2文字分通信するのと
> 同じ時間がかかった。
> そこで改行の文字コードをCR(復帰:キャリッジリターン '\r')と
> LF(改行: ラインフィード '\n')の2つに割り当てた。


28:デフォルトの名無しさん
04/10/18 20:43:35
エンディアンの種類は何(ry

29:デフォルトの名無しさん
04/11/30 13:59:22
age

30:デフォルトの名無しさん
05/02/10 22:10:51
TRONコード

31:デフォルトの名無しさん
05/02/10 22:25:42
>>27
理由になってないし

32:デフォルトの名無しさん
05/02/17 00:28:22
「qwerty配列はタイピングが早すぎてキーが絡まないようにわざと打ちにくくした」
って都市伝説もあったな

33:デフォルトの名無しさん
05/02/17 01:19:18
キーが絡むなら都市伝説だな。
絡むのはハンマーだから。


34:デフォルトの名無しさん
05/02/18 01:04:22
>>32
適度に打ちにくくしたのは確かだよ。

最悪に打ちにくくしたわけではない。
最高に打ちやすくしたわけでもない。
最適に打ちにくくしたんだよ。

機械とセールスの拮抗点で。

35:デフォルトの名無しさん
05/02/18 19:00:00
文字コードと関係ないぞ

36:デフォルトの名無しさん
05/02/19 00:20:50
そもそも、自然言語が複数あるんだから、
文字コードが複数出来るのも自然な流れだと思われ

37:デフォルトの名無しさん
05/02/23 17:40:30
>>1
すべて Unicode Consortium が悪い。
そうに決まってる。

38:デフォルトの名無しさん
05/02/23 19:12:17
>>28
普通の答えは、big-endian と little-endianの2種類だが、

3-4-1-2 や 2-1-4-3 など順序になる不可解なシステムが、過去のミニコン時代にありますた。
それらは、middle-endian と呼ばれている。

よって、32ビットでのエンディアンの種類は4種類という事になる。


39:デフォルトの名無しさん
05/02/23 19:26:44
24種類じゃないの。

40:デフォルトの名無しさん
05/02/23 19:49:20
実在が確認されているのが4種類、可能性としては24種類、ということで。

41:デフォルトの名無しさん
05/02/23 21:09:47
XMLの仕様書に書かれてる3-4-1-2や2-1-4-3って実在したのか
>>37
ワロス

42:デフォルトの名無しさん
05/02/23 22:23:06
>>1
容量制限のため用途に応じた使い分けをせざるを得なかった歴史があるからだよ。
たしかに文字コードの乱立はうざい。
こんなに大容量化が進んでマシンのスペックも向上しているにもかかわらず
文字コードが未だに乱立している原因として考えられることは
面倒くさがり屋、変化を恐れる愚かな老人達が我々の行動を阻もうとしていることがあげられる。
日本国内でオブジェクト指向が普及しない原因も、自分の立場を維持したい愚かな老人が
妨害しているのが原因かもしれない。

かつて、ある企業が独自規格を作って大儲けを
たくらんだために文字コードが乱立した可能性もありうる。

今ではUnicodeがあるというのにほとんどの新しい言語、OSは
Unicodeが標準だというのに
頭の古い連中は大したコストパフォーマンスにならないにもかかわらず
容量制限が・・・
既存のリソースが・・・・
などといってUnicodeを採用しようとしない。
既存のリソースならUnicodeに変換すればいいことだろう。
まったく愚かだ。Unicodeに鞍替えできない老舗顧客も老舗プログラマも。


43:デフォルトの名無しさん
05/02/23 22:32:12
お前が愚かだ。

44:デフォルトの名無しさん
05/02/23 22:46:26
キーボードは乱立しなくてよかったw

45:デフォルトの名無しさん
05/02/24 10:05:30
乱立してるだろ

46:デフォルトの名無しさん
05/02/24 15:47:01
「俺たちはどうして何でもUnicodeのせいにするのだろう?」
 文字鏡関係者とTRON関係者とGTプロジェクト関係者が何人か集まって考えた。
しかしいくら考えても結論が出ない。その時、一人がひらめいた。
「それもUnicodeのせいだ!」
 関係者は全員それで納得した。

47:デフォルトの名無しさん
05/02/24 18:11:09
Windowsもとっととunicodeに移行して欲しいよ

48:デフォルトの名無しさん
05/02/24 19:13:03
してるじゃん
出来てないのはiniファイルくらいだろ?

49:デフォルトの名無しさん
05/02/25 06:57:00
どうか教えてください。

[1] 授業単元:プログラム概論
[2] 問題文(含コード&リンク):
   シフトJISからEUCへの文字コード変換プログラムを作りたい(余裕があればその逆も)
   URLリンク(tokyo.cool.ne.jp)
[3] 環境
 [3.1] OS: WindowsXP,NT Solaris2.0
 [3.2] コンパイラ(バージョン):富士通fcc,Cygwin(gcc)
 [3.3] 言語:C
[4] 期限:2005年2月28日12:00まで
[5] その他の制限: この問題文の意図だと引数をunsigned int型にするべきかどうか分からない

50:デフォルトの名無しさん
05/02/25 09:58:13
>>49

#include <stdlib.h>
main()
{
return system("nkf -e from > to");
}

つーかスレ違い

51:デフォルトの名無しさん
05/02/25 11:22:52
>>41
3-4-1-2ってのは、最小アクセス単位が16 bitでbig-endianなCPU
(3-4)-(1-2) 別名middle endian
wordにpackするとこの形になった。(Cの先祖のBCPL、初期のpascal等)

>>27
それは嘘。(そもそも復帰は物凄く時間がかかる)
タイプライター時代から、(行先頭に)復帰して文字を進めて重ね打ち、例えば _ を、
ってのがあって、それをプリンタにも持ち込んだのが最初。



52:デフォルトの名無しさん
05/02/25 11:26:29
>>50

ワラ
幾らなんでもそれはないから

> return system("iconv -f shift_jis -t euc-jp < from > to");

でどうだ?

53:デフォルトの名無しさん
05/02/25 15:51:32
簡単な質問かもしれませんが、分からないので教えてください。

以下のプログラム、核は出来ています。このまま使用しても目的は達成できます。が、
URLリンク(tokyo.cool.ne.jp)
URLリンク(tokyo.cool.ne.jp)
この2つのソースコードをJISを経過させずに直接変換させるにはどうしたらいいでしょうか?

54:デフォルトの名無しさん
05/02/25 16:02:46
>>53
何故一つの質問をあっちこっちで聞きまくるんだ
頭おかしいんじゃないか?

55:デフォルトの名無しさん
05/02/25 19:04:25
あちこちで聞けば、たくさんの人が並行して考えてくれるので、
答えが早くでると思いました。
どこか答えが出てるスレッドがありましたら教えてください。

56:デフォルトの名無しさん
05/02/25 19:36:43
だから、テーブルを使えよ。

57:デフォルトの名無しさん
05/02/25 19:46:47
>>48
コマンドプロンプトとか無理だろ

58:デフォルトの名無しさん
05/02/25 19:55:45
無理じゃ無いよ
ちゃんとユニコードなファイル名も表示されるし

59:デフォルトの名無しさん
05/02/25 22:43:07
> あちこちで聞けば、たくさんの人が並行して考えてくれるので、
> 答えが早くでると思いました。
> どこか答えが出てるスレッドがありましたら教えてください。

・・・こういう心理をどう表現すればいいのだ?

自己中心的か
ゲーム脳か

60:53@愛宕山
05/02/25 23:13:03
ちなみに55はボクではありません。今さらどうでもいいけど

61:デフォルトの名無しさん
05/02/26 01:45:06
>>59
全員から同時に返事が来たらどうするつもりなんだろうね

62:デフォルトの名無しさん
05/03/01 21:40:00
そこで超漢字

63:デフォルトの名無しさん
05/04/30 21:51:28
うにこーど

64:デフォルトの名無しさん
05/05/01 11:20:17
>>57
localeモデルにしとけば、Shift_JIS→UTF-8移行も楽だったね。

65:デフォルトの名無しさん
05/05/03 05:47:35
UNICODEだってごちゃごちゃの固まりジャン
こんな気味悪い文字コードにしなくちゃいけないのはいやだ

66:デフォルトの名無しさん
05/05/03 07:29:57
UTF-8は使用するメモリが1.5倍になるからいやだ

67:?デフォルトの名無しさん
05/05/03 20:19:22
UTF-8で1.5倍とはしらなかった。

68:デフォルトの名無しさん
05/05/04 00:05:00
漢字のコードポイントのとこなら1文字3バイトだけどね。



69:デフォルトの名無しさん
05/05/04 00:05:32
あ、3オクテットというべきかにゃ?


70:デフォルトの名無しさん
05/05/05 17:46:59
4オクテットの箇所もあるでよ。


71:デフォルトの名無しさん
05/11/19 21:54:11
そこでシフトJISですよ。JIS第3水準、第4水準も難なく扱えるし、な。


72:デフォルトの名無しさん
05/11/19 22:22:21
つうか、そろそろJIS廃止してくれんかの。
シフトコードウザイ。

73:デフォルトの名無しさん
05/11/19 22:27:05
UCS-4ってのが最後のUnicode?
Javaだとint型なんだっけ?よーわからんけど、早く統一して欲しい。

74:デフォルトの名無しさん
05/11/19 22:43:03
>>73
1文字8バイトなんて世界が来るのかね。


75:デフォルトの名無しさん
05/11/19 22:44:51
UTF-8でいいんでしょ?~とか①とか大丈夫なんでしょ?

76:デフォルトの名無しさん
05/11/19 22:53:34
>>75
いまのWord、ExcelはUCS-2だから、その世界に収まっている
仕事ならUTF-8でおけですよ。

でもオヤクソとかは…

77:デフォルトの名無しさん
05/11/20 01:29:07
やっぱり生き残るのはシフトJIS系。
将来的には半角カナの領域を1バイト目にして可変長のコードにして
UnicodeやTRONコード、JEF、KEISを丸呑み。

絶対そうなる。


78:デフォルトの名無しさん
05/11/20 01:31:35
>>76
じゃあUCS-4でいいから今すぐ統一して( ノ><)ノ

79:デフォルトの名無しさん
05/11/24 02:30:44
常用漢字とJISが食い違ってるというのもそもそもどんな縦割り行政
しちょるのかと

80:デフォルトの名無しさん
05/11/24 13:11:35
何か食い違ってたっけ?

81:デフォルトの名無しさん
05/11/25 21:34:50
龍の旧字体?

82:デフォルトの名無しさん
05/11/25 21:35:24
竜の旧字体? だった
龍じゃそのまんまじゃんorz

83:デフォルトの名無しさん
05/11/28 16:44:09
「龍」の点の向きのこと?
そんなもん包摂の範囲内だしどっちだっていいやん。
表外漢字字体表にがちがちにあわせたJIS X 0213:2004のほうが異常。

84:デフォルトの名無しさん
05/11/29 08:28:23
大体、印刷標準字体とかうざいんじゃ!

85:デフォルトの名無しさん
06/02/06 15:57:56
だって常用漢字の数とJIS漢字の数とそもそもぜんぜん違うじゃん
たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
それより写植の文字がJISに入ってないせいで電話記号とか
ポゲムタとかが簡単に出せなくてラムちゃん語も満足に表記できやしない。


86:デフォルトの名無しさん
06/02/06 16:36:04
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?
>たしか常用漢字にあってJISにない漢字とか結構なかったっけ?


87:デフォルトの名無しさん
06/03/13 10:43:01
いま試しに数えてみたら24個くらいあった

88:デフォルトの名無しさん
06/03/25 09:27:36
>>87 夜に数えると増えてるよ。
うちの家の階段も昼間は12段だけど
夜数えると13段ある。

89:デフォルトの名無しさん
06/03/26 12:55:29
たしかJISにあって常用漢字にない漢字とか結構なかったっけ?

90:デフォルトの名無しさん
06/03/27 02:43:17
ない。

91:デフォルトの名無しさん
06/05/01 11:42:30
お前ら大嘘つきだ。みんな嫌いだ。

92:デフォルトの名無しさん
06/05/04 13:03:48
文字コードが増える前に、俺らが使う言葉の数を減らせばいいんじゃね?

93:デフォルトの名無しさん
06/05/05 07:04:34
たしかに。英語だけあれば世の中困ること無いよな。

94:デフォルトの名無しさん
06/05/30 02:39:01
そうだ。

95:デフォルトの名無しさん
06/06/16 19:34:55
>>66
UTF-8って英数字に対して使うなら容量はそんなに増えなかったかと。

96:デフォルトの名無しさん
06/07/06 04:23:37
戦争中、敵方の兵士により領土が侵略されると、必ず略奪やレイプがおこなわれる。ルワンダもその例外ではなかった。 
  
大統領の暗殺から2週間ほどたったころ、ルワンダ北西部のルヘンゲリ県のある村で14歳のツチ族少女がフツ族民兵に誘拐された。 
当時すでに虐殺の嵐はルワンダ全土を激しく吹き荒れ、各地で次々とツチ族が殺されていた。しかし幸いなことにその村ではまだ一人の死者も出さず、ツチ族とフツ族が微妙なバランスの上で共生していた。 
 誘拐された少女は、「気立てが良くかわいい娘だ」と村で評判だったらしい。その日も夕食の準備をする母を手伝うため、水を汲みに村外れの井戸へ行き、そこで待ち伏せていた数人の男に拉致されてしまったのだ。 

何人かの村人がその様子を目撃し、すぐさま家族に知らせた。家族は娘の身に起こりうる最悪の事態(レイプされた後、殺害される)を考え、血眼になって探したが、1週間たっても少女の行方はわからなかった。 
さらに数日が過ぎ家族があきらめかけたころ、隣村から連絡が届いた。 
「娘さんらしき少女を保護した。重体ではあるものの生きてはいる」 
家族は押っ取り刀で隣村に駆けつけ、粗末なベッドの上で毛布に包まれ、横たわる少女の姿を見た。 
  体を包んでいる毛布に血がにじみ、見る影もなくやせ細った体は小刻みに震え、その瞳は輝きなく虚空を見つめていた。家族が声をかけても何も反応を示さない。脅えているのか寒いのか、ただ小さく震えるだけだ。

97:デフォルトの名無しさん
06/07/06 04:24:30
少女は非常に奇異な姿で発見されたという。隣町の農夫は発見したときの様子をこう語る。 
「私がいつものとおり自分の畑を耕すためにあぜ道を歩いていると、ふと視界に見慣れないものが目に入ったのです。 
最初は『木の切り株か、大きな石なのかなあ』と思ったのですが、近づいてみると違いました。目を疑いましたよ。裸の少女が腰から下を土に埋められていたのですから……。 
私が発見したとき、彼女は焦点の定まらない目でぼんやりと遠くを見つめ、半開きになった口からよだれを垂れ流していました。 
インタラーメ(フツ族民兵)か政府軍が近くにいるのではと思ったので、慌てて村にいったん帰りました。人を集め武器を持ち、恐る恐るその場に戻って、彼女を掘り返したのです。 
目は開いていたのですが、すでに彼女の意識はありませんでした」 

変わり果てた姿の少女を、家族はすぐさま村から少し離れたところにあったフランスの緊急医療援助団体“国境なき医師団”の診療所へと運び込んだ。 
偶然、その少女の治療に日本人看護婦、山本珠江さんが立ち会っていた。

98:デフォルトの名無しさん
06/07/06 04:26:13
「数人の男たちに、彼女は何日間にもわたり強姦され続けていたみたいなの。食事もろくに与えられていなかったようね。 
しかも土に埋められる前、女性器に木の棒か銃身のような細くて固いものを押し込まれ、こねくり返されたようなのよ。 
その傷口に雑菌が入ってしまったらしくて性器の一部が壊疽していたわ。 
命だけは助かったけど、当然もう子供は産めないし、あまりに大きなショックを受けたから精神障害がひどくて廃人になってしまったわ」 
山本さんは非常に悲しそうでいて、悔しそうな表情をしながらその時の状景を振り返った。 
1週間ほどその少女は「国境なき医師団」の診療所に入院していたそうだ。肉体的な治療が終了すると、少女は家族に連れられ家に戻っていった。虐殺の被害に遇った瀕死の患者が次々に運び込まれてくるため、生命の危機がなくなった患者を収容する場所がなかったためだ。 

「悲しいけど、これ戦争なのよね」 
山本さんは、苦しげに首を横に振りながら語った。

99:デフォルトの名無しさん
06/07/08 09:12:04
>>97-98
よくあること
はいりょしてくれないと

100:デフォルトの名無しさん
06/10/31 17:47:09
>>1
64ビットユニコードつかえばいいだろ


101:デフォルトの名無しさん
06/11/09 12:34:39
JISの文字コードがあれなのはそもそもが朝日新聞が適当に定めた文字だから

102:デフォルトの名無しさん
07/01/06 11:43:23
まず文字コードについてだが、コード云々の前に自然言語の整理が必要だと思う。
実際にはほとんど使われることがない文字のためにコード領域を使うのは無駄だから
そういう文字はどんどん淘汰してゆくべき。
あと、字体がそっくりな文字なんかもできるだけ1つに統合してしまったほうがいい。
そのあとで国(言語種別)ごとにコード領域を分けて、すべての文字を1つのコード体系に
収めるべき。

次に改行コードだが、全部LFで統一でOK。改行ごときに2バイトも必要ない。
既存のリソースは全部LFに変換してしまえばよい。
Windowsなんかでファイルの改行を勝手に変換する機能をサポートすれば、
CR+LFはいずれこの世から自然消滅するだろう。

最後にエンディアンについてだが、ビッグエンディアンに統一すべき。
人間が感覚的になじみやすいほうがいいから。

これらのことをやるにはそれなりの負担がかかるが、その結果得られるメリットを
考えたらすぐにでも取り掛かるべき。もちろん世界レベルで。

103:デフォルトの名無しさん
07/01/10 13:15:10
バベルの塔で神の怒りに触れ文字コードの種類が沢山になった。
これは事実で、(ry

104:デフォルトの名無しさん
07/01/10 14:26:08
JISとEUCはほぼ等価だから
漏れ的には扱い安さは
EUC > JIS >>> SJIS >>>>>>> UNICODE
だと思うよ

105:デフォルトの名無しさん
07/01/10 14:28:45
判定のしやすさで言えばJISは・・
UNICODEもそうだな、代わりにUTF-8とか使うが

106:デフォルトの名無しさん
07/01/10 17:43:21
援交ディングと門司セットの話がない交ぜに!

107:デフォルトの名無しさん
07/01/10 18:11:17
UTF-128あれば大丈夫だろ?

108:デフォルトの名無しさん
07/01/10 18:15:07
野球板 お約束その122
「しまってこーぜー」

「まずお前が社会の窓閉めろや」

109:デフォルトの名無しさん
07/01/10 18:15:43
ミスッた

110:デフォルトの名無しさん
07/01/10 20:06:46
言語は何故複数あるのでしょうか?
どうせなら言語も英語だけにしようよ。

パスがでたー

111:デフォルトの名無しさん
07/01/11 09:38:18
主食は何故複数あるのでしょうか?
どうせなら主食も米だけにしようよ。

112:デフォルトの名無しさん
07/01/11 23:46:02
>104
まさかとはおもうが、そのJISはCESとしてのISO-2022-JPの通称のことなのか?
それともCCSとしてのJISX208なのか。

113:デフォルトの名無しさん
07/01/24 23:51:46
だいたい文字をコード(数字)に置き換えなければならない
現代のコンピュータアーキテクチャが問題。

やっぱ文字は文字として扱えなきゃダメでしょ。

114:デフォルトの名無しさん
07/01/25 09:34:43
「文字を文字として扱う」っていうのは具体的にどういうことよ?

115:デフォルトの名無しさん
07/01/25 10:01:33
0から9、AからFまでの文字しか使わない

116:デフォルトの名無しさん
07/01/25 11:25:11
で、それらの文字を文字として扱うとはどういうこと?

117:デフォルトの名無しさん
07/02/10 22:58:13
あいう・・・と書かずに
a01001a01002a01003・・・

118:デフォルトの名無しさん
07/03/16 03:44:15
ベクトルデータとしてパターン認識させるとか?w

119:デフォルトの名無しさん
07/07/12 19:45:19
【日本語を扱える主な文字コード(“x-” 付きのものは IANA 非登録)】

Shift_JIS
Windows-31J
x-Mac-Japanese

ISO-2022-JP
ISO-2022-JP-2
x-CP50220

EUC-JP
x-CP51932

UTF-8
x-UTF-8N
x-UTF-8-BOM

UTF-7

UTF-16
UTF-16BE
UTF-16LE

120:デフォルトの名無しさん
07/07/12 21:01:07
UTF-32系は?

121:・∀・)っ-○◎●
07/08/09 02:10:09
UTF-9は?

122:デフォルトの名無しさん
07/08/09 16:25:42
UTF-18は?

123:デフォルトの名無しさん
07/08/09 23:52:07
Punycodeは?

124:デフォルトの名無しさん
07/08/13 14:54:27
Windows上でperlのCGIを作成していて、
ファイルの保存時に、漢字コードを指定しないと
保存できないのですが、
シフトJISと
JISと
EUCと、
どれを選択したらいいのでしょうか?
作成後はFFFTPでレンタルサーバーにアップロードしますが、
そのレンタルサーバーは当然UNIXなので、
UNIXで動かすということを考えればEUCで保存したほうが
いいのですか?
あと、C5の問題(表とか)を考えれば
シフトJISだと
表¥
っていちいち書かないと文字化けしますが、
EUCだったらそんな余計なこと考えないでいいと
いう記述も見つけました。
だったらEUCで保存しようかな?と思いましたが
それだとWindows上でソースコードの変更作業するときに
漢字が文字化けしないですか?
だってWindowsはシフトJISしか取り扱えないのだから。
結局何で保存すればいいのでしょうか?

125:デフォルトの名無しさん
07/08/13 23:34:09
>>124
・ShiftJisで書いてffftpで変換する。
・まともなエディタでEUCで書く。

126:・∀・)っ-○◎●
07/08/15 03:02:00
UNIXだからってサイトをEUCにしないといけないなんてことはない。
最近のLinuxは標準文字コードはUTF-8が多いよ。

XML対応とかも視野に入れるならできればUTF-8のほうがいい。
Shift-JISはね、HTMLだけならいいけどプログラム書くと何かとトラブルに遭いやすい。


127:デフォルトの名無しさん
07/08/15 03:08:05
そしてベンダ毎の変換表の違いやらのUnicode特有の問題になやまされるわけですね。

SJISでも機種依存文字とか、2バイト目に0x5C使ってるとか問題あるけど、
Unicode使っても薔薇色の未来が待ってるわけじゃない。
どっちかっつーと、長いものには巻かれろ的な感じの方が強い。

128:デフォルトの名無しさん
07/08/15 10:36:44
ハナからUnicode使ってれば変換表とか関係ないんじゃ?

129:・∀・)っ-○◎●
07/08/15 23:28:24
それは言える。

tDiaryでうかつにrecent-rssプラグイン使って2chのRSSを表示しようとすると
機種依存文字の関係でUNICODEの変換失敗で全部転ける。

130:デフォルトの名無しさん
07/08/16 01:39:32
>>128
ハナからUnicodeしか使って無くても、WAVE DASH使うと
Windowsのフォントでは汚くなるとかあるし無問題とはならない。

131:デフォルトの名無しさん
07/08/16 05:24:15
世界が今すぐに全てUnicodeに変るわけじゃないから、
>>128は実現不可能な夢。

そもそも狂っている変換表があるから、
元の意味/意図と違うUnicodeのデータが溜っていっている状況。

132:デフォルトの名無しさん
07/08/16 10:12:50
ダンゴさんの居るスレは活気があるな。

133:デフォルトの名無しさん
07/08/20 17:54:12
普通の日本語のサイトならEUC-JPかISO-2022-JPでいいだろ
ちょいと外国の文字使うくらいなら実体参照でも十分だし
Unicodeなんて混乱の極みにある物を使う気にはなれん

134:デフォルトの名無しさん
07/08/20 20:15:12
なんでウェブサイトの話になってるの?


135:デフォルトの名無しさん
07/08/26 08:04:08
あげ

136:デフォルトの名無しさん
07/08/30 08:21:39
ネットワークが一番文字コード問題が露呈しやすいからだろ

137:デフォルトの名無しさん
07/09/02 18:33:34
>>1
なんで人の言葉は複数あるんでしょうか?


138:デフォルトの名無しさん
07/09/04 16:32:27
バベルの塔を建てたから

139:デフォルトの名無しさん
07/09/08 10:08:44
JEFとかKEISとかその先にある厚生省系、労働省系の外字コードなんかがUnicodeに反映されていないってのがあるな

140:デフォルトの名無しさん
07/11/25 16:28:52
JISの文字コード表なんて
もうごちゃごちゃだな
80h~9Fhなんて制御文字には使わないんだから
1区1点~126区126点1つにまとめろよ

141:デフォルトの名無しさん
08/01/16 23:18:53
>>135
あるよ。
以上。
↓次の方どうぞ

142:デフォルトの名無しさん
08/05/07 23:34:16
age

143:デフォルトの名無しさん
08/05/12 22:00:30
sage

144:デフォルトの名無しさん
08/07/09 23:50:48
2208

145:デフォルトの名無しさん
08/12/23 07:49:06
>>139
JEF KEIS IBM JIPS(E/J)
これらの拡張も含めた文字は全てUTF-8で表現できるんじゃないの?

146:デフォルトの名無しさん
08/12/25 21:09:50
プライベートエリアを私用領域とか訳しちゃうセンスが在る限り文字コードは増え続けるさ


147:デフォルトの名無しさん
09/01/07 12:48:00
だれか文字コード総合スレの新スレ立ててー。

148:デフォルトの名無しさん
09/01/07 21:23:47
>>147
前スレ、一ヶ月書き込みなくて17レスで落ちてるみたいだけど、需要ないからじゃね?

149:デフォルトの名無しさん
09/01/07 21:31:34
この板、即死に引っ掛からなければ、数か月書き込みないのはざらなほう。

150:デフォルトの名無しさん
09/01/08 00:03:07
>>147
ここを乗っ取ればいいんじゃね?
>>148
誰もExt.Cには興味ないのか…
Unicodeメーリングリストも絵文字で絶賛炎上中だしな

151:デフォルトの名無しさん
09/01/08 22:13:20
>>149
ああ、即死食らったのか

まぁ、このスレで充分な気もするけど

152:デフォルトの名無しさん
09/01/12 16:41:43
URLリンク(www.unicode.org)
最近のUnicodeメーリングリストは顔が真っ赤で引くに引けなくなった人たちが
たくさんいるようだがこれはひどすぎる
日本では「犬」を「ケン」と読むこともあるなんて知らないんだろうな。
それとも「いぬ」と読む「犬」と「ケン」と読む「犬」は別字だとか言い出すんだろうか。
それ何てKS X 1001?

153:デフォルトの名無しさん
09/01/12 19:52:02
文字コードって65000くらいあるの?

154:デフォルトの名無しさん
09/01/12 21:00:14
100万くらいあります

155:デフォルトの名無しさん
09/01/15 00:13:07
絵文字レビュー終了のお知らせ

156:デフォルトの名無しさん
09/01/18 23:15:58
国ごとに専用の(速度重視の)エンコーディング一つとUnicodeだけにしてほしい

157:デフォルトの名無しさん
09/01/18 23:17:53
>>157
日本は何にするの?

158:デフォルトの名無しさん
09/01/26 11:26:56
URLリンク(twitter.com)

159:デフォルトの名無しさん
09/01/26 12:52:12
>>157
JIS_X201で。

160:デフォルトの名無しさん
09/01/26 23:24:33
URLリンク(smallbear.sakura.ne.jp)
まるで人ごとのように書いてますけど
TRONコードでは&T224C71;と&T224C72;のどっちなんですか?
ていうか「&T224C71;と&T224C72;の区別すらできない欠陥規格だ!」式の批判は
(JIS|Unicode)叩きの定番だったような気がするんですが。
ていうかTフォントマダー? (AAry

161:デフォルトの名無しさん
09/01/27 01:10:46
「…お母さん?俺やけど…」
「…TRONか?…」
「うん…俺、包摂分離してしもて…」
「もう、包摂分離の事は気にせんでいいから、成仏して…」

162:デフォルトの名無しさん
09/01/27 08:05:57
ちなみに今昔文字鏡では*****(検閲削除されました)番と*****(検閲削除されました)番。
いや実際には調べてないけど絶対分離されてるに違いないし

163:マイク ◆gZ6OoOjBU6
09/02/05 08:39:33
UnicodeだかUTF16だか知らんが
サロゲート文字の処理に関する脆弱性が色々なブラウザで報告されたりしてた。
2001年頃に2chで西村博之が誰かに指摘されてたウニコードに関する問題ってそれのことだったのかな。

164:マイク ◆gZ6OoOjBU6
09/02/05 08:49:15
これだわこれ。
blackhatコンファレンスで長谷川洋介って人だっけ?
それが発表してた文字コードに関する脆弱性に関する論文に近いもの。
見てない奴は見てみ
参考になんぞ

URLリンク(www.blackhat.com)

165:デフォルトの名無しさん
09/02/06 15:04:05
Gmailが絵文字を全世界的に公式アナウンス。

URLリンク(mail.google.com)

> Emoticons - they're not just for chat anymore
> Express yourself with emoticons from to (小さい笑い顔) or (カニ) even (ハエうんこ).
> Click the (小さい笑い顔) button when composing a message
> in "Rich formatting" mode, or choose the new emoticons tab in chat,
> and express yourself to your ハートマーク)'s desire.
> Learn more (URLリンク(mail.google.com))

URLリンク(mail.google.com)
を絵文字アイコンに決定した模様。

「even ハエうんこ」ワロタ

166:デフォルトの名無しさん
09/02/07 08:19:39
Sun-ExtBが更新されて、Extension Cの正式版に対応してた。
>>165
それはちょっと前に話題になってたUnicode絵文字じゃなくてリッチテキスト方式かな

167:デフォルトの名無しさん
09/02/07 09:20:45
UTF-16サロゲートペアをUTF-8に変換出来ますか?

168:デフォルトの名無しさん
09/02/07 12:12:34
>>167
いったんUnicode scalar valueを求めてからUTF-8に変換してください。
サロゲートのコードポイント(D800..DFFF)をそのままUTF-8にするのは不正です。

169:デフォルトの名無しさん
09/02/08 01:58:04
日本人になまじ技術力があったから日本製PCが一時期国内でシェアを占め
独自のPC漢字文化が創られた。これがすべての始まり。

170:デフォルトの名無しさん
09/02/08 13:24:01
で、ケータイの世界でもまったく同じようにガラパゴスケータイがシェアを占めて
独自の絵文字文化が発達したわけですね、わかります。

進歩しろよ

171:デフォルトの名無しさん
09/02/10 11:08:47
絵文字はユニコードに入りますよ、たぶん。

172:デフォルトの名無しさん
09/02/11 01:08:00
日本のケータイメーカーが音頭を取って入れたわけではないけどね。
漢字だってAdobeの活動でようやく異体字の使い分けが(原理上は)できるようになった

173:デフォルトの名無しさん
09/02/13 07:51:40
URLリンク(www.kumikomi.net)
> 2009年の早い時期に,
もう出す出す詐欺はいいよ
> 第1期 236,025字の一般リリース(Webからの無償ダウンロード)を予定しているという.
GT78,675字×3書体を先に出すことにしたのか

174:デフォルトの名無しさん
09/02/17 21:04:27
久しぶりにSMPのroadmapを見たらU+1B100あたりに「(Historic Kana)」というのがあった。
URLリンク(www.unicode.org)
歴史的仮名遣いに必要な文字はすべて収録済みのはずだから
変体仮名の追加提案かな

175:デフォルトの名無しさん
09/02/17 21:25:54
"historical"じゃないのは何故だろう?

176:デフォルトの名無しさん
09/02/17 23:03:24
この前提案されてたKATAKANA LETTER ORIGINAL E(片仮名の元々のア行の「エ」、「衣」に由来)もそこに入るのかも知れない。
同時に提案されてたHIRAGANA LETTER YE(平仮名ヤ行の「え」、「江」に由来)は平仮名ブロックの空きの内の一つU+3097にほぼ決定みたいだが、
片仮名ブロックはもう空きが無いからな。

177:デフォルトの名無しさん
09/02/22 18:58:47
URLリンク(fezn.exblog.jp)
一太郎ってIVS対応してたの? マジ?

178:デフォルトの名無しさん
09/02/23 23:33:42
> 今後は「出典をすべてscanデータで出すべし」という方針に。
> だが、律儀に守っているのは日本と中国ぐらい。。
> 未提出多数とか、「人名だから」出さずじまいとか、出典非明示→取り下げ、とか。
UCSがゴミまみれになるのを防ぐことに一定の効果を上げてるわけだな。いいことだ。

179:デフォルトの名無しさん
09/02/24 15:45:03
>>177
今後の話だろ。

180:デフォルトの名無しさん
09/02/25 22:50:21
今後の話だったら「ブラウザはまだ」って書いてるのが変だ

181:デフォルトの名無しさん
09/03/03 22:09:24
U+1B000がKATAKANA LETTER ARCHAIC E(片仮名「衣」由来のア行の「エ」)になってた。
名前がORIGINAL E(元々の「エ」)からARCHAIC E(古代の「エ」)に変更されてた。
平仮名ヤ行の「え」と違ってBMP外になってしまうけどしょうがないか。
Historic KanaというブロックでU+1B000から256文字分予約されたけど今後変体仮名とか重要な昔の仮名をU+1B001以降にも追加していくつもりなのかな?

182:デフォルトの名無しさん
09/03/04 00:21:44
256で足りるのw?
そこら辺の文字はよく知らないけど512から1024くらいあってもいいような。

183:デフォルトの名無しさん
09/03/04 00:29:59
変体かなは良く分からないけど、ここのページを見る限り、平仮名だけでも軽く600以上ありそう。
URLリンク(www10.plala.or.jp)


184:デフォルトの名無しさん
09/03/04 12:43:59
住基仮名だけなら256で足りるがな。

185:デフォルトの名無しさん
09/03/05 07:38:01
1バイト目に文字種を表すもんだけいれて後は可変でよろしくやればいいと思った
最低2バイト~な感じで

186:デフォルトの名無しさん
09/03/05 17:50:02
欧米人にはそれが理解できんのですよ。

たとえば、”うまれつき目の見えないひと” を想像してみてください。
その人に「海は青い」という事を、いったいどうやって教えればいいのか。
そのひとには、赤も青も黄色も無いんです。色という概念が全く無いんです。
だから理解不可能です。

3次元の世界で生活している我々が4次元の世界を理解できないのと同じく
1文字1バイト圏で生活している欧米人には、1文字が2バイト、3バイトになるのが
理解できんのです。ヤツらにとってマルチバイト文化は4次元の世界なのです。

187:デフォルトの名無しさん
09/03/05 18:06:53
物理的に無理なのと一緒にされても。

188:デフォルトの名無しさん
09/03/05 19:19:15
文字コード総合の次スレはここでござるな? しからば過去スレを貼り。

【UTF8】文字コード変換【SJIS】
スレリンク(tech板)
文字コード統一スレ 1文字目
スレリンク(tech板)
文字コード総合スレ part2
スレリンク(tech板)
文字コード総合スレ part3
スレリンク(tech板)


189:デフォルトの名無しさん
09/03/05 20:24:38
>>185
いきなり可変でよろしくやってるのがUTF-8です。

190:デフォルトの名無しさん
09/03/05 21:44:14
>>184
たとえば「安」から「あ」へ連続的に変化していく過程の文字の数々にどうやって包摂規準を
設定するのか、とか考えると住基仮名のようなclosed setしかありえない気がする

191:デフォルトの名無しさん
09/03/07 02:01:46
変体でも「あ」なら「あ」なのだから、「あ」に対して異体字セレクタの対応を決めればいいだけなんじゃね?
256種類まで対応できるんだから、多分足りるでしょ。
足りなきゃ、異体字セレクタの方を増やせばいい。


192:デフォルトの名無しさん
09/03/07 14:29:53
U+E0100~U+E01EFは漢字専用じゃなかったっけ?

193:デフォルトの名無しさん
09/03/07 15:36:34
それよりアラビア文字みたいに前後の文字で字形を変えるのを
サポートする必要があるんじゃないか

194:デフォルトの名無しさん
09/03/07 19:27:11
・縦書き
・前後の状況で字形を変える必要がある
・異体字セレクタに対応が必要
それなんてモンゴル文字?

195:デフォルトの名無しさん
09/03/07 22:28:59
草書を標準化するところから始めないと…

196:デフォルトの名無しさん
09/03/08 11:10:41
アラビア文字がまさに草書の電子化

197:デフォルトの名無しさん
09/03/09 02:11:40
文字コード総合スレ part5
スレリンク(tech板)l50
作ってきた。 
即死回避に、だれか頼む。 
あと、テンプレがまだ(40行)残ってるので。現在連投規制(5回)で書き込めないのを何とかしないといけない。


198:デフォルトの名無しさん
09/03/09 02:23:53
●かえ

199:デフォルトの名無しさん
09/03/09 02:36:52
●持ってない
取り合えず見切り発車してくれ。

200:デフォルトの名無しさん
09/03/09 22:10:13
>>197


どんだけ書けば即死回避するんだっけ

201:デフォルトの名無しさん
09/03/23 19:29:17
>>192
あれって漢字専用なの?
漢字とモンゴル文字以外の場合はU+FE00~FE0Fを使わないといかんの?


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch