05/01/08 16:40:28
結局、32ビットコードの文字集合を新たに製作して、そこに文字を
「グリフが違えばすべて違う文字と考える」
ように収録するのが最も一般的な解決方法だろうか?
AdobeのCIDは「グリフが違えばすべて違う文字と考える」考え方だよね。
それを全言語・全文字に拡張すれば…
915:デフォルトの名無しさん
05/01/08 22:12:17
それだと使うときかなり困ると思うけど……
現状でも満足になされていない、ハイフン類の使い分け問題みたいなのが
もっと拡大するので、ただ書くだけならいいけど、機械処理に困る。
916:デフォルトの名無しさん
05/01/09 11:41:02
>>914
それ「超漢字」じゃん。
917:デフォルトの名無しさん
05/01/10 11:26:36
龍龍
龍龍
↑これユニコードに入ってたっけ?
918:デフォルトの名無しさん
05/01/10 16:29:18
>>917
U+2A6A5
URLリンク(www.unicode.org)
919:デフォルトの名無しさん
05/01/10 16:40:31
助かりました。まさか入っているとは。
920:デフォルトの名無しさん
05/01/10 16:53:10
興*4はないっぽいけどね。Simsun (Founder Extended)入れとけば楽に探せる。
921:デフォルトの名無しさん
05/01/10 21:41:37
ていうかUnihan Radical-Stroke Index使って自分で探せるようになると便利よ。
URLリンク(www.unicode.org)
知らない人のために簡単に説明。知ってる人は読み飛ばして下せぇ。
・Strokes in radical: 部首の画数を選択
・Minimum & Maximum: 探したい漢字の(部首を除いた)最小画数と最大画数を選択
・Use UTF-8: 漢字の画像を表示するか自分のマシンのフォントで表示するか選択
・部首の画像から検索したい部首をひとつ選択
・submit後、一覧から目的の漢字をみつけてクリック→詳細情報
どこから来た漢字なのかや、各国での読み、異体字とか色々載ってるんで、
文字コード関係以外の時でも結構使えます。
922:デフォルトの名無しさん
05/01/11 13:51:16
ありがとうございます。そんな便利なものがあったのですね。
これから活用します。
923:デフォルトの名無しさん
05/01/11 14:29:09
>>915
>>914
漢字だけに関して言えば
[ロケールコード][文字コード][異体字(グリフバリエーション?)番号]
がビット固定長で並んでるのが理想だと思う。
検索するときは異体字コードはマスクして無視するとか。
ただ、世の中にはリガチャしまくりで「どこからどこまでを1文字とするか」
が立場や処理によって変わる文字とかいろいろあるからなぁ、、
UNICODEのフル実装は個人や1企業の手に余る気がする、、、
フォントやPnPのドライバみたくオンデマンドで
必要なロケールの処理モジュールをダウンロードすればすむ様な
仕組みはできないものか。
それがロケール単位でいいのかって議論もあろうけども。
924:デフォルトの名無しさん
05/01/11 14:39:57
トンパはない。
925:デフォルトの名無しさん
05/01/11 15:30:18
ちょっと気になったのだが。
龍龍
龍龍
U+2A6A5だから、これはUCS-4で定義される文字になるわけですね。
ちょっと古い記事などを読むと、UCS-4で群00面00(=UCS-2)以外には
まだ文字は配置されていない、とか書いてあるが、現在、既に配置は
始まっているということなのか?
926:デフォルトの名無しさん
05/01/11 16:14:22
Unicode 3.1.0で初めてBMP外に配置された。
詳しくはDerivedAge.txtを参照のこと。
927:デフォルトの名無しさん
05/01/11 19:57:55
>>921
おぉぅ、興*4あったわ(U+2053B)。スマソ
928:デフォルトの名無しさん
05/01/11 22:11:18
CJK Unified Ideographs Extension B を眺めてると結構楽しいな
変な漢字があったりとかして
929:デフォルトの名無しさん
05/01/12 00:35:53
書き順が想像付かないやつとか普通の漢字にはありえない曲線とかあるなw
930:デフォルトの名無しさん
05/01/12 00:50:08
>>925
> UCS-4で定義される文字になるわけですね
「UCS-4で表現されうる文字になるわけですね」が正しい、と突っ込んでみる
931:デフォルトの名無しさん
05/01/13 07:03:17
>>864
> それはすでに同じ文字として見なしているからであって、別の文字だという主張に対する反論になっていない。
だってISO 2022はそういう仕様だって言ってるだけだもん。
あくまで別の文字だと主張して区別したい人にとってもはやISO 2022は使い物にならない。
それこそ鎖国してTRON使わせるくらいしか道はない。
# 話の枕は「unicode以上に国際的な文字コード」なのにどうして「鎖国」って結論になるんだ
そもそも何を根拠に別の文字だって主張してるのか謎なんだけど
932:デフォルトの名無しさん
05/01/13 07:03:34
>>865
> 何を指しているのか思いつかない。例はある?
>>859
つーか97JISの解説嫁。類型異字でもかまわず包摂しますが何か? と高らかに
宣言してるぞ
933:デフォルトの名無しさん
05/01/13 07:04:00
>>874
> 俺は「UnicodeのCJK Unificationは設計としておかしかった」と言っているわけ。
何も考えないで丸ごと詰め込むほうが設計としておかしい。
> unifyの損失についてはすでに書いた( >>835 >>837 >>850 )。
だからLATIN SMALL LETTERをUnifyしたらプレーンテキストで「make」の検索も
翻訳もできない。
> もちろん読み上げもできない。
グリフがまったく同じでも読みごとに別のコードを振るべきだと思う?
<丶`∀´><思うニダ
> それに対し、unifyの唯一の理由は「Unicodeを16ビットに収めるため」という、
> 今考えてみれば頭が痛くなるような理由。
アメリカ人はもっと凄いこと言ってたようだけど。
URLリンク(www2.xml.gr.jp)
統合漢字の原案(HCC)を出したのは中国。
934:デフォルトの名無しさん
05/01/13 07:04:24
>>876
> そうなの?
> >>873 の (1) と (3) のような関係じゃないかと思うんだけど。
日本人は日本の漢字で漢文を書くし中国人は古典も簡体字化してる。
違うスクリプトとは思えない(むろん言語は違う)。
935:デフォルトの名無しさん
05/01/13 07:04:40
>>881
> Unicodeのunifyを知らなかったら、ほとんどの日本人は「別の文字」と見なしていると思うんだけどな。
そりゃ漢字の知識がないだけ。ほとんどの中国人は「同じ文字」とみなす。
アルファベットの知識がなかったら2種類の「g」が違う文字に見えるかもしれない。
936:デフォルトの名無しさん
05/01/13 07:04:52
>>880
むしろNormalizatinしないで署名したりダイジェスト作ったりするのがだめ。
「必要なら後からテーブル引いてUnifyすればいい」という発想だと
そのときどんなテーブル使ってたのか分からないと署名の検証ができなくなる。
937:デフォルトの名無しさん
05/01/13 10:08:13
>>936
binaryに対する署名のようにAS ISでいいじゃん。
PGP/MIMEなんかでは、canonicalizationって言ってもline endingだけだし。
938:デフォルトの名無しさん
05/01/13 11:22:57 BE:21439837-
>>935
確かに、日本人であっても2種類の「骨」が「別の文字」に見える人は「漢字の知識」がないと
言われても仕方ないかもしれない。「別の字体」に見える、ならまだしも。
下を丸める「g」と下を丸めない「g」も「別の文字」に見える人は「アルファベットの知識」がないと
言われても仕方がないと思うが、「別の字体」に見えるというのなら「アルファベットの知識」が
ないとは言い切れない。
939:デフォルトの名無しさん
05/01/13 11:37:03 BE:30627465-
>>923
以下、[ ]で囲ったのは実際にはそれぞれがビットを表していると考えてほしい。
「辺」を表すのが[日本語][辺][異体字0]で、
「邊」を表すのが[日本語][辺][異体字1]で、
「邉」を表すのが[日本語][辺][異体字2]で(以下ry
みたいな構成がいいということになるのかな?
繁体字中国語では
「邊」を表すのが[繁体字中国語][邊][異体字0]で、
簡体字中国語では
「しんにょう+力」を表すのが[簡体字中国語][しんにょう+力][異体字0]で…となるのかな?
異体字ビットは何ビットくらいあれば必要十分なんだろうか?
1文字につき2^6=64くらいかな?
940:デフォルトの名無しさん
05/01/13 15:32:45
> 異体字ビットは何ビットくらいあれば必要十分なんだろうか?
実際やるとしたら、UnicodeのVariation Selectorを使うのが現実解かなぁ……。
FE00-FE0Fの16コードポイントでCJKV等の言語を割り当てて、
E0100-E01EFの240コードポイントで言語ごとに字形テーブルとノーマライズを標準化する。
941:363
05/01/18 14:57:09
すみません。シェルの中における漢字の文字コード
についてなのですが二つのシェルにおいて同じマシン
で同じ漢字書いたとき文字コードがかわるという
こはあるんでしょうか?実際一方では動作して、
もう一方では動作しないという現象が起きてしまって
いるのです。この問題に対しての解決方法があれば
どなたかおしえていただけないでしょうか?
お願いします。
942:デフォルトの名無しさん
05/01/18 15:26:16
何をやったのかを、第三者にも分かるように書かないと。
とりあえず、2つのシェルの環境変数とかロケールとかは全く同じでも再現する?
943:デフォルトの名無しさん
05/01/18 15:37:05
>>941
・両者ともにその「漢字」に対応したバイナリかどうか
・ロケール等の環境変数は合っているか
・端末側の文字コードは合っているか
とか確認してみてはどうでしょう。
漏れはシェルによって日本語通らなくなったりするのは
わりと当たり前って思ってるな・・・
944:デフォルトの名無しさん
05/01/18 16:06:35
何で漢字テキストを書いたかも書いてないしな。
スレ違いだろ。UNIX板の初心者スレがいいんじゃないの?
945:363
05/01/18 17:25:01
ありがとうございます。わかりづらくてすみません。
自分の今やっていることはテキスト文章の編集をやっていて
sedである部分を削除しようと思いsedの中に削除目的の
日本語を入れたところ、うまく消えなかったのです。
cat $f | grep -v '#'| grep -v '^$'| cut -f2- | sed 's/^/<s> /'| sed 's/$/\
<\/s>/'| sed 's/\/読み未登録//g'
このような感じで書きました。(ファイル名はtextmake.csh)
そこから試行錯誤して理由は良くわからないのですが
そのシェルとは別のシェルの中にはじめに作ったシェル
を入れ、textmake.csh | sed 's/\/読み未登録//g'
このようにしたら上手く削除できたのです。
後で調べてみたら前の最初のシェルはシフトJISで
後のシェルはeucのコードになっていたみたいだった
のです。それでなぜなのだろうと思い。質問したという
わけなのです。環境変数などがわからないので調べて
みようと思います。
946:デフォルトの名無しさん
05/01/18 17:30:25
シェルってシェルスクリプトのことかYO!
おじさんビックリだ。
947:デフォルトの名無しさん
05/01/18 17:36:05
>>945
シェルスクリプト書いた奴に聞きなよ。
使ったエディタとその環境を。
948:デフォルトの名無しさん
05/01/18 20:14:08
> ・シェルスクリプトのことをシェルってゆーな
by UNIX板 シェルスクリプト総合スレ >>1
949:363
05/01/19 10:31:07
なんかスレ違いだったみたいかなぁ。すいません!
ありがとうございました。
950:お願いします
05/01/19 10:58:05
論理式eが与えられた時、eと等価なCNFを求める述語cnf/2を定義せよ。
という問題がわかりません。
誰か教えてくれませんか?
951:デフォルトの名無しさん
05/01/19 11:07:36
マルチかつスレ違い。氏ね。
952:デフォルトの名無しさん
05/01/25 13:38:52
JIS X 0213にも「異体字を表す制御文字」を追加することができないだろうか?
確か第1面にも30文字程度の空き区点(バラバラに存在する)があったはずなので、
そこを「異体字を表す区点」にしてしまえば比較的簡単に異体字を表現することができる。
ほとんど使われていないJIS X 0213を捨ててしまって、また別のJIS X 0208上位互換の
文字コード体系を作ればすっきりした体系になるのはわかってはいるのだが、
JIS X 0212でさえ完全には捨て切れない現状を考えると…
953:デフォルトの名無しさん
05/01/25 13:48:59
URLリンク(headlines.yahoo.co.jp)
だからどうという程のものでもないがな。
954:デフォルトの名無しさん
05/01/25 14:44:44
まぁ現状よりましになるんじゃない? ていうか今までがひどかったのか。
955:デフォルトの名無しさん
05/01/26 09:44:44
JISの中の人は、また包摂の解説→議論やらないといけないね…
956:デフォルトの名無しさん
05/01/26 15:13:00
そしてあの包摂基準では国語審議会側やら何やらを納得させられないので(ry
957:デフォルトの名無しさん
05/01/31 18:47:26
かなりずれるが
草かんむり、3画に 4画派・大修館書店が「決断」
URLリンク(news.goo.ne.jp)
3画か4画か―漢和辞典で長い間、揺れていた「草かんむり」の画数が、
大修館書店が出した「新・漢語林」で3画に変わった。同書店は世界最大の
漢和辞典、諸橋轍次の「大漢和辞典」(1960年)を発行している老舗(しにせ)。
中国の古い文書を読もうとする専門家が頼りにする「大漢和」では4画だ。
常用漢字や人名用漢字の3画に追随するのは、「大きな決断」だった。
「新・漢語林」部首解説によると、草かんむりは、
国語審議会の表外漢字字体表(00年)やJIS漢字で3画とされ、
明朝体活字は3画で作られている。真ん中が切れた形の4画は
「漢和辞典の見出し字を除いて極めて少ない」という。
「新・漢語林」編集部の円満字二郎さんは「表外漢字字体表がきっかけで、
電子辞書に搭載するにも3画、4画両方では負担が大きい。
諸般の事情を考えて決断したのに残念ながら反響は全くありません」という。
958:デフォルトの名無しさん
05/01/31 18:48:12
> 残念ながら反響は全くありません
に少々受けてしまった
959:デフォルトの名無しさん
05/02/04 22:00:42
SJISとUnicodeの半角カナ←→全角カナ変換をする
ツールを作りたいんですが、この辺のノウハウに
ついての詳しい情報ありませんか?
半角全角変換のみで、SJISとUNICODEの変換は
必要ないです。
960:デフォルトの名無しさん
05/02/04 23:03:29
以前倪永茂氏のAlgorithmCollectionという有名なホームページに
あったな、今は削除されているけど。
961:デフォルトの名無しさん
05/02/04 23:57:52
wchar_t Hankaku2Zenkaku(wchar_t wc)
{
if(wc == L' ') return L' ';
else if(wc < L'ヲ' || wc > L'゚') return wc;
else if(wc >= L'ア' && wc <= L'オ') return L'ア' + (wc - L'ア') * 2;
else if(wc >= L'カ' && wc <= L'チ') return L'カ' + (wc - L'カ') * 2;
else if(wc >= L'ツ' && wc <= L'ト') return L'ツ' + (wc - L'ツ') * 2;
else if(wc >= L'ナ' && wc <= L'ノ') return L'ナ' + (wc - L'ナ');
else if(wc >= L'ハ' && wc <= L'ホ') return L'ハ' + (wc - L'ハ') * 3;
else if(wc >= L'マ' && wc <= L'モ') return L'マ' + (wc - L'マ');
else if(wc >= L'ヤ' && wc <= L'ヨ') return L'ヤ' + (wc - L'ヤ') * 2;
else if(wc >= L'ラ' && wc <= L'ロ') return L'ラ' + (wc - L'ラ');
else if(wc == L'ワ') return L'ワ';
else if(wc == L'ヲ') return L'ヲ';
else if(wc == L'ン') return L'ン';
else if(wc >= L'ァ' && wc <= L'ォ') return L'ァ' + (wc - L'ァ') * 2;
else if(wc >= L'ャ' && wc <= L'ョ') return L'ャ' + (wc - L'ャ') * 2;
else if(wc == L'ッ') return L'ッ';
else if(wc == L'ー') return L'ー';
else if(wc == L'゙') return L'゛';
else if(wc == L'゚') return L'゜';
return wc;
}
962:デフォルトの名無しさん
05/02/04 23:59:32
int Zenkaku2Hankaku(wchar_t wc, wchar_t *ans)
{
if(wc == L' '){ *ans = L' '; return 1; }
else if(wc == L'ワ'){ *ans = L'ワ'; return 1; }
else if(wc == L'ヲ'){ *ans = L'ヲ'; return 1; }
else if(wc == L'ン'){ *ans = L'ン'; return 1; }
else if(wc == L'゛'){ *ans = L'゙'; return 1; }
else if(wc == L'゜'){ *ans = L'゚'; return 1; }
else if(wc == L'ー'){ *ans = L'ー'; return 1; }
else if(wc < L'ァ' || wc > L'ロ'){ *ans = wc; return 1; }
else if(wc == L'ッ'){ *ans = L'ッ'; return 1; }
else if(wc >= L'ァ' && wc <= L'オ'){
int x = (wc - L'ァ');
*ans = ((x % 2) ? (L'ア' + (x / 2)) : (L'ァ' + (x / 2)));
return 1;
}else if(wc >= L'カ' && wc <= L'チ'){
int x = (wc - L'カ');
*ans = L'カ' + (x / 2);
if(x % 2){
*(ans+1) = L'゙';
return 2;
}else{
return 1;
}
963:デフォルトの名無しさん
05/02/05 00:00:03
}else if(wc >= L'ツ' && wc <= L'ト'){
int x = (wc - L'ツ');
*ans = L'ツ' + (x / 2);
if(x % 2){
*(ans+1) = L'゙';
return 2;
}else{
return 1;
}
}else if(wc >= L'ナ' && wc <= L'ノ'){
*ans = L'ナ' + (wc - L'ナ');
return 1;
}else if(wc >= L'ハ' && wc <= L'ホ'){
int x = (wc - L'ハ');
*ans = L'ハ' + (x / 3);
if((x % 3) == 1){
*(ans+1) = L'゙';
return 2;
}else if((x % 3) == 2){
*(ans+1) = L'゚';
return 2;
}else{
return 1;
}
}else if(wc >= L'マ' && wc <= L'モ'){
*ans = L'マ' + (wc - L'マ');
return 1;
964:デフォルトの名無しさん
05/02/05 00:00:44
}else if(wc >= L'ャ' && wc <= L'ヨ'){
int x = (wc - L'ャ');
*ans = ((x % 2) ? (L'ヤ' + (x / 2)) : (L'ャ' + (x / 2)));
return 1;
}else if(wc >= L'ラ' && wc <= L'ロ'){
*ans = L'ラ' + (wc - L'ラ');
return 1;
}
return 0;
}
965:デフォルトの名無しさん
05/02/07 20:54:12
>>957
この新漢語林読んだんだけど、なぜか芸亭(ウンテイ)の芸だけが4画で残っているの。
草冠を3画に統一するんだったら、ゲイとウンを餘と余みたいに同一文字の扱いにするか、
「同一字形だけど別字」にしたほうがよいと思ったんだけどなぁ。
966:デフォルトの名無しさん
05/02/15 19:54:00
Jcode-1.99_04 make とおりまんた。
かんきょうは OpenBlock S200 , perl 5.6.1 でし。
よかったね。
[a@obss Jcode-1.99_04]$ make test
make[1]: Entering directory `/home/a/src/Jcode-1.99_04/Unicode'
make[1]: Leaving directory `/home/a/src/Jcode-1.99_04/Unicode'
PERL_DL_NONLAZY=1 /usr/bin/perl -Iblib/arch -Iblib/lib -I/usr/lib/perl5/5.6.1/ppc-linux -I/usr/lib/p
erl5/5.6.1 -e 'use Test::Harness qw(&runtests $verbose); $verbose=0; runtests @ARGV;' t/*.t
t/append.....ok
t/convert....ok
t/getcode....ok
t/h2z........ok
t/length.....ok
t/mime.......ok
t/new........ok
t/perl581....skipped
all skipped: Perl 5.8.1 or later required
t/regex......skipped
all skipped: Perl 5.8.1 or later required
t/tr.........ok
All tests successful, 2 tests skipped.
Files=10, Tests=220, 119 wallclock secs (90.21 cusr + 25.26 csys = 115.47 CPU)
make[1]: Entering directory `/home/a/src/Jcode-1.99_04/Unicode'
No tests defined for Jcode::Unicode extension.
make[1]: Leaving directory `/home/a/src/Jcode-1.99_04/Unicode'
[a@obss Jcode-1.99_04]$
967:デフォルトの名無しさん
05/02/15 21:19:29
>>959
窓ならLCMapString
968:デフォルトの名無しさん
05/02/19 01:15:40
学校の宿題教えて禁止
ここのスレはみんなが見てますやめましょう
969:デフォルトの名無しさん
05/02/19 01:17:02
学校で宿題出されました。どなたか解答お願いできませんでしょうか?
970:デフォルトの名無しさん
05/02/20 22:28:34
あまり真剣に考えてもらわなくてもいいんですが、
多少間違ってても、判定不可という結論でもいいから
主にSJIS,EUC,UTF-8で書かれた短い文章のコードを判定するのに
上手い方法はありませんかね?
というか、ぶっちゃけ2ch内に張られた
googleとかwikiへのリンクのURLエンコードされた部分を
iconv辺りを使ってSJISに直して表示してリンクしたら面白いかな、と
ちょっと思ってみただけなんで
判定不可ならそのまま%xx%yyで表示すればよいだけなんで。
971:デフォルトの名無しさん
05/02/21 01:36:35
SJISにしか出てこない値が出てきたらSJIS
EUCにしか出てこない値が・・・(以下略
972:デフォルトの名無しさん
05/02/21 04:43:01
ASCIIにしか出てこない値が出てきたらASCII
973:デフォルトの名無しさん
05/02/21 05:46:07
色々切り替えて読めればそれ
974:デフォルトの名無しさん
05/02/21 21:45:22
EBCDICとかどうよ
975:デフォルトの名無しさん
05/02/21 21:46:02
なにが?
976:デフォルトの名無しさん
05/02/21 21:55:27
EBCDIKでどうよ
977:デフォルトの名無しさん
05/02/21 22:01:00
>>970
SJISのシーケンスを受理するオートマトン、
EUCのシーケンスを受理するオートマトン、
UTF-8のシーケンスを受理するオートマトン、
を用意して、入力バイト列を3つのオートマトンに入れてみる。
入力が終ったときに、受理したままのオートマトンが1つだけなら、
その文字コードで確定。
確定しない場合があるので、そういうときは追加の知識を使うしかない
(google で ie= パラメータがあったら~、とか)
978:デフォルトの名無しさん
05/02/21 22:06:24
↓オートマトン
979:デフォルトの名無しさん
05/02/21 22:28:46
メェェー
980:デフォルトの名無しさん
05/02/21 22:39:27
SJISのシーケンスを受理するヤギ、
EUCのシーケンスを受理するヤギ、
UTF-8のシーケンスを受理するヤギ、
を用意して、印刷物を3匹のヤギに食わせてみる。
食い終ったときに、「メェェー」って言ったヤギが1匹だけなら、
その文字コードで確定。
二匹啼いたときは、一匹殺せば無問題。
981:デフォルトの名無しさん
05/02/21 22:44:47
それじゃぁ手始めに979を殺すということで
982:デフォルトの名無しさん
05/02/21 23:14:52
>>970
|多少間違ってても、判定不可という結論でもいいから
|主にSJIS,EUC,UTF-8で書かれた短い文章のコードを判定するのに
|上手い方法はありませんかね?
たぶん変換コード書いた人なら悟ってると思うけど、
3種類出力させて、判断は人間にまかせるのが簡単確実。
問題はその表示のしかたをどう分かりやすくできるかだが…
983:デフォルトの名無しさん
05/02/21 23:50:46
確実に判定することは不可能だけど
実用上は980^H^H77の方法でほとんど困らないと思う
利用者としてはリンク開くときに常に3択やらされるたらいやだなぁ
984:デフォルトの名無しさん
05/02/21 23:52:10
前半は980で、
二匹鳴いたら二匹並べればいいだろ。
985:デフォルトの名無しさん
05/02/22 02:39:43
やっぱむやみにヤギを殺すのはよくないよね
986:デフォルトの名無しさん
05/02/22 03:46:34
べつに
987:デフォルトの名無しさん
05/02/22 11:07:32
というかさ、ヤギじゃなくてヒツジじゃないの?
988:デフォルトの名無しさん
05/02/22 14:42:16
IE5 以上を入れているならばならば、IMultiLanguage にそんなメソッドがあったような?
989:デフォルトの名無しさん
05/02/23 00:32:02
SJISのシーケンスを受理するヒツジが一匹、
EUCのシーケンスを受理するヒツジが二匹、
UTF-8のシーケンスを受理するヒツジが三匹、
.
.
zzz
990:デフォルトの名無しさん
05/02/23 14:46:57
次スレは?
991:デフォルトの名無しさん
05/02/23 14:54:35
【UTF8】文字コード変換 二匹目【SJIS】
992:デフォルトの名無しさん
05/02/23 15:35:36
次スレ立てるなら文字コード統一スレとか
Unicodeスレとかがいいんじゃね?
993:デフォルトの名無しさん
05/02/23 21:35:57
文字コード統一スレ 1文字目
プログラムにおける文字コードの取り扱いについて議論する統一スレッド
です。
ほぼ前スレ
【UTF8】文字コード変換【SJIS】
スレリンク(tech板)
参考ホームページ
Unicode Home Page
URLリンク(www.unicode.org)
Java Character Encodings
URLリンク(www.ingrid.org)
euc.JP: tech docs, BeOS tools
URLリンク(euc.jp)
ISO-IR - 2.8.1 Coding systems with Standard return
URLリンク(www.itscj.ipsj.or.jp)
ISO-IR - 2.8.2 Coding Systems without Standard return
URLリンク(www.itscj.ipsj.or.jp)
こんなんでどうですか?
994:デフォルトの名無しさん
05/02/23 21:49:38
>>970
結局んとこは確率になるからなぁ
特に極短い文だとね
IMultiLanguage2::DetectInputCodepage
でもできるけど識別率はどんなもんだろ
試してないからわからんが中国語とかも識別できるだろうからいいかも?
あとは>>691ででてた
URLリンク(www.gprj.net)
これか?
これも識別率はわからん
C#だけど
995:デフォルトの名無しさん
05/02/23 23:39:52
>>994
多分みんな作ったことあるんだろうな(笑) 俺もある。
短い文だと誤判定が多くなるねー。
いわゆる「半角カタカナ」などというものが滅んでしまえば、かなり楽なんだが。
# 正確にはカタカナのJIS X 0201の方
泥臭いけど、日本語としての特徴を使えば認識率はあがるよ。
漢字ばかりになることはないとか、ひらがなは半分以上であるとか、そういうので点数をつける。
EUC-JPとしてみれば10点、Shift-JISなら25点というふうに。
996:デフォルトの名無しさん
05/02/23 23:45:39
もとの質問の対象がURL中の文字列つーのがきついよね。
997:デフォルトの名無しさん
05/02/23 23:56:34
>>993 に一票
>>995 gaucheの実装がそんな感じだね。ソースも切り取りやすくてすてき。
998:993
05/02/23 23:58:43
立てられませんでした。どなたかお願いします。
999:デフォルトの名無しさん
05/02/23 23:59:22
999
1000:デフォルトの名無しさん
05/02/24 00:00:14
1000ならunicode死滅
1001:1001
Over 1000 Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。