08/02/09 11:17:16
>>416
UTF-16のことだね。
特徴は、半角英数なども16ビットで表現すること。
普通にユニコードと言えばこれのことだから16ビットって言わないだけ。
pythonでu指定するのもUTF-16だろう。
ただuと入れれば済んじゃってUTF-16って名前が出てこないんで逆に分かりにくいのかもね。
UTF-8は、半角英数が8ビットで、
見分け方は、半角英数が見えつつ、漢字1文字が%xxみたいな半角記号3文字に置き換わる。
URLで使ってて普段目にするからどんなのかは分かるでしょ。
アルファベット圏ではUTF-8だと互換性は高いしデータ量は少なくて済むし普及しちゃってるんだけど
日本語みたいなマルチバイト文字圏では互換性のあるコードと言えば、UTF-16。
2バイトで表現すればデータ量は少なくて済むしプログラムでも固定長だから扱いやすいし。
まあシフトJIS単一が一番扱いやすいけどね。
データ量が最小で表現できるし。
でも制約も大きくて、インターネットで国際化がデフォな現代には合わないんだな。
こんなとこで言うような話題じゃないけど、
とりあえず日本語対応してなさそうに見えるpythonには必要な話題と思ったから書いた。
まあ、ごっちゃになってないとか言ったけど用語とか適当だし言葉も適切じゃなかったりしたかもね。
ようは話が通じればいいんだ。