09/03/09 04:10:07 omb2zf0w
>>732
ヒントになりました。ありがとうございます。
あくまで推測の範囲ですが、
データを見る限り、2バイト区切りになっているのでUnicodeビット⇒SJISのデータを格納しているように見える。
かなりの多くのかたまった0x00があるので、圧縮やハッシュ化はしていない模様。
2バイト区切りだとすると、65536文字ほどの空間を保持していることになるが、
10万文字を超えるといわれるUnicodeの空間すべてをテーブルを持っているわけでなく、
日本語や中国語などの漢字(SJISに載っている)部分だけのテーブルと思われる。
2バイト区切りではありそうだが、SJISの生データではない。
Unicodeの漢字部分がこの程度(128kbytesに収まる)なら、
まず自分でやってみて確認してみたいと思います。
ありがとうございました。