テキスト入力専用ツール 「ポメラ」 Vol.10at DGOODS
テキスト入力専用ツール 「ポメラ」 Vol.10 - 暇つぶし2ch72:27
10/10/30 09:26:12 BcU8n8xY
atok.dic 解析の途中メモ
・この辞書は独自フォーマット(古いatokのユーザ辞書とも互換性なし)
・4桁の16進数値はファイルオフセット
・格納形式はリトルエンディアン

0x2410,1 登録データ長
0x2412,3 登録単語数

[不明なデータ]
不規則に変化する。
0x2576,7 ffff 登録単語数 : 0,1,7 のとき 0000 登録単語数 : 2 のとき
0x2578,9 ffff 登録単語数 : 0,1 のとき 0500 登録単語数 : 2 のとき 0000 登録単語数 : 7 のとき
0x258e,f ffff 登録単語数 : 0 のとき 0000 登録単語数 : 1 のとき ffff 登録単語数 : 2 のとき

[辞書本体]
0x2614~ユーザ辞書本体
 [文書トークン] [半角カタカナのバイト長] 半角カタカナ 漢字、の繰り返し。
 DM20の辞書登録数は1000個なので(読み7文字、語句7文字の場合)、 1+1+7+14 として 23,000バイト程度まで?(ファイル末端までは23988バイトあるので文書トークンが1バイトだと丁度になる)
■登録単語数とユーザ辞書本体の間の用途が不明。乱数表にでもなっているのか?
■最初、文書トークンが品詞を表すと思っていたが、訳の判らない法則に従っている。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch