【ADF】スキャナで連続取り込み010.jpg【OCR】

【ADF】スキャナで連続取り込み010.jpg【OCR】at PRINTER

【ADF】スキャナで連続取り込み010.jpg【OCR】 - 暇つぶし2ch377:名無しさん＠お腹いっぱい。
06/12/24 22:48:17 qtk92XMq
897 名前：名無しさん＠お腹いっぱい。投稿日：2006/10/12(木) 14:05:02 wcjlsRxk
プトレマイオス朝時代のエジプトには、当時世界最大の図書館「アレクサンドリア大図書館」があり、
70万もの蔵書を誇っていたという。
蔵書のほとんどは巻物だったが、1巻200ページ相当として、300dpiでスキャンした場合、1頁500KBとして
1巻100MB、それが70万巻ということは70TBか。
TeraStation 2TBを35台つなげればアレクサンドリア図書館に匹敵するデジタルアーカイブが完成するな。

文字数を見ると、1頁に2000文字のアルファベットが書き込めるとすると、
2000文字×200頁×70万＝280,000,000,000文字の知識が詰まっていたということになる。
1文字1バイトなら280GB、UTF-8みたいに1文字3バイトなら840GBか。テキストだけ抜き出せば
個人のPCでも何とかなりそうだな。

さて、これを全文検索かけるとなるとNamazuの場合、対象ファイル数は90万弱が限界みたいだから
URLﾘﾝｸ(www.namazu.org)
何とかなるかも。
Hyper Estraierの場合、
URLﾘﾝｸ(hyperestraier.sourceforge.net)
にあるように「一つのインデックスに登録できる文書の総量の目安は、プレーンテキストなら300GB」
とのことなので、1文字1バイトならぎりぎりいけそう。UTF-8なら3つくらいにインデックスを分けて
P2P連係させないといけなくなる。

次ページ

続きを表示

1を表示