【ADF】スキャナで連続取り込み010.jpg【OCR】at PRINTER
【ADF】スキャナで連続取り込み010.jpg【OCR】 - 暇つぶし2ch377:名無しさん@お腹いっぱい。
06/12/24 22:48:17 qtk92XMq
897 名前:名無しさん@お腹いっぱい。 投稿日:2006/10/12(木) 14:05:02 wcjlsRxk
プトレマイオス朝時代のエジプトには、当時世界最大の図書館「アレクサンドリア大図書館」があり、
70万もの蔵書を誇っていたという。
蔵書のほとんどは巻物だったが、1巻200ページ相当として、300dpiでスキャンした場合、1頁500KBとして
1巻100MB、それが70万巻ということは70TBか。
TeraStation 2TBを35台つなげればアレクサンドリア図書館に匹敵するデジタルアーカイブが完成するな。

文字数を見ると、1頁に2000文字のアルファベットが書き込めるとすると、
2000文字×200頁×70万=280,000,000,000文字の知識が詰まっていたということになる。
1文字1バイトなら280GB、UTF-8みたいに1文字3バイトなら840GBか。テキストだけ抜き出せば
個人のPCでも何とかなりそうだな。

さて、これを全文検索かけるとなるとNamazuの場合、対象ファイル数は90万弱が限界みたいだから
URLリンク(www.namazu.org)
何とかなるかも。
Hyper Estraierの場合、
URLリンク(hyperestraier.sourceforge.net)
にあるように「一つのインデックスに登録できる文書の総量の目安は、プレーンテキストなら300GB」
とのことなので、1文字1バイトならぎりぎりいけそう。UTF-8なら3つくらいにインデックスを分けて
P2P連係させないといけなくなる。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch