06/12/24 22:48:17 qtk92XMq
897 名前:名無しさん@お腹いっぱい。 投稿日:2006/10/12(木) 14:05:02 wcjlsRxk
プトレマイオス朝時代のエジプトには、当時世界最大の図書館「アレクサンドリア大図書館」があり、
70万もの蔵書を誇っていたという。
蔵書のほとんどは巻物だったが、1巻200ページ相当として、300dpiでスキャンした場合、1頁500KBとして
1巻100MB、それが70万巻ということは70TBか。
TeraStation 2TBを35台つなげればアレクサンドリア図書館に匹敵するデジタルアーカイブが完成するな。
文字数を見ると、1頁に2000文字のアルファベットが書き込めるとすると、
2000文字×200頁×70万=280,000,000,000文字の知識が詰まっていたということになる。
1文字1バイトなら280GB、UTF-8みたいに1文字3バイトなら840GBか。テキストだけ抜き出せば
個人のPCでも何とかなりそうだな。
さて、これを全文検索かけるとなるとNamazuの場合、対象ファイル数は90万弱が限界みたいだから
URLリンク(www.namazu.org)
何とかなるかも。
Hyper Estraierの場合、
URLリンク(hyperestraier.sourceforge.net)
にあるように「一つのインデックスに登録できる文書の総量の目安は、プレーンテキストなら300GB」
とのことなので、1文字1バイトならぎりぎりいけそう。UTF-8なら3つくらいにインデックスを分けて
P2P連係させないといけなくなる。