07/02/01 00:18:21
索引文字列の抽出(形態素解析・N-gramなど)
検索対象の文書(HTML・プレーンテキスト・PDFなど)
転置インデックスの管理(DB・独自形式)
検索対象のページ数・総容量及び必要な記憶領域のサイズ
転置インデックスをどんな形式にするのか、探索アルゴリズムをどう実装するのか・・その辺も気になる。
まぁ仕様を決めて試算して、負荷掛けて一台でどのくらい耐えれそうかやってみないとねぇ・・
ていうかJavaとかPerl実装でオープンソースなやつもあるけど、その辺使うのか?