07/03/30 20:57:09 +R/E9vMj0
>>79
>dktの効率化の為って言ってるけど、千差万別のファイル名から生成すると、
>それこそ無駄キーワードが大量に増えて効率は更に悪くなるんじゃないの?
もしキーワードが全くなかった場合、キーの関連が算出しにくく、ファイル名同士の
一致文字数とかで関連を調べるしかないので、ファイル名の関連を計算してるなら
そうしているはず。(nyと同じ)
dktの効率は高い順から
1. キーワードを全員が完全に正確に指定(絶対あり得ない理想形)
2. >>17方式で半自動キーワード指定
3. めんどうでない範囲で手動キーワード追加
4. ファイル名の一致文字数で関連づけ(ny方式)
5. 完全ランダム
のようになっていると予想する。
要はむだでないキーワードをいかに増やすかにかかっていると思われる。
正直ここを工夫しないと時間が経ってノード数が増えたらnyと効率が変わらないんじゃ。
方式3.だけだと、キーワードを指定する数が少なければ4.より効率が落ちるので、
多分だけどいまのPDは3.と4.を併用してるんじゃないかな。
そうすればキーワードの指定がいかにヘタレでデタラメでもny以下にはならないから。
4.はゴミ文字や無意味な言葉や関係ない記号も計算にいれちゃうけど、意味のある言葉も
漏れなく拾うことは拾う。おそらくnyは3.のみのようにすると入れるキーワードが少なくて
統一性が取れないと判断して4.のようにしたんだと思う。
現PDはny以上の効率を目指そうとしているので3.のような方式を併用してるんだろう。