ファイルの重複検出ツールを作ろうぜat TECH
ファイルの重複検出ツールを作ろうぜ - 暇つぶし2ch125:デフォルトの名無しさん
09/01/14 14:35:59
どうせ、画像ファイルだろ。MD5を作るんじゃなくて、サムネイル画像作ってそいつで比較したら?w

126:デフォルトの名無しさん
09/01/14 14:39:27
画像なら、画像の特徴を比較する必要有り。部分md5では無理

127:デフォルトの名無しさん
09/01/14 17:40:08
サムネイルもインデックスみたいなもんだな

128:デフォルトの名無しさん
09/01/14 22:02:32
最近のコンピュータは高速だからファイルの先頭から1ビットずつ比較しようぜ

129:デフォルトの名無しさん
09/01/14 22:04:27
指紋認証のやり方で特徴点抽出

130:122
09/01/15 14:04:06
122 ですが、ファイルは主にプログラムのソースコードです。

現在使っている MD5 以外の検索方法は
ベースファイル名が一致しファイルサイズが近いものを DB から抽出し、
ファイルの最初の 128KB のバイナリ差分が小さいものに絞り込み、最後に
ファイル全体のバイナリ差分が小さいもの選んでいます。

この方法でそこそこの時間で検索できますが、大幅な絞り込みのために
ファイル名を使っているのでファイル名が全然違うファイルは検索対象に
ならないので困っています。


131:デフォルトの名無しさん
09/01/15 14:27:57
先頭32K(違いが出なかった場合は32K-64K、64-96Kなど)
のMD5を保持しておけよ。

132:デフォルトの名無しさん
09/01/15 14:48:45
ハッシュじゃ類似判定できないだろ

133:デフォルトの名無しさん
09/01/15 15:00:17
ベクトル空間法 類似
でぐぐれ

134:デフォルトの名無しさん
09/01/15 15:09:56
>>130
ソースコードならクラス、メソッド名だけ抽出して比較すりゃ終わりじゃね?
もっと確度上げたいなら変数名も追加

135:デフォルトの名無しさん
09/01/15 15:24:00
バージョン違いのさはどうするんだ

136:デフォルトの名無しさん
09/01/15 19:07:03
調子のんなよカス

137:デフォルトの名無しさん
09/01/15 19:12:13
>>135
お前の恥ずかしさに免じて何も指摘しないでやる

138:デフォルトの名無しさん
09/01/15 19:27:30
クラス名などが一致しても、コードの中身がバージョンのズレにより
大きく代わることがあるだろ。

139:デフォルトの名無しさん
09/01/15 19:28:19
初めから書き直したりした場合だ。

140:デフォルトの名無しさん
09/01/15 19:35:05
>>138
お前なぁ、自分で墓穴掘ってちゃ世話無いだろうが
もう分かったから、そのまま墓穴に埋まっててくれ

141:デフォルトの名無しさん
09/01/16 12:21:29
Mr.Driller 好きだぜ

142:デフォルトの名無しさん
09/01/16 12:27:17
ゆ○ぽのことか?

143:デフォルトの名無しさん
09/01/18 07:35:52
中に特定の文字列がある穴を探して埋まっておけばいいんじゃね

ソースコードだったら大体同じようなクラス名や関数名で書いてるだろ
分かりにくいコード書いてるやつがいたら穴掘って埋めればおk

144:デフォルトの名無しさん
09/01/19 10:40:44
undupとかの重複ファイル検索ソフトの比較スレがあったと思ったんですが、見つかりません。
どなたかご存じないですか?

145:デフォルトの名無しさん
09/01/19 11:21:29
お勧めの重複・類似・近似画像処理ソフト2
スレリンク(software板)


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch