08/10/19 22:04:58 kZnOakk50
>>420
\wは英字+数字+アンダーバー、だよ
しかも文字クラスで [\w,\. ] にしてるので、英字+数字+アンダーバー+ピリオド、スペース、になる
で、NGExは部分一致なので、行頭行末指定しなければ「全角文字が一つも無い」かどうかは関係ない
>>417のコロンを全角にして登録してみろ、>>419が消えるから
>>422
問題はHDD内にファイルがいくつ有るかではなく、何パターンのファイルが存在し得るかだ
そして低かろうと重複(衝突)する可能性があるなら、当然重複検査には使えない
まぁ、確率が低ければたまには重複以外を消しても構わないというなら話は別だが、重複以外を消したら問題だからな常考
確率が低かろうと、重複(同一)じゃない物を重複((同一))と判断してしまう可能性のあるアルゴリズムは重複検査とは呼ばない
因みに、100KByteのファイルにおいて、ハッシュは同じだが内容は違う(重複じゃない)というファイルは、1ハッシュに付き平均で
1740237361626024513770107265037609543750123648139853669525311113913973577269144943859979425412694011
9565485499463660155927560516659530837436474968266729477972902380759879854946366106698464137718456008
5455342903503826029707629399322130443562277216302151513110823649448481814827437692320843999927211551
:
:246'000桁 (1行100桁で2'460行) 省略
:
4118239317283439190714219081494116856929906811347969289278924397605391886105824068812495892493685350
6730060857550122465526416152622040738825714858701162873721555572879803864626289497784583143525827516
777385632860744258877905007481923941047538682349866841444708253696
パターン程存在する
実際はファイルサイズもバラバラでもっと大きな物も存在するからこんなものじゃ済まない