【トリップ検索】MERIKEN's Tripcode Finder その5

【トリップ検索】MERIKEN's Tripcode Finder その5at SOFTWARE

【トリップ検索】MERIKEN's Tripcode Finder その5 - 暇つぶし2ch50: ◆Meriken//XXX
13/09/19 14:09:31.68 sTJqqQfeP
アセンブラでないと限界まで速度を出せないですからね～
10桁は書き換えたので次は12桁というわけです。

51: ◆Meriken//XXX
13/09/19 15:17:00.67 sTJqqQfeP
ご飯を食べて元気が出たので、素のSHA-1のルーチンを一気にAVXで書き換えてしまいました。
結果は上々で、2割ほど速度が上がっています。もうちょっといじれば3割まで行きそうな
感じです。

ここまではわりとすんなりと行きましたが問題はこれからで、今度は特殊な最適化を施してある
SHA-1のルーチンを書き換えなければなりません。これは1から書くしかないので、
少しづつ進めていくことにします。

52: ◆Meriken//XXX
13/09/19 18:40:13.43 sTJqqQfeP
あれから素のSHA-1のルーチンの関数呼び出しのオーバーヘッドを
削って、合わせて27%の速度向上となりました。
VecTripperのルーチンは命令を削れるだけ削ってあるという印象です。
素晴らしいです。

最適化済みのルーチンもこんなふうに自分で書き直せればいいけど、
どうでしょうねえ～

53: ◆JouJaku.IYSv
13/09/19 19:10:47.14 SvlqUu4y0
>>39
AVX2対応キターーー! ヽ(´Д｀)ノ

AVX2が目的でHaswellを選ぶなら、高いK付きを選ぶ必要は無いと思います。
HaswellはAVXを使うと極端にOC耐性が落ちます。更に殻割り+液体金属必須です。
K無しを定格で使うのが良い、とK付きで殻割りOCまで試した私は思います。

54: ◆Meriken//XXX
13/09/19 19:52:17.36 sTJqqQfeP
>>53
確かにK付きはいらないですねえ。開発機の3770KもOC切っちゃったし…
その代わりにマザボを奮発してQuad CrossFireが出来るのにしようかな。
AVX-512がコンシューマー市場に下りてくるのは当分先でしょうしね。

55: ◆Meriken//XXX
13/09/19 19:53:29.45 sTJqqQfeP
最適化されたルーチンをじっと眺めてたらなんだか出来そうな気がしてきたぞ。

56: ◆Meriken//XXX
13/09/19 22:14:58.88 sTJqqQfeP
おもむろに少し書き換えてみたらうまくいきましたｗ
こりゃ思ったよりずっと簡単かも。

57: ◆Urotsuki/1Ca
13/09/19 22:45:49.09 Ywt2cZ170
開発が進んでいるようで何よりです
自分はPCの計算力を提供するぐらいしかできませんけど…

58: ◆Meriken//XXX
13/09/20 04:43:57.64 PXGklweqP
いやいや、それだけで十分すぎですｗ
うろつきさん、めちゃ速いですしね。

59: ◆Meriken//XXX
13/09/20 04:50:36.76 PXGklweqP
最適化済みのSHA-1のルーチンのアセンブラでの書き換えは
半分終わりました。既に元のSSE2 Intrinsicsでの実装より大分速くなっています。
思い切って手を付けてみて正解でした。

60: ◆Meriken//XXX
13/09/20 11:51:06.76 PXGklweqP
x64版のAVXでの書き換えは一応終了。
最適化されたルーチンは15%ほど速くなりました。
もうちょっと命令を削れそうな感じです。

61:名無しさん＠お腹いっぱい。
13/09/20 12:28:27.30 rdeXteVM0
>>54
Z87のマザーだと、ASUS MAXIMUS VI EXTREMEがPCIe 3.0(x8/x16/x8/x8)駆動で最大だからQuad CrossFireするには勿体無さそうに思うけどな。
URLﾘﾝｸ(www.asus.com)

Quad CrossFireがPCIe 3.0(x16/x16/x16/x16)で動作保障してくれるマザーってあるんだっけ？

62: ◆Meriken//XXX
13/09/20 12:39:25.81 PXGklweqP
>>61
MTFでつかうぶんにはPCIeの帯域はほとんど関係ないので問題なしです。
買うとしたら検索君1号用なので他の用途には使わないですしね。
もうちょっと安いのでもいいんですけど、スロットの配置がいいのが
ないんですよね～

63: ◆Meriken//XXX
13/09/20 12:52:41.54 PXGklweqP
命令を2つばかり削ってちょびっと速くなりました。
さすがに疲れたのこのへんにしときます。
後はこれをSSE2に移植して、32bit版を作らなきゃいけないんだよなあ。
まあのんびりやろうっと。

とりあえずAVX2対応の準備はできたので十分でしょう。
CPUだけで250M TPS出せるかもしれません。ぐへへへへ…

64: ◆Meriken//XXX
13/09/20 17:44:03.41 PXGklweqP
SSE2版を作って命令を2オペランド化してみたらかえって元のより遅くなったぞorz
たくさん作ってもメンテするの大変だし、アセンブラのルーチンは
64bit AVX/AVX2専用にしちゃおうかなあ。

…と、ここまで考えてから試しにVecTripperの真似をしてvmovdqaをmovaps に
変えたら、それだけでもとより速くなりましたｗ　なぜだ…

65: ◆JouJaku.IYSv
13/09/20 20:53:24.14 BxgeVqsj0
>>61
ブリッジ挟んだなんちゃって仕様ならコレ。Haswellではありませんが。
URLﾘﾝｸ(www.asus.com)
なんちゃってなので、グラフィック用です。
大量のデータ転送を同時に行うGPGPU用途には使えません。

Nativeならこれくらい逝かないと無理です。
URLﾘﾝｸ(www.supermicro.com)

66: ◆Meriken//XXX
13/09/21 01:51:06.93 axiLYME3P
>>65
今回の購入のメインはHaswellなので、やっぱりASUSのM6Eですかね～
いやあ、楽しみだなあ。

67: ◆Meriken//XXX
13/09/21 02:05:15.56 axiLYME3P
最適化されたルーチンのSSE2への移植は完了しました。かなり速いです。
今まで58M TPSしか出ていなかったPhenom II X6で92M TPSでました。
Visual C++、効率が悪すぎだろう…

68: ◆Meriken//XXX
13/09/21 02:41:57.42 axiLYME3P
というわけで、64bit版は最適化されたルーチンに
一本化することにしました。これで大分すっきりとしました。
あと32bitだとxmmレジスタの数が足りなさすぎなので、
アセンブラで書きなおすのはやめにしました。
これで後は念の為にもう一回テストするだけです。

69: ◆Meriken//XXX
13/09/21 02:55:33.92 axiLYME3P
あ、でも最適化されたルーチンだけならレジスタ周りはそんなに厳しくないのか。
せっかくだから32bit版も書きなおそうかな。そうすれば大分すっきりするし…

70: ◆YSRKEN.ceVZZ
13/09/21 10:51:27.68 oxIT9/ma0
>>67
>Visual C++
iclですらない……そりゃ徹底的にアセンブラしたら速いでしょうねｗ
これで私もCPUのみで15MTPS逝きそうですな……

71: ◆Meriken//XXX
13/09/21 14:05:50.24 axiLYME3P
>>70
お、お久しぶりです。
Intelのも一応試してみたけどほとんど速度は変わりませんでしたよ。
まあそんなにうまい話は転がってないですね。
限界まで性能を出したいならコンパイラに頼らずに自分でやるしかないですね。

72:最近アマガミをオールクリアしました ◆Ayatsuji/uFC
13/09/21 18:39:07.87 oxIT9/ma0
>>71
>お久しぶりです
すみません、実は久しぶりというわけでもないのです。
うろつき ◆Urotsuki/1Caさんに見つけてもらったこの酉で最近はレスしてました。
諸事情により最近はノーパソをぶん回したまま放置ということができなかったので、レベルが上がりようがないという悲しみ……

ところで、複数PCで同じアカウントでログインしてゆぐちゃんに参加するとポイント(ﾟдﾟ)ｳﾏｰなんですよね？

73: ◆Meriken//XXX
13/09/22 01:22:54.37 PJsMgXLsP
>>72
そういえばそうだったｗそのトリップを見たのが久しぶりだったのでうっかりしてしまいました。
経験値はちゃんと加算されますよ。

74: ◆Meriken//XXX
13/09/22 05:48:35.29 PJsMgXLsP
新しい12桁トリップのCPU検索のルーチンの32bit版も出来ました。
手元のCore 2 Duoで試したら4割近く速度が上がっています。
やっぱコンパイラの最適化は当てにならないなあ。
とにかく検索ルーチンのアセンブラでの書き直しは終わったので、
明日あたりにGUIの修正と最終テストを行って、新しい開発版をうｐします。

75:やんやん ◆yanyan/Pails
13/09/22 06:06:23.54 RUJc3/SX0
wktk

76: ◆Urotsuki/1Ca
13/09/22 07:42:38.57 B2mxp/B40
wktkですねこれは
しかし相変わらずの化け物じみた速度…
自分は契約Aの問題でこれ以上速度あげられないんだよなぁ

77: ◆shiexn/ngc
13/09/22 07:50:16.88 XeDsKN+sP
同一トリップ　別キー　なんてのもちゃんと出てくるんですな

78: ◆Meriken//XXX
13/09/22 09:52:31.01 PJsMgXLsP
TITANより速いとか、これはもう買うしかないのではなかろうか。
発表は25日か～

URLﾘﾝｸ(wccftech.com)

79: ◆Meriken//XXX
13/09/22 10:39:11.32 PJsMgXLsP
>>76
7970 CFにしては抑え気味だなと思ってたんですけど、
そういうことだったんですね。私もこれで結構ギリギリで、
しょっちゅうブレーカーを飛ばしていますｗ

80: ◆Meriken//XXX
13/09/22 10:41:44.63 PJsMgXLsP
>>78のリンクが壊れてました。

URLﾘﾝｸ(wccftech.com)

81: ◆Meriken//XXX
13/09/22 11:16:46.05 PJsMgXLsP
>>72
あ、そうそう。私はアマガミはモジャ子で挫折しましたｗ
梨穂子ちゃんと先輩はなかなか良かったです。

82: ◆Meriken//XXX
13/09/22 13:39:01.91 PJsMgXLsP
新しい開発版をうｐしました。

MERIKEN's Tripcode Finder 1.1 Free Edition Alpha 5
URLﾘﾝｸ(www.meriken2ch.com)

Alpha 4からの主な変更点は以下の通りです。

・12桁トリップのCPU検索のAVXへの対応。
・12桁トリップのCPU検索の高速化。

CPUによってはかなり速くなっているようです。
診断の結果や前のバージョンとの比較を報告していただけると助かります。

83: ◆Meriken//XXX
13/09/22 17:15:27.23 PJsMgXLsP
現在Meriken's Tripcode Engineの英語版を作成中。
プログラムに変更はすぐに終わったけど、
ドキュメントの翻訳が超めんどくさいです。

84: ◆MOYASIMaXI
13/09/22 17:54:35.42 B1RUuJ9x0
>>82
お疲れ様です。
12桁検索（CPUのみ）の速度を見てみました。
検索パターンは、先頭一致6完一つと特殊の純8連です。

【OS】Win7 Pro 64bit SP1
【CPU】Core i5 3570
【CPU検索スレッドの数】4

検索開始10分後の平均速度
MTF 1.1 FE Alpha4 74.21M tripcode/s
MTF 1.1 FE Alpha5 91.94M tripcode/s

めっちゃ高速化してます。

85: ◆Meriken//XXX
13/09/22 18:58:57.07 PJsMgXLsP
>>84
いい感じに速度が上がっていますね～
AVXがかなり効いてるのかな?
i7-3770Kより差が大きいのはおいしすぎですね。

86: ◆Urotsuki/1Ca
13/09/22 19:02:33.93 B2mxp/B40
おー新しいのきましたか
CPU関連の効率化だけかなー?
GPUメインにはあまり縁がないかなー…
取り敢えず測定してみようっと

87: ◆Meriken//XXX
13/09/22 19:14:24.81 PJsMgXLsP
ぜひお願いします。CPUによってほんとに速度の変化がバラバラなんですよね。

88: ◆Urotsuki/1Ca
13/09/22 19:24:33.69 B2mxp/B40
CPUの冷却が不安なので長い時間ぶん回せませんね…
取り敢えず結果です

【OS】Windows7 Pro 64bit SP1
【CPU】Intel Core i7-3930K(自動的に3.9GHzまでOC)
【CPU検索スレッドの数】12
【検索中の温度】　46～59度(簡易水冷)
【検索パターン】先頭一致10完　1つ

検索開始5分後の平均速度
MTF 1.1 FE Alpha4 129.19M tripcode/s
MTF 1.1 FE Alpha5 160.65M tripcode/s

速度がかなり上がりました
OCしているので定格だとどうなるかわかりませんが上がり幅は同じだと思います

89: ◆JouJaku.HzIz
13/09/22 20:09:04.92 vk+5V6ZE0
【診断の種類】検索速度(1パターン)
【MERIKEN's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4, 5
【OS】Microsoft Windows 7 Ultimate 64bit SP1
【検索デバイス】CPUのみ
【CPU】Intel Core i7 4770K@3.7GHz
【CPU検索スレッドの数】8 (HTon)
【検索プロセスの優先度】通常
【トリップの種類】12桁
【キーに使用する文字】すべて
【検索パターン】 10文字完全前方一致1個
【10分間のCPU検索の平均速度】104.66(a4) → 122.57(a5) M tripcode/s
【その他】MTEngine64 -c -t 8 -l 12

2割近く速度が上がってますね。AVX2対応が楽しみです。

90:名無しさん＠お腹いっぱい。
13/09/22 20:28:27.32 Nb3CcrYX0
Win7 x64 / C2Q Q9650定格（3GHz）CPUのみ / 4スレッドでの
1.1FEα2 / 1.1FEα4 / 1.1FEα5の各バージョンの12桁検索の「各種診断」の実行結果です
共通
【診断の種類】検索速度(1パターン)
【検索デバイス】CPUのみ
【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】自動　※4スレッド
【SHA-1ハッシュ値生成の最適化(CPU)】最大　※1.1FEα2 / 1.1FEα4のみ
【検索プロセスの優先度】通常以下
【GUIフロントエンドの優先度】通常
【トリップの種類】12桁
【検索パターン】 10文字完全前方一致1個

1.1FEα2
【キーに使用する文字】すべて
【10分間のCPU検索の平均速度】 53.94M tripcode/s

1.1FEα4
【キーに使用する文字】1バイト文字のみ　※半角と全角
【10分間のCPU検索の平均速度】 55.22M tripcode/s
【キーに使用する文字】すべて
【10分間のCPU検索の平均速度】 55.17M tripcode/s

1.1FEα5
【キーに使用する文字】半角と全角
【10分間のCPU検索の平均速度】 62.22M tripcode/s
【キーに使用する文字】すべて
【10分間のCPU検索の平均速度】 62.20M tripcode/s

結果
・1.1FEα4 / 1.1FEα5の【キーに使用する文字】の「半角と全角」と「すべて」の検索速度の違いはわずか
・1.1FEα2→1.1FEα4：約2.5%UP　1.1FEα2→1.1FEα5：約15.3%UP　1.1FEα4→1.1FEα5：約12.7%UP

91:名無しさん＠お腹いっぱい。
13/09/22 20:32:12.34 K2dEp/NJ0
すいません、MTF1.1FEのalpha2～4はどこかでDL出来ますでしょうか？
手違いで消してしまいましたｗ

92:名無しさん＠お腹いっぱい。
13/09/22 20:34:35.19 TkU21XXd0
リンク先のファイル名を変えるだけで落とせたと思う。

93:名無しさん＠お腹いっぱい。
13/09/22 20:36:50.06 K2dEp/NJ0
あ、なるほど気が付きませんでした
無事落とせました

94:名無しさん＠お腹いっぱい。
13/09/22 22:59:02.04 K2dEp/NJ0
【検索デバイス】GPUとCPU
【OS】 windows7 HP 64bit SP1
【使用するGPU】AMD Radeon HD 5570/5670 (OpenCL)
【1CUあたりのワークアイテムの数(OpenCL)】自動
【1WGあたりのワークアイテムの数(OpenCL)】自動
【1GPUあたりの検索プロセスの数(OpenCL)】1
【1検索プロセスあたりの検索スレッドの数(OpenCL)】2
【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】自動
【SHA-1ハッシュ値生成の最適化(CPU)】最大
【検索プロセスの優先度】通常以下
【GUIフロントエンドの優先度】通常

【トリップの種類】12桁
【キーに使用する文字】すべて
【検索パターン】 10文字完全前方一致1個
α2
【10分間の平均速度】 366.70M tripcode/s
【GPU検索の平均速度】 340.43M tripcode/s
【CPU検索の平均速度】 26.27M tripcode/s
α4
【10分間の平均速度】 366.74M tripcode/s
【GPU検索の平均速度】 340.08M tripcode/s
【CPU検索の平均速度】 26.66M tripcode/s
α5
【10分間の平均速度】 364.47M tripcode/s
【GPU検索の平均速度】 340.61M tripcode/s
【CPU検索の平均速度】 23.86M tripcode/s

計測報告は初めてですがこんな感じでいいのでしょうか？
因みにα3はバグがあるとスレの初めに話題になってたようなので除外しました

95:名無しさん＠お腹いっぱい。
13/09/22 23:11:48.99 K2dEp/NJ0
診断ではα5のCPU効率が若干低下してますが
検索実測でもα5はα2、4に比べてGPUCPU共
似たような効率低下傾向があるようです

96:名無しさん＠お腹いっぱい。
13/09/22 23:14:16.64 K2dEp/NJ0
あ、これだとCPUが載ってないですね
CPUは intel core i5-750 2.66GHz定格使用です

97:名無しさん＠お腹いっぱい。
13/09/23 00:19:21.07 s2zOHAYz0
>>17-22を書いた者ですが
1.1FE Alpha 5で1.1FE Alpha 2と同等以上の検索速度になりました
どうもありがとうございました

・1.1FE Alpha 5の各種診断で「キーに使用する文字」が「半角と全角」の場合
【トリップの種類】12桁
【キーに使用する文字】半角と全角
【検索パターン】 10文字完全前方一致1個

【10分間の平均速度】 820.98M tripcode/s
【GPU検索の平均速度】 805.08M tripcode/s
【CPU検索の平均速度】 15.90M tripcode/s

・1.1FE Alpha 5の各種診断で「キーに使用する文字」が「すべて」の場合
【トリップの種類】12桁
【キーに使用する文字】すべて
【検索パターン】 10文字完全前方一致1個

【10分間の平均速度】 820.92M tripcode/s
【GPU検索の平均速度】 805.02M tripcode/s
【CPU検索の平均速度】 15.90M tripcode/s

・Yggdrasilに参加して検索開始10分後の平均検索速度
1.1FE Alpha 2: 694.95MTPS (GPU: 681.99M, CPU: 12.96M)
1.1FE Alpha 4: 665.13MTPS (GPU: 652.14M, CPU: 12.99M)
1.1FE Alpha 5: 695.23MTPS (GPU: 680.68M, CPU: 14.56M)

98:shirawa@mmo ◆GTExxuWcjk/9
13/09/23 05:07:53.88 jhI3+7LxP
【診断の種類】検索速度(1パターン)
【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4　→　Alpha 5

【検索デバイス】GPUとCPU
【使用するCPU】Intel Core i7-3770 CPU @ 3.40GHz
【使用するGPU】NVIDIA GeForce GTX 660 (CUDA)

【1SMあたりのブロック数(CUDA)】自動
【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】自動
【SHA-1ハッシュ値生成の最適化(CPU)】最大
【検索プロセスの優先度】通常以下
【GUIフロントエンドの優先度】通常

【トリップの種類】12桁
【キーに使用する文字】すべて
【検索パターン】 10文字完全前方一致1個

【10分間の平均速度】 622.09M tripcode/s　→　635.74M tripcode/s
【GPU検索の平均速度】 535.55M tripcode/s　→　534.50M tripcode/s
【CPU検索の平均速度】 86.54M tripcode/s　→　101.25M tripcode/s

99:累計 ◆wop.8OO8.qow
13/09/23 05:25:17.49 J8box9ZP0
【診断の種類】検索速度(1パターン)
【Meriken's Tripcode Finderのバージョン】1.1FEα5/1.1FEα4/1.0.1(安定版)

【検索デバイス】CPUのみ (i7 M620 @2.67GHz)

【CPUの命令セット】x64 + SSE2
【CPU検索スレッドの数】自動
【検索プロセスの優先度】アイドル
【GUIフロントエンドの優先度】アイドル

【トリップの種類】12桁
【キーに使用する文字】半角(※1バイト文字のみ)
【検索パターン】 10文字完全前方一致1個

【10分間のCPU検索の平均速度(TPS)】

　　1.1FEα5 　1.1FEα4　 1.0.1(安定版)
------------------------------------
1) 　27.84M　　　30.51M　　　31.67M
2) 　27.80M　　　30.50M　　　31.77M
3) 　27.69M　　　30.58M　　　31.67M
4) 　27.85M　　　30.54M　　　31.68M
5) 　27.83M　　　30.54M　　　31.64M

100: ◆Meriken//XXX
13/09/23 05:48:41.37 PDVnzk32P
皆さん詳しい報告を有り難うございます。
どうもNehalemだけ遅くなっているようですね。難しスギィ！

101: ◆LoveNico9g
13/09/23 06:02:36.35 f6HE7yZK0
【診断の種類】検索速度(1パターン)
【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 3 -> 1.1 Free Edition Alpha 5
【OS】Windows 7 Professional SP1

【検索デバイス】GPUとCPU
【使用するGPU】すべて使用
【GPU】GeForve GTX 650
【CPU】Ibtel Core i3-3220 CPU @ 3.30Ghz

【1SMあたりのブロック数(CUDA)】8
【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】1
【SHA-1ハッシュ値生成の最適化(CPU)】最大
【検索プロセスの優先度】アイドル
【GUIフロントエンドの優先度】アイドル

【トリップの種類】12桁
【キーに使用する文字】1バイト文字のみ
【検索パターン】 10文字完全前方一致1個

【10分間の平均速度】 215.90M tripcode/s -> 221.77M tripcode/s
【GPU検索の平均速度】 205.58M tripcode/s -> 207.19M tripcode/s
【CPU検索の平均速度】 10.32M tripcode/s -> 14.58M tripcode/s

すごい改善率

102: ◆Meriken//XXX
13/09/23 06:25:27.19 PDVnzk32P
>>101
こりゃ凄いですねw 結構さがでるもんですね～

103: ◆Meriken//XXX
13/09/23 06:38:01.05 PDVnzk32P
■Alpha 3/4とAlpha5の12桁トリップのCPU検索の速度の比較

>>67 +58% Phenom II X6 AMD K10
>>101 +41% i3-3220 Ivy Bridge
>>84 +24% i5-3570 Ivy Bridge
>>88 +24% i7-3930K Sandy Bridge
>>89 +17% i7-4770K Haswell
>>98 +17% i7-3770 Ivy Bridge
>>90 +13% C2Q Q9650 Core
>>97 +12% C2D E7600 Core
>>99 -9% i7-M620 Nehalem
>>94 -11% i5-750 Nehalem

やっぱNehalemだけ遅くなってますねえ。残念…
VC++ 2010はNehalemに合わせて最適化されていたのかしらん。
まあでも他のアーキテクチャでは順当に速度が上がっていますね。
Hyper Threadingはないほうが効果がはっきり出るみたいです。

104: ◆Meriken//XXX
13/09/23 09:20:51.29 PDVnzk32P
英語版を作って本家Slashdotにストーリーを投稿してみました。
ぜひVote Upをよろしくお願いいたしますｗ

Meriken's Tripcode Engine English 0.01 Released
URLﾘﾝｸ(slashdot.org)

Meriken's Tripcode Engine English
URLﾘﾝｸ(www.meriken2ch.com)

105:名無しさん＠お腹いっぱい。
13/09/23 09:21:02.61 X4S3sHdy0
1.1FEα5の鯖との定期通信の間隔は
・検索開始3分後までが10秒ごと
・以降3分ごと
でよろしいでしょうか？

106: ◆Meriken//XXX
13/09/23 09:25:06.77 PDVnzk32P
>>105
そうで～す。このパラメーターはサーバー側で調整できるので、
サーバーが重くなってきたら増やすかもしれません。

107:名無しさん＠お腹いっぱい。
13/09/23 09:40:34.70 rVyLE6uw0
【診断の種類】検索速度(1パターン)

【検索デバイス】CPUのみ
【CPU】Ibtel Core i7-980X CPU @ 4Ghz

【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】自動
【SHA-1ハッシュ値生成の最適化(CPU)】最大
【検索プロセスの優先度】通常以下
【GUIフロントエンドの優先度】通常

【トリップの種類】12桁
【キーに使用する文字】1バイト文字のみ
【検索パターン】 10文字完全前方一致1個

【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4
【10分間のCPU検索の平均速度】 148.51M tripcode/s

【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 5
【10分間のCPU検索の平均速度】 129.78M tripcode/s

結構落ちますね。 -15%弱ってところでしょうか。

108: ◆Meriken//XXX
13/09/23 10:18:13.77 PDVnzk32P
>>107
これもWestmere-EPだからNehalemの仲間ですね。
うまい具合にNehalemだけ検出できないかなあ。

109: ◆Meriken//XXX
13/09/23 10:42:19.95 PDVnzk32P
WikipediaにCPUIDが載ってたけど、これほんとに当てになるのかな～

> 0x0206e6, 0x0106a4, 0x0106a5, 0x0106e4, 0x0106e5
URLﾘﾝｸ(en.wikipedia.org)(microarchitecture)

> 0x0206f2, 0x0206c2, 0x020652, 0x020655
URLﾘﾝｸ(en.wikipedia.org)(microarchitecture)

> 0x0206c0, 0x0206c1, 0x0206c2, 0x0206c3, 0x0206c4,
> 0x0206c5, 0x0206c6, 0x0206c7, 0x0206c8, 0x0206c9,
URLﾘﾝｸ(en.wikipedia.org)

110: ◆YSRKEN.ceVZZ
13/09/23 11:16:32.76 R2WGY9Wb0
>>81
棚町(と七咲)は☆獲得に会話イベントでアタック成功させないと駄目な娘なので……
順番を見るに、WikiのFAQを読みながらやったパターンですかね？
>>82
乙です。早速ベンチしてみますね。
>>108
前に「GPU毎に処理方法変える為にデータベース作るか」と言われていたことを思い出しました……

111:名無しさん＠お腹いっぱい。
13/09/23 11:25:52.53 FllI0LcA0
こんな情報がありました

Intel Architecture and Processor Identification With CPUID Model and Family Numbers
URLﾘﾝｸ(software.intel.com)

Nehalem / Westmere世代は

[45nm]
Bloomfield / Nehalem-EP : 0x106Ax
Lynnfield / Clarksfield / Jasper Forest : 0x106Ex
Nehalem-EX : 0x206Ex

[32nm]
Clarkdale / Arrandale : 0x2065x
Gulftown / Westmere-EP : 0x206Cx
Westmere-EX : 0x206Fx

あたりでしょうか

112:やんやん ◆yanyan/Pails
13/09/23 11:37:42.83 BVWtjWSi0
【診断の種類】検索速度(1パターン)
【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 5

【検索デバイス】CPUのみ
【CPU】Intel Xeon W5590 ×2 (3.33GHz)

【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】自動
【検索プロセスの優先度】通常以下
【GUIフロントエンドの優先度】通常

【トリップの種類】12桁
【キーに使用する文字】すべて
【検索パターン】 10文字完全前方一致1個

【10分間のCPU検索の平均速度】 84.98M tripcode/s

113: ◆Meriken//XXX
13/09/23 12:30:59.59 PDVnzk32P
>>112
やっぱりNehalemだと駄目ですね～

>>111
これで正解ですね。助かります。
Nehalemを検出したら元のルーチンを使うように修正しておきました。
時間のあるときに次の開発版をうｐします。

114: ◆YSRKEN.ceVZZ
13/09/23 13:28:13.13 R2WGY9Wb0
【診断の種類】検索速度(1パターン)
【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4→5

【検索デバイス】GPUとCPU
【使用するGPU】すべて使用

【1SMあたりのブロック数(CUDA)】256
【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】4
【SHA-1ハッシュ値生成の最適化(CPU)】最大
【検索プロセスの優先度】通常
【GUIフロントエンドの優先度】通常

【トリップの種類】12桁
【キーに使用する文字】1バイト文字のみ
【検索パターン】 10文字完全前方一致1個

【 5分間の平均速度】 96.97→102.79M tripcode/s
【GPU検索の平均速度】 64.32→64.30M tripcode/s
【CPU検索の平均速度】 32.64→38.49M tripcode/s

※CPUのみだと36.95→42.76M tripcode/s。ちなみに当方はi5-3210M＝Ivy Bridge。

115:名無しさん＠お腹いっぱい。
13/09/23 14:06:20.22 C6NktFR4P
core i7 2700K 定格 HTオン 8スレッド

84Mから105Mに上がりました

116:名無しさん＠お腹いっぱい。
13/09/23 16:21:00.62 L5Ap3lnA0
>>104
> 英語版を作って本家Slashdotにストーリーを投稿してみました。
って事は、これからは外人さんも参加してくれる？
一気に人数が増えるといいな。

117:名無しさん＠お腹いっぱい。
13/09/23 19:43:23.12 dFD9pehG0
>>106
ご回答ありがとうございました

118: ◆Meriken//XXX
13/09/23 20:09:33.41 PDVnzk32P
>>114
>>115
やっぱりNehalem以外では速くなってるんですよねえ…
コンパイラの吐いたコードを調べてみようっと。

119: ◆Meriken//XXX
13/09/23 20:12:23.78 PDVnzk32P
新しい開発版をうｐしました。

MERIKEN's Tripcode Finder 1.1 Free Edition Alpha 6
URLﾘﾝｸ(www.meriken2ch.com)

Alpha 5からの主な変更点は以下の通りです。

・Nehalem系のCPUで12桁トリップのCPU検索が遅くなる不具合の修正。

引き続き前のバージョンとの速度の比較を報告していただけると助かります。

120: ◆Meriken//XXX
13/09/23 20:36:25.71 PDVnzk32P
コンパイラの吐いた無駄だらけのコードを見てたら、movapsの代わりに
movdqaを使っていました。まさかこれが原因じゃあるまいな…

121:名無しさん＠お腹いっぱい。
13/09/23 21:10:26.07 zKQ1y1q50
古いバージョンもあると比較しやすいのかな？

122:107
13/09/23 21:39:06.57 rVyLE6uw0
【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 6
【10分間のCPU検索の平均速度】 148.50M tripcode/s

とりあえず、戻ったようです。

123:94
13/09/23 21:52:01.56 AdWli9Lo0
α6試してみました
条件は>>94と同一です

【10分間の平均速度】 366.80M tripcode/s
【GPU検索の平均速度】 340.25M tripcode/s
【CPU検索の平均速度】 26.55M tripcode/s

α4の水準に戻ったようです
中身的には暫定的にNehalemを検出してα4のプログラムで
処理してる感じでしょうか？
共通プログラムで全CPUを網羅するのは
なかなか難しいのですね

124:累計 ◆wop.8OO8.qow
13/09/23 23:33:54.95 J8box9ZP0
条件は>>99と変わらず、1.1FEα6のみ検索速度(1パターン)を診断

【10分間のCPU検索の平均速度(TPS)】

　　 1.1FEα6 　1.1FEα5 　 1.1FEα4　 1.0.1(安定版)
----------------------------------------------
1)　　31.89M　　　27.84M　　　30.51M　　　31.67M
2)　　31.88M　　　27.80M　　　30.50M　　　31.77M
3)　　31.97M　　　27.69M　　　30.58M　　　31.67M
4)　　31.88M　　　27.85M　　　30.54M　　　31.68M
5)　　31.89M　　　27.83M　　　30.54M　　　31.64M

よかったよかったｗ

125: ◆Urotsuki/1Ca
13/09/23 23:47:40.78 fLgQz4cK0
修正お疲れ様ですー
明日以降入れとこう…

そろそろ本気だす

126: ◆Meriken//XXX
13/09/24 03:05:07.93 SuYpLKhoP
ちゃんとNehalemを検出できているようですね。かったよかった。

Nehalemを使っている人(Alpha 5で遅くなった人)は
ぜひこちらも試してみてください。

URLﾘﾝｸ(www.meriken2ch.com)

元のファイルに上書きすれば使えます。
あくまでも実験なので、元のファイルは取っておいてください

127: ◆Meriken//XXX
13/09/24 03:06:37.34 SuYpLKhoP
>>125
> そろそろ本気だす

おお、期待してますよｗ

128: ◆Meriken//XXX
13/09/24 03:12:46.79 SuYpLKhoP
と書いたあとでゆぐちゃんの速度見たら凄いことになってたｗ
うろつきさんもさすがですし、◆QZshizo.ptHさんもおひさしぶりですね～

129: ◆Meriken//XXX
13/09/24 06:44:32.39 SuYpLKhoP
これ、こっちにも貼っておこうっと。

> 43 ：◆Meriken//XXX ：sage ：2013/09/24(火) 06:42:26.23
> ゆぐちゃんの紹介のために、今度は日本語版のSlashdotにストーリーを
> 投稿してみました。採用されるように、是非評価を上げてやってくださいｗ
>
> URLﾘﾝｸ(slashdot.jp)
>
> GPGPUによる分散トリップ検索サービス「Meriken's Tripcode Yggdrasil」
> URLﾘﾝｸ(slashdot.jp)
ｽﾚﾘﾝｸ(esite板:43番)n

130: ◆Meriken//XXX
13/09/24 08:00:59.39 SuYpLKhoP
>>123
> 中身的には暫定的にNehalemを検出してα4のプログラムで
> 処理してる感じでしょうか？

その通りです。

> 共通プログラムで全CPUを網羅するのは
> なかなか難しいのですね

実際かなり難しいですね。試せる環境が手元にないのが大きいです。
>>126のバージョンでは新しいルーチンに手を入れてるので、
Nehalemでも高速化できるかもしれません。

131:名無しさん＠お腹いっぱい。
13/09/24 12:09:59.10 aK0ZMOZo0
Yggdrasilで検索中のPC一覧で見ることの出来る「名前」の項目のデータは編集できますか？

132:94
13/09/24 12:11:45.67 XhDzCs6d0
お疲れ様です
>>126を試してみました
条件は>>94です

【10分間の平均速度】 370.88M tripcode/s
【GPU検索の平均速度】 340.61M tripcode/s
【CPU検索の平均速度】 30.27M tripcode/s

診断ではCPUの効率向上
実測でもCPU24.54→27.47Mt/sという結果でした

133: ◆Meriken//XXX
13/09/24 12:29:58.12 SuYpLKhoP
>>132
ｷﾀ━━(ﾟ∀ﾟ)━━!! やっぱりmovapsが原因だったんですね。

他のCPUだとSSE2でmovapsを使ったほうが速いのに、
Nehalemだけmovdqaを使ったほうが速いようです。
こんなの普通わからないっちゅうねん。
なんにせよ助かりました。次の開発版に取り込んでおきます。

134:やんやん ◆yanyan/Pails
13/09/24 13:55:53.22 yDbtGzZA0
>>126でα5からの性能向上を確認
Before
【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 5
【10分間のCPU検索の平均速度】 84.98M tripcode/s
After
【Meriken's Tripcode Finderのバージョン】>>126 のNehalem用
【10分間のCPU検索の平均速度】 97.66M tripcode/s

135: ◆Meriken//XXX
13/09/24 14:22:53.52 SuYpLKhoP
>>131
MTFの「分散処理」タグで編集できますよ。次からはゆぐちゃんスレでお願いします。

【分散トリップ検索】Meriken's Tripcode Yggdrasil
(p)ｽﾚﾘﾝｸ(esite板)

136: ◆Meriken//XXX
13/09/24 14:24:13.91 SuYpLKhoP
>>134
ありがとうございます。ようやくこれで安心して寝られますｗ

137: ◆Urotsuki/1Ca
13/09/24 15:36:32.45 hElffOfN0
電気料金の関係で当分稼働できそうにない…
すみません…

138:やんやん ◆yanyan/Pails
13/09/24 16:26:07.84 yDbtGzZA0
On some (but not all) micro-architectures, there are timing differences due to "domain crossing penalties".
For this reason, one should generally use movdqa when the data is being used with integer SSE instructions,
and movaps when the data is being used with floating-point
instructions. For more information on this subject,
consult the Intel Optimization Manual,
or Agner Fog's excellent microarchitecture guide.
Note that these delays are most often associated with register-register moves instead of loads or stores.

だそうな、integerだったらmovqdnなんだと。マニアックすぐるw

139: ◆Meriken//XXX
13/09/24 16:37:03.17 SuYpLKhoP
>>138
ところがNehalem以外だとintegerでもmovapsのほうが
movdqaよりも速いんですよねえ…
VC++ 2010はマニュアル通りにmovdqaを使ってましたけど、
それだとうまくいかないようです。

140: ◆Meriken//XXX
13/09/24 16:39:21.48 SuYpLKhoP
>>137
電気料金は大きな壁ですよねえ…
今までお疲れ様でした。またいつでもお越しください。

141:名無しさん＠お腹いっぱい。
13/09/24 19:22:40.85 HJd6RTmw0
>>139
何となくですが、
URLﾘﾝｸ(2chnull.info)
これの347辺りからの話が、ヒントになりそうな？
これ以上は、各アーキ毎の最適化マニュアルの比較と、
マイクロアーキテクチャ自体の変更情報を全部追わないと、どこがネックになってるのかは
分からない気がするｗ

ちなみに>>107の環境で>>126を回した結果
【10分間のCPU検索の平均速度】 146.58M tripcode/s

あれ・・・あまり変わってない・・・なんでだろ。

142: ◆Meriken//XXX
13/09/25 15:05:37.51 Q0OWgfvvP
>>141
> これ以上は、各アーキ毎の最適化マニュアルの比較と、
> マイクロアーキテクチャ自体の変更情報を全部追わないと、
> どこがネックになってるのかは分からない気がするｗ

リンク先の話は非常に興味深いですねえ。なかなか奥が深いです。

> あれ・・・あまり変わってない・・・なんでだろ。

同じNehalem系でもGulftown(Westmere-EP)は違うのかな?
難しすぎですねｗ

143: ◆Meriken//XXX
13/09/25 16:18:00.34 Q0OWgfvvP
新しい開発版をうｐしました。

MERIKEN's Tripcode Finder 1.1 Free Edition Alpha 7
URLﾘﾝｸ(www.meriken2ch.com)

Alpha 6からの主な変更点は以下の通りです。

・Nehalem系のCPUでの12桁トリップのCPU検索の高速化。
・10桁トリップのCPU検索の高速化。

>>126の成果を取り込んだついでに、10桁トリップ検索でもmovapsを使うように
しました。AVXに対応していない、Nehalem系以外のCPUでは、10桁トリップの
CPU検索は少し速くなっているはずです。
前のバージョンとの速度の比較を報告していただけると助かりますです。

144: ◆YSRKEN.ceVZZ
13/09/25 16:21:29.38 HNdGVGJA0
>>143は私(x64+SSE2/AVX、Ivy Bridge)でも10桁が高速化するのでしょうか？

145: ◆Meriken//XXX
13/09/25 16:23:53.73 Q0OWgfvvP
この週末に彼女が日本から遊びに来るので、開発はしばらくお休みです。
次の更新はHaswell購入後のAVX2対応になる予定です。

146: ◆Meriken//XXX
13/09/25 16:26:41.10 Q0OWgfvvP
>>144
Ivy BridgeはAVXに対応しているので今回は速くなりません。
AVX版はまた今度書きなおす予定です。

147: ◆e7m8FSZy3U
13/09/25 19:34:02.12 CggXwBge0
/.Jから飛んできました。
ちょっと面白そうなのでしばらく回してるかもです・・・

148: ◆e7m8FSZy3U
13/09/25 19:58:17.69 CggXwBge0
あぁこれって何か。分散のみに参加するって出来ないのね
それはつまらんなぁ。

149: ◆Meriken//XXX
13/09/25 20:04:12.63 Q0OWgfvvP
9文字ぐらいの適当な長いパターンをローカルで1つだけ指定してやれば、
分散のみに参加しているのと変わりないですよ。

150: ◆Meriken//XXX
13/09/25 20:42:15.70 Q0OWgfvvP
Linux版を作っていた◆znjnB.IJwZLUさん、最近見かけないなあ。
忙しいのかしらん。AVXに最適化されたS-Boxをぜひ見せてもらいたかったんだけど、
自分でやったほうが早いのかな。

まあやることといったら全部レジスタで回すようにして、なるべく2バイトのVEX Prefixを
使うようにするだけだからなあ。でも言うのは簡単だけど、実際にやるのは大変そうだorz

151: ◆Meriken//XXX
13/09/25 20:56:27.53 Q0OWgfvvP
定格のi7-3770Kだと10桁トリップのCPU検索の速度はこんなんです。

mty_win_x64_20071012: 21.72M TPS
MTF (AVX): 25.56M TPS

大分速くなったけど、もうちょっといけそうなんだよなあ…

152: ◆Meriken//XXX
13/09/25 20:59:08.78 Q0OWgfvvP
6番目のS-Boxにvmovdqaが6個も残ってるぞ…
まずこいつらからやっつけないと。

153: ◆Meriken//XXX
13/09/25 22:23:57.84 Q0OWgfvvP
vmovdqaを2つに減らすことが出来ましたが、一時変数が1つ増えて
速度は横這いです。難しすぎる…

154: ◆LoveNico9g
13/09/26 02:43:02.74 sJOvmiPd0
【診断の種類】検索速度(1パターン)
【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 5 -> 1.1 Free Edition Alpha 7
【OS】Windows 7 Professional SP1
【ディスプレイドライバ】320.57

【検索デバイス】GPUとCPU
【使用するGPU】すべて使用
【GPU】GeForve GTX 650
【CPU】Ibtel Core i3-3220 CPU @ 3.30Ghz

【1SMあたりのブロック数(CUDA)】8
【CPUの命令セット】x64 + SSE2/AVX
【CPU検索スレッドの数】1
【検索プロセスの優先度】アイドル
【GUIフロントエンドの優先度】アイドル

【トリップの種類】10桁
【キーに使用する文字】ASCII
【検索パターン】 10文字完全前方一致1個

【10分間の平均速度】 11.49M tripcode/s -> 11.68M tripcode/s
【GPU検索の平均速度】 9.20M tripcode/s -> 9.24M tripcode/s
【CPU検索の平均速度】 2.29M tripcode/s -> 2.44M tripcode/s

155: ◆Meriken//XXX
13/09/26 04:07:26.63 6FvOHAWcP
>>154
報告有り難うございます。やっぱりちょこっとだけ速くなっていますね。
動的書き換えを行っているコードをいじるのに結構神経を使ったんですが、
6.5%の速度向上だから上出来なのかな?

156: ◆HwAeH9HsBC.d
13/09/26 04:34:59.26 b6mTXvYaP
中間ステートを利用したら受け渡し所がなくても2ch上だけで安全にキーの交換ができるのか

80文字くらいのキーのテスト

157: ◆Meriken//XXX
13/09/26 06:00:51.07 6FvOHAWcP
なかなか面白い発想ですけど、キーの一部が依頼ごとに違ってくると
複数の依頼を同時に検索することが出来ないので、ちと現実的ではないですねえ。

158:名無しさん＠お腹いっぱい。
13/09/26 06:35:44.10 b6mTXvYaP
たしかに個人に依頼する場合はやっぱり一度に一人からの依頼しか処理できなくなりますが、Yggdrasilを使うなら大丈夫ですよね？
Yggdrasilに参加しながら自分の設定した文字列も検索する場合それの結果のキーまで64文字以上になっちゃいますが
あと自分のPCで発見した場合でもサーバから64文字を受け取らないといけなくなります

このときサーバが全クライアントに同じ64文字を使ってたら困るのは
サーバはクライアントごとにキーの最初の64文字を別のにして探索してもらえばよさそうです

あと依頼を1個解決した場合最初の64文字を切り替えないと次に他の依頼を解決したときに2人の別の人に同じ64文字が流出するので
依頼を解決するごとにサーバから新しい最初の64文字を受け取る必要があります

で、OpenCLの1回のワークのまとまりに全部同じ中間状態を最初に渡すことになりそうですが、
1回のワークで複数の依頼を解決しちゃった場合どれか1個しか使えなくなります（同じ最初の64文字が2人以上に使われることになるので）
これの解決法は思いつきませんでした

159:名無しさん＠お腹いっぱい。
13/09/26 06:36:45.74 b6mTXvYaP
最初の64文字を依頼人が指定するんじゃなくてYggdrasilがランダムに生成するって方式です

160: ◆Meriken//XXX
13/09/26 09:06:01.86 6FvOHAWcP
>>158
2ちゃんねる受け渡しを行うのはちょっと無理がありますが、ゆぐちゃんでは
ありでしょう。あ、あと私は最初に間違えてしまっていたのですが、
SHA-1のブロックの長さは64バイトですがメッセージの長さを格納するのに
8バイト必要なので、キーの長さは56文字が最適になります。

実装する際にはW[12]までの途中経過(A, B, C, D, E)を検索開始時に
クライアントに渡してやればいいだけです。最初の依頼を解決した時点で
検索をやり直すようにしてやればセキュリティ上の問題もないでしょう。

161:累計 ◆wop.8OO8.qow
13/09/26 09:10:52.97 BeI6EFic0
条件は>>99と変わらず、1.1FEα7のみ検索速度(1パターン)を診断

【10分間のNehalem系のCPU検索の平均速度(TPS)】

　　　1.1FEα7　 1.1FEα6 　1.1FEα5 　 1.1FEα4　 1.0.1(安定版)
---------------------------------------------------------
1)　　31.47M　　　31.89M　　　27.84M　　　30.51M　　　31.67M
2)　　31.49M　　　31.88M　　　27.80M　　　30.50M　　　31.77M
3)　　31.50M　　　31.97M　　　27.69M　　　30.58M　　　31.67M
4)　　31.48M　　　31.88M　　　27.85M　　　30.54M　　　31.68M
5)　　31.51M　　　31.89M　　　27.83M　　　30.54M　　　31.64M

162: ◆Meriken//XXX
13/09/26 09:28:13.49 6FvOHAWcP
>>161
Nehalem系でも新しいルーチンの効果に結構差がでますね。
1.0.1に比べて微減なのでまあここらへんが落とし所ですね。
報告していただいて本当に助かりました。

163: ◆Meriken//XXX
13/09/26 09:34:36.24 6FvOHAWcP
VEX Prefixの謎はstackoverflowで怒られながらヒントを貰って
ある程度解決することが出来ました。

Which AVX registers should I use to avoid 3-byte VEX prefixes?
URLﾘﾝｸ(stackoverflow.com)

なるべくソースオペランドにxmm0～xmm7を使ってやればいいようですが、
それだけではないみたいですね…

----

176 %line 611+1 Source Files\CPU10_x64_AVX.asm
177 000000F0 C5F96FFC vmovdqa xmm7, xmm4
178 %line 611+0 Source Files\CPU10_x64_AVX.asm
179 000000F4 C5D9DFE0 vpandn xmm4, xmm0
180 000000F8 C551EBD2 vpor xmm10, xmm5, xmm2
181 000000FC C569EFE8 vpxor xmm13, xmm2, xmm0
182 00000100 C551EFDF vpxor xmm11, xmm5, xmm7
183 00000104 C559EFF3 vpxor xmm14, xmm4, xmm3
184 00000108 C44111DFE3 vpandn xmm12, xmm13, xmm11
185 0000010D C44111DBEA vpand xmm13, xmm10
186 00000112 C521EFFA vpxor xmm15, xmm11, xmm2
187 00000116 C511EFC3 vpxor xmm8, xmm13, xmm3
188 0000011A C44109DFC8 vpandn xmm9, xmm14, xmm8
189 0000011F C511EBED vpor xmm13, xmm5
190 00000123 C5D1EBE8 vpor xmm5, xmm0
191 00000127 C539DFC7 vpandn xmm8, xmm7
192 0000012B C44101DFFE vpandn xmm15, xmm14
193 00000130 C44111EFEF vpxor xmm13, xmm15
194 00000135 C4C151EBF5 vpor xmm6, xmm5, xmm13
195 0000013A C5D1DFEB vpandn xmm5, xmm3

164:やんやん ◆yanyan/Pails
13/09/26 09:42:28.26 rTRwfDJk0
コードの動的書き換えまでやってるんだ。頑張るなぁ

165: ◆Meriken//XXX
13/09/26 10:03:07.79 6FvOHAWcP
>>164
速くするためにできることは全部やるつもりですｗ
10桁トリップのCPU検索だと2～3M TPS違ってくるので、かなり大きいです。

166: ◆Meriken//XXX
13/09/26 10:21:16.12 6FvOHAWcP
3オペランドの命令を2-byte VEX Prefixになるように
書き換えたら遅くなったぞ。なぜだ…

167: ◆Meriken//XXX
13/09/26 11:03:10.06 6FvOHAWcP
うーん、やっぱりわからん…
まあいいや、また今度にしよっと。

168: ◆Meriken//XXX
13/09/26 12:42:38.98 6FvOHAWcP
290Xが噂通りの性能なら、検索君1号の6990をリプレースしたいところですが、
どうなんでしょうねえ～

AMD，新世代GPUシリーズ「Radeon R9」「Radeon R7」を発表
URLﾘﾝｸ(www.4gamer.net)

169: ◆YSRKEN.ceVZZ
13/09/26 21:45:53.97 dy4WW+LZ0
>>168
絶対に値段がヤバそう、かと思いましたがそれほどでもないのかな＞R9 280X(のメーカー想定売価)は299ドル

170:名無しさん＠お腹いっぱい。
13/09/26 22:52:10.88 K0nbDP0R0
AMDがMantleとかいう新しいLow Level APIも発表したが
使えるのグラフィック用途だけなのかな

171: ◆znjnB.IJwZLU
13/09/26 23:28:01.94 6DsB6fP10
>>151
お久しぶりです。
日々の仕事をこなしつつトリップ検索のための正規表現エンジンのためのJITコンパイラを作るという作業にエタってました。

DESのS-Boxですがmovdqaが２個あるくらいなら速度差は出ないでしょう。
AVXでターゲットをSandy以降とする場合、ベクタ整数Logicは3op/cycleです。
従って速度を稼ぐには常に3命令を供給できるようにコードを書かなければなりません。
命令フェッチが16Byte/cycle、デコードが4op/cycleなので2ByteVEX（レジスタ間で4Byte）、3ByteVEX（レジスタ間で5Byte）
のどちらでも達成可能ですし、数個のメモリオペレーションはOoOのキューで隠蔽されます。
ただし、メモリオペレーションを含む場合はLodeポートが2本、Storeポートが１本で命令長が多くの場合4Byteほど長くなることを意識する必要があります。
これはメモリオペレーションを含む論理演算は2ByteVEXの場合で2op/cycle、3ByteVEXの場合は1op/cycleしか命令を供給できないということですので、
間にレジスタ間演算を入れて供給命令数を維持するかループにしてuOPキャッシュを当て込むか、そういうものだと諦めるかしなければなりません。

2ByteVEXにすること自体は簡単で、VEX prefixのフォーマットを見るとわかりますが
AVXop　dist，src1，src2
という場合src2をxmm0～xmm7に制限するだけです。
distとsrc1にはxmm0～xmm15までの全てのレジスタを指定可能です。
まあ、レジスタ割付は面倒になります。

172: ◆Meriken//XXX
13/09/27 01:05:59.70 8wnFvcpWP
>>171
なるほど、そういう頭が必要なんですね。道理でなかなか速くならなかったわけだ。
実に勉強になりますです。

> 日々の仕事をこなしつつトリップ検索のための正規表現エンジンのための
> JITコンパイラを作るという作業にエタってました。

MTFの正規表現のルーチンもC#で綺麗に書きなおそうと考えてたんですけど、
この発想は斬新ですねｗ流石です。

173: ◆Meriken//XXX
13/09/27 01:11:08.04 8wnFvcpWP
>>170
Mantleからだと直接GCNを叩けるみたいですね。
オープンソースになるという噂もあるみたいです。
GCNは性能的に化物としか言い様がないので、ｗｋｔｋが止まらないですｗ

174:名無しさん＠お腹いっぱい。
13/09/27 01:17:32.97 lkqItC0o0
>>172
maleで拙作のavxDESを送ったので時間があれば見てみてください。
あまり参考にならないかもしれませんが

175: ◆znjnB.IJwZLU
13/09/27 01:18:39.25 lkqItC0o0
>>174
トリわすれてました

176: ◆Meriken//XXX
13/09/27 01:42:29.83 8wnFvcpWP
>>174-175
わざわざ有り難うございます。さっきまで送っていただいた
S-BoxをMTFに実際に組み込んで動かしていたんですが、確かに速くなっていますね。
素晴らしい出来です。

177: ◆YSRKEN.ceVZZ
13/09/27 01:59:44.23 3xFrfLPD0
　｀¨ －　､　　　　　＿_　　　　　 _,. -‐' ¨´
　　　　　　| ｀Tｰて＿,＿｀　`ー<^ヽ
Meriken　.|　 !　　　　　　｀ヽ　　ヽヽ znjnB
　　　　　 r　/　　　　　　ヽ　ヽ　　_Lj
　､　　　 /´ ＼　　　　＼　＼_j／ヽ
　　｀ー　　　ヽｲ⌒r-､ヽヽ__j´　　　｀¨´
　　　　　　　　　￣ー┴'^´

178:名無しさん＠お腹いっぱい。
13/09/27 02:20:44.90 0ZtIGcs50
maleで送ったとか・・・

ｱｯｰ!!!

179: ◆znjnB.IJwZLU
13/09/27 02:35:31.94 lkqItC0o0
>>176
何の説明もなく失礼しました。
cryptのつくりが全く違うのにすんなり対応されて流石です。

拙作ではS-Boxの最適化は>>171で述べた通りですが、cryptに関しては
キャッシュの最適化を目論んだつくりになっています。
MTFではkey[56]をexpandedKeySchedule[0x300]に展開していますが、
expandedKeySchedule[0x300]で12kBのL1Dキャッシュを占有します。
これはハイパースレッディングで2スレッド走らせる場合、L2キャッシュへのアクセスが生じると
大きなペナルティになりえます。
それでなくても12kB分のstoreはコストが高いのです。
というわけでkeySchedulは命令のほうに展開しています。

最終転置とblock初期化もcrypt関数内に隠蔽してあります。
従ってcrypt関数にはblock[64]をわたして、帰ってきたのをそのまま使えます。

saltはMTFと同じ手法で0x7FFFFFFFがシグネチャになっているのでここを変えればそのまま使えると思います。

>>187
mailだった

180: ◆Meriken//XXX
13/09/27 06:52:13.34 8wnFvcpWP
>>179
> これはハイパースレッディングで2スレッド走らせる場合、
> L2キャッシュへのアクセスが生じると大きなペナルティになりえます。

ああなるほど、それでL1Dキャッシュが潰れて遅くなっていたんですね。
前スレでスレッドの数ごとに速度の比較を行われていたのにも合点がいきました。

KSを命令のほうで展開するやり方はOpenCL版では使っていたんですが、
CPUでは試していませんでした。ただ、STFの展開の仕方は随分独特で
スッキリしているように見えます。できることはまだまだたくさんありますねえ。
明日から1週間ほど家を空けるので、AVX2版の実装と一緒に試してみます。
いや～、楽しみだなあ。

181:混沌 ◆Chaos/geeeIV
13/09/28 19:26:50.26 3+QdwiIO0
よくわかっていないのですが、MTFでの検索パターンとのマッチング処理ってどういう風になっているのかな
１トリップ生成する毎にマッチング処理ですか？

182:名無しさん＠お腹いっぱい。
13/09/29 19:57:56.89 puciZRd6P
MERIKENさんの彼女って美人さんかな

183:名無しさん＠お腹いっぱい。
13/09/29 20:29:14.46 Er9GkfO70
400年生きてるけど容姿は14歳くらいの
押しかけ女房という設定でよろしくお願いします

184: ◆AAAAAIgElTYM
13/09/29 21:09:53.00 puciZRd6P
MERIKENさんのOpenCLのカーネルを参考に作ったら

MTFで900MHash/s出るGPUで590MHash/s出せた

900M目指す

185:名無しさん＠お腹いっぱい。
13/09/29 21:30:42.42 puciZRd6P
と思ったら900Mは簡単に出せた

ただしキーの判定がA,B,C,D,EのAが0かどうか、だけですが

186:名無しさん＠お腹いっぱい。
13/09/29 21:32:17.66 puciZRd6P
MERIKENさんのカーネルすごいなー

187:名無しさん＠お腹いっぱい。
13/09/29 21:33:58.75 UQDnvd/B0
>>183
ロリババアじゃねえか……最高だな

188:名無しさん＠お腹いっぱい。
13/10/02 09:12:18.65 c9bt88M30
質問です
自分が見つけたトリップのキーが既に割れているかどうか調べる方法ってあります?
トリップでググってみたけど出てこなかった

◆WWmMMmWmmM
◆mmmmMMWmmM

189:名無しさん＠お腹いっぱい。
13/10/02 12:12:15.95 RmatBROi0
ぐぐって出てこないなら割れてないんじゃないかな
キーが割れてるか調べるならキーでぐぐれば良いかと
別キー同トリは酉でぐぐってみるしかないですねぇ

あとはデータベース調べるくらい？
URLﾘﾝｸ(trip2ch.net)

190: ◆YSRKEN.ceVZZ
13/10/02 12:29:57.48 rovLnW6/0
例の流出騒動で割れた(けどネット上でまだ使われていない)人もいるしなぁ……
俺のように

191:名無しさん＠お腹いっぱい。
13/10/02 12:38:17.05 HrAyM4RZ0
自分が見つけた、ということなので未使用前提のレスなのら
自分が使ってないなら誰かが先に見つけて、晒したり使用したりしていない限り
割れていることはないからね

192:やんやん ◆yanyan/Pails
13/10/02 13:54:06.66 V6M1LhCI0
別キー同トリって、ハッシュの衝突ということだよね？
SHA-1ってそんなに衝突起きてたっけ？

193: ◆MONEY///WQoK
13/10/02 13:58:55.21 c9bt88M30
>>189-191
個人で使うこんな感じで↑一般的なものなら神経質にはなりませんが、
最長や最短のように変わったトリップは他にも使っている可能性もあるので、
調べてみようと思いました
データベースとグーグルを活用したいと思います

ありがとうです　m(_　_)m

12Mt/s程度のPCには8完9完はきついです
見つかる気がしませんw

194:名無しさん＠お腹いっぱい。
13/10/02 14:06:57.14 ntU3OB+00
>>193
8完程度なら他の人が見つけてくれることもあるよ
それがクラスターの良いところ

＃今日は気温が上がってしまったので落ちまくりｗ

195:名無しさん＠お腹いっぱい。
13/10/02 16:30:36.74 J0NS89z00
>>192
SHA-1をBASE64にした先頭12文字らしいから、
160bitのうち6bit×12文字で72bitしか使わない計算だからねぇ…
有効空間で309485009821345068724781056分の1、かな。
誕生日のパラドックスで衝突率を求めると…どうなるんだ？

196:名無しさん＠お腹いっぱい。
13/10/02 19:41:47.15 c9bt88M30
>>194
なるほど
確かに分散処理が出来ましたね

197: ◆Urotsuki/1Ca
13/10/02 19:46:03.89 7dIRUU6o0
金さえあれば3Way CFXしてブン回せるのに…うぐぐ

198: ◆LoveNico9g
13/10/02 21:39:36.99 ElaEz5OR0
あなたは10桁トリップを発見しました。プラチナ貨8192枚が支払われます。 (19時間前)

文字数がないということは特殊なトリップかな？

あなたは8文字一致の10桁トリップを発見しました。プラチナ貨4096枚が支払われます。 (3ヶ月前)
あなたは9文字一致の10桁トリップを発見しました。プラチナ貨262144枚が支払われます。 (3ヶ月前)

8文字超、9文字未満の報酬ね

199: ◆YSRKEN.ceVZZ
13/10/03 00:57:15.45 5JFild+E0
妙な質問ですが、
URLﾘﾝｸ(tripcode.net)
って1920x1200に最適化しているんですか？
HTML Screensaverで表示させると12桁トリップのグラフと上位数名のリストしか表示されませんorz
(1366x768のノートパソコンでの話)

200:名無しさん＠お腹いっぱい。
13/10/03 01:01:16.51 6er0tSp20
>>199
893 ： ◆Meriken//XXX ：2013/09/08(日) 07:55:22.82 ID:9LBqP7z/0 (2/2)
スクリーンセーバー用のページを新しいグラフに合わせて変更してみました。
これでPCの台数が増えてもしばらくは安心です。相変わらず1920x1080専用です。

URLﾘﾝｸ(tripcode.net)

スクリーンセーバーはこちらがお勧めです。

HTML Screensaver
URLﾘﾝｸ(myweb.tiscali.co.uk)

201:名無しさん＠お腹いっぱい。
13/10/03 01:27:20.09 JxzZIhR00
>>198
過去ログにも出てるけどそれは準10連を見つけた場合の報酬
純10連だと6815744枚もらえるらしい

ところで昨日10/2の11:00頃に12桁のmaxが66.3G TPSになってるのは一体…

202:混沌 ◆Chaos/geeeIV
13/10/03 05:39:39.07 FzkRfayB0
どっかの大学か専門学校あたり教室から誰か遊んだのかなｗ

203: ◆YSRKEN.ceVZZ
13/10/03 08:54:27.00 5JFild+E0
>>202
まあでもグラフを見る限りでは50GTPSは上がってるしな……
一台あたり100MTPSでも500台は牛耳らないとああはならないはず

バグである可能性もあるが

204:名無しさん＠お腹いっぱい。
13/10/03 09:58:21.96 vduEdb0k0
>>203
そういうところだとPXEブートしてたりする。
PXEサーバへの線を切って起動後即アプリ起動するイメージ持ったPXEサーバを設置すれば、
後は片っ端から電源入れるだけで利用できるから、100台くらいは案外乗っ取れるかと。
あとはGPUの相性次第？

205:混沌 ◆Chaos/geeeIV
13/10/03 10:19:02.54 FzkRfayB0
>>204
参加者の中でばかっ速いのはほんの数人、実質Merikenさんだけで半分以上稼いでるようなもんだけどｗ
うちの１年くらい前の普及価格帯GTX660ですら、開発版MTFならGPUのみ単体でも400Mtpsくらいでるから
ちょっといいグラボ乗せていそうなところだったら教室1つで行けそうな気がするよｗ

206:shirawa@mmo ◆GTExxuWcjk/9
13/10/03 12:18:13.19 1mbRumHzP
1人で数百台所有してる方も見かけますし、あながち団体とも言い切れないのがおそろしいところｗ
案外、海外の方とかもありえる？

207: ◆LoveNico9g
13/10/03 20:04:17.29 2EEzR2Fi0
>>201
なるほどなるほどー
使うためには将来実装されるフリマ？バザー？で買い戻すしかないのかな？
しかし見つけたトリップが何かわからないからそれもかなわないのだけど…

そういえば有償版は"参加しない"設定はあるけど"参加するけどトリップは提供しない"設定は無理なのかしら？
依頼と手元の検索対象が被った場合に、手元を優先して提供しないみたいな

208:混沌 ◆Chaos/geeeIV
13/10/03 21:21:24.21 FzkRfayB0
今は丁度留守だけど
ユグドラの機能絡みの話はあっちのスレでやった方が話題を共有できるしMerikenさんもノリやすいと思うよーｗ

209:名無しさん＠お腹いっぱい。
13/10/03 22:55:31.53 PVFODAuA0
AMD Catalyst? Display Driver for Windows Vista 32-bit って、最新版は 13.4 なんですか？
検索しても、13.10 が見つからない・・・

210: ◆Meriken//XXX
13/10/03 23:48:31.78 hGyYsSenP
ようやくアリゾナへの小旅行から戻ってきました。
セドナっていうインディアンの古い聖地に行ってきたんですけど、
岩山が並ぶ景観が素晴らしかったです。
地元の人達も面白い方が多かったので、またぜひ行ってみたいですねえ。

>>183-184
彼女はころっとしてて愛嬌のある感じです。
無事に日本に辿り着ければいいんですが…

211:名無しさん＠お腹いっぱい。
13/10/03 23:54:23.91 yymlo581P
MERIKENさんおかえり！！

212: ◆Urotsuki/1Ca
13/10/03 23:57:23.45 Z2ZCk0070
おかえりー!行ってみたいなぁ…

213:名無しさん＠お腹いっぱい。
13/10/04 01:03:55.19 9T4g2abG0
>>210
> 無事に日本に辿り着ければいいんですが…
ヒッチハイクで帰国したとか？？

214: ◆Meriken//XXX
13/10/04 04:41:05.93 iHUDZBAdP
どもどもｗ

>>213
彼女、ロスの空港で1人で乗り継ぎだったんですけど、
英語が殆どできないんですよね… まあ大丈夫だとは思いますが。

215: ◆Meriken//XXX
13/10/04 04:54:13.15 iHUDZBAdP
>>184
検索エンジンのソースコードはGPLで公開されているので、
じゃんじゃん使ってやって下さいｗ

216: ◆Meriken//XXX
13/10/04 05:01:23.10 iHUDZBAdP
>>197
電気代は盲点でしたね～
私ももうちょっとお金があったら専用電源を備えたPC専用の部屋が
欲しいところですけど、先は長いですねえ。

217: ◆Meriken//XXX
13/10/04 05:08:24.51 iHUDZBAdP
>>207
これどうしようかかなり迷ったんですけど、
参加していただく以上は条件を揃えておきたかったので
こんな風になっています。

218:名無しさん＠お腹いっぱい。
13/10/04 05:39:22.35 OK0SaK/c0
誰も怒らねえからまんどくさいのでと正直に言えよw

219:やんやん ◆yanyan/Pails
13/10/04 05:44:19.39 mM382Oj10
60A契約だと不足気味になるから、75Aにしようかと思ったりしたり。

220: 忍法帖【Lv=2,xxxP】(3+0：8) ◆Meriken//XXX
13/10/04 05:48:05.07 iHUDZBAdP
R9 290Xがもう少しで発売ですね。いや～、楽しみだなあ。

しかし旅行から帰ってきたら2chの規制が更に厳しくなっていますね。
忍法帳のレベルを上げないとリンクも貼れないとか、どうかしてます。
海外規制は相変わらずだし、流出事件以降VPNも規制されて、
●で規制を回避できなくなっちゃったし…
これで公式p2も海外規制されたらどうしようかしらん。

221: 忍法帖【Lv=40,xxxPT】(1+0：8) 【東電 59.6 %】
13/10/04 06:05:56.81 rrTSneEoP
てすと

222: 忍法帖【Lv=2,xxxP】(3+0：8) ◆Meriken//XXX
13/10/04 06:07:02.04 iHUDZBAdP
>>218
実装自体は判定の処理の順番を入れ替えるだけなので、
そんなにめんどくさくないですｗ
経験値は非常に重要な指標なので、
を獲得するための条件は同じにしておきたいんですよね。

223: 忍法帖【Lv=2,xxxP】(3+0：8) ◆Meriken//XXX
13/10/04 06:17:55.03 iHUDZBAdP
>>219
いいですね～ほんとに検索速度の限界は電気の供給によって決まってきますね。

224:名無しさん＠お腹いっぱい。
13/10/04 06:22:44.72 rrTSneEoP
半導体プロセスが28nmから20nmになったら同じ電力で倍の速度出せるようになるかな

225: 忍法帖【Lv=2,xxxP】(1+0：8) ◆Meriken//XXX
13/10/04 07:07:47.87 iHUDZBAdP
さすがにそこまではいかないでしょうけど、
確実にワットあたりの性能は上がるでしょうね。
R9 290Xが7970と比べてどれぐらい性能が上がっているのか、
非常に気になるところです。

226: 忍法帖【Lv=2,xxxP】(2+0：8) ◆Meriken//XXX
13/10/04 07:43:28.35 iHUDZBAdP
>>180の続きですが、STFのS-Boxを使わせていただいた結果、
速度は26.05M TPSまで上がりました。>>151の数字より確実に
良くなっていますが、key scheduleを命令のほうに展開してやれば
更に速くなりそうです。取りあえずMTFのルーチンで展開を試してみてから
送っていただいたSTFのルーチンを移植してみることにします。

227: 忍法帖【Lv=2,xxxP】(1+0：8) ◆Meriken//XXX
13/10/04 14:49:48.68 iHUDZBAdP
現在せっせAVXのルーチンを書き換え中。
動的書き換えを行っているルーチンを修正するのは結構大変です。
うまくいくかな～

228:名無しさん＠お腹いっぱい。
13/10/04 18:27:11.06 rrTSneEoP
URLﾘﾝｸ(www.fileformat.info)

ビットコインのクライアントのRPCを使ってブロックのハッシュ値を列挙して連続する0のビットが一番多いハッシュを探した後、

ビットコインのハッシュはSHA256(SHA256(key))なのでブロックのヘッダをblockexplorerで持ってきて
SHA256(header)を計算して　1dc72653c09d8eb383671d18bcca2d02470a3c6b43ea547bafb69c4227188498　を出して

これをHEX表示としたバイナリのSHA256ハッシュが実際に00が連続することを確認した

ちなみに73ビット0が連続する　もし2chのトリップのSHA1で72ビット以上0が連続したら12連の"AAAAAAAAAAAA"になる

229:名無しさん＠お腹いっぱい。
13/10/04 18:30:52.37 rrTSneEoP
でもBitcoinは先頭と末尾が逆だった(連続する0ビットの位置の）

230:名無しさん＠お腹いっぱい。
13/10/04 19:41:03.52 QT5wWxXa0
特にエラーも出てないのに、GPU 検索が止まってる事があるけど、
エラーが出ないので情報を提供出来ない・・・

231: ◆MOYASHI/Go
13/10/04 21:14:55.45 Ohb6dumk0 BE:4454085877-2BP(7)
お、Merikenさんおかえりなさい。

>>220
2ch書き込み規制等の場合は、したらばのMerikenさんの掲示板の辺りへ移動かな？
でも、したらばって12桁トリップ使えないんでしたっけ？う～ん…

>>230
環境や状況等を詳しく書いた方がいいかも。

232: 忍法帖【Lv=3,xxxP】(1+0：8) ◆Meriken//XXX
13/10/05 01:03:32.26 V671iDXLP
>>230
こういう場合はまずハードウェアがらみなんですけど、
エラー処理を見なおしたほうがいいかもしれませんね。
ハードウェアの構成を教えていただけると助かります。

233:名無しさん＠お腹いっぱい。
13/10/05 01:07:57.88 R6g1pM6d0
7970の場合だと90℃を超えた辺りで不安定領域
95℃まで行ったらまずGPUが脱落する
保護回路かな？
動作保証のあるメーカー品でも強烈な連続負荷が掛かるので油断出来ない

234: 忍法帖【Lv=3,xxxP】(1+0：8) ◆Meriken//XXX
13/10/05 01:39:01.21 V671iDXLP
>>231
緊急時にはとりあえずしたらばに移動ですね。
2ちゃんねるVPNを使えば海外規制は回避できるんですが、
有料だし不便なのでできれば避けたいところです。

235: 忍法帖【Lv=3,xxxP】(1+0：8) ◆Meriken//XXX
13/10/05 03:21:44.19 V671iDXLP
とうとう4770とM6Eをポチってしまいました。
これで思う存分AVX2をいじれます。ぐへへへへ…

236:名無しさん＠お腹いっぱい。
13/10/05 04:34:59.02 R6g1pM6d0
私はFX-9370をポチってしまいました
TDP200Wゴクリｗ

237: ◆Meriken//XXX
13/10/05 04:55:00.35 V671iDXLP
AMDのCPUもきちんと書いてやれば>>67のようにちゃんと速度が出ますしね。
何より独立したコアが8個あるのは魅力的です。楽しみですね～

238: ◆Meriken//XXX
13/10/05 09:10:12.59 V671iDXLP
1日かけてAVXのルーチンのkey scheduleをコードに展開してみました。
で、うまく動いたのは良かったのですが、速度はかえって落ちてしまいましたorz
やはりSTFみたいにDES crypt(3)の二種類のラウンドを畳み込んでやらないと
今度はコードがキャッシュから溢れてしまうようです。

239:やんやん ◆yanyan/Pails
13/10/05 09:29:04.34 V9+sfTd+0
最近のCPUは投機的実行したりパイプライン深かったりだから、
アセンブラレベルでの高速化って大変そうだな。

240: ◆Meriken//XXX
13/10/05 11:05:48.38 V671iDXLP
確かにかなり難しいですねえ。畳み込みも試してみましたが、それでも書き換え前の
速度には届きませんでした。アセンブラのルーチンはほとんどSTFと
おなじになってしまったので、>>179で教えていただいたとおりに
やってるはずなのに速くならないのはかなり謎です。

241: ◆Meriken//XXX
13/10/05 11:17:38.50 V671iDXLP
まあいいや、また今度STFのルーチンを試してみようっと。
そうすれば少なくとも問題の切り分けはできるはず…

242: ◆JouJaku.IYSv
13/10/05 15:26:49.76 TQdt57zm0
>>235
おぉ、遂にですね。
アマゾンで購入する時には極力ゆぐ経由で注文していたのですが、少しは足しになりましたかね?

M6Eの一番下のPCIeに、2若しくは1.5スロット幅のカードが刺さるかどうか教えて下さい。
Z87 Extreme 9を使っているのですが、一番下のPCIeはスイッチケーブル等が干渉して水枕付きの7990が刺さらないのです。

243: ◆Meriken//XXX
13/10/05 18:24:43.38 V671iDXLP
>>242
確実に足しになっていますよ。ありがとうございます。
写真を見る限りでは干渉するようですが、一応届いたら確認してみます。
検索君1号でも干渉しているのですが、R.O.G.シリーズのマザボは
電源ボタンが別に付いているので私は普段はそれを使っています。

244: ◆Meriken//XXX
13/10/05 18:46:04.08 V671iDXLP
あれからいろいろ実験してみたのですが、>>179のようにL1Dキャッシュを
有効活用するためにはキー生成とヒット判定のルーチンに相当手を入れないことが
いけないことが分かりました。◆znjnB.IJwZLUさんはかなり色々工夫されているようです。

まあでも原因がわかったので、取りあえずこの件は置いておくことにして、
AVX2対応の準備を勧めることにします。

245: ◆Urotsuki/1Ca
13/10/06 22:27:59.59 on3hVRef0
着々と高速化されていて期待する日々
ちょっとだけぶん回す

246:名無しさん＠お腹いっぱい。
13/10/06 22:59:18.76 vgIX48Ma0
熱と電気代の壁を乗り越えて頑張ってください

247: ◆QZaw55cn4c
13/10/06 23:07:39.77 tfHzXDW00
熱はこれからの季節ではともかく電気代の壁には参っております，いつ脱落してもおかしくない‥‥

248: ◆Urotsuki/1Ca
13/10/07 00:02:30.75 jF8JVd0Q0
電気代のほうが深刻です
1～2時間フル稼働が限界かも

249:名無しさん＠お腹いっぱい。
13/10/07 00:24:06.99 dlpjmzEs0
ラスボス：電気代

250: ◆Meriken//XXX
13/10/07 02:29:43.10 kkyn89W/P
ハイエンドのグラボを2枚使って24時間稼働させると
電気代は月10000円前後なのでたしかに痛い出費ですねえ。
長い目で見たら1枚だけ使って電気代を抑えたほうがいいのかもしれません。
7970 1枚だけでも現在のゆぐちゃんでは十分トップクラスですしね。
私としては無理の無い範囲で長く続けていただきたいところです。

251:名無しさん＠お腹いっぱい。
13/10/07 17:32:57.57 /IUR/xz60
嫌な感じだな。

そこまでして・・

252: ◆Meriken//XXX
13/10/07 19:16:23.56 kkyn89W/P
まあもともと本格的なトリップ検索にはお金がかかりますしね。
他にもっとお金のかかる趣味なんていくらでもあるし、
人の趣味にケチを付けるのは無粋というものです。

253:名無しさん＠お腹いっぱい。
13/10/07 19:49:49.65 T8R7cFdS0
GPU を使う場合はともかく、最近の CPU は一杯コアがあるし、
PC の電源が入っている間は、一部のコアでずーっと検索させてても
全く何の問題もないよね。
２つ位コア開けておけば、通常の使用に影響出ないし。

254:SilentPC ◆SilentPCIePC
13/10/07 19:51:37.30 YIb5KFv+0
まあだからこその、分散処理なんですよね。
自分一人で1垓のトリップの中から好きなトリップ1個を探し出すのにかかる電気代と、
50人で1垓のトリップの中から好きなトリップをそれぞれ探し出すのにかかる電気代では、
単純計算で前者の50分の1の電気代で済むわけですからね。
皆で協力する事で必要経費も人数分の一に分散出来て、それでいて人数分の一の時間で必要なものも見つけられる。
お互いが得する大変良い仕組みだと思います。
開発頑張って下さい。

255:名無しさん＠お腹いっぱい。
13/10/07 19:58:08.91 T8R7cFdS0
ところで、検索は完全にランダムにやってるんだと思うけど、何故か、頻繁に見つかるトリップと、
全く、一切、全然、ちっとも見つからないトリップがあって、かなり偏るんだよね。不思議だ。

256: ◆YSRKEN.ceVZZ
13/10/07 22:05:18.86 XMrah83C0
>>255
短い回数だと乱数が偏ったように見えることはよくあること

ところで、前にも聞きましたが、この状態だと検索時間が16倍速なんですよね？
URLﾘﾝｸ(up3.viploader.net)

257:名無しさん＠お腹いっぱい。
13/10/07 22:17:15.13 ruVVZ61g0
16・倍・速！ 16・倍・速！

258: ◆Meriken//XXX
13/10/07 22:28:15.09 kkyn89W/P
>>256
なんか妙に台数が増えてた時間があったのはYSRKENさんだったんですねｗ

> この状態だと検索時間が16倍速なんですよね？

違います。同時に何台稼働しても検索時間は一緒です。

259: ◆YSRKEN.ceVZZ
13/10/07 22:32:53.07 XMrah83C0
>>258
なん、だと……！？

まあこのキャプ撮りたいがために16台を一時的に乗っ取ったのですがｗ

260: ◆Meriken//XXX
13/10/07 22:35:08.34 kkyn89W/P
>>254
分散トリップ検索は長い間あたためてきたアイディアなので、
実現できて結構嬉しいですｗトリップ検索はパターンの数が増えても
速度は急に落ちないので、実に分散処理向きといえます。

261:名無しさん＠お腹いっぱい。
13/10/07 22:44:56.42 8uRwwq3r0
17時前後の青グラフと"max: 31"があなたの仕業ですかー！
URLﾘﾝｸ(up3.viploader.net)

262: ◆YSRKEN.ceVZZ
13/10/07 22:55:15.52 XMrah83C0
>>261
そうでーすｗ

トライして気がついたのですが、これってWeb上では同じ「4MTPS」でも、
ソートする際は小数点以下も含めているんですか？

263: ◆Meriken//XXX
13/10/08 02:44:29.87 Be50s5DTP
>>262
そうですよ。

264: ◆YSRKEN.ceVZZ
13/10/08 02:59:16.21 hGdMdaDn0
>>263
良かったです。このソフトでは小数点以下を切り捨てているわけじゃなかったんだね！

265: ◆Meriken//XXX
13/10/08 06:16:31.85 Be50s5DTP
今日あたりHaswellが届いているはずだけど、ちょっと見に行ってみるか。

266:名無しさん＠お腹いっぱい。
13/10/08 08:12:07.30 uiAIodMh0
>>256
> 短い回数だと乱数が偏ったように見えることはよくあること
いや２４時間３６５日検索してるんだけど・・・

267:ねこ ◆TheWorld.o
13/10/08 08:59:54.97 wwRsWuFO0
ロト7を毎週1年買っても当たらないようなものです

268:SilentPC ◆SilentPCIePC
13/10/08 11:37:45.44 ruHOMK/b0
>>266
トリップってA-Za-zの26*2文字＋0-9の10文字＋./の2文字＝64文字で構成されているんだろ？
12桁ならそれが64＾12のパターン数、64^12=(2^6)^12=2＾72=(2^10)^7.2≒(10＾3）^7.2=10^21.6
10垓(ガイ)=Z(ゼタ)の単位の数の中から、ちょっと取り出した程度で偏りが無くなるわけないじゃないか。
例え1京(ケイ)=10P(ペタ)パターンのトリップを発見したとしても、それは全体の万分の一以下の数でしかない。

269: ◆Meriken//XXX
13/10/08 14:50:47.22 Be50s5DTP
>>255
もうちょっと具体的に書いてもらえれば詳しいことがわかると思いますよ。
MTFのバグという可能性もありますしね。

270:名無しさん＠お腹いっぱい。
13/10/08 15:54:01.93 U2rkGsnVO
例えば9桁完全一致トリップが欲しいとして、
12桁で検索するのと10桁で検索するのでは、
どちらが確率が高いのでしょうか？

271: ◆YSRKEN.ceVZZ
13/10/08 19:37:18.73 hGdMdaDn0
>>270
確率は同じだが普通は前者の方が高速に検索できるからお勧め
ユーYggdrasil に依頼しちゃいなYO

272:名無しさん＠お腹いっぱい。
13/10/09 00:11:52.59 qMpebiGr0
ゆぐちゃんの実績から言っても12桁ですよねー

URLﾘﾝｸ(tripcode.net)
平均検索時間(12桁):13.9日(9文字)
平均検索時間(10桁):1.4ヶ月(9文字)

273: ◆Meriken//XXX
13/10/09 01:07:35.35 lCvxi2JOP
YSRKENさん、ときどき名無しで書き込んでますね。

274: ◆Meriken//XXX
13/10/09 01:18:50.00 lCvxi2JOP
Haswellが届いたことは確認済みなので、これから取ってきます。
今日はちょっと用事があるので組み立ては明日あたりかな。

275: ◆YSRKEN.ceVZZ
13/10/09 01:31:41.77 hjmT6Azw0
>>273
えっと、はいそうです。とは言っても、
「専ブラでコテハン記憶しているはずなのになぜか消えてて面倒になった」
というのが主な理由ですが。
>>274
遂にMerikenさんがHaswellに挑戦するんですね……ﾄﾞｷﾄﾞｷ

276: ◆Meriken//XXX
13/10/09 01:47:33.39 lCvxi2JOP
>>275
そうですか。まあ何事もほどほどに、ね。

277: ◆QZschizo.ptH
13/10/09 03:59:47.55 lS/PIDax0
>>270
12桁の方がトリップ生成速度が格段にはやいし（環境によるけど）、なんだか12桁ってあんまり「安全」じゃないような気がしてきた‥‥

278:名無しさん＠お腹いっぱい。
13/10/09 04:35:29.68 wuthnGWj0
>>277
前方数文字が同じで「ぱっと見で似ている」トリップ探すなら12桁の方が危険かもしれないけれど、
完全一致なら空間的にも時間的にも12桁の方が安全性は高いと思うよ。
検索速度が何倍で、トリップ数が何倍か計算してみよう。
トリップ数ではなく使用可能な鍵空間で計算してみても良い。

あーでも捻ってないからレインボーテーブル的なアプローチには弱いかも。

279: ◆Meriken//XXX
13/10/09 04:37:19.41 lCvxi2JOP
検索速度は12桁のほうが数倍速いですけど、10桁トリップのキー空間の狭さを考えたら
12桁トリップのほうがはるかに安全ですよ。12桁トリップの数は2^72個ですけど、
10桁トリップはキーが56bitだから最大で2^56個しかありません。
キーがShift-JISの場合はさらに少なくなります。

280: ◆Meriken//XXX
13/10/09 04:55:24.64 lCvxi2JOP
>>378
2^34TPS (≒16G TPS)で検索しても12桁トリップをすべて出すには
最低で2^38秒(≒87世紀)かかるのでまあ大丈夫でしょう。

281: ◆Meriken//XXX
13/10/09 04:56:51.56 lCvxi2JOP
>>280は>>278さん宛でした。

282: ◆QZschizo.ptH
13/10/09 04:57:40.03 lS/PIDax0
確かに鍵空間的に2^16 違うのであれば、不安がる根拠はありませんね、いろいろ教えていただきありがとうございます

283:名無しさん＠お腹いっぱい。
13/10/09 08:12:00.69 c6EX+6rR0
時代は12桁

284: ◆YSRKEN.ceVZZ
13/10/09 08:15:12.78 hjmT6Azw0
>>278
>前方数文字が同じで「ぱっと見で似ている」トリップ探すなら12桁の方が危険かもしれない
前に「いや先頭合ってるだけで誤解されかねないからそれはそれでマズい」って声があったような……
でもまあ完全一致や全桁対象の酉（例：全数、二構）だと10桁の方が断然見つけやすいんですけどね

285: ◆Meriken//XXX
13/10/09 08:51:52.85 lCvxi2JOP
>>283
そのかわりきれいなトリップは10桁のほうが断然出しやすいですけどね。
一長一短といったところです。

286:混沌 ◆Chaos/geeeIV
13/10/09 09:19:45.48 P0BLzLC00
>>285
10桁酉の場合、最後に使える文字が16種類しかないってのが
きれいな酉を探すにはネックになるかもしれないですけどねｗ

287: ◆Meriken//XXX
13/10/09 12:06:51.46 lCvxi2JOP
>>286
でも12桁で最後まで揃っているトリップを出すのは至難の業ですからねえ。
もうちょっと速度を向上させたいところです。

288: ◆Meriken//XXX
13/10/09 13:19:42.59 lCvxi2JOP
Haswellちゃんが届いたのでさっさと検索君1号にインストールしてしまうことに
しました。マザボとCPUを交換してから試しに立ち上げてみたら平然と動いていますw
OSを再インストールしなくていいのには助かりました。うまく行けば今日中に終わるかな。

289: ◆Meriken//XXX
13/10/09 15:06:43.48 lCvxi2JOP
試しにi7-4770で10桁トリップのCPU検索を動かしてみましたが、
定格の3770Kよりちょびっと遅いぐらいです。
しかしなぜか3枚目の7970が認識されません。むぐぐ…

290: ◆Meriken//XXX
13/10/09 15:13:29.70 lCvxi2JOP
システムもイマイチ安定しなかったので結局OSを再インストール
することにしました。やっぱりサボろうとするといけませんねえ。

291: ◆QZschizo.ptH
13/10/09 18:33:25.41 lS/PIDax0
>>251
keyword: 浪漫

292:名無しさん＠お腹いっぱい。
13/10/09 18:44:03.56 rG8iFpjW0
男のマロン

293:名無しさん＠お腹いっぱい。
13/10/09 19:00:49.17 gUimoTt50
中々
URLﾘﾝｸ(www.youtube.com)
良い歌だよね。

294:混沌 ◆Chaos/geeeIV
13/10/09 19:37:13.05 P0BLzLC00
8bit機が現役でどんどん新作でていた頃　はっきりしないけど25年も昔だろうか・・ｗ
HDDが20Mで20万とかした記憶があるｗ
1Tあたりに換算すると100億くらいか・・

今のHDDは1Tあたり4000円程度
容量単価で250万分の1くらいｗ

12桁トリップ全保存計画を実行しようとすると
2^72の空間でキーとトリップのペアが24バイト
2^72*24

2^40が1Tで、その1000億倍くらいｗ　4,000,000,000,000,000 ＝4000兆円
日本の国家予算の10倍くらいかなｗ
でも容量単価が250万分の1になれば・・・

2^40 * 2^32 * 24
100,000,000,000 / 2,500,000 = 1,000,000/25 = 40,000 今の1Tハードディスク4万個分くらいの予算
4000*40000=1億6千万円

25年後　1億6千万円分のHDD容量で12桁のキーとトリップのペアを全部保存できる？
計算合ってるかな？
どこかの自治体のプロジェクト予算って感じか・・・ｗ

さらに25年後　250万分の1の値段になると
160,000,000 / 2,500,000 = 1600 / 25 = 64円　ｗｗｗ

２ちゃんねるが出来てから、既に14年たっているんだよねー
月日が立つのは速いｗ

295:名無しさん＠お腹いっぱい。
13/10/09 19:38:14.38 sMw4vpEq0
リアルではかなえられないような夢や冒険に憧れる気持ちを込めて、
「男のロマン」などということもあります

296:混沌 ◆Chaos/geeeIV
13/10/09 20:29:50.05 P0BLzLC00
>>294

＞2^40が1Tで、その1000億倍くらいｗ　4,000,000,000,000,000 ＝4000兆円

ここで桁間違えているな　400兆円だな
そうすると、25年後は1600万円か

物好きな小金持ちの年寄りでも出来ないことはない感じか・・・ｗ

297: ◆YSRKEN.ceVZZ
13/10/09 20:50:39.62 hjmT6Azw0
でも、保存しようにも計算が追っつかない気が……真面目に計算してないからよく分からないけど

298:名無しさん＠お腹いっぱい。
13/10/09 21:05:58.94 LbcdLs8/0
ずっと前にどこかで似たような話を見たと思ったら
ｽﾚﾘﾝｸ(software板:529番)
だった

299:混沌 ◆Chaos/geeeIV
13/10/09 21:22:42.31 P0BLzLC00
>>297
現状では、検索パターンに指定したパターン以外は全て捨てて
新たにパターンを探す時は最初から検索しなおしているわけだけど
保存計画は、計算済みのトリップをかたっぱしから保存していくので
計算済みのトリップならばデーターベースに検索命令入れるだけで1発で取り出せることｗ

とはいえ、高速ループで生成し続けるトリップを、生成する速度で未保存トリップか否かをチェックして未保存なら保存していく処理はスタンドアロンでは難しそう
こういうことにこそ、分散処理が威力を発揮しそうですよね

分散処理でトリップ範囲を分担し
ループで計算しながら、挿入ソートでメモリ展開しつつ、担当範囲の分担PCに計算済みトリップを分配していく

>>298
既出の話題でしたか＾＾；

300: ◆Urotsuki/1Ca
13/10/09 21:26:31.44 NxgWXisV0
結構夢があっていいですねー
SSDがもっと早くなってかつ低価格化すれば実現可能性は十分あります
現状のネックである消費電力と速度を打開してくれるのがSSDですから　価格面ならHDDですけど

301:名無しさん＠お腹いっぱい。
13/10/09 21:30:18.36 wuthnGWj0
>>294 >>296
そこでレインボーテーブルのアプローチですよ。
始点トリップ+終点トリップで72*2/8=18byte
長さ2^20(1MTrip)で(2^72/2^20)*18=72PiB
トリップの頭20bit=0(平均長さ1M)を終点にして残りをオフセットとして読めば
始点トリップ=9byteで9*2^(72-20)=36PiB
1Tあたり4000円で計算するなら1億4745万6000円
20MTPSくらいは出てるようだし平均1分の1GTPSを目標にすれば
始点トリップ=9byteで9*2^(72-30)=36TiB
1Tあたり4000円で計算するなら144万4000円……うん、中々現実的な範囲じゃない？

テーブル作成に掛かる時間は普通に全トリップ計算に掛かる時間(…を超える？)なので、そっちで死にますがｗｗ

302:混沌 ◆Chaos/geeeIV
13/10/09 21:54:48.06 P0BLzLC00
>>301
む～ん、レインボーテーブルが理解できない＞＜
ウィキペディアみてみたけどちんぷんかんぷんでした＞＜

1回総当りでテーブル作るって事はわかるんだけど
なんでその時作ったテーブルが、別のハッシュから結果を取り出すことに使えるのか想像できないｗ

そこでつまづくから、その先の容量削減とかチェイン化とかちんぷんかんぷん
（っていうか、微積とか行列とかの記号出てくると、そっちでお手上げｗ）

303:SilentPC ◆SilentPCIePC
13/10/09 22:21:49.95 K2oUYBuJ0
トリップと遂になるハッシュ値を保存して行く時に、トリップ12桁全部をDBに保存せずにトリップ最初4文字でソート＋ハッシュで保存していくとか？
残り8文字はDBから取り出したハッシュ群から計算して探す。12桁の残り8文字一致だけなら結構速く計算出来ると思う。
そうすると1トリップに付き8文字分データを減らせる。

304:混沌 ◆Chaos/geeeIV
13/10/09 22:26:10.85 P0BLzLC00
>>303
あーーっｗ
言われてみれば、トリップは保存しないでもアドレスから一意に決まる事に出来ますね
ディスクは半分で済みそうです

トリップから一意に決まるアドレス位置に　そのトリップを計算するのに使ったキーを保存していけばいいのね

305:SilentPC ◆SilentPCIePC
13/10/09 22:32:50.29 K2oUYBuJ0
ああ、更に削る方法もあるかな？
例えば最初1文字までにして、2文字目は大文字か小文字か数字か記号で4パターン(00：01：10：11の2ビット)に分ける。
更に3文字目も同じく分ける。更に4文字目も…
そうやってトリップを区分分けする事で、残りの文字列のパターンを分類し、探すハッシュの数を絞っていくとか？

306:混沌 ◆Chaos/geeeIV
13/10/09 22:42:47.54 P0BLzLC00
>>305
トリップ　◆AAAAAAAAAAAA のトリップキーはアドレス0に保存
トリップ　◆AAAAAAAAAAAB のトリップキーはアドレス1に

こんな感じで、トリップから一意に決まる保存アドレスにキーだけを保存していく感じで良さそうｗ

307:名無しさん＠お腹いっぱい。
13/10/09 22:46:57.59 wuthnGWj0
>>302
自分も全容や応用までは把握はできてないのですが…
まずH(key)→hashなハッシュ関数(SHA-1関数の先頭72bit)と、C(hash)→keyな変換関数(仮にBASE64関数)を準備。
適当な始点hashから「H(C(hash))→hash」を複数回チェインして終点hashを得るってのを沢山やって終点hash→始点hashのテーブルを作って保存しておく。
検索時は「H(C(hash))→hash」な処理を延々繰り返して、記録済みの終点hashと一致するまで検索を続ける。
一致する終点hashを見つけたら対応する始点hashから「H(C(hash))→hash」を繰り返して、H(C(hash))が目標と一致したらそのときのC(hash)が目的の値。
…ってのがレインボーテーブルの概要だったはずです。終点hash→始点hashのペア情報だけでチェイン回数分のハッシュを代用できるのが利点ですね。

C(H())チェインがキレイに全ハッシュ空間が一周するC()を組めれば繰り返し長を固定して探索時間の保障が出来ますが、
H(C())の鎖が短い繰り返しで一周してしまう部分とかをテーブルに含ませる(または検索時にループを発見する)必要もあり、
C()の出力鍵空間内でH()が衝突すると鍵空間＜ハッシュ空間になって全てのハッシュを網羅できなくなる問題もあり、
その辺の工夫とかが多分レインボーテーブルのキモになるところだった筈です。
ハッシュ衝突とかは…異なるC()を使ったテーブルで補完するとかでしたっけ。

>>304
ちな301で書いた「トリップの頭20bit=0(平均長さ1M)を終点にして残りをオフセット」ってのもそれです。
↑に書いてるC(H())チェインが短くて頭20bit=0等が出ないと悲しい事になりますorz…ケチらず72TiB使うべきか。
>>305
単純にハッシュの頭nbitを削るだけでも行けそうですね。

308:名無しさん＠お腹いっぱい。
13/10/09 23:36:27.79 MTyJscGe0
>>306
似たようなことコンテストの重複チェックルーチンでやったー懐い
FDDの物理アドレスだからエラーになったらおしまいという綱渡り・・・若かった
脇からすまそ

309:混沌 ◆Chaos/geeeIV
13/10/10 00:25:16.04 2gxQn/T50
>>308
まぁ何もOSのFAT管理を無視してトラックセクタ直指定するわけでも
ましてやトラックのギャップにデーター入れるわけでも（笑）ないので
単に、巨大なデータファイル（別に単一ファイルじゃなく適当な大きさのファイル郡でいいのですが）に
先頭からのオフセットで位置を決定するっていうだけなのでｗ
トリップ文字列からキーの保存オフセットに変換する関数を１つ用意するだけで
知りたいトリップのキーを保存するオフセットアドレスをトリップから直接得ることが出来るですよｗ

310: ◆Meriken//XXX
13/10/10 03:26:47.92 1qnGPo+xP
盛り上がってますね～
私はいまだに検索君1号の調整中です。
これ、ちゃんと使えるようになるのかな…

311: ◆Meriken//XXX
13/10/10 06:11:07.20 1qnGPo+xP
MTFを起動しようとするとatimpag.sysでBSOD(0x00000116)が発生。
やっぱGPUが5個もあるのがいけないのかなあ。弱った弱った。

312: ◆Meriken//XXX
13/10/10 06:36:09.28 1qnGPo+xP
いろいろいじってたらいつの間にか動くようになりましたｗ
後は微調整だけど、取りあえず動作確認は出来たので一安心です。

313:名無しさん＠お腹いっぱい。
13/10/10 06:43:37.09 wd4utxMC0
何て贅沢で羨ましい悩み。ｗ

314: ◆Meriken//XXX
13/10/10 07:05:19.03 1qnGPo+xP
さすがにちょっとやり過ぎかもしれませんｗ
あれからまた安定しなくなったのでもっと調整が必要なようです。
実に難しいですねえ。

315:混沌 ◆Chaos/geeeIV
13/10/10 07:38:15.24 2gxQn/T50
おはようございます
いい感じに設定作業が進んでいそうですねー

316:やんやん ◆yanyan/Pails
13/10/10 08:18:22.69 9IgIyU1y0
Linux版の予定ってありますか？

317: ◆Meriken//XXX
13/10/10 08:42:56.48 1qnGPo+xP
>>315
いやあ、それが結局あれから全然安定しなくて、とりあえず
7970をはずしちゃいました。残念なことにM6Eだと5GPU以上だと
安定しないようです。これまで使ってたCrosshair V Formula-Zが
特別だったのかもしれません。

ちょうどAVX2の次はGCNのアセンブラに取り組もうと考えてたので、
7970は開発機に移してしまうことにします。GCN版はかなりの長丁場になりそうなので、
まあ妥当なところでしょう。

318: ◆Meriken//XXX
13/10/10 08:43:40.37 1qnGPo+xP
>>316
私自身がLinux版を作ることはないで～す。

319: ◆Meriken//XXX
13/10/10 10:14:48.60 1qnGPo+xP
7970を外してもまだ調子が悪いので、今度は7990だけにしてみました。
6990が原因だとまだ助かるんだけど、マザボの初期不良というのだけは勘弁して欲しいなあ。

320:名無しさん＠お腹いっぱい。
13/10/10 12:08:33.38 LHshhmTP0
皆様お疲れ様です

すいませんが質問させて頂きます
トリップの回文と双連の違いは何でしょうか？

宜しくお願いします。

321:名無しさん＠お腹いっぱい。
13/10/10 12:37:06.54 jg8QWjDo0
回文 abcdeffedcba
双連 aabbccddeeff

322:混沌 ◆Chaos/geeeIV
13/10/10 12:48:04.01 2gxQn/T50
現時点で12桁トリップ全てを保存するのは非現実的ってのはわかったけれど
現実問題として、計算しながら、計算した分をどんどん保存していくということを考えた場合どうなるのか・・・

現時点でユグが調子いい時で20GTpsくらいかな
1年スパンで考えた場合

20G=2^30*20
1年＝311万秒≒2^20*3
(2^30*20)*(2^20*3) = 2^50*60

とりあえず計算しやすいってことと、速度増加見込みってことで4倍の速度　80GTpsを見込めると仮定して
2^50*2^6 = 2^56

80GTpsで1年間ぶん回すと2^16 T = 65536Tのトリップを生成

うーん、分散処理で実現するには容量以外にもネットワーク負荷の事や
>>294の用に全空間分容量のHDDに記録していくわけじゃないので
ハッシュインデックス化する必要があり、それを記録分担する仕組みを考えるとか
色々課題はあるものの
1年で65536T*12 のトリップキー容量とハッシュインデックス化に必要なインデックス容量考えただけで
現時点ではまだ厳しそうですね・・・ｗ

323:名無しさん＠お腹いっぱい。
13/10/10 13:02:30.82 hf+1FSU2P
HDDに1か所保存とか分散だと失われる可能性高そう

1キーでも失われたらそれを再びみつけるのはものすごく大変だろうなー

324:名無しさん＠お腹いっぱい。
13/10/10 13:14:55.98 LHshhmTP0
>>321
分かりやすい説明
ありがとうございますm(_ _)m

325: ◆Meriken//XXX
13/10/10 14:43:28.90 1qnGPo+xP
せっかく買ったM6Eですが、カードの選り好みが非常に激しく
なかなか性能を出せません。とりあえずうまく動いた7990と7970の
組み合わせで10桁トリップ検索専用にしておきました。
まあもともと種類の違うグラボを挿すこと自体かなり特殊なのですが、
この展開は完全に予想外です。やっぱり実際にやってみないとわかりませんねえ。

326: ◆Meriken//XXX
13/10/10 14:55:16.83 1qnGPo+xP
まあいいや。今後どうするかはAVX2版の開発が終わってから考えようっと。

327: ◆JouJaku.IYSv
13/10/10 19:09:27.72 56mjdoXX0
>>325
ご愁傷様です。
私も同じZ87チップセットですが、7990とTITANx2の混在で何も問題無くさくっと動きました。
謎ですねぇ。グラボと配線が干渉するので、これ以上追加して試すことは出来ません。

しかし、7990+TITANx2より7990+7970の方が速いって・・・。

328:名無しさん＠お腹いっぱい。
13/10/10 19:25:36.93 QtlpUHtc0
Maxwell世代でMTFでもGeForceがRadeonに逆転したりしなんですかね

329: ◆Meriken//XXX
13/10/10 22:08:10.37 1qnGPo+xP
>>327
7990を一番上のスロットに挿さないとまともに動かないし、
これまで使っていたPCIeの延長ケーブルとM6Eの相性も良くないようです。
AMDのドライバも最新のものでないと動きませんでした。不思議なもんです。

330: ◆Meriken//XXX
13/10/10 22:31:07.18 1qnGPo+xP
そうか、M6Eは開発機にまわして、検索君1号はこれまで通りでもいいのか。
時間かかるけどそうしよっかな。

331: ◆Meriken//XXX
13/10/10 23:42:11.44 1qnGPo+xP
今調べたら電源のPCie用のケーブルの端子の先が少し溶けてました。
どうも不安定だった原因の一部はこれにあるようです。
やっぱり無茶させすぎですね。新しいのを注文することにします。
これでうまく行けばかなりおいしいけどどうかな～

332: ◆Meriken//XXX
13/10/10 23:47:34.88 1qnGPo+xP
>>327
>>328
現在CUDA版の10桁トリップ検索のボトルネックになっているのは共有メモリの量なので、
これが増えない限りは速度は上がらないはずです。TITAN用に書き直せば
もちろん話は別ですが…

333: ◆Meriken//XXX
13/10/11 01:40:41.48 oMuOOsM+P
電源のPCIe用のケーブルを開発機から持ってきて取り付けたら
ようやく検索君1号が12桁トリップ検索でも安定して動くようになりました。
7990を一番上に乗っけているので見た目は前よりさらにやばくなりましたが、
前より冷えるようになったので速度は上がっています。
これで心置きなくAVX2対応の作業を始められます。

334: ◆Meriken//XXX
13/10/11 06:38:50.63 oMuOOsM+P
あれからまた不安定になったので、今度は7990+6990+6990の組み合わせを
試してみましたが、今までで一番安定して動いています。
M6Eはなるべくビデオカードの種類を揃えてやると安定して動作するようです。
すんなり動かなくてエライ目に遭いましたが、もう大丈夫でしょう。

335:名無しさん＠お腹いっぱい。
13/10/11 07:00:31.48 kG6nG+a40
コネクタが溶けるとかどんだけｗ

336:混沌 ◆Chaos/geeeIV
13/10/11 10:16:34.06 7L8VTn8Q0
URLﾘﾝｸ(www.eurogamer.net)

凶器ですねｗ

337: ◆Meriken//XXX
13/10/11 15:01:05.83 oMuOOsM+P
7990は化物ですｗ空冷だと12桁トリップ検索で本気を出しきれないのが
残念ですが…

338: ◆Meriken//XXX
13/10/11 15:14:10.87 oMuOOsM+P
AVX2対応のためにコードを見直してたのですが、
12桁トリップ検索はすぐに対応できそうです。楽しみだな～

339:混沌 ◆Chaos/geeeIV
13/10/11 15:31:38.11 7L8VTn8Q0
自作なんてしたのも、もう遥か昔のことで最近のPC事情とか、全然ついていけない話になっているのですがｗ
「グラボ」にメモリ６Gってなんじゃそりゃｗｗｗ　って感じですよｗ

340:SilentPC ◆SilentPCIePC
13/10/11 16:20:48.16 vXaPX/w40
Powercolor HD 7990 Devil 13 6 GB
URLﾘﾝｸ(www.techpowerup.com)
URLﾘﾝｸ(tpucdn.com)
最大消費電力551W　(；･`д･´)…ｺﾞｸﾘ

341: ◆YSRKEN.ceVZZ
13/10/11 16:37:10.98 kAO/Va9a0
もはや電子レンジクラス

342:SilentPC ◆SilentPCIePC
13/10/11 16:45:35.62 vXaPX/w40
>>341
なるほど、つまり電子レンジで中のものを温めながら、同時にファンで中のものが熱くならないよう冷やしているのがHD7990なんだね。
拷問の域だな…(;´д`)

343:混沌 ◆Chaos/geeeIV
13/10/11 17:08:53.79 7L8VTn8Q0
暖めながら冷やすって言ったって
空冷だろうと水冷だろうとたとえ油冷であってもｗ
換気するか冷房でもしない限り、冷ました熱は全て部屋にたまるわけでして・・・

1年中強力ハロゲンヒーター部屋の中で動かしてるようなものですよねｗ

344:名無しさん＠お腹いっぱい。
13/10/11 17:19:47.06 21WqkArR0
液体窒素の中に沈めて冷却する選択肢

345: ◆YSRKEN.ceVZZ
13/10/11 17:29:51.23 kAO/Va9a0
>>342
自分で言っててアレだが、レンジとかオーブンって1000W↑が普通だからちょっと違うかも
(ハロゲンヒーターとか電気ポットとかの方が近い)

その辺の冷蔵庫で250kWhぐらい(一日700Wh)だからそれより断然金が掛かるって……

346: ◆Meriken//XXX
13/10/11 17:30:20.53 oMuOOsM+P
>>343
6990も2枚あるから、ヒーターは3台ですｗ
7990はともかく、6990のうるさいのなんのって…

347:混沌 ◆Chaos/geeeIV
13/10/11 17:30:31.68 7L8VTn8Q0
いや、だから同じですってｗ
クーラーだって、室外機を部屋に持ち込めば、コンプレッサ動かしている分立派な暖房ですしｗ
冷蔵庫が部屋の中にあれば、冷蔵庫の中身は冷えても部屋の温度は上がるしｗ
液体窒素だって、液体窒素自体を冷やす装置が室内にあったら、冷やしたい部分を効果的に冷やす事はできても
部屋全体の温度はどんどんあがって・・・ｗ

348: ◆Meriken//XXX
13/10/11 17:31:34.76 oMuOOsM+P
>>345
検索君1号だけで1300W超えてますｗ

次ページ