【トリップ検索】MERIKEN's Tripcode Finder

【トリップ検索】MERIKEN's Tripcode Finderat SOFTWARE

【トリップ検索】MERIKEN's Tripcode Finder - 暇つぶし2ch450: ◆MERIKEN4.k
12/11/07 19:27:35.72 +2zE6v+s0
>>448
実用的な観点からはトリップのキーはわかりにくければわかりにくいほど良いので
自分としては妥協したくないところです。

451: ◆MERIKEN4.k
12/11/07 19:29:51.83 +2zE6v+s0
>>446
> あの野郎やるやる詐欺でほったらかしだしな！！！！
ご愁傷様です… しかし実にもったいないですね。海外にいるとのことでしたけど
元気にされているんでしょうか。

Tripcode FinderのCPU検索はSHA-1のルーチン以外はサボりまくりなので
改善の余地はまだ大分あるんでしょうねえ。次に最適化に挑戦するのは
もうちょっと勉強してからにします。

452:名無しさん＠お腹いっぱい。
12/11/07 19:30:50.57 lVCLYKZJ0
>>449
ハッシュ値の衝突はわかります。
それも踏まえた上で
> ハッシュ値が n ビットであるとき、ハッシュ関数の計算を 2^n 回行うための計算量を超えない。
ということではないのですか？

453: ◆MERIKEN4.k
12/11/07 19:36:59.82 +2zE6v+s0
>>449
私には

(1) 1バイト文字のみのキーの総数

と

(2) 1バイト文字とShift-JIS文字を含んだキーの総数

を比較したら後者のほうが大きいのは当然に見えるのですが違うんでしょうかねえ。
計算は面倒くさいのでしませんｗ

454: ◆MERIKEN4.k
12/11/07 20:14:53.11 +2zE6v+s0
私がトリップ検索に興味を持ったのは、私のトリップを騙る荒らしが現れたのが
そもそもの原因なので、Tripcode Finderを作るときには実用性が全てにおいて
優先しています。いままで考えてもみなかったですけど、純粋な知的好奇心以外の
明白な動機があるというのが自分の作ったプログラムにも反映されているのかも
しれません。

455:名無しさん＠お腹いっぱい。
12/11/07 20:24:17.18 TO2+iqd80
あれ？
CPU側にhip2、GPU側にMERIKEN使えば最強なんじゃね？

456:ののたん ◆KiwamonoL.
12/11/07 21:33:59.97 XRqsjajg0 BE:632084148-DIA(289888)
>>455
hip2はホントにアルファレベルのでき。
タゲの制限も実用的なものじゃないし。
速度の検証しようとしたところで投げたから、マジで表示速度は怪しい。
もちろん、わざと盛るなんてことはやってないけど。ｗ

『ホンキで最速を目指すんなら、キーを○×△□にしろよ。』
と鳥屋に言われた。一部伏せ字。ｗ
最初意味がわからなかったけど、よく考えたらわかった。

ヤツは私の理解の外にいる。
待て屋のソース見るとよくわかる。
もったいないよなぁ・・・・。

457:名無しさん＠お腹いっぱい。
12/11/07 21:57:24.06 c5GjquhW0
部外者の俺が答え言っちゃっていいのかは知らんが、
MERIKEN氏は12桁トリップのキーが12バイト以上を取りうるということを失念しているのだと思う

10桁トリップと違って12桁トリップはキーを長くするだけで簡単にキー探索空間が広がる
hip2が手元にないので確認できんが、>>439の数=152^16からhip2はキー16バイトで探索しているのだと推測される
このことを考えれば現状のキー探索空間は圧倒的にhip2の方が大きいというのはすぐに分かる

ここからは俺の偏見的見解だが、両者の違いは
hip2はわざわざShift_JIS空間を探索するより、単にキーを長くして簡潔・高速に探索することが目的
一方MERIKEN氏の方は>>450 >>454からわかるように、「わかりにくいキー」を探索することを優先している
ということなんじゃないかと思う

458: ◆MERIKEN4.k
12/11/07 22:13:09.84 +2zE6v+s0
>>457
おっしゃる通り完全に失念していました。
ののたんさん、失礼しましたm(__)m

459:名無しさん＠お腹いっぱい。
12/11/07 22:14:31.57 M5h2NzTI0
ののたんもわかりやすく伝えてあげればいいのに

460: ◆MERIKEN4.k
12/11/07 22:25:03.99 +2zE6v+s0
>>459
まあこの件は私の勘違いが原因なので…
いろんなアプローチの仕方があることがわかってちょっと新鮮でしたｗ

461:ののたん ◆KiwamonoL.
12/11/07 22:25:31.31 XRqsjajg0 BE:1422187889-DIA(289888)
>>457
あの桁の数字を152^16に分解できるとはやるね。ｗ
まあそゆ計算するコマンドもあるけど。

漢字を使わないのは単にそこまで使用文字を増やす必要がないから。
漢字使っても速度ってそんなに変わらないよ。
キーのバリエーションはうにでも魔改造でもさんざんやってるから、ノウハウはいっぱい。ｗ

ちなにみ16バイトってのはなんとなくとかじゃなくて、ちゃんと理詰めして出てきたものだよ。

462:名無しさん＠お腹いっぱい。
12/11/07 22:31:53.94 bKBXePfH0
技術力はあっても性格がアレな人は見てて不快だからNGに突っ込んだ

463:名無しさん＠お腹いっぱい。
12/11/07 22:36:08.15 dfbAPwW4P
技術力があれば性格なんてどうでもいいんだよ

464:名無しさん＠お腹いっぱい。
12/11/07 22:36:32.37 Hb5lLL9GP
>>462
技術者同士のやり取りならこれが普通だろ
それにちゃんと答えにたどり着けるヒントは与えてくれてるし、
素直に自分の調べが甘かったなで終わりだよ

465:381
12/11/07 22:51:55.41 Zus3h7Yg0
Intel/AMD/NVIDIAがOpenCL 1.1以上に対応している今、
cl_khr_byte_addressable_storeなんざもはや過去の遺物か…

466: ◆MERIKEN4.k
12/11/07 23:31:12.78 +2zE6v+s0
>>465
正直こんなものがあった事自体が驚きです。

467:名無しさん＠お腹いっぱい。
12/11/08 00:30:39.29 DT0SYqW30
エラーコード14って何？

468: ◆MERIKEN4.k
12/11/08 00:44:46.94 Dia+3Q0c0
assertでエラーが出てますね。
CUI版ではどのように表示されますか?

469:名無しさん＠お腹いっぱい。
12/11/08 00:48:19.86 DT0SYqW30
URLﾘﾝｸ(www.dotup.org)
こんなん。1GPUだといけた

470: ◆MERIKEN4.k
12/11/08 00:50:25.42 Dia+3Q0c0
>>469
今ちょうどそこを直していたところですw
追って詳しく報告します。

471:名無しさん＠お腹いっぱい。
12/11/08 00:55:39.10 DT0SYqW30
がんばれー

472: ◆MERIKEN4.k
12/11/08 00:57:49.64 Dia+3Q0c0
>>469
Alpha 2でスレッド周りにバグが紛れ込んでました。修正が終わったので
次の開発版では直っているはずです。

473:名無しさん＠お腹いっぱい。
12/11/08 01:07:20.05 c99Xuep80
GUI版の設定ファイルって
%LOCALAPPDATA%\MERIKENsTripcodeFinderGUIフォルダ以下にある
user.configだけが使われてて
それ以外のレジストリとかは使われてないということでいいんでしょうか？

474:名無しさん＠お腹いっぱい。
12/11/08 01:20:42.89 JfJybgRB0
なるほど、1GPUでは問題なく検索出来ますね
ただ、問題は1GPUでも900M程出てしまうこと
複数GPUを有効に働かせてませんね

それと、GPUを複数稼働させるとCPUの検索速度が落ちる
カードをドライブするのに相当リソースを持って行かれていると言うことですな
RdeonのアークテクちゃではCPU負荷が大きいのでこれは仕方がない

URLﾘﾝｸ(www.rupan.net)

475:名無しさん＠お腹いっぱい。
12/11/08 01:22:07.09 JfJybgRB0
貼り方間違えた

URLﾘﾝｸ(www.rupan.net)

476: ◆MERIKEN4.k
12/11/08 05:45:25.11 Dia+3Q0c0
とうとう7970が届きました。ぐへへへへ…
午後のミーティングが終わったら早速インストールしようっと。

477: ◆MERIKEN4.k
12/11/08 05:46:20.48 Dia+3Q0c0
>>473
その理解でいいはずです。

478: ◆MERIKEN4.k
12/11/08 05:50:38.36 Dia+3Q0c0
>>474
これは7970ですか? もうちょっと速度が出そうな感じですね。
CPU検索スレッドはGPUの数だけわざと減らすようにしています。
「詳細設定」の「CPU検索スレッドの数」をいじると面白いかもしれません。

479:名無しさん＠お腹いっぱい。
12/11/08 07:53:45.35 8rusYKpL0
>>476
>ぐへへへへ…
あかん……あかんでぇ

480: ◆MERIKEN4.k
12/11/08 08:12:55.00 Dia+3Q0c0
7970をさして起動したところです。わくわく…

481: ◆MERIKEN4.k
12/11/08 08:27:48.33 Dia+3Q0c0
手元のAlpha 3でいきなりGPUだけで1270M TPSでてます。なんだこの化物は…
しかしGPU使用率が結構バラつきます。75～97%を行ったり来たりといった
ところです。

482:名無しさん＠お腹いっぱい。
12/11/08 08:34:28.95 DT0SYqW30
【GPU】H797F3G2M
【CPU】Xeon E5504
【OS】Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】2560
【1WGあたりのワークアイテムの数】64
【その他のオプション】GPUのみ
【Display Driver】9.01.8-121022a-147510E-ATI
【10分間の平均速度】1124Mtripcodes/s
【GPUの平均速度】tripcodes/s
【CPUの平均速度】tripcodes/s
【GPU使用率】65～80
【その他】GPUは1GHz　CPUは3GHz

483: ◆MERIKEN4.k
12/11/08 08:45:22.52 Dia+3Q0c0
>>482
どうも7970の場合はワークグループの数を1280にするといいみたいですよ。

484: ◆BlackListRy1
12/11/08 09:43:16.73 3J/ptX+70
MERIKEN様、お疲れ様です
その節は御世話になりました

これからも頑張って下さい
スレ違い申し訳ありません<(_ _)>

失礼しますm(_ _)m

485:名無しさん＠お腹いっぱい。
12/11/08 09:48:05.37 DT0SYqW30
>>483
使用率若干上がりました

X58マザーだしこのくらいいけばいいかな

486: ◆MERIKEN4.k
12/11/08 10:26:09.50 Dia+3Q0c0
>>484
こちらとしても使っていただけると嬉しいです。
またいつでもどうぞ。

487: ◆MERIKEN4.k
12/11/08 10:30:14.20 Dia+3Q0c0
ワークグループの数を変化させて10分間のGPUの速度の平均をとってみました。
とりあえず5770で有効だった320の倍数にしておきました。
960で使用率が綺麗に97%で安定しました。色々ためしてみるもんですねえ。
Alpha 3では1GPUあたりの検索スレッドの数を指定できるようになっていますが、
デフォルトの2のままにしてあります。

320 -> 910M TPS
640 -> 1250M TPS
960 -> *1370M TPS
1280 -> 1357M TPS
1600 -> 1240M TPS
1920 -> 1311M TPS
2240 -> 1331M TPS
2560 -> 1270M TPS

488: ◆MERIKEN4.k
12/11/08 11:05:08.48 Dia+3Q0c0
OCして速度を測定してみました。やっぱり化物ですね、これは。

【GPU】Gigabyte GV-R7970C-3GD Radeon HD 7970 (OC: 1130MHz)
【CPU】Intel Core i7-3770K (OC: 4300MHz)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3
【トリップの種類】12桁
【1CUあたりのワークグループの数】960
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.9 Beta
【10分間の平均速度】1517.35 tripcodes/s
【GPUの平均速度】1481.07 tripcodes/s
【CPUの平均速度】36.28 tripcodes/s
【GPU使用率】94%
【GPUの温度】80℃
【その他】7完1タゲ。

489:名無しさん＠お腹いっぱい。
12/11/08 14:25:41.24 JfJybgRB0
>>478
7970です
Alfa2では2GPUでの検索が出来ないので1GPUの結果です
1GPUでも速度駄変わらないという

490: ◆MERIKEN4.k
12/11/08 15:54:35.28 Dia+3Q0c0
新しい開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 3
URLﾘﾝｸ(www.meriken2ch.com)

Alpha 2からの変更点は以下になります。

・デフォルトのワークグループの数の調整。
・複数のOpenCL対応デバイスで検索できないバクの修正。
・デフォルトの検索スレッドの数の調整。
・検索スレッドの数を設定できるように修正。
・コマンドラインで起動できないバクの修正。

491:名無しさん＠お腹いっぱい。
12/11/08 16:32:22.60 DT0SYqW30
アルファ3パネェな　1300Mは軽く超えるわ

492:名無しさん＠お腹いっぱい。
12/11/08 17:06:30.31 DT0SYqW30
メインマシンの8 64bitはGPUは全部使ってるみたいだけどこんな状態だった
解凍したまんまで実行
URLﾘﾝｸ(www.dotup.org)

493: ◆GTX680Mcys3u
12/11/08 17:10:25.44 ECWSGXkx0
こちらは今までと変わらない速度です。
ただ、デフォの状態で起動しようとしたら「HD4000には対応してません」とかいうエラーが出て終了
GTX680Mを指定してあげないとダメだった
Optimusがあるからでしょうけども

494:名無しさん＠お腹いっぱい。
12/11/08 17:11:54.96 cebxTMIE0
>>493
もうゲフォの報告は要らないです

495: ◆MERIKEN4.k
12/11/08 17:14:48.01 Dia+3Q0c0
>>492
ありゃりゃりゃ… AfterburnerのGPU使用率は0%になってるけど、
これは一体どういうことだろう。CUI版ではどのように表示されていますか?

496: ◆GTX680Mcys3u
12/11/08 17:18:51.36 ECWSGXkx0
不具合報告したのに何で煽られなきゃいかんのよ

497: ◆MERIKEN4.k
12/11/08 17:19:19.09 Dia+3Q0c0
>>493
報告たすかります。そのメッセージはちょっと紛らわしいですねえ。
ちょっと無理してでも動くようにしたほうがいいのかしらん。

498: ◆MERIKEN4.k
12/11/08 17:20:04.91 Dia+3Q0c0
>>496
荒らしなので放っておきましょう。

499: ◆MERIKEN4.k
12/11/08 17:24:11.64 Dia+3Q0c0
>>492
ちょっと考えてみたけどこれは本当におかしいですね。
詳細設定の検索スレッドの数を1にしたら直るかもしれません。
Radeonが複数あっても大丈夫なはずだけどなあ…
あとでこちらでも試してみます。

500: ◆GTX680Mcys3u
12/11/08 17:24:59.33 ECWSGXkx0
>>497
Intelグラフィックスは無視するようにはできないですかねえ
さすがにデフォ状態でエラー出るのは一般ユーザは使いにくいかも

501:名無しさん＠お腹いっぱい。
12/11/08 17:26:19.08 DT0SYqW30
URLﾘﾝｸ(www.dotup.org)
64bitの方です
CPUロードは33%前後の状態です

502:名無しさん＠お腹いっぱい。
12/11/08 17:30:54.14 wrgEgbJR0
Windows8 64bit Radeon HD 7660Dで初期設定のままで実行
Alpha 2ではエラーが出て実行出来なかったGPUとCPUを使用が利用可能に
URLﾘﾝｸ(www.dotup.org)

503: ◆MERIKEN4.k
12/11/08 17:36:46.31 Dia+3Q0c0
>>501
これは助かります。OpenCL検索スレッドはちゃんと走ってるみたいですね。
6970ではちゃんと動作するという報告が>>378であったので、
なんだかドライバのバグの臭いがしてきたぞ…
GUI版の「使用するGPU」で6990を1つだけえらんだ場合は
どれぐらい速度が出ますか?

504: ◆MERIKEN4.k
12/11/08 17:41:15.65 Dia+3Q0c0
>>500
無理に動かせない場合はHD 4000は無視したほうがいいですね。
アホの子からｱｯｶﾘｰﾝに格下げとは、なんて不憫な子…

505:名無しさん＠お腹いっぱい。
12/11/08 17:43:38.64 DT0SYqW30
>>503
1つだと70％くらいの使用率で700M前後ですね

506: ◆MERIKEN4.k
12/11/08 17:48:32.02 Dia+3Q0c0
>>505
やっぱりそっちは普通ですね。「使用するGPU」を「すべて」にして
「検索スレッドの数」を1にした場合はどうですか?

507:名無しさん＠お腹いっぱい。
12/11/08 17:50:30.24 DT0SYqW30
>>506
変わらず合計で200M程度　CPUが80Mで全てで300M前後です

508:名無しさん＠お腹いっぱい。
12/11/08 17:57:01.81 DT0SYqW30
キャプでも分かりますがcatalyst12.11βです
あとは12.10もリリースされていますがどうなんでしょう

509: ◆MERIKEN4.k
12/11/08 18:11:29.25 Dia+3Q0c0
>>507-508
6990を一枚だけ差した状態できちんとスピードが出るなら、
間違いなくドライバのバグでしょう。>>487のように
ワークグループの数をいろいろ変えてみたら治るかもしれませんけど…
うちでは未だに12.9 Betaです。12.10は試してみないとわかりませんねえ。

510: ◆MERIKEN4.k
12/11/08 18:21:12.89 Dia+3Q0c0
>>502
これはAPUですか。結構速度が出ていますねえ。うちのHD 4000ちゃんとは
エラい違いです(;_;)

511:名無しさん＠お腹いっぱい。
12/11/08 19:05:16.08 G/kjMuiS0
>>502
APUで200Mt/s超えですか、凄い時代になりましたね・・・

512:名無しさん＠お腹いっぱい。
12/11/08 19:39:22.91 8rusYKpL0
>>502
A10カッケーな

513:名無しさん＠お腹いっぱい。
12/11/08 21:24:27.82 c99Xuep80
>>477
ありがとうございます
もしよければREADME.txtにuser.configのことも書いておいてもらえるとうれしいです

514:名無しさん＠お腹いっぱい。
12/11/08 21:34:27.71 CzgE7YFV0
>502さんに合わせてAlpha 3でA10-5700でやってみた。
Windows8 64bit Radeon HD 7660Dで初期設定のままで実行
#Alpha 2ではCPU+GPUで同じくエラー

順に、CPU、GPU、CPU+GPU(ファイルは400KBあるので注意)
URLﾘﾝｸ(www.dotup.org)
URLﾘﾝｸ(www.dotup.org)
URLﾘﾝｸ(www.dotup.org)

5800Kを下回る筈の速度がなぜか上回った。
ドライバとかメモリ(DDR3-1888)に差があるのかどうか。
#メモリはGPUでも影響しないのでしたっけ？

なお、Alpha 1よりCPU+GPUのGPU部分がざっくり４割速度向上しました。

515:名無しさん＠お腹いっぱい。
12/11/08 21:47:01.79 CzgE7YFV0
テンプレに合わせて報告いたします。

【GPU】AMD Radeon HD 7660D (A10-5700内蔵)
【CPU】AMD A10-5700
【OS】Microsoft Windows 8 Pro 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3
【トリップの種類】12桁
【1CUあたりのワークグループの数】960
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.11 beta4
【10分間の平均速度】254.87M tripcodes/s
【GPUの平均速度】244.63M tripcodes/s
【CPUの平均速度】10.24M tripcodes/s
【GPU使用率】97～98%
【その他】CPU+GPU

消費電力は110～113W程度。GPUのみだと70W未満・・・GPUの効率スゴイっす。

関係ありませんが、「7完1タゲ」とかってどういう意味なんでせう。

516:名無しさん＠お腹いっぱい。
12/11/08 22:03:42.35 uKh70Nek0
任意の七文字　タゲを1つだけ記した状態

517:名無しさん＠お腹いっぱい。
12/11/08 22:23:18.59 CzgE7YFV0
>>516
ありがとうございます。もやもやが晴れました。

518:名無しさん＠お腹いっぱい。
12/11/08 22:39:21.56 8rusYKpL0
>>515
>7完1タゲ
七文字のワード(YUKI.N/とか)を正規表現無しで1つだけ指定ってことじゃね

519:名無しさん＠お腹いっぱい。
12/11/08 22:55:26.18 cebxTMIE0
七文字完全一致1ターゲット

520: ◆MERIKEN4.k
12/11/09 04:23:43.15 bKYl/cdH0
>>514
結構速度出てますねえ。次にマザボを変える機会があったらAMDのAPUに
しようかな…

521: ◆MERIKEN4.k
12/11/09 04:29:32.75 bKYl/cdH0
アホの子HD 4000ちゃんがあまりにも不憫なのでカーネルをいじって
Intelのドライバでも動くようにしておきました。性能はあいかわらずですが…

522:名無しさん＠お腹いっぱい。
12/11/09 04:38:28.96 rgF3r/Bc0
【GPU】HD7970 CFX 2GPUｓ＠1200MHｚ
【CPU】FX-8350 ＠5GHｚ
【OS】Windows7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3
【トリップの種類】12桁
【1CUあたりのワークグループの数】1280
【1WGあたりのワークアイテムの数】24
【その他のオプション】-c -g -t 7 -y 1280 -z 24
【Display Driver】Catalyst 12.10
【10分間の平均速度】1705.24tripcodes/s
【GPUの平均速度】1654.95tripcodes/s
【CPUの平均速度】48.30tripcodes/s
【GPU使用率】92%
【その他】7完1タゲ

どうにか本気を出させることが出来ました
WG数が効いたようです。値を小さくすれば使用率は上がりますが数値が伴わないのでこの辺りがいいところ
7970の2枚挿しの割に低いですがCPUがネックなのでしょうｗ

523:名無しさん＠お腹いっぱい。
12/11/09 04:39:37.32 rgF3r/Bc0
画像貼り忘れ

URLﾘﾝｸ(www.rupan.net)

524: ◆MERIKEN4.k
12/11/09 05:31:55.25 bKYl/cdH0
>>522
う～ん、その構成だと性能的には3000M TPSでてもおかしくないはずなんですけどねえ。
>>492さんの報告( >>501 ) でもそうだったけど、どうもAMDのGPUが
複数あるとちゃんと速度が出ないみたいです。READMEには書かなかったけど、
"-a"というオプションで検索スレッドの数を指定できるので、それを増やして
みるのも手かもしれません。デフォルトは2です。
こういう場合CUDAだと綺麗にスケールしてくれるのですが
AMD APPはなかなかクセがありそうな感じです。

525:名無しさん＠お腹いっぱい。
12/11/09 08:13:48.08 nBLHjNmZ0
>>521
アホの子かわいいよアホの子

元よりAMDほどガチGPU目指してないからな気もするが＞HD 4000

526: ◆MERIKEN4.k
12/11/09 08:34:48.19 bKYl/cdH0
>>492
>>522
AMDのGPUが複数あると速度が極端に落ちる問題ですが、5770と7970の組み合わせで
こちらでも再現できました。で、調べてみたところ、速度をきちんと出すためには
GPU毎にTripcode Finderを立ち上げる必要があることが分かりました＼(^o^)／

AMDのドライバを書いた人が何を考えているのかさっぱりわからないほどの
糞仕様ですが、このままではあまりにダサくて見るに耐えないので、
CUI版をハックしてなんとかすることにします。あんまり綺麗とはいえないですが、
CUI版からOpenCL対応デバイスの数だけ子プロセスを立ち上げればとりあえず
大丈夫でしょう。

527: ◆MERIKEN4.k
12/11/09 08:38:44.85 bKYl/cdH0
>>525
ほんとに必要最低限ですよね。もうちょっと頑張って欲しかったなあ。

528: ◆MERIKEN4.k
12/11/09 15:23:52.89 bKYl/cdH0
CUI版でそれぞれのAMDのGPUのために1つづつ子プロセスを
起動するところまではできました。あとは次のページを参考にして
子プロセスの出力を親プロセスにリダイレクトしてやるだけです。

How to spawn console processes with redirected standard handles
URLﾘﾝｸ(support.microsoft.com)

非常にめんどくさいけど、あともうちょっとです。

529: ◆MERIKEN4.k
12/11/09 19:16:16.16 bKYl/cdH0
うんざりするような書き換え作業が終わって、ちゃんと子プロセスの
標準出力が親プロセスで受け取れるようになりました。あとはこれを
親プロセスで処理してやるだけです。

530:名無しさん＠お腹いっぱい。
12/11/09 19:42:43.60 HSgvVNfi0
団子もびっくりだな。

本職さんですねメリケンさん。

531: ◆MERIKEN4.k
12/11/10 05:10:08.05 751Yphs90
>>530
それが本業はプログラミングと全く関係ないんです。

532: ◆MERIKEN4.k
12/11/10 06:09:10.04 751Yphs90
修正もほぼおわり、生成されたトリップと速度などの情報が
CUI版できちんと表示されるようになりました。
定格の5770と7970の組み合わせで1700M TPS以上出ているので
性能的には申し分ありません。あと数箇所修正する箇所が
残ってますけど、まず問題ないでしょう。やれやれです。

533:名無しさん＠お腹いっぱい。
12/11/10 10:56:29.80 NYhfme2W0
……ところで、
>5文字未満、もしくは12文字以上のターゲットも無視されます
と書いてあるのは、
「ターゲットは5～11文字まででお願いします」
ということですか(12完は含みませんか)？

534: ◆MERIKEN4.k
12/11/10 11:05:13.54 751Yphs90
>>533
ありゃりゃ、説明が間違ってますね。12完でも大丈夫です。

535:名無しさん＠お腹いっぱい。
12/11/10 11:25:15.16 NYhfme2W0
>>534
ですよね。でもありがとうございます

536: ◆MERIKEN4.k
12/11/10 12:01:23.68 751Yphs90
新しい開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 4
URLﾘﾝｸ(www.meriken2ch.com)

Alpha 3からの変更点は以下になります。

・複数のAMDのGPUで検索すると速度が低下する不具合の修正。
・Intel Processor Graphicsシリーズへの対応。

今度こそ6990や7970 CFXで性能通りの速度が出るはずです。
アホの子HD 4000ちゃんには期待しないでくださいｗ

537:名無しさん＠お腹いっぱい。
12/11/10 12:09:03.87 lftviXDBP
しかしこういうの見ちゃうと、AMDのAPUも十分Intelと戦えるんだよなぁ

GPU部分を活用するのが難しいからなかなか陽の目見ないけど、
メモリ統合とかHSAとかすすんでGPUの演算力をもっと容易に使えるようになったら面白いな

538:名無しさん＠お腹いっぱい。
12/11/10 13:02:23.08 NYhfme2W0
>>536
DL→アホの子だけ指定してGPU検索(ゲス顔)→

ト　リ　ッ　プ　が　生　成　さ　れ　な　い　？

539: ◆MERIKEN4.k
12/11/10 13:16:56.65 751Yphs90
>>538
たしかになかなか出てこないですねえ。
この間はちゃんと検索できてたのにおかしいな。

540: ◆MERIKEN4.k
12/11/10 13:19:40.72 751Yphs90
あ、出てきた。まあアホの子はとんでもなく遅いので気長に待ってくださいｗ

541:名無しさん＠お腹いっぱい。
12/11/10 13:25:37.29 ZBbfmQXZT
低速のテスト用に4文字検索もOKにすればいいのに

542:名無しさん＠お腹いっぱい。
12/11/10 13:30:40.11 tCg9kOr10
>>536
CUI版でオプションスイッチが効かないような
設定してもデフォルトでの検索になります

543: ◆MERIKEN4.k
12/11/10 13:43:05.04 751Yphs90
>>541
ハッシュ値の計算の関係で5文字以上にしないと検索が遅くなるんです。
正規表現で"^TEST."のように指定してやれば4文字で検索できなくも無いです。

544: ◆MERIKEN4.k
12/11/10 13:47:26.30 751Yphs90
>>542
報告ありがとうございます。たしかにOpenCL対応のGPUが複数あると
オプションが効かないですね。直しておきます。

545: ◆supernova.rT
12/11/10 14:26:44.02 AK5IPrBn0
5870でAlpha 4を試しましたので、ちょい簡単に報告します
>>487を参考に数値を変えましたところ、-y 5120 -z 64 の設定で平均900M強出ました
どうやら先日の報告はGPU使用率が低かったようです

546: ◆MERIKEN4.k
12/11/10 14:37:28.94 751Yphs90
>>542で報告していただいたバグを修正した開発版をうｐしました。
複数のGPUを使わない方はダウンロードする必要はありません。

MERIKEN's Tripcode Finder 0.07 Alpha 5
URLﾘﾝｸ(www.meriken2ch.com)

547: ◆MERIKEN4.k
12/11/10 14:48:46.91 751Yphs90
>>545
CUの数が5770の倍なのでちょうどそれぐらいの速度ですよね。
5870のデフォルトの値だけ変えられないか検討してみます。

548: ◆MERIKEN4.k
12/11/10 15:39:17.37 751Yphs90
>>545
CL_DEVICE_NAMEとCL_DEVICE_MAX_COMPUTE_UNITの組み合わせで
型番が特定できることがわかったので、5870のデフォルトの値だけを変えて
おきました。次の開発版で反映されます。

549:ののたん ◆KiwamonoL.
12/11/10 16:48:50.75 Osc/R8BS0 BE:197526252-DIA(289888)
【GPU】Radeon HD 6990
【CPU】i7-2600
【OS】Windows 7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 4
【トリップの種類】12桁
【1CUあたりのワークグループの数】2560
【1WGあたりのワークアイテムの数】64
【その他のオプション】なし
【Display Driver】CCC 12.10
【5分間の平均速度】1955.59Mtripcodes/s
【GPUの平均速度】1955.59Mtripcodes/s
【CPUの平均速度】N/A
【GPU使用率】97%前後
【その他】
GPUのみで検索
電力を20%盛って950MHzで計測

Performing a forward-matching search for 1 pattern (1 chunk)
with 7 characters on GPU(s):
OpenCL0: 1034.7M TPS, 2560 work-groups/CU, 64 work-items/WG
OpenCL1: 920.9M TPS, 2560 work-groups/CU, 64 work-items/WG

0.577T tripcodes were generated in 0d 0h 5m 00s at:
1991.28M tripcodes/s (current)
1955.59M tripcodes/s (average)
On average, it takes 25.6 minutes to find one match at this speed.

550: ◆MERIKEN4.k
12/11/10 17:06:17.35 751Yphs90
>>549
あ、ありがとうございます! ちゃんと性能通りの速度が出ているみたいですね。
よかったよかった。

> 【5分間の平均速度】1955.59Mtripcodes/s

しかしこれは1枚のグラボの数字には見えないですねｗ素晴らしいです。

551:名無しさん＠お腹いっぱい。
12/11/10 17:37:48.81 NYhfme2W0
>>549
>【5分間の平均速度】1955.59Mtripcodes/s
2枚にすればMERIKEN超えだよ！やったね！

552:名無しさん＠お腹いっぱい。
12/11/10 18:34:33.46 asBmjW5V0
こんばんわ　alpha5　解凍したまんまです
URLﾘﾝｸ(www.dotup.org)
OSとそのドライバの影響でしょうか？うちの環境で40～50％です

553:ののたん ◆KiwamonoL.
12/11/10 19:06:49.70 Osc/R8BS0 BE:355546692-DIA(289888)
>>552
6990 なら、電力を盛らないとホンキださないぜ。
6990 使いなら常識だぜ。ｗ

【重要：盛って壊れても俺は責任持たないからな。】

554:名無しさん＠お腹いっぱい。
12/11/10 19:07:57.03 asBmjW5V0
>>553
盛っても変わらなかったからデフォでやったｗ

555:名無しさん＠お腹いっぱい。
12/11/10 19:16:08.42 pOMmt27e0
壊れてナンボがデフォ。

556: ◆MERIKEN4.k
12/11/10 19:17:25.07 751Yphs90
>>552
これは実にもったいない… ぶっちゃけAMDのOpenCLの実装がちゃんと
複数のGPUを生かしきれてないのが問題なんですけどねえ。
同じ設定でTripcode Finderを2つ同時に動かしたらどうなるか、
試してみていただけませんか?

557:名無しさん＠お腹いっぱい。
12/11/10 19:33:15.40 asBmjW5V0
GPUのみの並列実行しても使用率に変化はありません
CPU＆GPU　GPUの並列実行も同じです

558: ◆MERIKEN4.k
12/11/10 19:40:37.23 751Yphs90
>>557
あとはワークグループの数を5120とか10240にしてみるぐらいしか
思いつかないですねえ。スレッドの数を変えてみるといいのかもしれないんですけど、
このオプション、Alpha 5ではちゃんと動いてませんでした… 次の開発版で
直しておきます。

559:名無しさん＠お腹いっぱい。
12/11/10 19:49:37.93 NYhfme2W0
>>552のように、ラデ使いのSSに写ってるカッコイイ画面>>432
ってグラボ標準のユーティリティなん？
高いGPUなんて買ったことないからよく分かんない……
使用率見るのにGPU-Zより分かりやすいのはいいけど

ところでこの壁紙って誰のですか？

560:名無しさん＠お腹いっぱい。
12/11/10 19:50:17.66 NYhfme2W0
なんで>>432って付いてるの↑……
無視してください

561:名無しさん＠お腹いっぱい。
12/11/10 20:09:58.65 asBmjW5V0
URLﾘﾝｸ(www.dotup.org)
いろいろやった結果　CU=2560　WG=32　のみ固定し行けました
6990はクーラントブッカケしたものなんでたまにマザーが見失ったりするんでそのせいかもしれません

ツールはMSIのサイトから落とせますよ
壁紙は台湾MSから　日本MSのちっぱいには興味ありません

562:名無しさん＠お腹いっぱい。
12/11/10 20:59:00.78 NYhfme2W0
>>561
ウチMSIには縁がないもので……
↓壁紙はいただきました。冷静に考えるとM$キャラでちっぱいは少ないような……
URLﾘﾝｸ(www.microsoft.com)

563:名無しさん＠お腹いっぱい。
12/11/10 21:47:13.33 asBmjW5V0
>>562
無料ツールだろｗ
MSI行って落とせよ

564:名無しさん＠お腹いっぱい。
12/11/10 21:51:37.91 EjblPgPX0
^0123456789$のように$で終わらせた検索条件を含む
１０桁トリップと１２桁トリップの複合検索は
トリップの種類１２桁
でもできますか？

565:名無しさん＠お腹いっぱい。
12/11/10 22:48:53.43 tCg9kOr10
>>562
どこのメーカーのものでも使えますよ

URLﾘﾝｸ(event.msi.com)

566: ◆MERIKEN4.k
12/11/11 02:08:24.80 jethYJ0v0
>>564
おっしゃっていることがさっぱりわからないんですが…
Tripcode Finderで10桁トリップと12桁トリップを同時に
検索することはできません。

567:名無しさん＠お腹いっぱい。
12/11/11 02:30:34.47 shOUqygm0
>>565
thx！インストールしてみる→

---------------------------
MSI Afterburner
---------------------------
一部の MSI アフターバーナーのコンポーネントが期限切れ、紛失、または壊れています。
---------------------------
OK
---------------------------
起動しないよorz
ノートじゃ駄目か……

568: ◆MERIKEN4.k
12/11/11 03:27:58.86 jethYJ0v0
>>561
う～ん、まだまだ力を出し切れていない感じですねえ。
自分でも試してみたいけど、さすがにこれ以上はグラボは買えません。無念なり…

569:名無しさん＠お腹いっぱい。
12/11/11 10:55:22.93 VopdUwvA0
【GPU】SAPPHIRE VAPOR-X HD5770 1G (OC: GPU 960MHz MEM 1265MHz)
【CPU】Intel Core i7-3770(無印)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 5
【トリップの種類】12桁
【1CUあたりのワークグループの数】3200
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.10
【10分間の平均速度】498.00M tripcodes/s
【GPUの平均速度】463.44M tripcodes/s
【CPUの平均速度】34.56M tripcodes/s
【GPU使用率】99%
【GPUの温度】64℃ （室温20℃）
【その他】テスト時間10分33秒、7完1タゲ

Intel HD4000 にセカンドディスプレイを接続して使用していますが、Intel
社の OpenCL ドライバはインストールしていないので HD5770 だけでのテスト
となりました。

570: ◆MERIKEN4.k
12/11/11 12:58:41.29 jethYJ0v0
>>561
あの後ちょっと調べてみたんですけど、ひょっとしてCrossFireXが有効になってませんか?
Catalyst Control CenterでCFXを切れば、デフォルトの設定でうまくいくかもしれません。

571:名無しさん＠お腹いっぱい。
12/11/11 13:02:30.40 6A5ebb7J0
>>570
切ってみます

572: ◆MERIKEN4.k
12/11/11 13:07:04.34 jethYJ0v0
>>569
詳しい報告、ありがとうございます。ワークグループの数は2560より3200のほうが
いいのかな。うちの5770でもうちょっと詳しく調べてみます。

573:名無しさん＠お腹いっぱい。
12/11/11 13:10:54.23 6A5ebb7J0
切れてた…　2560/64は2560/32より遅かった模様

574: ◆MERIKEN4.k
12/11/11 13:21:12.44 jethYJ0v0
>>573
う～ん、何で6990 CFXだけなかなか速度が出ないんでしょうねえ。
ほかのOpenCLアプリケーションでは6990 CFXでもちゃんと性能が出るという報告が
あったので、なにかしら方法はあると思うんですが… もうちょっと調べてみます。

Bitcoin Mining GPU Performance Comparison
URLﾘﾝｸ(www.hardocp.com)

575:名無しさん＠お腹いっぱい。
12/11/11 13:41:23.09 shOUqygm0
>>569
>Intel社の OpenCL ドライバ
そんなのがあったのか……と思ってググってみたが、SDKのことか？
→インストールしたら、アホの子でOpenCL検索使えた！
(ただし4M/sぐらいだけど)
サンクス！

576:名無しさん＠お腹いっぱい。
12/11/11 13:55:31.58 shOUqygm0
あ、後、タスクマネージャ見てたら隠しパラメータがあることに気づいたｗ
-a 2←1つのAMDのGPUに対する検索スレッドの数？
-m MutexForMERIKENsTripcodeFinder-6496←Intel HD Graphics 4000でOpenCLを使うおまじない？

577: ◆MERIKEN4.k
12/11/11 15:10:23.29 jethYJ0v0 BE:1197019229-2BP(12)
>>576
> -a 2←1つのAMDのGPUに対する検索スレッドの数？

これはあってます。2番目のはGUI版とCUI版が通信するときに使うおまじないです。

578: ◆MERIKEN4.k
12/11/11 18:53:29.24 jethYJ0v0
これまで使っていた検索君1号のFermi軍団に加えて、開発用PCの7970でも同時に
検索をしているのですが、ここ数日で3回ブレーカーが落ちましたｗ
GTX 590の電圧を絞ることでなんとか対処しましたが、
消費電力のほうもそろそろ限界です。

579:名無しさん＠お腹いっぱい。
12/11/11 19:25:42.41 6A5ebb7J0
単相200V契約しよう

580:名無しさん＠お腹いっぱい。
12/11/11 20:09:00.62 tLApF2aS0
前スレだったと思いますが、ドライバを触ったらこのソフトからGPUが認識されなくなったと書き込んだものです。
相変わらず認識されないままですが、今日system32に入っているclinfo.exeというプログラムでOpenCLの情報を取得できると知ったので、
取得できたテキストをアップロードしておきます。
URLﾘﾝｸ(cyclotron.moe.hm)

念のため正常に使用できるPCのぶんも入れておきます。

581:名無しさん＠お腹いっぱい。
12/11/11 20:10:29.57 kFGFk5jZ0
USAは、110ボルトですね。

582: ◆MERIKEN4.k
12/11/11 20:22:46.82 jethYJ0v0
>>580
ひょっとしてこのスレの>>395さんですか?
たしかに両方ともRadeonが見えていますね。
OSが64bit版ならCUI64ならうまく動くかもしれません。

583: ◆MERIKEN4.k
12/11/11 20:29:24.47 jethYJ0v0
>>579
したいのはやまやまなんですけど、今のアパートだと無理なんです…

>>581
120Vです。15Aなので1800Wまで大丈夫なんですが、グラボ4枚で1100Wぐらい
いってます。やばいです。

584:名無しさん＠お腹いっぱい。
12/11/11 20:42:11.43 tLApF2aS0
>>582
あ、このスレでしたか。
Alpha5をダウンロードしてCUI64を起動してみましたが
MERIKENsTripcodeFinderCUI: OPENCL FUNCTION FALL FAILED: CL_DEVICE_NOT_FOUND (file 'Source Files\MTF_CUI_Main.cpp', line 732)
と表示されてそこから進みません。

c++は門外漢でソースちらっと眺めただけですけど、プラットフォームが2個あって、最初の片方がCPUのみってところでなんかコケたりしてません？

585: ◆MERIKEN4.k
12/11/11 20:47:49.07 jethYJ0v0
>>584
CPUは無視するようにしているので問題はありません。
32bit版のMERIKENsTripcodeFinderCUI.exeではどうですか?

586:名無しさん＠お腹いっぱい。
12/11/11 20:51:41.93 tLApF2aS0
>>585
32bitでも同じエラーです。

587: ◆MERIKEN4.k
12/11/11 21:06:57.97 jethYJ0v0
う～ん、やっぱりCL_DEVICE_NOT_FOUNDが返されているのかなあ。
うちのIntelのドライバではエラーは出なかったんですが…
これから修正して新しい開発版をうｐするので、そちらを試してみてください。

588: ◆MERIKEN4.k
12/11/11 21:57:58.95 jethYJ0v0
>>580で報告していただいた、環境によっては起動できないバグを修正した
開発版をうｐしました。というか、これで直っているといいんですけど…

MERIKEN's Tripcode Finder 0.07 Alpha 6
URLﾘﾝｸ(www.meriken2ch.com)

589:名無しさん＠お腹いっぱい。
12/11/11 22:02:50.51 tLApF2aS0
>>588
ありがとうございます。
起動できるようになりました。

590: ◆MERIKEN4.k
12/11/11 22:08:25.91 jethYJ0v0
>>589
それはよかった! こちらこそバグ報告をありがとうございました。

591: ◆MERIKEN4.k
12/11/11 22:12:41.07 jethYJ0v0
もうそろそろ安定してきたと思って10桁トリップ検索の移植の作業を
始めてたんですけど、まだ結構不具合が残っていますねえ。

592: ◆GTX680Mcys3u
12/11/12 06:26:56.37 2Urt7HcK0
>>588
全グラフィックチップ(680M+iHD4000)指定だと
検索開始後エラーメッセージなしでソフトごと落ちます
HD4000はバッサリ切った方がいいかと思われます

593: ◆MERIKEN4.k
12/11/12 07:13:21.49 x4jnfC130
>>592
ありゃりゃ… こりゃいかんですねえ。テスト用には便利だったんですけど
しょうがないですね。次の開発版からは無視するようにします。

594: ◆MERIKEN4.k
12/11/12 07:34:25.71 x4jnfC130
というわけで面倒くさいのでIntelのプラットフォームは最初から無視することに
しちゃいました。OpenCLはオープンスタンダードな分だけそれに伴う
問題も多いですね。

595: ◆MERIKEN4.k
12/11/12 08:51:49.76 x4jnfC130
気を取り直して10桁トリップ検索の移植作業を続けます。
CPU側のコードは10桁の場合とほとんど同じなのですぐに終わりました。
問題はOpenCLのコードですが、バグが紛れ込むと見つけるのが
非常に困難になるので、慎重に作業を進めてます。

596: ◆MERIKEN4.k
12/11/12 10:00:14.78 x4jnfC130
カーネルの入り口の部分の書き換えは終了しました。
あとはBitslice DESの本体だけですが、CUDAのコードをコピペするだけなので
問題はないでしょう。うまく動いてくれるといいんだけど、どうでしょうね～

597:名無しさん＠お腹いっぱい。
12/11/12 10:29:57.20 FaMyVn9Z0
geforceでopenCL版って動くの？
動いてもcudaよりは遅い？

598: ◆MERIKEN4.k
12/11/12 13:13:54.13 x4jnfC130
>>597
いまはNVIDIAのカードでは強制的にCUDAを使うようにしています。
OpenCLでも動くことは動くと思いますけど、基本的に全く同じコードなので
速度は変わらないでしょう。

599: ◆MERIKEN4.k
12/11/12 13:27:00.53 x4jnfC130
OpenCLの10桁検索のコードは1発で動いたんですけど、Bitslice DESで使う変数を
何も考えずに全部__privateメモリ空間に突っ込んだら、案の定というか
まったく速度が出ていませんｗまあでもコードの書き換え自体は問題なかったよう
なので、とりあえず一安心です。これから__globalと__localを試してみます。

600:名無しさん＠お腹いっぱい。
12/11/12 13:31:46.97 ClnWJME80
khronosの姿勢として標準のカーネルコンパイラを用意しないのはわかるんだけど
やっぱりglslの轍をちょっとは生かしてほしかったってのが個人的な思い
meriken氏乙

601:名無しさん＠お腹いっぱい。
12/11/12 13:37:18.53 /PHpLzn40
>>594
当方では一応4M/sぐらいで動くので、
IntelHD4000を使うか否かをチェックボックスとかで決めればいいと思いまーす

602:名無しさん＠お腹いっぱい。
12/11/12 13:56:47.61 FaMyVn9Z0
>>598
そうなんだ
ありがとう

603:名無しさん＠お腹いっぱい。
12/11/12 21:58:25.06 +66fUhHT0
OpenCLで盛り上がっているところにCPUのみの結果を報告。

【GPU】Quadro FX 3800
【CPU】Xeon X5680@3.33GHz x2CPU
【OS】MS Windows 7 Pro 64bit
【バージョン】0.07 Alpha 3 CUI64
【トリップの種類】12桁
【Display Driver】307.32

【その他】HT on
【その他のオプション】-c -t 24
【60時間の平均速度】80.51M TPS

【その他】HT off
【その他のオプション】-c -t 12
【2時間の平均速度】79.04M TPS

CPUだけで実行してもHTは殆ど効きません。NehalemとSandy Bridgeでは全然違うのかな?
ちなみにHT on の状態で、"-c -t 12"と指定すると、2CPU12コアに割り当てられずに、1CPU6コア12スレッドに割り当てられてスピードが出ません。

604:名無しさん＠お腹いっぱい。
12/11/12 21:59:57.08 +66fUhHT0
Alpha 6に上げて再度実行してみましたが、NVIDIAコントロールパネルの"3D設定"→"3D設定の管理"で"CUDA-GPU"を"なし"に設定すると、CUI64で"-c"オプションをつけても下記エラーが出て落ちます。
MERIKENsTripcodeFinderCUI: OPENCL FUNCTION FALL FAILED: Unknown (file 'Source Files\MTF_CUI_Main.cpp', line 715)

605:名無しさん＠お腹いっぱい。
12/11/12 23:26:48.48 ODHrB/Fw0
NVIDIA，第2世代Kepler「GK110」搭載の「Tesla K20」を正式発表。CUDA Core数は最大2688基に
URLﾘﾝｸ(www.4gamer.net)

606:名無しさん＠お腹いっぱい。
12/11/12 23:34:15.80 cklfqCrp0
X5680はOCすりゃいいじゃん

607:名無しさん＠お腹いっぱい。
12/11/13 02:39:21.60 FPgsAJYQ0
DualCPUにQuadro突っ込んでるようなガチWS機でOCとかあり得んでしょ

608:名無しさん＠お腹いっぱい。
12/11/13 02:50:45.59 l+bGYcyn0
倍率ロックフリーだろ？

609: ◆MERIKEN4.k
12/11/13 06:21:00.78 FpPqufE20
今気づいたんですけど「1CUあたりのワークグループの数」じゃなくて
「1CUあたりのワークアイテムの数」ですね、これ。
こりゃ当分の間安定版は出せないな…

610: ◆MERIKEN4.k
12/11/13 06:26:29.04 FpPqufE20
>>603-604
報告ありがとうございます。CPU検索ももうちょっと何とかしたいですね～
"Unknown"のエラーが出ているのは謎ですが、そこのエラーは無視するように
直しておきます。

611: ◆MERIKEN4.k
12/11/13 06:38:08.95 FpPqufE20
予想通りというべきか、10桁トリップ検索はなかなかスピードが出てくれません。
まじめにプロファイラを使わないと駄目ですね、こりゃ。
まあCUDAのときもそうだったので、のんびり時間をかけて取り組むことにします。

612: ◆MERIKEN4.k
12/11/13 07:26:06.97 FpPqufE20
>>605
GK110も試してみたいんですけどね～
Amazon Cluster GPU Instancesで使えるようにならないかしらん。

613: ◆MERIKEN4.k
12/11/13 09:29:27.60 FpPqufE20
Bitslice DES用の一時変数をどのメモリ空間に置けばいいのかいまいち
よくわからないので、とりあえず#ifdefで切り替えられるようにしておきます。
あと、一回のBitslice DESを複数のスレッドで同時に処理するかどうかも
CPU側で設定できるようにする予定です。こういうところは実行時にカーネルを
ビルドできるOpenCLはいいですねえ。

614:名無しさん＠お腹いっぱい。
12/11/13 09:34:06.33 ATY55mX00
【GPU】HD7970 CFX 2GUPｓ
【CPU】FX-8350
【OS】Win7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 6
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】40
【その他のオプション】-c -g -t 6 -a 8 （-aオプションは有効なのか？）
【Display Driver】Catalyst 12.10
【10分間の平均速度】2614.21tripcodes/s
【GPUの平均速度】2575.40tripcodes/s
【CPUの平均速度】38.31tripcodes/s
【GPU使用率】95%
【その他】7完1タゲ

いろいろ調整したら瞬間最大風速では3000M程度出るようにはなりました
ラデはCPU負荷高いですね
フルにCPU8スレッドで回すと却って速度が出ないです
CPU単体でなら50M程出るんですが

それと、CFXの有効無効では速度は変わらないですよ

URLﾘﾝｸ(www.rupan.net)

615:名無しさん＠お腹いっぱい。
12/11/13 14:32:35.77 1xHvqvP20
ついにデュアルTahitiカードがAMDから登場。エーキューブ，サーバー向けグラフィックスカード「FirePro S10000」を国内発売
URLﾘﾝｸ(www.4gamer.net)

616:名無しさん＠お腹いっぱい。
12/11/13 14:34:05.53 1xHvqvP20
XeonPhiってどうなんですかねえ

617:名無しさん＠お腹いっぱい。
12/11/13 15:01:20.15 PlVYlKIA0
負荷で思い出したけど、同じGPU使用率でもmtyのGPU版は95℃までいくけどMERIKENは89℃までしか上がらないね。

618:名無しさん＠お腹いっぱい。
12/11/13 17:19:59.24 VU2bD6Zz0
>>615
サーバ向けのFireProだし、3599ドルらしい。

>>616
OpenMPが使えて既存アプリの移植が楽らしいけど、既にOpenCLになっている場合はメリット薄そう。

619: ◆MERIKEN4.k
12/11/13 19:10:11.95 FpPqufE20
>>614
なかなか良い感じに仕上がってますね。それだけOCした7970なら単体で1500M TPS近く
いくはずなので、単純に2枚で2倍の速度という訳にはいかないみたいですが…
Alpha 6では-aオプションは有効なはずです。CFXの話は別のところで見かけたんですが、
関係無かったみたいですね。

620: ◆MERIKEN4.k
12/11/13 19:22:18.89 FpPqufE20
>>617
Bitslice DESはSHA-1の処理に比べてメモリへのアクセスの量が段違いですからねえ。

621: ◆MERIKEN4.k
12/11/13 19:30:43.61 FpPqufE20
>>615
いいですね～いつかこういうのをたくさんラックマウントサーバーに乗っけて
Tripcode Finderを動かしてみたいですｗ

622: ◆MERIKEN4.k
12/11/13 19:59:41.68 FpPqufE20
Southern Islandsだとコンスタントメモリは場合によってはグローバルメモリと
同じぐらい遅くなるそうで…こりゃCUDAと同じコードじゃ遅くなるわけだわ。
頻繁に使うのは最初にローカルメモリに移しておいたほうがいいな。

> 3. Varying Index
> More sophisticated addressing patterns, including the case where each work- item
> accesses different indices, are not hardware accelerated and deliver the same
> performance as a global memory read.

623: ◆MERIKEN4.k
12/11/13 20:10:06.56 FpPqufE20
あとローカルメモリにアクセスする際はuint2を使うといいみたいです。

> Currently, the native format of LDS is a 32-bit word. The theoretical
> LDS peak bandwidth is achieved when each thread operates on a
> two-vector of 32-bit words (16 threads per clock operate on 32 banks).

vector data typesの使い方はここに書いてありました。

Programming with OpenCL C
URLﾘﾝｸ(www.informit.com)

624:名無しさん＠お腹いっぱい。
12/11/13 20:28:02.76 ES3128Qj0
>>614
壁紙についてｋｗｓｋ
MERIKENさんの公式記録が越される日も近いか……

625:名無しさん＠お腹いっぱい。
12/11/13 23:12:02.50 ATY55mX00
>>624
この辺で拾ってます
これがいつのものだったかは忘れましたw

URLﾘﾝｸ(www.smashingmagazine.com)

626:名無しさん＠お腹いっぱい。
12/11/13 23:43:31.28 ES3128Qj0
>>625
そのまま2012/11の記事を見ても出てこないorz
URLﾘﾝｸ(www.smashingmagazine.com)
よろしければ画像アップローダに上げてくれませんか？

627: ◆MERIKEN4.k
12/11/14 00:24:53.55 mDY3eRDW0
>>624
それはどうでしょうね… (￣ー￣)ﾆﾔﾘ

628:名無しさん＠お腹いっぱい。
12/11/14 00:35:11.76 E/rQ2cMp0
>>626
ほい

URLﾘﾝｸ(www.rupan.net)

629:名無しさん＠お腹いっぱい。
12/11/14 00:38:28.17 eHqSRvz80
>>621
どうせならHD7970 X2に行きませんか？
消費電力が凄まじいのと、スロット占有が問題ですけどｗ
なんかリンクが貼れないので詳細は検索してください

デスクトップ向けにHD7950のデュアルが出てくれれば一番ですけどね。
HD7950のCFはグラフィックでも割りと良いというレビューもあったので、需要もある程度ありそうですし。

630:名無しさん＠お腹いっぱい。
12/11/14 00:50:05.56 eHqSRvz80
>>622-623
OpenCLは以前よりは情報も増えたようですが、まだ茨の道なのでしょうかね・・・

631:626
12/11/14 01:34:12.64 vuLXlPiG0
>>628
ありがとうございます！

632: ◆MERIKEN4.k
12/11/14 01:39:17.60 mDY3eRDW0
>>630
>>622-623はJohn the Ripperのメーリングリストを見てて気づきました。

URLﾘﾝｸ(www.openwall.com)
URLﾘﾝｸ(www.openwall.com)

このAlexanderという方はJohn the RipperとBitslice DESの偉い人です。
流石です。

URLﾘﾝｸ(www.openwall.com)

633: ◆MERIKEN4.k
12/11/14 01:40:56.22 mDY3eRDW0
>>630
まあGPGPUの不条理な制約にはCUDAで慣れっこになっているので
どうということはありませんｗ

634: ◆MERIKEN4.k
12/11/14 01:45:30.91 mDY3eRDW0
>>629
うちの検索用マシンにはGTX 580が2枚と590が1枚載っているので、
7970 2枚は余裕ですｗ今590を売っぱらって6990を買おうかどうか
考えているところです。

635: ◆supernova.rT
12/11/14 02:04:56.65 Bf0HEkX10 BE:1020114162-DIA(123421)
僕はもうラデ2枚構成にしたのでゲフォ売ります
10桁検索対応が楽しみですよー

636:名無しさん＠お腹いっぱい。
12/11/14 02:16:09.00 eHqSRvz80
>>633
頼もしいです、頑張ってください。

>>634
HD7970を1ボードに2基載せたもので8ピンx3で3スロット占有という
モンスターというかクレイジーな代物が出るらしいですｗ
それの複数枚挿しは電源だけでなくマザボもかなり選びそうです。

HD7950のデュアルで8ピンx2で2スロットであればまだマシなのですけどねえ。

637:名無しさん＠お腹いっぱい。
12/11/14 03:47:50.59 peEcrqnb0
やっぱりさよならゲフォの流れになったね

638:名無しさん＠お腹いっぱい。
12/11/14 06:49:17.05 AbSbupmCP
RADEONは普及用チップでも倍精度が高速なのがいい

639:名無しさん＠お腹いっぱい。
12/11/14 07:58:59.38 vuLXlPiG0
mtyGPUがRadeonしか対応してないから、むしろゲフォ対応検索は(10桁では)貴重なんだが

640:名無しさん＠お腹いっぱい。
12/11/14 13:24:08.27 85Ooiiep0
>>638
マジレスすると倍精度演算が速いのは7970だけだしトリップ検索に倍精度演算の出番は無いぞ

641: ◆MERIKEN4.k
12/11/14 14:42:36.69 mDY3eRDW0
>>635
10桁トリップ検索は12桁よりかなり難しいので、実際どこまで速度を出せるかは
わかりませんけどね～というか12桁検索の移植は正直うまくいきすぎでしたｗ
地道に取り組む予定なので、のんびり待っていて下さい。

642: ◆MERIKEN4.k
12/11/14 15:16:17.63 mDY3eRDW0
で、あれから色々試してみて、Bitslice DES用の一時変数はローカルメモリに
おかないと全く速度が出ないことが分かりました。ローカルメモリは
ワークグループ内で共有されるので、Bitslice DESを8個のスレッドで
並列処理するように書き換えてやりました。

その後、さらに性能を上げるためにAMD APP Profilerで解析してみました。
あんまり期待してなかったｗのですが、非常に使いやすいです。
で、気になっていたOccupancy Analysisを行なってみたら、
案の定ローカルメモリ(LDS)の使い過ぎであることが判明しました。

URLﾘﾝｸ(www.meriken2ch.com)

643:名無しさん＠お腹いっぱい。
12/11/14 15:31:41.20 AbSbupmCP
>>642
へぇ～
人目でボトルネックがLDSにあることが示されてる
凄いな

644: ◆MERIKEN4.k
12/11/14 15:51:16.97 mDY3eRDW0
同じ問題はCUDA版でも起きていたので思わず頭を抱えてしまったのですが、
ソースを眺めていたら解決方法を思いつきました。Bitslice DESの
一時変数は次の構造体にまとめられています。

> typedef struct {
> DES_Vector keys[56]; // 224 bytes
> DES_Vector dataBlocks[64]; // 256 bytes
> unsigned int dummy[1];
> } DESContext;

で、56bitのDESのキーが32個keys[]に収められているのですが、
これらのキーは実際にはほとんど同じです。
というわけで、キーの生成の方法を工夫してやれば、32個のキーの共通部分
51bitだけを保持して、残りは5bitのインデックス(0～31)から生成して
やればいいことに気づきました。

645: ◆MERIKEN4.k
12/11/14 16:01:44.57 mDY3eRDW0
これで使用するメモリの量は半分近くに減って、うまくいけば
CUDA版ともども10桁検索の速度が倍になることになります。
アルゴリズムはかなり複雑になりますが、試してみる価値は十分にあります。
hip2の話を聞いて、キーの生成方法にかなりの工夫の余地があることに
気づいたのは僥倖でしたｗ

646: ◆MERIKEN4.k
12/11/14 16:04:10.35 mDY3eRDW0
>>643
実際かなり便利です。CUDAのときはなんせExcelのスプレッドシートを
使わないとOccupancyのグラフが見れませんでしたからねｗ

647:名無しさん＠お腹いっぱい。
12/11/14 19:07:46.29 vuLXlPiG0
>>645
>速度が倍
うおおおおお！？頑張って下さい！

648:名無しさん＠お腹いっぱい。
12/11/14 19:20:22.61 dspeEFEK0
GTX670では470Mt/sくらいしか出ません。倍精度を使うわけでもないのになんでだろう。

649:前スレ927 ◆JouJaku.HzIz
12/11/14 20:16:05.54 HHBBdob70
ゲフォはさよならですかそうですか。
GTX480が何とか復活したので速度計測。

【GPU】GeForce GTX 480
【CPU】Xeon X5680@3.33GHz x2CPU
【OS】Win7Pro 64 SP1
【バージョン】0.07a6 CUI64
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】-c -g -x 128
【Display Driver】306.97
【10分間の平均速度】648.27M TPS
【GPUの平均速度】578.39M TPS
【CPUの平均速度】69.89M TPS
【GPU使用率】100%
【その他】"TEST/", HT off, GPU 92℃

Quadroをぶっちぎっているのですが・・・うるさい。とにかくうるさい。
常用は無理です。

650:名無しさん＠お腹いっぱい。
12/11/15 00:03:05.86 Gr7998EA0
>>642
これは便利そうですね。

>>644
DESは歴史もあり奥が深いですね。

>>648
レジスタ数がネックになって演算ユニットを使いきれていないのだと思います。

651:648
12/11/15 02:21:08.90 aNTlQCIF0
レジスタの仕様が違うのか。最適化しなおさないといけないわけね。

652: ◆MERIKEN4.k
12/11/15 03:09:09.94 dQ9rq2KX0
>>648
>>651
トリップ検索の速度は整数演算の性能に大きく影響されるんですけど、
GTX 600シリーズで使われているKeplerコアは残念ながら整数演算が
かなり遅いのです。この点は次の記事の「命令別スループット」の
項目で詳しく解説されています。

GTX680のグラフィック・GPGPU性能を調べる ≪ dokumaru
URLﾘﾝｸ(dokumaru.wordpress.com)

Keplerではゲームで使われる単精度演算以外はほとんど無視して
性能を稼いでいるので、GPGPU的にはかなり残念なことになっています。

653: ◆MERIKEN4.k
12/11/15 03:13:17.23 dQ9rq2KX0
>>649
580とあまり遜色のない速度が出ていますね。
自分の部屋ではGeForceが3枚24時間フル稼働してますｗ
CUDA版の開発も続けるので安心して下さい。

654: ◆MERIKEN4.k
12/11/15 09:58:39.20 dQ9rq2KX0
ここ数カ月のjohn-devでのOpenCLでのBitslice DESの実装についての
やり取りを追って見たのですが、なかなか面白かったです。

URLﾘﾝｸ(www.openwall.com)
URLﾘﾝｸ(www.openwall.com)
URLﾘﾝｸ(www.openwall.com)

現在John the Ripperは7970で20M c/sしか出せていないのですが、
OpenCLの実装を担当しているSayantan氏に対して、
Alexander氏が7970なら300M c/sは出るはずからボトルネックを探せ、
と言っているのが非常に興味深いです。

> Something like 300M c/s at DES-based crypt(3) on HD 7970. Maybe more
> than that if we hard-code E (generate or patch code on the fly).
URLﾘﾝｸ(www.openwall.com)

手元のTripcode Finderのコードは現在のJtRの実装より大分速いのですが、
それでも300M TPSには遠く及びません。レジスタ数にもまだ大分余裕があるし、
工夫の余地はいろいろあるのでしょう。実に奥が深いです。

655: ◆MERIKEN4.k
12/11/15 13:08:08.52 dQ9rq2KX0
Bitslice DESをマルチスレッド化したときにエンバクした模様。
結構な確率で間違ったトリップが出力されます。
CUDAと同じコードのはずなんですけど、barrier()がうまく動作してないの
かしらん。
しかしこれ、どうやってデバッグするんだろう…

656:ののたん ◆KiwamonoL.
12/11/15 14:35:25.04 et60Xlt20
>>655
昔ながらの printf でおｋ。
手段として美しくないのは嫌いとかなら知らん。

657: ◆MERIKEN4.k
12/11/15 14:47:56.84 dQ9rq2KX0
やっぱりそれしかないんですねorz

658:ののたん ◆KiwamonoL.
12/11/15 15:05:07.72 et60Xlt20
>>657
私が hip2 つくってた頃は printf すらなかったのに。
贅沢ね。

659: ◆MERIKEN4.k
12/11/15 15:15:33.54 dQ9rq2KX0
>>658
まあそりゃそうなんですけどね…

660: ◆MERIKEN4.k
12/11/15 15:18:14.38 dQ9rq2KX0
あ、原因分かったかも。CUDA版を書いてたときに適当だったところが
今になって問題になっているのかもしれません。

661: ◆MERIKEN4.k
12/11/15 15:27:59.89 dQ9rq2KX0
う～ん、違うな… もうちょっと全体的に腐ってる感じです。

662: ◆MERIKEN4.k
12/11/15 15:38:19.52 dQ9rq2KX0
まあいいや。マルチスレッド化の作業はまた明日やり直すことにしよっと。

663: ◆MERIKEN4.k
12/11/15 15:54:46.53 dQ9rq2KX0
コードをロールバックしたらちゃんと動作するようなのでやっぱり
マルチスレッド化が原因のようです。マルチスレッド化すると
速度が倍近くになるので次はなんとか成功させたいところです。

664:前スレ927 ◆JouJaku.HzIz
12/11/15 21:27:47.25 etuoVGYM0
480が余りにもうるさいので、590に交換。

【GPU】GeForce GTX 590
【CPU】Xeon X5680@3.33GHz x2CPU
【OS】Win7Pro 64 SP1
【バージョン】0.07a6 CUI64
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】-c -g -x 128
【Display Driver】306.97
【10分間の平均速度】978.15M TPS
【GPUの平均速度】922.60M TPS
【CPUの平均速度】55.55M TPS
【GPU使用率】0-100%
【その他】"TEST/", HT off, GPU 85℃

CPUの負荷変動がかなり激しいです。6コアx2が100％になることはまず無く、全コアが完全にストールすることも良く起こりました。
>>170 でもある程度CPUの負荷は変動しましたが、ここまで酷くは無かったです。
おまけにGPUもたまに完全にストールする始末。これは>>170 のマシンでは無かった。
タゲを増やすと負荷変動は落ち着きます。ここまで負荷がふらつく理由がさっぱり分かりません。

665:名無しさん＠お腹いっぱい。
12/11/16 01:59:34.00 QPHBSAhn0
電源容量が足りないんじゃ

666: ◆MERIKEN4.k
12/11/16 04:42:53.68 eP2LlovM0
OpenCLの10桁検索ですが、もうちょっと調べたらどうも移植した直後から
問題があったようです。APP Profilerがメモリリークを報告しているので
もうちょっと調べてみます。

667: ◆MERIKEN4.k
12/11/16 04:45:44.48 eP2LlovM0
>>664
温度に問題がないなら電源の可能性が高いですね。
電源は何を使われていますか?

668: ◆MERIKEN4.k
12/11/16 06:40:48.74 eP2LlovM0
どうやら問題はBitslice DESの処理そのものではなく
他の処理にある模様。ちゃんと出力をチェックするルーチンを
作りこんで、徹底的にテストするしかないようです。
やなよかんはしてたけど、やはり10桁検索は楽ではないですねえ。

669:前スレ927 ◆JouJaku.HzIz
12/11/16 23:39:50.31 SdQXCd/P0
電源が届くのを待ちきれなくて、無理矢理繋げて実行していました。
電力不足でこんな挙動をするとは初体験で全然知らず。お恥ずかしい限りです。
素直に電源届くまで待っています。

670: ◆MERIKEN4.k
12/11/17 09:52:44.80 Kz7friKn0
>>669
そりゃそこにカードがあれば試したくなりますよね。
その気持、わかりますｗ
電源が届いたらまたぜひ報告して下さい。

671: ◆MERIKEN4.k
12/11/17 10:07:54.25 Kz7friKn0
OpenCLの10桁検索の出力が腐っていた問題ですが、カーネルをすこしづつ削って
原因を探ったところ、結果を書き込む__globalの配列へのアクセスの前後に
barrier()を入れてやると問題が出なくなることが分かりました。

Bitslice DES用の一時変数を__privateに置いても直らなかったし、
CUDA版やOpenCLの12桁検索では全く問題がなかった部分なので、
AMDのOpenCLの実装のバグの可能性が非常に高いです。
AMDの実装は性能は出るのにいちいち造りが甘くて非常にもったいない
感じがします。ここらへんもCUDAのほうが任期がある理由なんでしょうねえ。

672: ◆MERIKEN4.k
12/11/17 12:33:38.78 Kz7friKn0
この件でコードをロールバックした時に気がついたのですが、
Bitslice DESの一時変数を__private空間においても割と速度が出ることが
わかりました。こっちのほうが__localよりもベクトル化しやすいので、
このまま__localを使わずに最適化をすすめることにします。
Bitslice DESの深さを32bitから128bitにして速度も4倍といきたい
ところですが…

673:名無しさん＠お腹いっぱい。
12/11/17 12:53:15.66 CDs2gwHh0
>>672
>ベクトル化
よく知らないのですが、GPUってベクトル演算なんですか……？
ベクトル化の意味は知っているのですが、なぜか「昔のスパコン」ってイメージが……ｗ

674:名無しさん＠お腹いっぱい。
12/11/17 17:05:57.82 RbPdKj5Y0
GPUはベクトル演算の極地だし、今のスパコンはほぼ全てベクトル演算ですが

675:名無しさん＠お腹いっぱい。
12/11/17 17:08:42.00 lv9DVzeD0
もの自体がベクタプロセッサの集合体

676: ◆MERIKEN4.k
12/11/18 01:33:23.65 7lmxdB8G0
>>673
そこがGPGPUの一番美味しいところですｗ
性能を引き出すのはなかなか難しいですけどね～

677: ◆MERIKEN4.k
12/11/18 01:59:41.80 7lmxdB8G0
あの後色々調べてみたんですけど、単純にDES_Vectorをuint2やuint4で置き換えて
やれば性能が出るというわけでもないようで、もうちょっと調べる必要が
あるみたいです。

あと、localなメモリに書き込んだ後は必ずbarrier()を呼び出さないと、
ちゃんとメモリ操作の結果が反映されないようです。おかしいなと思って
OpenCLの仕様書を見ると確かにこう書いてあります。

> The barrier function also queues a memory fence (reads and writes) to
> ensure correct ordering of memory operations to local or global memory.
URLﾘﾝｸ(www.khronos.org)

CUDAの場合は動機が必要なところで__syncthreads()を呼び出してやれば
後はなにも考えずに共有メモリとグローバルメモリに読み書きできたのですが、
どうも勝手が違うようです。

678: ◆MERIKEN4.k
12/11/18 12:44:30.93 7lmxdB8G0
OpenCLでの10桁検索の話の続きです。
>>545の案を実際に実装してメモリの使用量を半分に抑えることで、
速度を50%ほど向上させることができました。キーを動的に生成することに
よるペナルティが割と大きく2倍とはいきませんでしたが、
まあそれでもかなりの進歩です。Kernel Occupancyはこんな感じです。

URLﾘﾝｸ(www.meriken2ch.com)

ローカルメモリを使うと出力が化けまくるので、とりあえず
Bitslice DES用の一時変数はすべてレジスタ上においています。
このままレジスタの数を削ってOccupancyを上げてもいいし、
またローカルメモリに戻してみてもいいし、これでようやく先がすこし
見えてきた感じです。

679: ◆MERIKEN4.k
12/11/18 13:50:23.81 7lmxdB8G0
一応ローカルメモリに戻して速度を測ってみたのですが、
思ったほど速度は出ませんでした。というわけで
一時変数はこのまま__private空間においたまま
最適化をすすめることにします。
カーネルをなるべく簡単にして、キーの生成の準備をすべて
CPU側で行うことにします。
またレジスタの数を削る日々がはじまるお…

680: ◆MERIKEN4.k
12/11/18 18:56:32.90 7lmxdB8G0
あの後ちょこちょことカーネルをいじっていたんですけど、
適当なところにbarrier()を入れるとレジスタ数が減ったり
スピードが上がったりと不思議なことの連続でした。
色々実験してみるもんですね。こんなことは流石にマニュアルには
書いてあるわけないしｗ

681:名無しさん＠お腹いっぱい。
12/11/18 19:05:57.54 hHNMwY9r0
奇妙すぎる仕様だ……

682: ◆MERIKEN4.k
12/11/18 19:11:47.92 7lmxdB8G0
これは4日前に公開されたばかりのRadeon用のアセンブラです。

GCN ISA Assembler
URLﾘﾝｸ(devgurus.amd.com)

HetPas
URLﾘﾝｸ(realhet.wordpress.com)

GCNの命令セットについてなかなか面白いことが書いてありました。
こういうので最適化したらものすごい速度が出るんでしょうねえ。
JtRのAlexsander氏は動的にコードを生成しろなんて言ってたけど…

683: ◆MERIKEN4.k
12/11/19 16:30:19.77 FRx7NJvu0
>>681
まったく謎だらけですｗカーネルアナライザを使えばもうちょっと詳しく
分かるんでしょうけど、goto文を使っているとエラーが出て動かないんですよね…

684: ◆MERIKEN4.k
12/11/19 16:36:30.60 FRx7NJvu0
気分転換で、前から欲しかったトリップの自動保存と自動検索実行の機能を
つけてみました。ブレーカーが落ちるたびにうんざりしながら検索君1号を
立ち上げなおしていたのですが、これで再起動もボタンを押すだけで済んで
検索結果が失われることもなくなりました。この機能は次の開発版から
利用できるようになる予定です。

685:名無しさん＠お腹いっぱい。
12/11/19 19:13:07.00 rYPhWgPq0
>>684
そんなにブレーカーが落ちる環境だったとは……
(開発以外)休んでも、いいのよ？

686:名無しさん＠お腹いっぱい。
12/11/20 07:59:44.51 8BgQYrDr0
海を越えると電気も日本みたいに高品質じゃないんだよ

687: ◆MERIKEN4.k
12/11/20 14:37:37.34 TS/gXHXx0
>>685-686
グラボ4枚で検索するようになってから急に落ちるようになりました。
ブレーカーがどうも古いみたいで、大家さんに言ったんですけど
ちっとも変えてくれません。まあでも消費電力に常に気を付けるように
したら大分ましになりました。

688: ◆MERIKEN4.k
12/11/20 14:48:46.83 TS/gXHXx0
レジスタ数を107から90まで頑張って減らしました。
目標の84まであともうちょっとなんですけど、
コンパイラの挙動が全く予想できないのでなかなか難しいです。

689: ◆MERIKEN4.k
12/11/21 12:12:44.49 eiBTExc50
カーネルアナライザが動かなくてカーネルのILとISAが見られなかったん
ですが、次のページを参考にしてようやく見れるようになりました。
カーネルをビルドするときにオプションで"-save-temps=[prefix]"と
していしてやればビルド時の一時ファイルが保存されます。

Looking for specific details of GPU_DUMP_DEVICE_KERNEL
URLﾘﾝｸ(devgurus.amd.com)

Kernelanalyzer refuses to compile anything
URLﾘﾝｸ(devgurus.amd.com)

最近のドライバではカーネルアナライザは動かないそうで…
AMDにはもうちょっと頑張ってもらいたいものです。

690: ◆MERIKEN4.k
12/11/23 14:34:10.31 ctiDd+QK0
あの後レジスタ数を減らすためにいろいろと試してみたのですが、
どうやっても90から更に減らすことはできませんでした。
どうも本気でレジスタ数の割付を最適化するためには
GCNのコードを直接書く以外ないようです。

仕方が無いので、割と時間がかかっているカーネルへの入出力の処理を
効率よく行うようにするための作業にとりかかりました。
とりあえずオーバーヘッドの大きいclEnqueueWriteBufferを1つにまとめたら、
なぜか未だに完全に消えてなかった出力が化けるバグが綺麗さっぱり
なくなりました。やれやれです。

691: ◆MERIKEN4.k
12/11/23 15:32:19.14 ctiDd+QK0
さっきjohn-devの11月のポストを読んでたんですけど、
何か問題が起きるとすぐにAMDのOpenCLドライバのバグが疑われてて
笑ってしまいましたｗこれは相当評判が悪いみたいですね…

> > All my accusations about driver bugs were... well they were based
> > on statistics, what can I say? :-)
> >
> > magnum
> We saw some craziness that justify our accusations.
URLﾘﾝｸ(www.openwall.com)

692: ◆MERIKEN4.k
12/11/23 15:44:36.45 ctiDd+QK0
なんにせよドライバのバグを華麗に避けつつOpenCLの10桁検索を使い物に
するには相当時間がかかりそうなので、とりあえず12桁検索のほうを
先に仕上げてしまうことにしました。今週末に次の開発版を公開する予定です。

693:名無しさん＠お腹いっぱい。
12/11/23 15:52:23.16 21daIx+z0
>>691
ドライバの完成度の問題ですか、厳しいですねえ・・・

694:名無しさん＠お腹いっぱい。
12/11/23 19:01:10.75 ixPLPIhe0
鳥屋は凄腕だな。

695: ◆MERIKEN4.k
12/11/23 20:06:39.28 ctiDd+QK0
鳥屋氏が凄腕なのは間違い無いですね。mtyのGPU版の速度は異常です。
ただCAL ILで書かれたmtyと同じ速度をOpenCLで出すのも無理な気がしますけどね～
JtRの20M c/sは論外にしても、Hashcatですら7970で79M c/sしか出せていない
ですからねえ。もうちょっとJtRのSayantan氏に頑張ってもらいたいものですけど、
メーリングリストのやり取りを見ている限りではとても期待できそうにありませんorz

696: ◆MERIKEN4.k
12/11/23 21:53:30.00 ctiDd+QK0
なにか10桁検索の参考にならないかと思ってJtRのソースを眺めていたら、
全然関係ない12桁検索の高速化のネタを見つけましたｗ
といってもハッシュ作成の際にbitselect()とrotate()を使うというだけの
話なんですけど、効果は抜群でOCした7970単体で1600M TPSを軽く超える
速度が出ています。いまだにこんなおいしいネタが転がっていたとは驚きです。

697:名無しさん＠お腹いっぱい。
12/11/23 23:24:15.72 6zLs77TA0
>>695-696
ということは12桁最高記録が300M/s以上増えることに！？

ところでmtyGPU版の10桁最高記録ってどれほどなのでしょう？
自分で(2chソースを)ググって分かったのは237M/s(1枚で)、枚数差しても～750M/sぐらいだったのですが……

698:ののたん ◆KiwamonoL.
12/11/23 23:33:28.75 34hnWziW0 BE:276537427-DIA(289888)
>>697
スレチだな。ｗ
こっちいけ。
URLﾘﾝｸ(yy43.60.kg)

699:名無しさん＠お腹いっぱい。
12/11/23 23:40:53.47 6zLs77TA0
>>698
後半荒らされ放題じゃないですか………‥

なるほど、少なくとも>>79で714M/sという記録が出ていたんですね。失礼しました

700:名無しさん＠お腹いっぱい。
12/11/23 23:46:32.74 NBSrQskj0
最大公約数的なプログラミングじゃなくて、自分の持ってるカードに絞ってゴリゴリ書いていけばいいんじゃないの？
その方が速度も出ると思うんだけど

701:名無しさん＠お腹いっぱい。
12/11/24 01:55:09.02 gl+pZhPfP
MERIKENさんってTOEIC満点とれる超人だったんですね・・・

702: ◆MERIKEN4.k
12/11/24 05:00:21.29 Npt3JpjG0
>>697
今でも3.5G TPSあたりなら堅いでしょう。いろいろ弾を仕込んでいる最中なので、
次に記録を狙うときには目標は4.5～5G TPSあたりになると思います。

703: ◆MERIKEN4.k
12/11/24 05:02:22.68 Npt3JpjG0
>>700
最大公約数的なプログラミングはとっくの昔に諦めて7970にターゲットを絞って
ますけど、それでもなかなか難しいです。

704: ◆MERIKEN4.k
12/11/24 05:04:48.04 Npt3JpjG0
>>701
私は大学からアメリカなのであれはいろんな意味で「おまけ」なのですｗ

705:名無しさん＠お腹いっぱい。
12/11/24 07:00:28.07 d1lnl00J0
1台のPCに積載できるGPUの量には限りがありますし、
そのうちサーバプログラム用意して検索条件の配布、検索結果の集計みたいな疎結合クラスタになりますん？

706: ◆MERIKEN4.k
12/11/24 08:25:58.55 Npt3JpjG0
>>705
そのうちそうなるでしょうねえ。スタンドアロンでの性能がちゃんと出るようになって
からということになるので相当先の話だと思いますけど…

707:名無しさん＠お腹いっぱい。
12/11/24 10:09:34.84 E4ne9Ljb0
>>705
トリップ検索クラスタ(物理)か……
GPUが絡まないと有り難みが薄いですねｗ

708:名無しさん＠お腹いっぱい。
12/11/24 11:01:21.01 NFbcJaLE0
トリップ検索p2pネットワークか‥胸熱

709:名無しさん＠お腹いっぱい。
12/11/24 19:19:01.23 TYsqoQfh0
>>698
スレチと、言ってるののたんに　　（はぁはぁ

710:名無しさん＠お腹いっぱい。
12/11/24 19:43:27.54 d1lnl00J0
>>708
個人でクラスタするのは有りだけど、
参加フリーでみんなの検索条件を合算するようになると生成されたトリップの判定にパワー食っちゃって……

711: ◆MERIKEN4.k
12/11/25 02:30:46.54 tDxdpeED0 BE:3591054296-2BP(12)
サーバーから検索条件をダウンロードしてみんなで12連とかのレアトリップを
探すというのも面白いかもしれませんねｗ

712: ◆MERIKEN4.k
12/11/25 02:38:56.68 tDxdpeED0
10桁検索のほうはAlexander氏の言っていた、動的にカーネルを書き換えて
DESのexpansion functionをソースに埋め込むという方法で以前に比べると
大分速くなりました。が、それと同時にドライバのバグによる出力が化ける問題が
再発生した模様。まったく地雷原を歩いているようです。

713: ◆MERIKEN4.k
12/11/25 09:08:59.10 tDxdpeED0
出力が化ける問題はなんとか解決できました。いや～、まいったまいった。

というわけで実行時のカーネルの書き換えでようやくHashcatとほぼ同じ速度が
出るようになりました。Tripcode FinderのCUDA版の10桁検索はHashcatよりも
ちょっと速いぐらいなので、もうそろそろ限界のような気もしないでも
ないです。あとはGCNのコードを手書きしてS-Boxを最適化して
レジスタ数を削るぐらいしか思いつきません。とりあえず10桁検索は
しばらく置いておいて、次の開発版を用意することにします。

714: ◆MERIKEN4.k
12/11/25 22:50:54.20 tDxdpeED0
2週間ぶりの開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 7
URLﾘﾝｸ(www.meriken2ch.com)

Alpha 6からの変更点は以下になります。

・OpenGLの12桁トリップ検索の高速化。
・検索スレッドと検索プロセスの数を指定するオプションの追加。
・検索の自動実行と検索結果の自動保存を行うオプションの追加。
・様々なバグの修正。

検索スレッドと検索プロセスの数を増やすことによって、
複数のGPUを使用する場合のGPUの使用率を増やすことができます。
おいしいです（＾ｑ＾）

715:名無しさん＠お腹いっぱい。
12/11/25 23:37:10.26 wZsqacQO0
おつおつ
回してみるべ

716:482
12/11/25 23:54:26.46 wZsqacQO0
この構成であるふぁ7
URLﾘﾝｸ(www.dotup.org)

717: ◆MERIKEN4.k
12/11/25 23:57:46.50 tDxdpeED0
Alpha 7用の新しい報告用のテンプレです。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁・10桁
【1SMあたりのブロックの数(CUDA)】
【1CUあたりのワークアイテムの数(OpenCL)】
【1WGあたりのワークアイテムの数(OpenCL)】
【1GPUあたりの検索プロセスの数(OpenCL)】
【1検索プロセスあたりの検索スレッドの数(OpenCL)】
【その他のオプション】
【Display Driver】
【10分間の平均速度】 tripcodes/s
【GPUの平均速度】 tripcodes/s
【CPUの平均速度】 tripcodes/s
【GPUの使用率】
【GPUの温度】
【その他】

718: ◆MERIKEN4.k
12/11/25 23:58:37.50 tDxdpeED0
>>715
ぜひ色々試してみてくださいｗ

719: ◆MERIKEN4.k
12/11/26 00:02:11.37 ICZhOGh80
>>716
これは1枚ですか? かなり出てますね～

720:名無しさん＠お腹いっぱい。
12/11/26 00:07:18.79 SipgVuQ10
書き忘れー
解凍したまんまで
GPUの温度は室温20度で41度まで上がった、負荷は100%
水冷だしこんなもんだね、ゲームだと36度くらいしか上がんないからいかにGPUが仕事してるかわかるw

721:名無しさん＠お腹いっぱい。
12/11/26 00:08:15.66 SipgVuQ10
>>719
ですよー、リファの7970

722:名無しさん＠お腹いっぱい。
12/11/26 00:12:39.54 AQz+o+st0
唐突だけどコマンドラインオプションの私的まとめ(☆はデフォルトでは自動設定される項目):
--redirection　　　　　　?
-f [inputfile] 　　　　　入力ファイル名
-r [inputfile]　　　　　　　入力ファイル名(正規表現)
-o [outputfile]　　　　　出力ファイル名
-l [length]　　　　　　　　検索するトリップ長(12 or 10)
-g　　　　　　　　　　　　　検索にGPUを使用　(デフォルト)
-d [device] 　　　　　 CUDAデバイス番号(0～)　(デフォルトは全て使用)
-x [block/SM]　　　　　ブロック/SM(CUDA)　☆
-y [workgroup]　　　　　ワークグループ/CU(OpenCL)　☆
-z [workitem] 　　　　ワークアイテム/WG(OpenCL)　☆
　　　　　　　　　　　　　　※workgroup mod workitem=0、workitem mod 8=0とすること
-c　　　　　　　　　　　　　検索にCPUを使用(-gと併用可)
-t [threads] 　　　　　CPUにおける検索スレッドの数　☆
-a [threads]　　　　　　　1つのAMDのGPUに対する検索スレッドの数(OpenCL)　☆(～0.07Alpha6)
　　　　　　　　　　　　　　1検索プロセスあたりの検索スレッドの数(OpenCL)　☆(0.07Alpha7～)
-b [processes]　　　　　1GPUあたりの検索プロセスの数(0.07Alpha7～)
-m MutexForMERIKENsTripcodeFinder-4648　GUI版とCUI版が通信するときに使うおまじない(～0.07Alpha6)
-m MutexForMER　　　GUI版とCUI版が通信するときに使うおまじない(0.07Alpha7～)
-i　　　　　　　　　　　　　2ちゃんねるで直接使用できないトリップを16進形式で出力
-w　　　　　　　　　　　検索スピードの急激な低下を警告

723: ◆MERIKEN4.k
12/11/26 00:18:40.01 ICZhOGh80
>>722
あ、-yは「ワークグループ」じゃなくて「ワークアイテム」です。
最初に書いたときに間違えちゃったんですよね～

724: ◆MERIKEN4.k
12/11/26 00:22:36.54 ICZhOGh80
>>721
う～ん、水冷は素晴らしいですね。空冷での温度を見慣れていると
別世界のようですｗ

725:名無しさん＠お腹いっぱい。
12/11/26 00:34:50.17 AQz+o+st0
>>723
つまりこうですね、分かります。
>-y [workitem1]ワークグループ/CU(OpenCL)(デフォルトは自動設定)
>-z [workitem2]ワークアイテム/WG(OpenCL)(デフォルトは自動設定)
>※workitem1 mod workitem2=0、workitem2 mod 8=0とすること

ところで--redirectionって何をリダイレクトしているんですか？

726:名無しさん＠お腹いっぱい。
12/11/26 00:37:16.39 AQz+o+st0
俺おっちょこちょいの素質あるのかな……
>-y [workitem1]ワークアイテム/CU(OpenCL)(デフォルトは自動設定)
>-z [workitem2]ワークアイテム/WG(OpenCL)(デフォルトは自動設定)
>※workitem1 mod workitem2=0、workitem2 mod 8=0とすること

次のVerからはREADMEに訂正が必要なようですね……＞MERIKENさん

727: ◆MERIKEN4.k
12/11/26 00:43:33.42 ICZhOGh80
>>725-726
リダイレクトしているのは標準出力です。
訂正はもう入ってますよ。

728:名無しさん＠お腹いっぱい。
12/11/26 00:43:54.12 SipgVuQ10
【GPU】Xeon E5-2687W×2
【CPU】HD6990×2
【OS】Windows８ Pro
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】-
【1CUあたりのワークアイテムの数(OpenCL)】解凍時のまま
【1WGあたりのワークアイテムの数(OpenCL)】解凍時のまま
【1GPUあたりの検索プロセスの数(OpenCL)】解凍時のまま
【1検索プロセスあたりの検索スレッドの数(OpenCL)】解凍時のまま
【その他のオプション】-
【Display Driver】Catalyst12.11β
【5分間の平均速度】 4816.85tripcodes/s
【GPUの平均速度】 4711.99tripcodes/s
【CPUの平均速度】 104.86tripcodes/s
【GPUの使用率】100%
【GPUの温度】一番高いコアで46℃
【その他】GPUはTDP450Wモード定格
URLﾘﾝｸ(www.dotup.org)

これはもしやメインも仕事してくれるのではと思ったら案の定
時間ないんでどちらも5分でスマヌ

729: ◆MERIKEN4.k
12/11/26 01:03:17.64 ICZhOGh80
>>728
これは最高速の記録ですね。素晴らしいです。
私も次に記録を狙うときにはもうちょっと弾を揃えないと…

730:名無しさん＠お腹いっぱい。
12/11/26 01:12:41.03 AQz+o+st0
>>728
脳内での　最　速　記　録　が　塗　り　替　え　ら　れ　た　瞬間であった

期待できないけどノートで回してくるー

731:名無しさん＠お腹いっぱい。
12/11/26 01:20:20.30 SipgVuQ10
因みにこれで1160W前後の消費電力

732:名無しさん＠お腹いっぱい。
12/11/26 01:30:34.82 Scm6xI9q0
>>569 です。Alpha7公開お疲れ様です。

【GPU】SAPPHIRE VAPOR-X HD5770 1G (OC: GPU 960MHz MEM 1265MHz)
【CPU】Intel Core i7-3770(無印)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁
【1CUあたりのワークアイテムの数(OpenCL)】3200
【1WGあたりのワークアイテムの数(OpenCL)】64
【1GPUあたりの検索プロセスの数(OpenCL)】1
【その他のオプション】
【Display Driver】Catalyst 12.10
【10分間の平均速度】586.05M tripcodes/s
【GPUの平均速度】550.44M tripcodes/s
【CPUの平均速度】35.62M tripcodes/s
【GPU使用率】99%
【GPUの温度】72℃ （室温22℃）
【その他】テスト時間10分08秒、7完1タゲ

733: ◆MERIKEN4.k
12/11/26 01:30:58.70 ICZhOGh80
>>731
450W x 2 + αですか。こりゃすごいｗ

734: ◆MERIKEN4.k
12/11/26 01:34:21.82 ICZhOGh80
>>732
5770でもかなり速度が出てますね。
今回はかなり内部をいじったので、ちゃんと動いているようでほっとしました。

735:名無しさん＠お腹いっぱい。
12/11/26 02:46:46.01 qf13XQqh0
【GPU】HD7970 CFX 2GPUｓ＠1150MHｚ
【CPU】FX-8350 ＠5GHｚ
【OS】Windows7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】
【1CUあたりのワークアイテムの数(OpenCL)】960
【1WGあたりのワークアイテムの数(OpenCL)】64
【1GPUあたりの検索プロセスの数(OpenCL)】default
【1検索プロセスあたりの検索スレッドの数(OpenCL)】default
【その他のオプション】-g -c -t 6
【Display Driver】Catalyst12.11 beta6
【10分間の平均速度】5277.77 tripcodes/s
【GPUの平均速度】5243.39 tripcodes/s
【CPUの平均速度】34.39 tripcodes/s
【GPUの使用率】99%
【GPUの温度】76℃
【その他】7完1タゲ

効率が上がったためか-t 6で回したら強制シャットダウン、恐らく冷却不足か電源容量不足
とりま、ぬるい設定で解凍したまま

※今までは検索始めるとマウスカーソルがカクカクになり、USB音源を見失っていましたが、そういった現象はなくなりました

URLﾘﾝｸ(www.rupan.net)

736:名無しさん＠お腹いっぱい。
12/11/26 02:47:44.61 qf13XQqh0
あ、-t 4 の間違いです

737:名無しさん＠お腹いっぱい。
12/11/26 03:26:15.30 AQz+o+st0
　ノーパソから計測実験。デスクトップでグラボぶん回すのと比べると雑魚レベルだが許してくれ。
【GPU】NVIDIA GeForce 610M(、Intel HD Graphics 4000)
【CPU】Intel Core i5-3210M
【OS】Windows Vista Home Ultimate SP1 64bit
【その他のオプション】-g -c -l 10か-g -c -l 12での計測(速度が安定した時点で記録)
【Display Driver】見方を教えて下さい……
↑の条件で、ソフトのVerと桁数を変更しながら計算するとこうなった↓

0.07Alpha6　　0.07Alpha6　　 0.07Alpha7　　 0.07Alpha7
10桁　　　　　 12桁　　　　　　10桁　　　　　　12桁
----------------------------------------------
使用不可　　　160　　　　　使用不可　　　128　　　　　 ←blocks/SM
使用不可　　　64　　　　　　　使用不可　　　使用不可　 ←items/CU
使用不可　　　32　　　　　　　使用不可　　　使用不可　 ←items/WG
4　　　　　　　　2　　　　　　　 3　　　　　　　　3　　　　　　　←CPU演算スレッド数
使用不可　　　48.9M/s　　　　3.54M/s　　　　48.96M/s　　←速度(CUDA)
使用不可　　　4.9M/s 　　　使用不可　　　使用不可　 ←速度(OpenCL)
使用不可　　　9.66M/s　　　　4.03M/s　　　　10.91M/s　　←速度(CPU)
5.27/s　　　　　63.43M/s 　　 7.57M/s　　　 59.87M/s　　←合計速度
----------------------------------------------
確かに改良は効いているが、な　ぜ　ア　ホ　の　子　を　外　し　た　し

738: ◆MERIKEN4.k
12/11/26 09:08:45.23 ICZhOGh80
>>735
これはすごい数字ですねえ。いくらなんでも速すぎだろうと思って
Catalyst 12.11 Beta 8を試してみたら、うちの7970 1枚でも2497M TPS
出てて吹きましたｗ 12.9 Betaではここまでのスピードは出なかったので、
ここ2ヶ月でAMDのドライバにかなり手が入ってますね～

739:名無しさん＠お腹いっぱい。
12/11/26 10:37:04.72 7cZ4LG5Ni
7970の4wayやれば10Gか…
コンセントの端子が熱くなるな

740:名無しさん＠お腹いっぱい。
12/11/26 18:30:45.89 AQz+o+st0
公式サイト(URLﾘﾝｸ(www.meriken2ch.com))とか見ていると
OpenGLとOpenCLが脳内でごっちゃになりそうなのでまとめ：

OpenGL……シリコングラフィックスが開発していたクロスプラットフォームな3DグラフィックスのAPI。
　　　　　　　　ハードウェアに近い低水準な機能も使えるので高速だが、文字列描画が苦手。
　　　　　　　　GPGPUの利用法は、OpenCLよりもグラフィックス寄り。
OpenCL……アップルのKhronos Groupが開発した、クロスプラットフォームな並列コンピューティング用のAPI。
　　　　　　　　要するに、「CPUやGPUなどの計算資源を、並列演算用にまとめて扱えるようにするよ！」
　　　　　　　　といったもの。GPGPUの利用法は、OpenGLよりは演算寄り。

741: ◆MERIKEN4.k
12/11/26 19:27:18.93 ICZhOGh80
>>740
あ、あれはOpenCLの間違いで、OpenGLは一切関係ないですｗ
ご自分用のまとめはここに書き込まないでいただけると有難いです。

742: ◆MERIKEN4.k
12/11/26 19:36:47.88 ICZhOGh80
>>737
OpenCL以外の検索ルーチンはいじってないので速度は変わっていないはずです。
Intelのはドライバのバージョンによってアプリケーションが落ちるろいう報告が
あったのでやむなしです。

743:名無しさん＠お腹いっぱい。
12/11/26 19:56:04.00 AQz+o+st0
>>741
了解しました。
>>742
そうだったんですか……。チェックボックス対応でも、というのは無茶でしょうか。
10桁の演算速度が上がっているのは確実な気がするのですが、
単に自環境ではAlpha6でGPU演算が使えなかっただけ(デバイスが対応していない)
なのかもしれません。次買うのはRadeonGPU搭載PCにするかな…‥

744:名無しさん＠お腹いっぱい。
12/11/26 20:09:11.33 gXr4FeWs0
>>740
geforce君はもう書き込まないでくれるかな？

745: ◆MERIKEN4.k
12/11/26 20:44:41.34 ICZhOGh80
>>743
Intelのはドライバの出来がイマイチで性能が全く出ないのに
メンテの手間だけかかって、おいしいところが全くないんですよね。
Intel対応はXeon Phiが消費者向けに発売されたら考えますｗ

746:名無しさん＠お腹いっぱい。
12/11/26 20:49:46.82 AQz+o+st0
>>745
確かに、グラボが出す速度を考えたらIntelのは誤差の範囲ですよねｗ
もうその件については触れないことにします。回答ありがとうございました。

747: ◆MERIKEN4.k
12/11/26 21:13:07.19 ICZhOGh80
ドライバといえば、Catalystの新しいβ版で10桁検索を試してみたら、
速度が1/3になっていましたorz CUDAでもそうでしたけど、
GPGPUは開発環境やドライバによってアプリケーションの性能が
乱高下する傾向がありますねえ。ドライバの次のバージョンアップで
直っているといいんですけど…

748: ◆MERIKEN4.k
12/11/27 01:57:27.60 qHzcgcY70
新しいAMDのドライバで12桁トリップ検索のプロファイリングを行って見たのですが、
ベクターレジスタ(VGPR)の数が40まで減っていて、Occupancyが10から60にまで
上がっていました。どうりで検索速度が上がっているわけです。

どうやらAMDのコンパイラの最適化のアルゴリズムが、命令の数を増やしてでもレジスタ数を
減らすことを優先するものに変更されているようで、それが12桁の場合はうまく働いたけど
10桁の場合は完全に裏目に出ている、ということらしいです。やっぱり本気で10桁トリップ検索で
性能を出そうと思ったらILかGCNのコードを自分で書くしかないみたいですが、とりあえず
以前のドライバでOpenCLバイナリを生成して、実行時にはそれを使うように変えておくことにします。

749: ◆MERIKEN4.k
12/11/27 03:59:49.95 qHzcgcY70
AMDのOpenCLドライバをAMD APP 2.7のものにロールバックしたら
ようやく10桁検索の速度が元に戻りました。次のファイルは
ドライバのアンインストールでは削除されずに直接手で削除する
必要がありました。

SlotMaximizerBe.dll
SlotMaximizerAg.dll
amdocl.dll
OpenVideo.dll
OVDecode.dll

これがわかるまでエラく手間取りましたが、これでようやくOpenCLバイナリの
作成に取り掛かれます。

750: ◆MERIKEN4.k
12/11/27 06:43:01.11 qHzcgcY70
10桁トリップ検索のコードですが、なんとCatalyst 12.8以前のドライバでは
出力が化けることが判明しました。ドライバのバクにしても
いくらなんでもひどすぎるorz

751: ◆MERIKEN4.k
12/11/27 19:01:37.31 qHzcgcY70
>>746
手間がかからないならサポートしてもいいんですけど、テストの量が倍以上に
なりますからねえ。残念です。

752: ◆MERIKEN4.k
12/11/27 19:18:07.56 qHzcgcY70
>>739
これ2枚積めば10G TPS超できそうです。TDP 500Wの化物だけど、
普通に検索君1号に2枚収まりそうなんだけど、流石に20万は払えないよな…
あぶないあぶないｗ

Radeon最上位のデュアルGPU版「HD 7990」発売、重さを支える支柱付きカードは弩級
URLﾘﾝｸ(akiba-pc.watch.impress.co.jp)

Club 3D Radeon HD 7990 Dual GPU
URLﾘﾝｸ(www.club-3d.com)

753:名無しさん＠お腹いっぱい。
12/11/27 19:19:19.94 hGvQPEA10
>>752
そんなに電源虐めたいかｗｗ

754: ◆MERIKEN4.k
12/11/27 19:34:03.64 qHzcgcY70
>>753
そこにハードウエアがあれば限界まで性能を出したくなるのが
男のさがというものですｗ

755: ◆supernova.rT
12/11/27 19:36:20.84 3f/efQ6N0 BE:5355599279-DIA(123422)
10桁酉が割られる日も近いな…ｺﾞｸﾘ

756: ◆MERIKEN4.k
12/11/27 19:38:49.66 qHzcgcY70
10桁検索ですけど、crypt()のseedの値に基づいてカーネルを動的に
書き換えていたことをすっかり忘れていましたｗ
これって実行時にOpenCLバイナリを書き換えるか、seedの数だけバイナリを
用意しなきゃいけないってことだよな…

757:名無しさん＠お腹いっぱい。
12/11/27 19:59:40.97 oOatxZVu0
>>756
最適化スゲェ……
でも、10桁のシード(ソルト)って確か2バイト分(最大256^2=65536通り)あるんじゃ

758: ◆MERIKEN4.k
12/11/27 20:35:03.96 qHzcgcY70
>>757
実際には2chの仕様のせいで65^2=4225通りなんですけど、
それでも結構な数です。とりあえず実験的に作ってみますけど、
さすがにこれを配布パッケージに含めるのは考えちゃいますねｗ

759:名無しさん＠お腹いっぱい。
12/11/27 20:39:00.84 oOatxZVu0
>>758
単純に考えて、3.5MB×2×4225≒30GBかぁ……

動的書き換えでお願いします(切望)

760: ◆MERIKEN4.k
12/11/27 21:00:31.98 qHzcgcY70
>>759
書き換えが必要なのはOpenCLのカーネルのバイナリだけなので
そこまでひどくはならないですｗせいぜい数十MBのオーダーでしょう。
圧縮がかなり効くはずなので配布パッケージ自体はそこまで大きくならない
はずですけど、こればっかりは試してみないとわかりません。

次ページ