【トリップ検索】MERIKEN's Tripcode Finderat SOFTWARE
【トリップ検索】MERIKEN's Tripcode Finder - 暇つぶし2ch150: ◆MERIKENXsUyM
12/10/12 16:54:10.78 nf15QmxA0
targetはこれなんですけどね?^MERIKEN.s

◆MERIKENXsUyM #ヌ鋒ムナ徳6カル3o (C7 96 4E D1 C5 93 BF 36 B6 D9 33 6F)

これがあれですかね?”."



151: ◆MERIKEN4.k
12/10/12 17:26:23.92 t+XFtk6B0
>>149
IntrinsicsだとどうもSSEのレジスタの割り付けがうまくいってないみたいなんですよね~

>>150
正規表現だと"."はすべての文字にマッチするのでそれはあってます。
正規表現で"."を指定したいときには"\."と書いて下さい。

152: ◆MERIKENXsUyM
12/10/12 17:37:45.51 nf15QmxA0
これでしたか。  

# ^ $ () | [] [^] . + * \
#
# '.'は全文字にマッチするので、'.'そのものを指定したい場合は
# "\."と記入してください。なお、"[]"内では'\'を使う必要はありません。

癖がついてて、”.”使うんですね。

153: ◆MERIKEN4.k
12/10/12 17:48:42.88 t+XFtk6B0
>>152
そういうことです。

154: ◆MERIKEN4.k
12/10/12 18:33:15.16 t+XFtk6B0
なんとかならないものかとx86-sse.Sをもうちょっといじってみましたけど、
やはりちゃんと動いてません。また、さきほどからVC++が出力したアセンブラの
ファイルを眺めていたのですが、正直これじゃあスピードでないよね、といった
感じです。やはり残念ながらBitslice DESのルーチンを自分でアセンブラで書くしか
手はないようです。

155: ◆MERIKEN4.k
12/10/12 20:16:06.70 t+XFtk6B0
さすがに全部書きなおすのはしんどいのでS-Boxの部分だけでも、と考えて
別の関数に切り出してやったら、それだけで1.6M TPS速くなりました。
コンパイラの最適化サボりすぎだろう…

156:前スレ927
12/10/12 21:45:07.86 YecpfVtp0
>>145
全て業者任せの富豪から最近譲り受けたんだよ。
「とにかく解析が速いやつ」って注文したらしく、ハードのスペックが分かる資料が全然残ってねぇ。ヽ(´Д`;)ノ
数値がおかしいんで蓋開けてみたらCPUが二個付いてた・・・

157:名無しさん@お腹いっぱい。
12/10/12 22:13:03.82 qj1yBhqB0
CPU-Zぐらい使えよ

158: ◆MERIKEN4.k
12/10/12 22:46:11.90 t+XFtk6B0
>>156
> 数値がおかしいんで蓋開けてみたらCPUが二個付いてた・・・

これはなかなかシュールな絵ですねw GPU-Zもお勧めです。

159:名無しさん@お腹いっぱい。
12/10/13 01:29:23.89 QRc/1guh0
これがはいじそといわれる類の存在なんだね

160: ◆MERIKEN4.k
12/10/13 08:11:17.21 TRuxaTZw0
コンパイラの出力したx64のasmファイルを編集すれば楽かと思って
中間ファイルをMASMにかけてみたんですけど、すんなりアセンブルできません。
セグメントの指定で色々文句を言われたので直してみたんですが、
今度はアセンブルできたもののプログラムが落ちるようになってしまいました。
こりゃ相当な手間がかかりそうです。

161: ◆MERIKEN4.k
12/10/13 10:26:14.08 TRuxaTZw0
正直John the RipperのBitslice DESの実装を使えるようにするのも、
Bitslice DESのルーチンを1からアセンブラで書くのも時間がかかりすぎなので、
あともう一つだけアイディアを試してみて、それでうまくいかなかったら
CPU検索の最適化はとりあえず一旦お休みにします。

で、最後のアイディアというのは、Bitslice DESの最深部だけ別のコンパイラで
コンパイルしてやるということです。どうも調べてみるとVC++のSSE Intrinsicsの
最適化はGCCやICCに比べるといまいちなようなので、ある程度の効果は
期待できるでしょう。あとは32bit版だけインラインアセンブラを使って
最適化するという手もあるんですけど、それは後回しにします。

162: ◆MERIKEN4.k
12/10/13 19:53:34.86 TRuxaTZw0
で、Intel C++ Studio XE for Windowsの試用版でS-Boxをコンパイル
してみましたが、結果は速度が0.7M TPSほど上がっただけでした。
いや~、まいったまいった。

163: ◆MERIKEN4.k
12/10/13 22:22:21.33 TRuxaTZw0
しかしこれからどうしようかな。
x86のほうはインラインアセンブラも使えるしS-Boxもasmファイルに変換
できたので、とりあえずこちらの最適化を頑張るという手もあるんだよな…

164: ◆MERIKEN4.k
12/10/15 00:04:55.23 BTMO2uQH0
う~ん、どうやらGTX 780はGTX 680の改良版になりそうな模様…

What is going on with Nvidia’s GK114? Like AMD, the answer is not much
URLリンク(semiaccurate.com)

こりゃ来年のも見送りだな。今のうちにGTX 590を確保しておこうっと。

165:名無しさん@お腹いっぱい。
12/10/15 00:12:51.45 K5yud+Qv0
梅田の祖父でGTX590中古があったけど確か34k円位だっけか
まあ発熱には注意だな

166:名無しさん@お腹いっぱい。
12/10/15 06:58:14.36 J/Rcf+G00
tesla待とうよ!

167: ◆MERIKEN4.k
12/10/15 21:47:20.51 Lrut3SY50
>>165
確かに熱は大変なことになりそうですねえ。
580 SLIも大概でしたけど、590 + 580とか、システムが持つのかしらん。
電源にはかなり余裕があるんですけど、ちょっと心配です。

168: ◆MERIKEN4.k
12/10/15 21:50:33.10 Lrut3SY50
>>166
Tesla K20、欲しいですw
K10がだいたい$3300ぐらいですけど、K20はいくらぐらいになるんでしょうか…

169: ◆MERIKEN4.k
12/10/15 22:05:38.53 Lrut3SY50
正直なところどうしようか困っていた10桁CPU検索ですが、
ちょっと思いついてregister演算子をSSE Intrinsicsで使ってみたところ、
大した手間もかからずに20%ほど高速化出来ましたw
やはりVC++はSSE Intrinsicsの最適化を相当サボっている模様。
John the Ripperの実装を参考にしながらレジスタ割り付けを
工夫することでかなり高速できそうです。これでようやく光が見えてきました。

170:前スレ927
12/10/16 00:13:45.78 Ou6FcCX40
GTX590確保しました! ('◇')ゞ

CPU: PhenomeII X6 1100T@3.3GHz
GPU: GV-N580SO-15I, ENGTX590
OS: Win7 64bit
Prg: 0.06a1
桁: 12
Targ: "TEST/"
Opt: -c -g -x 128
Drv: 306.97
1hrAv: 1830.05MTPS
その他:
CUDA0: 746.1M TPS (580)
CUDA1: 532.6M TPS (590)
CUDA2: 532.7M TPS (590)
1872.38M tripcodes/s (current)
GPU: 1853.10M tripcodes/s
CPU: 19.28M tripcodes/s

580一枚の時にはCPUはフルロードで20M超えていましたが、590を追加するとロードが50%~100%に激しく変動して、CPUを使い切れてないようでした。
消費電力は怖くて計ってませんw

171:名無しさん@お腹いっぱい。
12/10/16 00:31:35.42 9lqlGkJS0
速ぇー

172: ◆GTX680Mcys3u
12/10/16 05:34:25.39 2F+yN34h0
速すぎワロタ

173: ◆MERIKEN4.k
12/10/16 06:12:56.30 VYAjNyPo0
>>170
こ、これはw OCしたら簡単に2G TPSを超えそうですねえ。
Phenom II X6 1100Tは6スレッドでは40M TPSぐらいです。
GPUが3個ならCPU検索スレッドも3つなので、まあ順当なところでしょう。
消費電力もそうですが、温度のほうも気になります。
うちの580 SLIは80℃超がふつうなので…590はもうオークションで
落としたんですけど、ちゃんと運用できるかどうか心配です。

174:名無しさん@お腹いっぱい。
12/10/16 07:34:33.08 KVGtEB2G0
>>170 >>173
590確保乙
そのうちトリプルGTX590とか強者が出そうだ…

175:名無しさん@お腹いっぱい。
12/10/16 08:57:05.26 kGLHXQmF0
検索停止ボタン押した途端にフリーズした・・・

176: ◆MERIKEN4.k
12/10/16 09:34:20.39 VYAjNyPo0
>>175
システム全体がフリーズしたなら、多分ハードウェアの問題でしょうねえ。
電力使用量が急激に変化するととにかく不安定になりがちです。

177: ◆MERIKEN4.k
12/10/16 09:48:05.29 VYAjNyPo0
>>174
365W * 3 = 1095Wですか… 電源が2つ入りますね、こりゃ。
まあGPUはあればあるほど速くなる仕様なので、理屈では
ラックマウントサーバーにTeslaを積めるだけ積んで
動かすことも可能なはずですけど…

178:RADEON AMD
12/10/16 10:01:53.40 pyaTDKGu0
| 冫、)ジー

179:名無しさん@お腹いっぱい。
12/10/16 10:10:33.23 pCO8MEiO0
linux版の登場が待たれるな

180:名無しさん@お腹いっぱい。
12/10/16 10:44:21.51 kGLHXQmF0
>>176
あ、レスサンキュです、マウスポインタも動かい状態でした。
なかなか安定した環境の構築は難しいです・・・

181:名無しさん@お腹いっぱい。
12/10/16 14:26:15.84 ab7Mi3qK0
CUDA5来ましたね
URLリンク(developer.nvidia.com)

NVIDIA,「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う
URLリンク(www.4gamer.net)

182:前スレ927
12/10/16 20:05:19.50 Ou6FcCX40
>>173
夜中に部屋の窓を全開にして両方とも80℃ちょい。窓を閉めると90℃超えます。
今の季節だと、クーラー無しに昼間に常用するのは難しいと思います。
580SLIに590を付け足すなら、エアフローに気をつけて下さい。
最初、エアフローが悪くて580の温度が90℃を軽く超えていって怖い思いをしました。
消費電力は、計算時に+690Wでした。

前日書き忘れたのですが、ブロック数の自動設定機能が安定しませんでした。
走らせるたびに96?~168?の間をふらつきます。590の二つのGPUでも異なるブロック数になることもありました。

590は早々にXeonマシンに引っ越すつもりなのですが、まだ電源スペックが分からねぇヽ(´Д`;)ノ

183:きら ◆Kira.u9zNc
12/10/16 21:15:29.87 3LZeo7TdP
最新のドライバーに更新したら動きました!(前動かなかったのに・・・)
前スレではありがとうございました!
(富士通の京にトリップ検索させたらどうなるんだろう・・・)

184:きら ◆Kira.u9zNc
12/10/16 21:22:28.31 3LZeo7TdP
あと現バージョンのCUIで検索すると10桁になるか12桁になるかと
どうすればCUIで10桁を検索するか12桁を検索するか指定できる方法を教えてください

185: ◆MERIKEN4.k
12/10/17 05:17:38.72 esBMbwOk0
>>181
CUDA5は実際のところどうなんでしょうね~
RC版でビルドしたら12桁GPU検索がかなり遅くなったんですけど、
Production Releaseでは直ってるんでしょうか。あとで試してみます。

186: ◆MERIKEN4.k
12/10/17 05:28:25.58 esBMbwOk0
>>182
非常に参考になりますです。今ある580 SLIを580+590にする予定なんですけど、
2枚のグラボの間に隙間がないので、590は下側につけておいたほうが
よさそうですねえ。ケースにはまるといいんですけど…

ブロック数の設定の違いはいい解決方法が思いつかないです。まあ128以上
だったらほとんど誤差程度の違いしか出ないので大丈夫でしょう。

187: ◆MERIKEN4.k
12/10/17 05:30:02.53 esBMbwOk0
>>184
それは良かった。CUI版はデフォルトでは12桁検索になります。
オプションについてはREADME.txtを参照してください。

188:名無しさん@お腹いっぱい。
12/10/17 23:13:12.83 +vmD5NvT0
慣れてないならコマンドラインから直接打ち込むのではなく
ショートカット作って指定したほうが良いかと

189: ◆MERIKEN4.k
12/10/19 17:08:27.82 tPUGSSRZ0
GTX 590が届いたんですけど、熱すぎて今使っているケースでは580と
一緒に使えないことが判明。どう頑張っても上のカードの温度がかるく90℃を
超えてしまいます。せっかく頑張ってケースに押し込むことができたのにorz
しょうがないので580+590はサブのデスクトップに引越しさせて、
こっちをトリップ検索専用PCとして使うことにします。

190: ◆MERIKEN4.k
12/10/19 17:14:45.52 tPUGSSRZ0
>>178
Radeonには次のバーションで対応する予定です。

>>179
Linuxにはここ10年ほど触っていないので対応の予定はありません。
CUI版の移植なら難しくないはずなので、いかがですかw

191:名無しさん@お腹いっぱい。
12/10/19 17:17:51.34 jLcBMxal0
Radeon版ってOpenCLなんでしょうかね?
それだとintel HD Graphics 4000でも動かせそうな気が

192:名無しさん@お腹いっぱい。
12/10/19 21:56:07.87 AU4hYOc80
最近BOINCに精を出してるのでアプデ来てもどっちを回すか迷うな……

193:名無しさん@お腹いっぱい。
12/10/19 22:30:53.90 uPFPWr+K0
仮にintel HD Graphicsでトリッパー動かせるとしたらどれぐらいの速度が出んのかな?

194:名無しさん@お腹いっぱい。
12/10/19 22:44:50.37 PDFO5+Lv0 BE:466156782-2BP(2345)
>>192
BOINCと同時に廻すと他のアプリケーションが非常に重くなって悲惨なことに…
実際にやって後悔したから

同時に廻すならアプリケーションを使わない時の方がいいと思われ

195: ◆MERIKEN4.k
12/10/20 17:13:35.27 G/VuaKds0
580+590をサブのテストベンチで使うことにしたので、
HD 5770ともう一枚の580をメインのデスクトップに移しました。
とりあえず5770を画面表示用にして、580はGPGPU専用にしてあります。
この組み合わせでちゃんと動くか心配だったのですが、
今のところ問題はありません。Tripcode Finderもちゃんと動いています。
これで理屈ではRadeonとGeForceで同時にトリップ検索を行うなんてことも
できるはずですが、果たしてどうなるんでしょうか。

196:名無しさん@お腹いっぱい。
12/10/20 17:21:11.04 XgDGXoWm0
NVとAMDのOpenCL関連のライブラリが競合とかしないのだろうか

197: ◆MERIKEN4.k
12/10/20 17:37:32.49 G/VuaKds0
>>191
OpenCLです。ただ、OpenCLはソース互換なので、Intelので
そのまま動くというわけじゃないですけどね。

198: ◆MERIKEN4.k
12/10/20 17:40:23.64 G/VuaKds0
>>196
NVIDIAのOpenCLのライブラリを結合しなければいいだけなので、
多分大丈夫でしょう(楽観)

199: ◆MERIKENXsUyM
12/10/20 19:27:01.81 +A4kXckV0
最近よくかたまるな・・
ヒットしたトリップを、tripcodesに保存前にフリーズ・・・orz
吐き出したトリップを、tripcodesに強制保存できませんか?
ひよわなPCで、スマソ。

200:ののたん ◆KiwamonoL.
12/10/20 19:42:44.56 F8IK+HH50
>>197
そのまま動くぞ。
カーネル部分はソースのままで同梱すればいいしな。
俺は一個のバイナリでラデ、ゲフォ、インテルで動かしてたぞ。

201:名無しさん@お腹いっぱい。
12/10/20 20:16:45.23 nw3ug2VV0
Intelで動く…だと…?

202:名無しさん@お腹いっぱい。
12/10/20 20:34:49.90 XgDGXoWm0
それでもしCPU検索よりも早かったらワロス

203:名無しさん@お腹いっぱい。
12/10/20 20:38:13.56 nw3ug2VV0
そんなまさか

204:名無しさん@お腹いっぱい。
12/10/20 21:38:05.89 /VUWpucu0
openCLはgpuでもcpuでも計算出来たような

205:ののたん ◆KiwamonoL.
12/10/20 22:20:50.50 F8IK+HH50
Ivy買ったら内蔵GPUでも動かしてみようと思ってたんだが、買う気が出ない。w

206: ◆MERIKEN4.k
12/10/21 06:02:04.03 y9BRtUtK0
>>199
あ~びっくりした。自分が書いたのかと思ったw
強制保存するオプションはあとで付けておきます。

207: ◆MERIKEN4.k
12/10/21 06:06:04.39 y9BRtUtK0
>>200
あれ、そうなんですか? どうやってやるのかもうちょっと調べねば…

208:名無しさん@お腹いっぱい。
12/10/21 06:45:05.50 G8jMn60X0
MERIKENsTripcodeFinderCUIなんですが、コマンドラインからの起動がうまくいかないです。


209: ◆MERIKEN4.k
12/10/21 06:56:44.91 y9BRtUtK0
>>208
どのようにうまくいかないのかkwsk

210:名無しさん@お腹いっぱい。
12/10/21 07:01:15.21 G8jMn60X0
指定がおかしいだけだと思うのですが
C:\MERIKENsTripcodeFinder_0.05\MERIKENsTripcodeFinderCUI.exe -f patterns.txt -g -c -x 16 -t 10で
色々表示された後に
MERIKENsTripcodeFinderCUI: Error: The pattern file could not be opened.と表示されてしまいます。

211: ◆MERIKEN4.k
12/10/21 07:12:22.77 y9BRtUtK0
>>210
> 色々表示された後に

ここのところをもうちょっとkwsk
あとpatterns.txtはどこにありますか?

212:名無しさん@お腹いっぱい。
12/10/21 07:17:54.17 G8jMn60X0
2レスに分割します。

C:\>C:\MERIKENsTripcodeFinder_0.05\MERIKENsTripcodeFinderCUI.exe -f patterns.txt
-g -c -x 16 -t 10
MERIKEN's Tripcode Finder 0.05
[compiled at 19:37:41 on Oct 3 2012 (PST)]
Copyright (C) 2011-12 ◆MERIKEN4.k
This program comes with ABSOLUTELY NO WARRANTY.
This is free software, and you are welcome to redistribute it
under certain conditions.

Using both GPU(s) and CPU as search devices.



213:名無しさん@お腹いっぱい。
12/10/21 07:18:16.18 G8jMn60X0
CUDA DEVICE
===========
CUDA Device Count: 3

Device No.: 0
Device Name: GeForce GTX 580
Multiprocessor Count: 16
Clock Rate: 1714MHz
Compute Capability: 2.0

Device No.: 1
Device Name: GeForce GTX 580
Multiprocessor Count: 16
Clock Rate: 1912MHz
Compute Capability: 2.0

Device No.: 2
Device Name: GeForce GTX 580
Multiprocessor Count: 16
Clock Rate: 1912MHz
Compute Capability: 2.0

CPU
===
Number of Processors: 12
Number of Search Threads: 10

TARGET(S)
=========

214:名無しさん@お腹いっぱい。
12/10/21 07:20:46.39 G8jMn60X0
patterns.txtですが、Cドライブ直下の他のファイルと同じ場所にあります。

215:名無しさん@お腹いっぱい。
12/10/21 08:07:41.03 G8jMn60X0
PCが故障してしまいました…。

216: ◆MERIKEN4.k
12/10/21 08:21:25.41 y9BRtUtK0
それならパターンファイルの指定を"-f C:\MERIKENsTripcodeFinder_0.05\patterns.txt"に
なおしてやればちゃんと動くはずです。
しかし580 3-Way SLIですか。う~ん、なかなかの勇者ですね…
PCが無事だといいんですけど…

217:名無しさん@お腹いっぱい。
12/10/21 10:18:22.73 G8jMn60X0
なるほど、有難うございます。
メインPCが復旧できたらやってみます。
CUIでの起動ですがオーバークロックして
GPU: 2400M tripcodes/s
CPU: 40M tripcodes/s付近出てた気がします。
まずはポンプを買わないと…。

218: ◆MERIKEN4.k
12/10/21 18:11:20.17 y9BRtUtK0
>>217
580が3枚あれば納得の速度です。2G TPS超は熱との勝負みたいですねえ。
自分も来週あたりに580+590の組み合わせで挑戦する予定です。
水冷が一番いいんでしょうけど、なかなか踏ん切りが付きません…

219: ◆MERIKEN4.k
12/10/21 18:21:32.72 y9BRtUtK0
さて、遅れに遅れている10桁CPU検索の高速化ですが、
未だにどうしたものか決めかねている状態です。
Intrinsicを使ってレジスタ割り付けを最適化するという方針は
そのままなんですが、どのようにするのか実に悩ましいところです。

220: ◆MERIKEN4.k
12/10/21 18:27:13.28 y9BRtUtK0
とりあえず手作業でS-Boxを1つ最適化してみてから、
最適化を自動化するかどうか決めてみよう…

221:名無しさん@お腹いっぱい。
12/10/21 18:35:28.43 G8jMn60X0
そうですね、こちらのソフトではひとつ起動すればGPUを纏めて動かしてくれるので大変に有難いです。
空冷では特にエアフローに気をつけないとカードの温度が90℃を超えてくるので大変と思います。
どちらも電力を必要とするカードですが、電源ユニットは大丈夫でしょうか?

導入に対して敷居や導入コストが高いのが難点ですが、ある程度まで理解できれば何とかなると思います。



222: ◆MERIKEN4.k
12/10/21 18:55:16.85 y9BRtUtK0
>>221
やっぱり何も考えてないで使えたほうが楽ですよね。
サブのデスクトップはおっぴろげのテストベンチなので大丈夫です。
URLリンク(www.newegg.com)
電源はCorsair AX1200なので、こっちも問題ないはずです。
水冷は後のお楽しみに取っておくことにしますw

223:名無しさん@お腹いっぱい。
12/10/21 19:04:56.65 G8jMn60X0
そうですね、初期設定さえ出来れば後の起動は楽なのがいいです。
こういった開放型のケース?で埃等は問題ないのでしょうか、その点怖い気がします。

これだけの容量であれば何も問題ないですね、あとは知識を収集して水冷化に挑戦といったところでしょうか。

224: ◆MERIKEN4.k
12/10/21 19:13:54.71 y9BRtUtK0
>>223
埃の掃除にはエアーコンプレッサーを使っています。
空冷の限界が見えたらぜひ水冷にも挑戦したいですね。

225: ◆999984973989
12/10/21 19:29:22.33 9ANtZStK0
水より冷える液体がいいですね。

>>206
間違いますよね。変えます

>>205
のたんぺさんは、引退ですか?

最強のトリップ検索人ですよね。

226: ◆MERIKEN4.k
12/10/21 20:36:39.65 y9BRtUtK0
>>225
そうしていただけると助かりますです。

227: ◆MERIKEN4.k
12/10/21 20:40:17.03 y9BRtUtK0
2時間以上S-Boxの書き換えに費やしましたが、まだ最初のS-Boxの作業すら
とても終わりそうにありません。こりゃ時間かかるわ…
しかしこれほんとうに効果があるのかしらん。

228: ◆MERIKEN4.k
12/10/22 07:33:09.17 NclU6rMj0
結局これも読まんといかんのかな。まいったなあ…

Intel 64 and IA-32 Architectures Optimization Reference Manual
URLリンク(www.intel.com)

229: ◆MERIKEN4.k
12/10/22 09:13:25.24 NclU6rMj0
Bitslice DESの各ゲートを、

A = OP(B, C)

という形から、よりSSEの命令セットに近い

A = OP(A, B)

という形に書き換えてるのですが、ようやくちょっとづつ速度が上がって来ました。
変換が終わったら、まとめられる一時変数をすべてまとめてしまう予定です。

230: ◆MERIKEN4.k
12/10/22 11:14:26.41 NclU6rMj0
とりあえずS-Boxを1つだけ書き換えてみましたけど、
速度は微増といったところで劇的な変化は見られませんでした。
やはりIntrinsicsでの高速化には限界があるようです。
Intrinsicsで書きなおしたルーチンをさらにアセンブリで書きなおすという手も
あるのですがこれはにはかなり時間がかかるので、CPU検索の高速化はここまでにして
OpenCLへの移植に移りたいと思います。


231:名無しさん@お腹いっぱい。
12/10/22 20:01:07.08 8SpyKQvk0
URLリンク(yy51.60.kg)

232: ◆MERIKEN4.k
12/10/23 08:28:38.16 Y+4Wukci0
新しい開発版です。今回の変更点は10桁トリップCPU検索の速度向上です。

MERIKEN's Tripcode Finder 0.06 Beta 1
URLリンク(www.meriken2ch.com)

233: ◆MERIKEN4.k
12/10/23 08:36:00.46 Y+4Wukci0
>>231
なるほど、これが>>200のブツですね。なんか普通にNVIDIAとIntelの
GPUで動いてますね… ちょっと自分でも試してみよう。

234: ◆MERIKEN4.k
12/10/23 08:37:16.76 Y+4Wukci0
結局OpenCLならどのベンダのライブラリを使っても他のベンダの
GPUが使えるということなんでしょうか。

235: ◆MERIKEN4.k
12/10/23 09:03:33.94 Y+4Wukci0
次のページを参考にしてAMD APP SDKのOpenCLのライブラリを
Tripcode Finderにリンクしてみました。

URLリンク(stackoverflow.com)
URLリンク(stackoverflow.com)

なんか普通にOpenCLからGTX 580もHD 5770も見えてます。

> OpenCL reports 2 platforms.
>
> Platform 0: NVIDIA Corporation NVIDIA CUDA OpenCL 1.1 CUDA 4.2.1
> Platform 1: Advanced Micro Devices, Inc. AMD Accelerated Parallel
> Processing OpenCL 1.2 AMD-APP (1016.4)

Core i7-3770KのGPUは見えていないようなのでIntelのドライバを入れて
もう一回試してみます。

236: ◆MERIKEN4.k
12/10/23 09:24:02.40 Y+4Wukci0
よく見たらこれGPUじゃなくてプラットフォームなのか。
なにはともあれドライバをインストールしたらIntelのプラットフォームも
見えるようになりました。

> Platform 0: NVIDIA Corporation NVIDIA CUDA OpenCL 1.1 CUDA 4.2.1
> Platform 1: Advanced Micro Devices, Inc. AMD Accelerated Parallel
> Processing OpenCL 1.2 AMD-APP (1016.4)
> Platform 2: Intel(R) Corporation Intel(R) OpenCL OpenCL 1.1

237: ◆MERIKEN4.k
12/10/23 10:02:37.30 Y+4Wukci0
デバイス一覧を取得しました。なぜかCore i7が2つあります。
JuniperってHD 5770のコードネームか。紛らわしいなあ…

> OpenCL reports 3 platforms.
>
> Platform 0: [NVIDIA Corporation] [NVIDIA CUDA] [OpenCL 1.1 CUDA
> 4.2.1]
>   0: [NVIDIA Corporation] [GeForce GTX 580]
> Platform 1: [Advanced Micro Devices, Inc.] [AMD Accelerated Parallel
> Processing] [OpenCL 1.2 AMD-APP (1016.4)]
>   0: [Advanced Micro Devices, Inc.] [Juniper]
>   1: [GenuineIntel] [ Intel(R) Core(TM) i7-3770K CPU @ 3.50GHz]
> Platform 2: [Intel(R) Corporation] [Intel(R) OpenCL] [OpenCL 1.1 ]
>   0: [Intel(R) Corporation] [ Intel(R) Core(TM) i7-3770K CPU @ 3.50GHz]

238: ◆MERIKEN4.k
12/10/23 10:27:30.20 Y+4Wukci0
2つ見えているIntelのは両方共CPUみたいです。
HD 4000はどこに行ったんだろう…

239:ののたん ◆KiwamonoL.
12/10/23 11:38:20.45 Mm6auUgH0
もうどこからつっこめばいいのかわからんなこれ。w

CPU Only のランタイムしかいれてないんじゃねーの?
やったことないから知らんけど。www

240: ◆MERIKEN4.k
12/10/23 12:01:55.08 Y+4Wukci0
いや~、これちょっとやばいですよね…
IntelのOpenCLのSDKをインストールしても見えなかったのでおかしいなと
思ってたんですけど、なんとマザボにディスプレイを繋いだらようやく
OpenCLのAPIからIntel HD 4000を認識できるようになりました。

> 1: [Intel(R) Corporation] [Intel(R) HD Graphics 4000] [GPU]

CUDAと違って、OpenCLはかなりカオスですねえ…

241: ◆MERIKEN4.k
12/10/23 12:37:57.54 Y+4Wukci0
やはりディスプレイをつながないとHD 4000はOpenCLデバイスとして
認識されないようです。ここでIntelの人がそう言っているので確実でしょう。
なんというか、いろいろ勿体無いです。

HD Processor Graphics failed to load as a device in Code Samples
URLリンク(software.intel.com)

242:ののたん ◆KiwamonoL.
12/10/23 17:48:47.97 Mm6auUgH0
いやいや、つっこみどころが多いのは OpenCL に対してじゃなくて。
ちゃんとマニュアルとか読んだ方がいいんじゃね?

まあまだサンプル動かしてみただけの段階なんだろうけど。

243: ◆999984973989
12/10/23 19:21:09.50 I3p6Oxvg0
夫婦漫才ですね。  このすれは・・・

244: ◆MERIKEN4.k
12/10/24 00:31:25.16 idf8ye870
もともとマニュアルは絶対必要にならないと読まない方なんでw
それよりサンプル読んでたほうが参考になるし…
まあCUDAと似たようなものなので、近いうちに動くものが出来るように
なるでしょう。

245:名無しさん@お腹いっぱい。
12/10/24 20:28:41.44 qG+AQb1B0
一時停止の状態を保存できないのでしょうか。

246: ◆MERIKEN4.k
12/10/24 20:40:18.19 idf8ye870
>>245
それは難しいですね。
累計検索時間と生成されたトリップの累計を表示させることなら出来ます。
次のバージョンでプログラムの構造に大きく手を入れる予定なので、
これまでに希望のあった機能はまとめて追加する予定です。

247: ◆MERIKEN4.k
12/10/24 20:44:36.27 idf8ye870
とりあえずこのサンプルを読んだら大体の流れはわかりました。

Getting started with OpenCL and GPU Computing
URLリンク(www.thebigblob.com)

まずSHA-1とDES cryptのルーチンを移植して、ちゃんと動くのが確認してから
実際の検索ルーチンを作成することにします。やることはCUDAの場合と
ほとんど変わらないので、割とすんなり行きそうな予感…

248: ◆MERIKEN4.k
12/10/24 20:49:35.03 idf8ye870
そうそう、今日テストベンチ用の部品が届くので、後で580+590をそっちに
移してTripcode Finderを動かして見ることにします。
2G TPS超は確実ですが、どこまで上乗せできるか楽しみです。

249:245
12/10/24 21:05:41.68 qG+AQb1B0
>>246
ありがとうございました。楽しみにしてます。

250:名無しさん@お腹いっぱい。
12/10/25 20:33:30.73 ocjKS/zjP
SHA256ハッシュを取ると全ビットが0になるキーを探してください

251: ◆CCCCkCCCCk
12/10/25 22:22:49.94 w8XLKVhj0
初めまして。

なんとなくトリップ検索(特に12桁)を再開したくなり、
ひょんなことから、こちらの安定版を頂きました。

残念ながらラデオン使用+中古パーツ寄せ集めの自作なんで、
貴ソフトを100%活用できていませんが、表示される検索数には驚いていますw

CPU検索+スレッド自動ですが、
Phenom Ⅱ Black x6 が、6コア100%稼動するのを初めて見ました。

ソフトの進化、期待しています。
(こっちのハードも進化させねばorz)

252: ◆MERIKEN4.k
12/10/25 23:29:49.74 gkWWDV1H0
テストベンチに580+590を移したのでまた最高速の測定をしてみました。
590は意外にOC耐性があります。ビデオカードはむき出しで間を空けてあるので
GPUの温度は84度に抑えられています。

【GPU】NVIDIA GeForce GTX 580 (OC: 940/2004MHz) + GTX 590 (OC: 830/1728MHz)
【CPU】AMD Phenom II X6 1100T (定格)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.06 Beta 1
【トリップの種類】12桁
【オプション】-x 192 -c -g
【Display Driver】306.23
【10分間の平均速度】 2291.56M tripcodes/s
【その他】7完1タゲ。CPUの速度は約19.6M TPS。

253: ◆MERIKEN4.k
12/10/25 23:33:19.55 gkWWDV1H0
>>251
12桁のCPU検索は限界に近い速度が出ていると思われます。
近いうちにラデにも対応する予定なのでその時はテストをお願いします。

254: ◆MERIKEN4.k
12/10/25 23:37:05.64 gkWWDV1H0
>>250
見つけるのに一体何世紀かかるんでしょうねえ…

255: ◆MERIKEN4.k
12/10/26 04:37:11.50 2pNAGJzV0
>>251
よく読み返したら安定版だったんですね。
それだったら次の安定版で5M TPSほど速くなります。

256: ◆MERIKEN4.k
12/10/26 09:17:26.32 2pNAGJzV0
最高速の測定の続きです。あの後まさかと思って580をもう一枚
追加したらあっさり3G TPS超えできました。さすがテストベンチw
でもGPUの温度は最高で89℃なのでそろそろ限界でしょう。
温度さえ何とかなれば590 3-Way SLIで4G TPS超えも出来そうですが…

【GPU】NVIDIA GeForce GTX 580 SLI (OC: 930/2004MHz) + NVIDIA GeForce GTX 590 (OC: 830/1728MHz)
【CPU】AMD Phenom II X6 1100T (定格)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.06 Beta 1
【トリップの種類】12桁
【オプション】-x 192 -c -g
【Display Driver】306.23
【10分間の平均速度】 3080.98M tripcodes/s
【その他】7完1タゲ。CPUの速度は約13.1M TPS。

257:名無しさん@お腹いっぱい。
12/10/26 18:49:10.26 8HQ+za6d0
>>241
ディスプレイを繋がなくても、Windowsの設定で"画面を拡張"にしたらできますよ

258: ◆MERIKEN4.k
12/10/27 02:20:50.37 y8rBUfat0
>>257
試してみたけどやっぱりOpenCLのAPIからは見えていません。
実際に物理的にディスプレイをつながないと駄目なようです。
折角の機能なのにもったいない… これって将来のドライバ更新で
改善されたりするものなんでしょうかねえ。

259: ◆MERIKEN4.k
12/10/27 02:49:49.84 y8rBUfat0
あのあとテストベンチのGPUの電圧のクロック周波数をAfterburnerで細かくいじって、
普段使っている検索パターンで安定して2.3G tripcodes/s出せるようになりました。
正規表現を使ったかなり複雑なパターンなので、その分だけGPUの温度も上がって
しまい苦労しました。室温はだいたい30℃で、GPUの温度は最高で91℃です。熱すぎです。

GTX 580 (975mV 700/2004MHz)
GTX 580 (975mV 480/1000MHz)
GTX 590 (925mV 800/1728MHz)

このように上から順番に隙間なく並んでいるのですが、真ん中の580の放熱が
やはりというかうまくいかないらしく、クロック周波数を限界まで落とさざるを
得ませんでした。

260:名無しさん@お腹いっぱい。
12/10/27 03:09:40.84 QA+aurA10
そこまでクロックを落とすのなら無理せず他のGPU乗せた方が…

261: ◆MERIKEN4.k
12/10/27 03:30:05.40 y8rBUfat0
もともと真ん中の580は乗っけるつもりがなくて、
590を買って余ってたのを使っただけなのでこれでいいのですw
最初はグラボを3枚のっけるなんて考えてもいなかったので…

余った580はオクで売っぱらう予定だったんですけど、
今の構成が思いのほかうまく動いているので当分このままにしておきます。

262:名無しさん@お腹いっぱい。
12/10/27 04:09:48.65 Gt8Alwps0
各マシンに分散したらいいんじゃないの?
ということで家庭内分散コンピューティング対応のネットワーク検索に期待してます
SETI@homeみたいな

263: ◆MERIKEN4.k
12/10/27 05:59:49.53 y8rBUfat0
>>262
最終的にはそこに行きつくんでしょうねえ。
いずれぜひ取り組んでみたいけど、その前にスタンドアロンで
最高のトリップ検索プログラムを作るのを先にしたいと思います。

264:名無しさん@お腹いっぱい。
12/10/27 11:13:11.34 RRaDuUU/0
>>258
BIOSで常に有効にしたり出来ないのでしょうかね?

>>259
冬も暖房不要になりそうですねw
グラボの冷却は最終的にはやはり水冷なのでしょうかねえ・・・

265: ◆MERIKEN4.k
12/10/27 12:59:43.56 y8rBUfat0
>>264
BIOSの設定も色々いじってみたけど駄目でした。
>>241のリンク先でIntelの人がはっきりと無理だと言ってるので無理なんでしょう。

恐らく消費電力はシステム全体で1000W近いので、電気ヒーターなど目ではありませんw
まあ性能のことだけ考えるなら水冷のほうがいいんでしょうけど、
保証がなくなるのと手軽にグラボの交換ができなくなるのは痛いですね。
590 4枚差しとかちょっと見てみたい気がしますけどねw

266:名無しさん@お腹いっぱい。
12/10/27 19:54:23.00 sNktJKqm0
>>265
BIOS設定でもどうにもならないとなると厳しいですね。

手持ちの電気ヒーターの消費電力を測ってみたことがあるのですが
強では表示どおり1200W、弱で600Wだったのでなかなか手ごわいですよw

GTX590を4枚となると1500Wを超えて電源が2系統必要になりそうです。


267:名無しさん@お腹いっぱい。
12/10/27 20:22:25.50 QA+aurA10
200V端子なら…
いや市販のプラグとコード見たことないけど

268: ◆MERIKEN4.k
12/10/28 00:33:21.89 Xbgvyzs00
家庭用電源だとさすがに厳しいですねw
590 3枚あたりが個人でできる限界でしょうか。

269: ◆MERIKEN4.k
12/10/28 00:37:03.15 Xbgvyzs00
Tesla K20がようやく発売開始になったみたいですね。
URLリンク(www.sabrepc.com)
$3500なのでK10と似たようなお値段ですが、手が出ないことにはかわりませんw
誰かTripcode Finderをこれで動かしてみてくれないかな~

270: ◆MERIKEN4.k
12/10/28 06:46:31.10 Xbgvyzs00
>>247のサンプルをTripcode Finderのソースに組み込むことに成功しました。
ちゃんと実行ファイルと同じディレクトリにあるOpenCLのソースファイルが
コンパイルされて実行できてます。次はCUDAのSHA-1のルーチンを
コピペして動作するかどうか確認することにします。

271: ◆MERIKEN4.k
12/10/28 07:07:21.83 Xbgvyzs00
1年前に書いたCUDAのSHA-1のルーチンを読み返してみたけど、
やはりDES cryptに比べると相当簡単です。これならテストも割りと
すんなりといくかな。

272: ◆MERIKEN4.k
12/10/28 09:39:11.88 Xbgvyzs00 BE:4788072498-2BP(12)
サンプルを書き換えてOpenCLのSHA-1のルーチンをテストするコードを
でっち上げたのですが、1発で12桁トリップの変換に成功しました。
10桁CPU検索の作業に比べてなんと楽なことよ…

273: ◆MERIKEN4.k
12/10/28 09:52:54.49 Xbgvyzs00
私の机の隣で爆音を立てて熱風を撒き散らしつつ24時間稼働している
「検索君1号(仮名)」ですが、あまりにうるさいので昔買って放置してあった
Sonyのノイズキャンセリングヘッドフォンを引っ張りだしてきました。
効果は抜群で、数ヶ月ぶりに自室に(見かけ上の)静寂が訪れました。
580 1枚でうるさいと持ってた頃が懐かしいです…

274:名無しさん@お腹いっぱい。
12/10/28 09:55:29.83 xpUhApe40
これは12桁での速度を維持しながら10桁での検索も可能ということなのでしょうか?

275: ◆MERIKEN4.k
12/10/28 10:02:40.32 Xbgvyzs00
>>274
違います。NVIDIA以外のグラボでもGPU検索ができるようになるかも、という話です。
計算量が桁違いなので、理論的に10桁検索が12桁検索と同じぐらい速くなるということは
あり得えないです。

ただ、RadeonのグラボはNVIDIAのものに比べて10桁検索に向いているということは
ありそうです。というかCUDAと10桁検索が壮絶に相性が悪いだけなのかも
しれませんが…

276:名無しさん@お腹いっぱい。
12/10/28 11:16:46.22 JD+mWdaq0
>>268
電源ユニット2台で別系統のコンセントを使えば大丈夫かと思いますw
そこまでするなら複数台に分けた方がいいですけど。

277:名無しさん@お腹いっぱい。
12/10/28 11:23:26.19 JD+mWdaq0
>>275
Radeonがアーキテクチャ的にDES cryptの計算もやりやすいのでしょうか?
OpenCLならGeForceでもマシになったりするのかも気になります。

278: ◆MERIKEN4.k
12/10/28 11:33:10.81 Xbgvyzs00
>>277
ゲフォよりもラデのほうがレジスタの数が多いとかいう話をどこかで見かけました。
それにラデのほうが実際に速度が出てますしね。OpenCLはCUDAより遅くなるのが
目に見えているのでラデへの対応はありません。

279: ◆MERIKEN4.k
12/10/28 11:34:57.99 Xbgvyzs00
間違えた。>>278の最後の行は「ゲフォへの対応はありません」だった。

280:名無しさん@お腹いっぱい。
12/10/28 11:41:03.95 JD+mWdaq0
やはりレジスタが一番の理由ですか。
GeForceはKeplerでの方向性とか見ていると厳しくなりそうですね。

281: ◆MERIKEN4.k
12/10/28 12:15:12.94 Xbgvyzs00
>>280
レジスタの数がそこまでなくても、高速なメモリがあればそれでいいんですけどね。
CUDAの10桁検索も共有メモリの量さえ増えれば多分倍以上の速度が出るでしょう。
オンダイの高速メモリをL1キャッシュに使うぐらいならもっと共有メモリを
増やして欲しいもんです。

GeForceでのGPGPUの今後はわかりませんね~
GK110がGeForceに降りてきてくれればいいんですけど…

282: ◆MERIKEN4.k
12/10/28 21:10:17.36 Xbgvyzs00
>>276
やっぱそうですよね~ トリップ検索を始めたときにはこんなに熱処理に悩まされるとは
思いもしませんでした。分散処理対応を真剣に考えよっと。

283: ◆CCCCkCCCCk
12/10/28 23:07:58.09 XmyhG/mG0
こんばんは。

>>253
ちょっと古いグラボなんでどうなるか分かりませんが、データ取りにはなると思います。
年明けなら、うまくいけば上位のヤツが手に入りそうです。

>>255
おおっ、楽しみにしています。

>>282
コンピューターの歴史は熱との戦い・・・
真空管のENIACなんか、凄かったでしょうね。

//

とりあえず、ご報告。
CPUはAMD PhenomⅡ x6 1090T Black Edition 3.2Ghz
ターゲット5種・5完~12完で稼動です。
最高で23.68Mtrip/sぐらいです。
ターゲットを12種にしたら、高21.88Mtrip/s、平21.66Trip/sぐらいです。
そちらと同じ検索条件にすれば、もっと早くなるのは分かってますが、つい・・・^^;

ではまた。

284: ◆MERIKEN4.k
12/10/29 02:42:12.63 nQV6S3Gh0
>>283
データ取りでも有難いです。ぜひよろしく。

285: ◆MERIKEN4.k
12/10/29 02:47:14.79 nQV6S3Gh0
あのあとOpenCLのSHA-1のルーチンの速度を測定しようとしたのですが、
適当な作りのテスト用コードではちゃんと測定できませんでした。残念…
やはりある程度検索ルーチンを作りこまないといけないようです。
まあしょうがないといえばしょうがないですね。
とりあえず前方一致検索の分だけ作ってみます。

286: ◆MERIKEN4.k
12/10/29 02:53:39.55 nQV6S3Gh0
これはRadeon向けの最適化の資料です。あとでじっくり読もうっと。

AMD Accelerated Parallel Processing OpenCL Programming Guide
URLリンク(developer.amd.com)

287: ◆MERIKEN4.k
12/10/29 06:19:58.32 nQV6S3Gh0
あまりも検索君1号(仮)のGPUの温度が高すぎて心臓に悪いので、
こんなものを注文しました。

BestDealUSA PCI-E Express 16X Riser Card Extender Extension Cable Ribbon Flex
URLリンク(www.amazon.com)

これで真ん中のグラボを浮かせてやって空気の流れを良くしようという狙いです。
まあ見た目は悪くなるだろうけど、効果は確実にあるでしょう。

288: ◆MERIKEN4.k
12/10/29 09:44:46.80 nQV6S3Gh0
OpenCLのルーチンをデバッグしてるんですけど、
実行時にOpenCLのコードのコンパイルに失敗しても
結構詳しいエラーメッセージが取得できるので助かります。
CUDAほどお手軽ではないですけど、
思ったより手間がかからずに済みそうです。

289: ◆MERIKEN4.k
12/10/29 12:57:58.70 nQV6S3Gh0
CUI版を少しずつOpenCL対応のために書き換え始めました。
CUI版での変更がGUI版に自動的に反映されるのが便利といえば便利です。
とりあえず"AMD HD 5770"と"Intel HD Graphics 4000"はGUI版から見えるように
なりました。OpenCL対応は単純作業が多そうなので、毎日少しづつ
進めていくことにします。

290:名無しさん@お腹いっぱい。
12/10/29 14:04:33.31 yyXkW2IU0
つまりオンボだけどCore iしりーずな人でもGPUパワーが使えるのか……胸熱

291:名無しさん@お腹いっぱい。
12/10/29 14:36:56.78 5Sl8Z/AoP
自分はOpenCLでSHA256ハッシュを探索して
ハッシュの先頭に0のビットが多く並ぶキーを探すプログラムを書いているんですが
Windows7で265MHash/s出ていたのが80MHash/sしか出なくなって
原因調査中です

292:名無しさん@お腹いっぱい。
12/10/29 19:19:37.57 mTINnVu80
>>290
前に別のところで聞いた話だとすずめの涙みたいな計算速度だった覚えが

293:名無しさん@お腹いっぱい。
12/10/29 21:24:08.35 myu28mTs0
8800GT メモリ2GBのPCですが、検索停止ボタンを押すと完全に固まります
フリーズ中はGPUのファンは静かになっていて、HDDが規則的なリズムでガリガリと鳴りつづけていました

さきほど1分ほど動かして検索停止ボタンを押した時は15分経っても復帰しませんでした。多分、そのまま動かし続けてもフリーズするのは時間の問題だと感じました
再起動した後、とりあえず10秒(検索速度などの表示が出るまで)で止めてみたのですが、停止ボタンを押した後に一瞬画面が真っ黒になって「ディスプレイドライバの応答停止と回復」のポップアップが表示されました
この調子ですぐ止めればセーフか?と思い、続いてブロック数を自動から1に変更して開始したところ、同じように10秒で止めても完全にフリーズしてしまいました
メモリの容量か何かが関係しているのかとも思いましたが、それにしては検索中もメモリの利用率は別に増えてなかったのが不思議です。

使っていて変な汗が出たソフトナンバーワンなのは間違いないです

294: ◆MERIKEN4.k
12/10/29 21:30:51.78 nQV6S3Gh0
>>293
多分問題は電源かGPUの温度でしょう。メモリは殆ど使わない作りになっているので
まず関係ないです。SpeedFanとかAfterburnerで温度をチェックすると
いいかもしれません。

295: ◆MERIKEN4.k
12/10/29 21:32:28.03 nQV6S3Gh0
>>290
>>292
実際に検索させてみないことにはわからないですけど、
性能はあんまり期待できないでしょうね~ まあおまけみたいなもんです。

296: ◆MERIKEN4.k
12/10/29 21:34:25.08 nQV6S3Gh0
>>291
なかなか不思議なプログラムですねえ。手直しすると突然速度が落ちるという
ことはよくあります。バージョン管理は必須ですね。

297:名無しさん@お腹いっぱい。
12/10/29 21:44:29.50 myu28mTs0
>>294
電源ですか!なるほどなるほど・・・なんだか靄が晴れた気分です

298:名無しさん@お腹いっぱい。
12/10/29 23:27:29.31 5Sl8Z/AoP
>>296
すいません291はWindows8にしたらって書くのを忘れてました

299:名無しさん@お腹いっぱい。
12/10/30 00:35:03.80 DNUGLhjc0
>>295
AMD APUの場合は
URLリンク(www.amd.com)
A10-5800Kで理論値はCPU部分が約120GFLOPS、GPU部分が約600GFLOPSと5倍程度差があるらしいので
うまく利用できるとそこそこ期待できそうですが、問題はVLIWへの最適化でしょうかね?


300: ◆MERIKEN4.k
12/10/30 03:13:30.53 6+f0bjdv0
いい機会なのでコードの整理をして、パターン処理の関数を1つのファイルに
まとめました。正規表現のパーサが含まれているので結構な大きさです。
これでコードもすっきりしたのでOpenCLデバイスの処理を追加しやすくなりました。
コード全体を眺めるのは久しぶりなんですけど、継ぎ足しに継ぎ足して
随分たくさん書いたもんです。

301: ◆MERIKEN4.k
12/10/30 03:17:19.66 6+f0bjdv0
>>299
トリップ検索では浮動小数点演算は使わないのでFLOPSはあんまりあてにならない
んですけど、AMDのAPUならそこそこ性能は出るでしょう。最適化については
今のところ全く分かりませんw とりあえず動くOpenCLのコードができてから
考えることにします。

302: ◆MERIKEN4.k
12/10/30 08:03:47.74 6+f0bjdv0
OpenCLデバイスの初期化の処理も実装し終わりました。
あとはスレッド周りを修正すれば、実際の検索ルーチンに取り掛かれます。

----

Using GPU(s) as a search device.

OPENCL DEVICE
=============
OpenCL Device Count: 2

Vendor: Advanced Micro Devices, Inc.
Name: Juniper
Clock Frequency: 850MHz
Global Memory Size: 1024M bytes
Version: OpenCL 1.2 AMD-APP (1016.4)
Driver Version: 1016.4 (VM)

Vendor: Intel(R) Corporation
Name: Intel(R) HD Graphics 4000
Clock Frequency: 350MHz
Global Memory Size: 1624M bytes
Version: OpenCL 1.1
Driver Version: 8.15.10.2761

303: ◆GTX680Mcys3u
12/10/31 02:24:34.52 h5Ao5/fb0
お久しぶりです。
ノート用でGTX680M発売決定らしいです。
URLリンク(www.geforce.com)

GK104コアでCUDAコア数はGTX680同等、クロックはGTX680Mと同等
メモリクロックはGTX680M比で40%増し。
ノートも段々デスクトップと変わらなくなってきましたね。

性能次第じゃGTX680Mの時と同じでeBayからMXMカード取り寄せるかも…。

304: ◆GTX680Mcys3u
12/10/31 20:45:23.81 h5Ao5/fb0
>>303まちがい
新しいGTX680相当のSMX数で出るのは680MXです

305: ◆MERIKEN4.k
12/11/01 08:07:20.98 pqoHlXrk0 BE:1197018836-2BP(12)
>>303-304
なるほど、こういうのでアップグレードするんですね。
URLリンク(www.ebay.com)
ちょっと割高な気もするけど、これだけコンパクトにまとまっているのは凄いですねえ。

306: ◆MERIKEN4.k
12/11/01 08:11:48.87 pqoHlXrk0
OpenCL検索のスレッド周りの処理も一応仕上がりました。
これでいよいよ検索ルーチンの実装を始められます。

307: ◆MERIKEN4.k
12/11/01 18:28:16.36 pqoHlXrk0
検索ルーチンを作り始めたんですけど、Intelの実装とAMDのとで微妙に挙動が違って
きますね、これ。AMDのではエラーがでなくてもIntelのでエラーが出たりしてます。
思ったよりデバッグに時間がかかるかもしれません。
とりあえず両方のプラットフォームでトリップの変換ができていることは確認できました。
やっぱりIntelのほうが大分遅いですねえ。

308: ◆MERIKEN4.k
12/11/01 19:11:17.86 pqoHlXrk0
そうそう、検索君1号(仮)ですが、一番下のPCI-EスロットにGTX 590を移したら
温度の問題は全て解決しましたw いい具合に2番目と3番めのカードのあいだに
1スロット分の隙間が出来ました。590とマザボのピンが干渉するので
ケースの電源ボタン等は使えなくなったけど、別のがマザボについているので今のところ
困っていません。普段使っている検索パターンで安定して2.7G TPSでています。
1年前に800M TPS出して大喜びしていたのが遠い昔のようですw

もうさすがに買わないですけど、電源の容量から計算すると590 3枚でも
十分動作しそうです。3072コアで同時にトリップ検索なんて考えただけで
胸が熱くなりますw

309: ◆GTX680Mcys3u
12/11/01 20:24:07.51 d/NjzRgi0
>>305
それです。
その一番大きなMXM3.0bという規格でもデスクトップ用の半分以下のサイズだと思いますよ。

ちょっと安いところのが撤退してますねぇ。
今出てる一番安いのはAlienware用のVRAM2GB版だけど
自分が買った時はVRAM4GB版でも799ドルだったのに。
さすがに999ドルなら自分も買ってなかったでしょうけども。

日本ってこういうパーツ全く出回らないんですよね。ニッチだけど需要はありそうなのに。

310: ◆MERIKEN4.k
12/11/02 02:08:46.32 pOqRQijG0
>>309
部品が手に入りづらいとストレス溜まりますよね。
アメリカの人達はわりと大型のノートPCを好むというのもあるかもしれません。

311: ◆MERIKEN4.k
12/11/02 02:21:27.01 pOqRQijG0
OpenCL検索のGPU側のコードを書き終えました。
とは言っても次の資料を見てCUDAのコードを書き換えただけですが…

Porting CUDA Applications to OpenCL
URLリンク(developer.amd.com)

あとはCPU側のコードを用意してやればOpenCL検索ができるようになるはずです。
OpenCLのコードは問題なくビルドできているので、あと残っているので
めんどくさそうなのはメモリ周りの処理ぐらいです。まあなんとかなるでしょう。

312: ◆MERIKEN4.k
12/11/02 05:21:44.88 pOqRQijG0
CPU側のコードを用意ができたのでOpenCL検索を試してみたのですが、
Radeonだとwork-groupの数が不正だと怒られて動かせませんでした。
で、Intelのほうを試してみたら、奇跡的にトリップは生成されました。
が、めちゃくちゃ遅い! 遅すぎる! 仕方がないのでとりあえず
Radeonで動くようにしてからコードの見直しをすることにします。

313: ◆MERIKEN4.k
12/11/02 05:34:17.58 pOqRQijG0
ちょっと手直ししたら今度はclEnqueueNDRangeKernelで
CL_OUT_OF_RESOURCESが出てしまいました。
仕様書を見たらレジスタやカーネルへの引数の数が多すぎるとこのエラーが出るらしいです。
いろいろ面倒くさいなあ…

314: ◆MERIKEN4.k
12/11/02 05:39:42.98 pOqRQijG0
どうやらwork-groupのサイズはclGetKernelWorkGroupInfoで取り出さないと
いけない模様。これでうまくいくといいけど…

315: ◆MERIKEN4.k
12/11/02 07:27:52.40 pOqRQijG0
あの後色々調べてみたけど原因はわかりませんでした。
う~ん、CUDAの検索ルーチンをそのまま移植するんじゃなくて、
少しづつ動くのを確認しながら作り込んでいったほうがよかったのかなあ。
完全に煮詰まってしまったので食事をしてきます。

316: ◆MERIKEN4.k
12/11/02 10:39:28.35 pOqRQijG0
AMDのOpenCLの実装で動かなかった理由がようやくわかりました。
16M bytesあるキービットマップの配列へのポインタをカーネルの引数で渡していたのが
原因でした。CUDAで実装したときも我ながら無茶な実装だと思ったものですが、
今の今まですっかり忘れていましたw 取りあえずなくても動くので
OpenCLではキービットマップを使わないことにしておきます。
多ターゲットの検索だとキービットマップがかなり有効なのはわかっているので、
あとで小さめのも作ることにします。

317: ◆MERIKEN4.k
12/11/02 12:03:11.26 pOqRQijG0
というわけでOpenCLの12桁検索の試験実装がめでたくRadeon HD 5770で
動くようになりました。GPU使用率65%で190M TPS出ているので、CUDAの実装の
ベタ移植にしては上出来でしょう。ヒット率も綺麗に予想値に収束しています。
いや~これでようやく安心できました。

あ、あとIntel HD 4000では同じコードで3M TPSしかでていませんw
こりゃほんとにおまけですねえ。

318: ◆MERIKEN4.k
12/11/02 12:29:52.07 pOqRQijG0
GPU使用率を上げようといろいろ頑張ってみたのですが、
ちっとも上がってくれません。global_work_sizeとlocal_work_sizeを
いじっても駄目でした。mtyのときも似たようなことがあったし、
ドライバの仕様なのかなあ。

319: ◆MERIKEN4.k
12/11/02 13:03:48.65 pOqRQijG0
ちっともGPU使用率が上がらないので、思いつきで1つの5770に対して
2つの検索スレッドを走らせたら、見事にGPU使用率が96%まで上がって
301M TPS出るようになりましたw 冗談みたいな話ですが
ヒット率は予測通りなのでちゃんとうごいているようです。
なんか釈然としないけど、きちんと動作しているのでこのままにしておきます。

320: ◆MERIKEN4.k
12/11/02 13:23:20.71 pOqRQijG0
しかしRadeonは思った以上に性能が出ますねえ。
5770でこれなら7970だったら1枚で1G TPSを超えるかもしれません。
10進検索のほうも楽しみです。OpenCL検索の実装が順調に進んで、
GTX 780が噂通り680の改良版なら、次に買うのは8970になるかもしれません。

321:ののたん ◆KiwamonoL.
12/11/02 13:54:01.66 ayT59sJq0
>>318
それを知ってるのに秘孔は知らないのか?
URLリンク(sourceforge.jp)

効果があるかどうかはしらん。w

322: ◆MERIKEN4.k
12/11/02 14:53:44.04 pOqRQijG0
>>321
その処理をTripcode Finderに組み込もうとしたらAPIが古過ぎてコンパイル
できませんでした(´・ω・`)

323:ののたん ◆KiwamonoL.
12/11/02 17:13:31.39 ayT59sJq0
>>322
効果があるか試すだけなら、バイナリもあるぜ。
URLリンク(trip2ch.net)

やってることは単純だから、今のAPIで同じことをやればいいんだろうけど。

324:名無しさん@お腹いっぱい。
12/11/02 19:08:34.63 druh0GIy0
URLリンク(yy43.60.kg)


325:名無しさん@お腹いっぱい。
12/11/02 20:45:07.84 RumtBqwhP
目指せ純12連発見

326:前スレ927
12/11/03 01:40:23.60 nhwVplaB0
HTがトラウマになったので、影響を調べてみました。

CPU: Xeon X5680@3.33GHz x 2
GPU: Quadro FX 3800
Prg: 0.06a1
Len: 12
Targ: "TEST/"
Opt: -c -g -x 16
Drv: 306.79

この条件でOSとHTを買えて計測しました。


327:前スレ927
12/11/03 01:45:43.54 nhwVplaB0
先ずはXPから。
Case 1-1
CPU: HT off (12 thread)
OS: WinXP SP2 64bit
1hrAv: 240.76M TPS
Others:
243.23M TPS (curr)
171.13M TPS (GPU)
72.11M TPS (CPU)

Case 1-2
CPU: HT on (24 thread)
OS: WinXP SP2 64bit
30minAv: 247.84M TPS
Others:
247.50M TPS (curr)
171.13M TPS (GPU)
76.72M TPS (CPU)


328:名無しさん@お腹いっぱい。
12/11/03 01:50:13.99 nhwVplaB0
次は7です。
Case 2-1
CPU: HT off (12 thread)
OS: Win7 SP1 64bit
30minAv: 241.77M TPS
Others:
241.44M TPS (curr)
169.01M TPS (GPU)
72.43M TPS (CPU)

Case 2-2
CPU: HT on (24 thread)
OS: Win7 SP1 64bit
30minAv: 246.28M TPS
Others:
246.97M TPS (curr)
170.87M TPS (GPU)
76.10M TPS (CPU)

329:前スレ927
12/11/03 02:01:41.49 nhwVplaB0
連投済みません。
XPから7にしても性能変わらんねぇ。(´・ω・`)
HT on/offでも大して変わらんねぇ。(´・ω・`)

GTX590を追加しようとしたのですが、電源容量が足りないことが判明。
GPU用に8ピンx2を用意する上手い方法は無いでしょうか?
ATX電源だと確かスイッチ入れないと出力されなかったような気が・・・

330:ののたん ◆KiwamonoL.
12/11/03 02:51:49.87 ZeqW5mDD0
>>329
つ「URLリンク(www.freedom-pc.com)
一台目の電源ユニットに連動するやつも見たことあるけど。

だがしかし、おすすめはしない。いろんな意味で【危険】だから。
素直に電源ユニットをいいやつに交換したほうが。

331: ◆MERIKEN4.k
12/11/03 02:53:51.82 0Ur2Ic2+0
>>329
HTを有効にしても速度が上がらないのはかなり意外ですねえ。
Core i7-3770KではHTはかなり有効だったので…
電源は入れ替えたほうが早いような気もしますけど、
一応別に用意することもできます。
URLリンク(www.google.com)

332: ◆MERIKEN4.k
12/11/03 03:10:23.14 0Ur2Ic2+0
>>323
hikou.exeは多少効果がありましたけど、それでもGPU使用率は70%ほどでした。
GPU検索スレッドを増やす方向で行きたいと思います。

333:名無しさん@お腹いっぱい。
12/11/03 03:50:36.64 BiGdIpnm0
一瞬、複数の電源系統を使って、1台での最速を目指すのかと思ってしまいましたw

>>311
こういった情報はありがたいですね。


334:名無しさん@お腹いっぱい。
12/11/03 03:55:42.16 BiGdIpnm0
>>317 >>319
Intelの方はグラフィック特化で、とりあえずOpenCLに対応はさせたということなのでしょうかね。
AMD APUの方は上位だと3桁行きそうな感じですね。

335:名無しさん@お腹いっぱい。
12/11/03 07:52:02.05 CKknzRPb0
>>329
今から追加するならラデのほうが速くて良くね?
openCL版もそろそろ公開されそうだし
今更性能の悪いCUDAカード追加するのはクレバーとは言えないよ
暖房に使うならありかもしれないけどねwww

336: ◆MERIKEN4.k
12/11/03 09:17:27.77 0Ur2Ic2+0
>>335
ん? OpenCL版は公開するなって? そうかそうかw

…という冗談は置いといて、正直GCNアーキテクチャのRadeonで
どれぐらいの性能が出るかは全くの未知数です。あとTripcode Finderの
Radeon対応版の公開はもうちょっと先になるでしょう。10桁検索の
実装はこれからだし、この先実生活のほうでかなり忙しくなるので
ひょっとしたら1月中旬までずれ込むかもしれません。まあ気長に
待ってて下さい。

337: ◆MERIKEN4.k
12/11/03 09:19:54.73 0Ur2Ic2+0
>>334
IntelのはなぜハイエンドのCPUに統合したのか理解に苦しむレベルです。
AMDのAPUだったら3桁は余裕でしょう。

338: ◆MERIKEN4.k
12/11/03 09:26:59.16 0Ur2Ic2+0
>>333
この資料のお陰で他の資料を読まずに済みましたw
あとで一応AMDの最適化のマニュアルには目を通しておきますけど…

339:名無しさん@お腹いっぱい。
12/11/03 16:58:25.33 JFLtV7Ft0
コマンドライン上から1枚目のカードを検索の動作から外すのはどう指定すればいいのでしょうか。

340: ◆MERIKEN4.k
12/11/03 17:08:51.68 0Ur2Ic2+0
>>339
今のところカードは1枚指定するか全部指定するかどちらかしか出来ないので、
CUI版を複数同時に起動する必要があります。
任意の複数のGPUを指定する機能は今後の課題として検討させて頂きます。

341: ◆MERIKEN4.k
12/11/03 21:47:33.80 0Ur2Ic2+0
あれからOpenCL検索の最適化をすすめて、HD 5770で390M TPS出るようになりました。
とはいってもglobal_item_sizeとlocal_item_sizeの値をいろいろと
変えてみただけですが… これらの値の自動設定は無理そうなので、
GPUの種類を判別してあらかじめ決められた値を使うようにしておきました。
あとIntelのもちょこっと上がって3.7M TPSになりましたw

342:名無しさん@お腹いっぱい。
12/11/03 21:54:41.47 nALhqe3q0
ゲフォを捨てる日も近いな

343:名無しさん@お腹いっぱい。
12/11/04 00:42:16.84 UfxuJC360
Amazon Cluster GPU Instances($2.6/h)でやってみた
URLリンク(img11.imageshack.us)

344:名無しさん@お腹いっぱい。
12/11/04 00:49:29.80 kuWvI2yC0
>>341
>GPUの種類を判別してあらかじめ決められた値を
性能別にざっくり分ける感じですか?

345: ◆MERIKEN4.k
12/11/04 01:17:42.41 00/F8mIE0
>>343
FermiベースのTesla C2075が2枚刺さってますね。
Amazon Web ServicesでCUDAが使えるとは知りませんでした。
2週間回し続けたらGTX 590が買えるお値段になっちゃうけど、
なかなか面白いですねえ。ネットワーク分散処理に対応したら
これで記録を立ててみようかなw

346: ◆MERIKEN4.k
12/11/04 01:29:24.24 00/F8mIE0
>>344
global_item_sizeとlocal_item_sizeはオプションで指定できるように
するつもりです。最初はGPUのアーキテクチャ毎にデフォルトの値を
設定しておいて、データが集まったらカード毎に値を変えるようにする予定です。

347:名無しさん@お腹いっぱい。
12/11/04 01:57:32.32 kuWvI2yC0
>>346
なるほど……

348: ◆MERIKEN4.k
12/11/04 03:30:45.58 00/F8mIE0
AMDのOpenCLのマニュアルをちょこっと読んだんですけど、
ベクターレジスタがこれでもかというぐらいあって思わず笑ってしまいましたw

AMD Accelerated Parallel Processing OpenCL Programming Guide
URLリンク(developer.amd.com)

これによると5970は5770の3.41倍の速度が出るそうで、単純計算だと
391M TPS * 3.41 = 1333M TPS出ることになりますけど、本当なんでしょうか…

349: ◆MERIKEN4.k
12/11/04 03:53:31.57 00/F8mIE0
あ、5970はdual-GPUなんですね。あ~びっくりしたw
しかしお値段を考えるとかなりお得で夢が広がります。
年末に日本に帰省してるあいだは開発はできなくなるので、
なんとかそれまでにRadeon対応版を仕上げたいです。

350:前スレ927
12/11/04 08:23:26.67 wspvDmvD0
いろいろ情報ありがとうございます。
訳有って電源を変えることもCUDAを捨てることもできないのです。
電源を変えたいのは山々なんですが。

>>330 >>331
複数電源やってる人多いんですね。確かにいろいろな意味で危険だ。
でもこれしか今のところ手が無いので、この方法で行ってみます。

NehalemからSandy BridgeになったところでCPUコアに大幅に手が入っているから、HTの効果がより大きくなったのではないでしょうか? 詳しいことは全然知りませんが。

余った電源を探しに押入れを漁ったのですが見つからず。代わりに大昔のGTX480が出てきました。
見なかったことにするか・・・。

351: ◆MERIKEN4.k
12/11/04 09:47:14.72 00/F8mIE0
>>350
> 代わりに大昔のGTX480が出てきました。

いらないのでしたらテスト用に欲しいのでぜひ譲って下さいw

352: ◆MERIKEN4.k
12/11/04 09:56:21.45 00/F8mIE0
>>313>>316のエラーですが、結局巨大なキービットマップが__constantの
メモリ空間に収まらなかったということみたいです。まあ当然ですよねw
で、代わりにかなり小さめのキービットマップを用意してやったら、
なんと407M TPSまで速度が上がりましたw これ、CUDAのでも使えるんじゃない
かしらん。

353:名無しさん@お腹いっぱい。
12/11/04 10:00:03.60 3mBasjXYP
SHA256ハッシュだとこんな感じの速度になるらしい

URLリンク(en.bitcoin.it)

354: ◆MERIKEN4.k
12/11/04 10:28:15.44 00/F8mIE0
やっぱりSHA-1よりは大分数字が落ちますねえ。
ここらへんの数字はなかなか面白いです。

> 5970 $421 Limited 704
> 6990 $622.99 Limited 772
> 7970 $420 Easy 685

トリップ検索が目的なら安い5970を中古で買ったほうが
いいのかもしれません。

355: ◆MERIKEN4.k
12/11/04 10:49:10.65 00/F8mIE0
小さめのキービットマップを追加するついでにコードを大分整理しました。
もう十分速度は出ているので、最適化は適当に切り上げて
OpenCLの12桁検索だけ先に仕上げてしまうことにします。

356: ◆MERIKEN4.k
12/11/05 06:52:49.50 fpizldxB0
前方一致以外の正規表現の検索への対応も終わって、
CUI版のOpenCLでの12桁検索対応の作業はほぼ終了しました。
あとはglobal_work_sizeとlocal_work_sizeをオプションで
出来るようにして、GUI版を修正するだけです。
本当は10桁検索にも対応させてから公開する予定だったけど、
こっちは難物で最適化に時間がかかりそうなので後回しにします。

あ、あとIntelのコンパイラは新しいOpenCLのカーネルをコンパイル
できませんでしたw clGetProgramBuildInfoであっち側に行ったきり
帰って来ません。まあカーネルがマクロ使いまくりでちょっと
複雑なのは事実なんですが、どうせIntelのドライバのバグだろうし
HD 4000ちゃんは全く性能の出ないアホの子だということが
わかってしまったので、このままにしておきます。

357:名無しさん@お腹いっぱい。
12/11/05 07:03:38.38 U1XO/30v0
>>356
峠は越えましたね乙です
公開を楽しみにしております

358: ◆MERIKEN4.k
12/11/05 12:19:08.63 fpizldxB0
>>357
どもども。あとちょっとなので頑張ります。CUI版の作業は一応全部終わりました。
あとはGUI版だけです。

359: ◆MERIKEN4.k
12/11/05 12:20:14.73 fpizldxB0
その前にバージョン0.06の正式版をうpしなきゃ… すっかり忘れてた。

360: ◆MERIKEN4.k
12/11/05 13:29:17.33 fpizldxB0
バージョン0.06の安定版です。

MERIKEN's Tripcode Finder 0.06
URLリンク(www.meriken2ch.com)

機能的にはBeta 1と変わりません。バージョン0.05の安定版からの変更点は
以下になります。

・64bit版の追加。
・CPU検索の速度向上。

361:名無しさん@お腹いっぱい。
12/11/05 16:10:33.81 XSg5TiK+0
>>360
早速テストしてみましたよー(検索ワードは「^TEST/」)

環境:ASUS K55VD(Corei5-3210M+GeForce610M,64bitWin7)
10桁結果:
     GPUのみ   GPUとCPU       CPUのみ
6.0β   2.92     7.00(3.0/4.0)    5.26
6.0    3.07     7.00(3.1/4.0)    5.25
12桁結果:
     GPUのみ GPUとCPU    CPUのみ
6.0β   43.02    53.54(42.8/10.8) 14.47
6.0    43.02    55.72(44.9/10.8) 14.50
(単位はM tripcode/s)

ところで、「検索の最適化中...」ってどんなことをしているんですか?
このテストの際も、その表示が消えるのを待ってやった方が良かったのか迷いました……

362: ◆MERIKEN4.k
12/11/05 16:46:55.43 fpizldxB0
>>361
詳しい報告、ありがとうございます。検索の最適化では「詳細設定」の
「1SMあたりのブロック数」の自動設定をしています。この報告でもCPU検索の
正確な速度とGPU検索のおよその速度は分かりますが、GPU検索の正確な速度を
測定したい場合は手動でブロック数を設定する必要があります。
この場合CUI版を使えば最適なブロック数の目安を知ることができます。

363: ◆MERIKEN4.k
12/11/05 16:47:10.20 fpizldxB0
安定版をビルドしたついでに一気にGUI版の作業も終わらせました。
これでちゃんとOpenCLでの12桁検索ができるようになりました。
機能的にもCUDA版に遜色ないはずです。というか全く普通に検索できているので
シュールに感じるぐらいですw しばらく手元で色々試してから、問題なければ
2、3日中に次の開発版として公開する予定です。

364:名無しさん@お腹いっぱい。
12/11/05 17:01:06.40 wg8KNqxN0
みんながゲフォを捨てる日も近いな

365: ◆999984973989
12/11/05 19:14:24.79 Igv9XM2P0
>>360
お疲れ様です。

CUDA DEVICE
===========
CUDA Device Count: 1
Device No.: 0
Device Name: GeForce GTX 460
Multiprocessor Count: 7
Clock Rate: 1400MHz
Compute Capability: 2.1
CPU
===
Number of Processors: 8
Number of Search Threads: 7
TARGET(S)
=========
0: "trip/"
Performing a forward-matching search for 1 pattern (1 chunk)
with 5 characters on CPU and GPU(s):
CUDA0: 278.7M TPS, 96 blocks/SM

0.150T tripcodes were generated in 0d 0h 9m 08s at:
302.83M tripcodes/s (current)
GPU: 281.89M tripcodes/s
CPU: 20.94M tripcodes/s
272.94M tripcodes/s (average)
On average, it takes 2.7 seconds to find one match at this speed.

123 matches found at 807.78 matches/h and 1.22G tripcodes/match.
The actual matching probability is 3% lower than expected.
9% of matching tripcodes were invalid.

366:名無しさん@お腹いっぱい。
12/11/06 00:44:34.13 5vgBlR+s0
アホの子(笑)Intel HD4000 の計算する姿が見れると聞き、3770 マザーボードを
設定変更して HD4000 Graphics を有効にし、これまで Radeon HD5770 につないで
いた2台のディスプレイのうちサブのほうを 3770 マザーボードのオンボードグラ
フィックに接続して使っています。 2~3日後の開発版の公開が楽しみです。

HD5770 について、これまで非シバキ時の GPU CLOCK が 400MHz を下回るのを見た
ことがなかったのですが、今回デュアル接続をやめたら 157MHz まで下がるように
なり、非シバキ時の GPU 温度も10℃近く下がりました。これはうれしい。


367:名無しさん@お腹いっぱい。
12/11/06 01:17:04.58 TazUQgso0
>>354
プロセスルール的に消費電力が気になりましたが、HD 5970は300W弱で8ピン+6ピンだったのですね。
VLIWや制御ユニットの集中などのアーキテクチャの違いでピーク時のワットパフォーマンスは良いのでしょうかね。

そろそろグラボの補助電源で6ピンx2はやめて8ピンx1にならないのでしょうかね・・・
6+2ピンの電源ユニットも増えていますし、6ピンx2を8ピンx1に変換するケーブルとかもありますし。

>>360 >>363
乙です。OpenCL版が楽しみです。

368: ◆MERIKEN4.k
12/11/06 02:02:47.13 MxK7yrlF0
>>366
残念ながらIntelのドライバのバグが直るまでHD 4000では動きませんです。
エラーでプログラム自体が落ちるのでもとに戻しておいたほうが良いかもしれません。
5770だけでも十分に幸せになれますしね。昨日OCして速度を測ってみたら
7完1タゲで452M TPS出てました。

369: ◆MERIKEN4.k
12/11/06 02:18:41.18 MxK7yrlF0
>>367
ワッパ的には5970はかなり美味しいでしょうね。5770もOCさせても
せいぜい60℃ぐらいまでしか上がらないのでやっぱりアーキテクチャの違いなんでしょう。
Fermiとはエラい違いですw 補助電源のコードの取り回しも普通のケースだと
結構面倒くさいですよね。うちの検索君1号(仮)の電源からはPCI-Eの補助電源用の
ケーブルが6本にょきにょきと伸びていますw

370: ◆MERIKEN4.k
12/11/06 05:17:20.34 MxK7yrlF0
8970の出荷が思ったより遅くなりそうなので、さきほど7970を注文してしまいました。

AMDの新「Venus」コアは2013年3月のRadeon HD 8970から?
URLリンク(ascii.jp)

OpenCLの10桁検索の作業を進めるにあたって、GCNアーキテクチャでの性能を
確認しておきたいというのが大きいですが、いくらなんでも散財し過ぎなので、
これで当分の間グラボを買うことはないでしょう。

371: ◆MERIKEN4.k
12/11/06 09:14:36.69 MxK7yrlF0
意味不明なエラーが出て終了するのも何なので、Intel HD Graphicsシリーズは
最初に弾くようにしておきました。将来のドライバ更新に期待といったところです。
もう修正したいところは全部修正したので、これから配布パッケージを用意して
開発版を公開することにします。

372: ◆MERIKEN4.k
12/11/06 10:02:36.31 MxK7yrlF0
というわけでRadeonに対応した開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 1
URLリンク(www.meriken2ch.com)

変更点は以下になります。

・AMD Radeonシリーズ等のOpenCL対応デバイスでの12桁トリップ検索への対応。

相変わらず出来立てほやほやの人柱専用です。

373: ◆MERIKEN4.k
12/11/06 10:09:06.68 MxK7yrlF0
動作報告をしていただける方にはこちらのテンプレを使っていただけると
大変助かります。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】
【1WGあたりのワークアイテムの数】
【その他のオプション】
【Display Driver】
【10分間の平均速度】
【その他】

374: ◆MERIKEN4.k
12/11/06 10:37:40.94 MxK7yrlF0
自分の環境ではこんな感じで動いています。
オプションが紛らわしいので「検索デバイス」と「CPUの命令セット」の
項目を追加しておきました。

【GPU】Sapphire Radeon HD 5770 (OC: 960MHz)
【CPU】Intel Core i7-3770K (OC: 4300MHz)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【検索デバイス】GPUとCPU
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【CPUの命令セット】x64 + SSE2
【その他のオプション】
【Display Driver】Catalyst 12.9
【10分間の平均速度】488.51M tripcodes/s
【その他】7完1タゲ。CPU検索の速度は約39.4M tripcodes/s。

375: ◆MERIKEN4.k
12/11/06 12:12:14.01 MxK7yrlF0
普段使っている正規表現の検索パターンをRadeonで回してみましたが
ちゃんと動いているようです。しばらくこれで放っておいて、きちんと
動作するかどうか確認することにします。

これで12桁トリップ検索を常時3G TPSで回せる環境が整ったわけですが、
自分の部屋の電力使用量が常に1500W前後と、とんでもないことに
なっています。7970をもう1枚追加したら本当にギリギリです。

しかし2台で同時に検索しているとやはりネットワーク機能が欲しく
なりますねえ。まあこれは当分先の話ですね。

376: ◆MERIKEN4.k
12/11/06 13:47:22.39 MxK7yrlF0
しかしこれ、CPU検索とGPU検索の平均が別々にわからないのは
結構大きな欠陥ですねえ。なんで今まで気づかなかったんだろう…

377: ◆MERIKEN4.k
12/11/06 13:50:33.66 MxK7yrlF0
間違えた。これ、明日直しておこうっと。

☓平均が別々にわからないのは
○平均速度が別々にわからないのは

378:名無しさん@お腹いっぱい。
12/11/06 14:11:46.66 ZJO9ySv90
【GPU】Radeon HD 6970(880MHz)
【CPU】Intel Core i7-2600(3.40GHz)
【OS】Windows 8 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.10
【6分間の平均速度】 832M tripcodes/s
【その他】12完1タゲ。最初Catalystをインストールしてないことに気づかず回していたら 250M tripcodes/sくらいでした

非常に早くて驚きました。これは素晴らしいです

379:ののたん ◆KiwamonoL.
12/11/06 14:23:33.61 I3Z78Ya30 BE:355547063-DIA(289888)
【GPU】N/A
【CPU】i7-2600
【OS】WIndows 7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】なし
【Display Driver】N/A
【10分間の平均速度】19M
【その他】タゲは TEST// のみで 10 分ではヒット無し

同条件で hip2 だと 52M ぐらいで 2 個ヒット。
てか、CPU が 100% にはりつきっぱなのをみると、使い切ってるというよりも競合とかで無駄が出てるのでは?
hip2 だとだいたい 95% 前後をふらつく。

380: ◆MERIKEN4.k
12/11/06 14:57:58.35 MxK7yrlF0
>>378
いきなり凄いのが来ましたねえ! GPUだけで800M TPS前後出ている計算になりますね。
全く素晴らしいとしか言いようが無い数字です。

381:名無しさん@お腹いっぱい。
12/11/06 15:07:24.85 xNUnDM0r0
【GPU】 Radeon HD 7970 (925MHz)
【CPU】 Intel Xeon E5645 (2.4GHz)
【OS】 Windows 7 x64 SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】 512
【1WGあたりのワークアイテムの数】 64
【その他のオプション】
【Display Driver】 Catalyst 12.10
【10分間の平均速度】 1175.36M tripcodes/s
【その他】GPUのみ

382: ◆MERIKEN4.k
12/11/06 15:07:42.96 MxK7yrlF0
>>379
う~ん、うちのi7-3770Kでは1タゲで43M TPS出ているのでi7-2600で
その数字は低すぎですねえ。Intelの開発者が書いたコードを使っておいたほうが
無難だったかな… CPU検索の高速化にはまた後で挑戦し直す予定です。
あ、あとよかったらぜひhip2を公開して下さいw

383: ◆MERIKEN4.k
12/11/06 15:14:09.49 MxK7yrlF0
>>381
( д) ゚ ゚

384: ◆MERIKEN4.k
12/11/06 15:30:44.15 MxK7yrlF0
あ~、びっくりしたw しかし気になっていたNorthern Islandsと
Southern Islandsでちゃんと性能が出ているようで安心しました。
>>378さんと>>381さん、どうもありがとうございました。

385:名無しさん@お腹いっぱい。
12/11/06 15:33:25.72 xNUnDM0r0
>>383

GPUが少し暇そうにしている(使用率80%弱ぐらいで推移)のですが、
これ使用率上げられたらもう少し早くなるんですかねえ。

386: ◆MERIKEN4.k
12/11/06 15:39:25.06 MxK7yrlF0
>>385
あ、それは間違い無く速くなります。
次の開発版では検索スレッドをもう一つ増やしておきます。
テンプレにも「GPU使用率」の項目を追加しておいたほうがいいのかな。
しかし物凄い性能ですねえ。

387:名無しさん@お腹いっぱい。
12/11/06 15:55:22.84 Ppsoxtpd0
さようならゲフォ

388:名無しさん@お腹いっぱい。
12/11/06 16:25:42.06 gwnx7VAP0
【GPU】Radeon HD 5870(850MHz)
【CPU】Corei7 2600K(4.6GHz)
【OS】Windows 8 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【その他のオプション】GPUのみ
【Display Driver】Catalyst 12.11beta
【10分間の平均速度】436.79M tripcodes/s
【その他】タゲはTEST/

ほとんどの場面でGPU使用率が50%まで行かないです。
42~49%あたりをふらふらしてる感じたまーに50%超えてるときは
現在の速度が500M tripcodes/s前後まで行ってます

389:ののたん ◆KiwamonoL.
12/11/06 17:36:01.43 I3Z78Ya30
>>382
盛ってると思うよな、やっぱり。
自分でもそう思うぜ。www

URLリンク(ra8.s31.xrea.com)
に仮置きしてみた。てーすとってのがそうだ。

i7 用ってか SSE4.2 仕様の 64bit 版。
CPU 以外では動かないようにいろいろ細工してある。

全数字は勝手に探す仕様だ。
実際に表示の速度が出てるか確認用に入れてた。
-N2 オプションあたりが最速じゃないかな、多分。

なんかの参考にでも。って、ソース非公開だが。www
まあ開発途中で投げたやつなのでいろいろアレだが気にスンナ。www

390: ◆999984973989
12/11/06 17:58:07.86 osy8A/YB0
【GPU】N/A
【CPU】i7-860 2,8GHz
【OS】WIndows 7 32bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】なし
【Display Driver】N/A
【10分間の平均速度】23.8M
【その他】タゲは TEST// のみで 10 分ではヒット無し
CPU
===
Number of Logical Cores: 8
Number of Search Threads: 8
TARGET(S)
=========
0: "TEST//"
TRIPCODES
=========

STATUS
======
Performing a forward-matching search for 1 pattern (1 chunk)
with 6 characters on CPU.

0.015T tripcodes were generated in 0d 0h 10m 10s at:
23.78M tripcodes/s (current)
23.77M tripcodes/s (average)
On average, it takes 33.0 minutes to find one match at this speed.

No matches were found yet.

391:名無しさん@お腹いっぱい。
12/11/06 19:55:11.07 +lFrJltU0
GPU】HD7970 CFX 2GPUs @1150MHz
【CPU】FX8350 @5GHz
【OS】Win7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】default
【1WGあたりのワークアイテムの数】default
【その他のオプション】-g -c -t8
【Display Driver】Catalyst 12.10
【8分間の平均速度】1015.07M
【その他】12完1タゲ

待て屋。爆速版でもしばしば起きていましたがGPUが全力出してないみたいです

URLリンク(www.rupan.net)

392:名無しさん@お腹いっぱい。
12/11/06 19:56:50.52 +lFrJltU0
あ、平均間違った

393:名無しさん@お腹いっぱい。
12/11/06 23:56:31.04 cZ1d8VQd0
こういうのってどうなんでしょうね
URLリンク(techon.nikkeibp.co.jp)

394:名無しさん@お腹いっぱい。
12/11/07 00:17:27.55 TO2+iqd80
メリケンさんに聞きたいのですが、
「1SMあたりのブロック数」をいろいろ弄って最速の設定はどれかを試していたら、
「上げれば上げるほど速い」という謎の結論に達しました……(ちなみにノーパソのGeForce)
目一杯上げてもハードに悪影響を与えたりしませんよね?

395:名無しさん@お腹いっぱい。
12/11/07 00:20:11.33 DRUtyFmt0
ラデ+HD4000環境で起動するとMERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.って言われちゃうんだが……
とりあえずドライバ更新とOpenCL再インスコしたが駄目だった

396:395
12/11/07 00:35:24.34 DRUtyFmt0
.NETの修復をしてWindowsUpdateして再起動したらなんか悪化した
OPENCL FUNCTION FALL FAILED: CL_DEVICE_NOT_FOUND (file 'Source Files\MTF_CUI_Main.cpp', line 676)

397:名無しさん@お腹いっぱい。
12/11/07 00:36:16.17 LUmvVcmd0
URLリンク(i.imgur.com)
ドライバ更新しないで起動したら量子コンピュータもびっくりでワロタ

398:名無しさん@お腹いっぱい。
12/11/07 00:51:49.53 TO2+iqd80
>>397
averageで9完が2.4分で終わるレベルwwww

399:ののたん ◆KiwamonoL.
12/11/07 01:02:29.81 XRqsjajg0
>>395
この段階なら、絶対パスで起動すれば動いただろうな。

400: ◆MERIKEN4.k
12/11/07 03:49:42.41 +2zE6v+s0
>>396
ドライバ入れ直したほうがいいですね。>>395のはOpenCLのソースコードが
実行時に見つからないときに表示されるエラーですが…

401: ◆MERIKEN4.k
12/11/07 03:51:58.38 +2zE6v+s0
>>394
気になるのでしたらSpeedFanとかMSI AfterburnerとかでGPUの温度を
確認するのがいいと思います。

402: ◆MERIKEN4.k
12/11/07 03:53:40.49 +2zE6v+s0
>>393
こりゃおもしろそうですね。やることなくなったらハードウェアハックにも手を
出してみようかなw

403: ◆MERIKEN4.k
12/11/07 03:58:19.17 +2zE6v+s0
>>390
>>391
やっぱり検索スレッドの数を増やしたほうがいいんでしょうねえ。
たくさん盛るのは簡単なんですけど、オーバーヘッドが心配なので
いま調べているところです。

404: ◆MERIKEN4.k
12/11/07 04:01:13.80 +2zE6v+s0
>>390
ありがとうございます。CPUだけのデータもまとめておいたほうがいいのかな…

405: ◆MERIKEN4.k
12/11/07 04:04:03.93 +2zE6v+s0
>>389
盛っているというか、Tripcode Finderの数字が低すぎなのが気になります。
hip2は次にCPU検索の最適化の作業をするときに参考にさせて頂きます。
他に比較対象がないので助かります。

406: ◆MERIKEN4.k
12/11/07 04:54:08.65 +2zE6v+s0
あ、間違えてる。>>403>>388さんと>>391さん宛でした。

407: ◆MERIKEN4.k
12/11/07 05:38:47.96 +2zE6v+s0
開発版を修正しました。

MERIKEN's Tripcode Finder 0.07 Alpha 2
URLリンク(www.meriken2ch.com)

Alpha 1からの変更点は以下になります。

・AMDのGPUでGPU使用率が低くなる問題を修正。
・GPUとCPUの平均速度の表示。

とりあえず1つのAMDのGPUあたりの検索スレッドの数は4に決め打ちに
しておきました。

408: ◆MERIKEN4.k
12/11/07 05:42:48.47 +2zE6v+s0
こちらは新しい報告用のテンプレです。ぜひよろしくお願いします。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】
【1WGあたりのワークアイテムの数】
【その他のオプション】
【Display Driver】
【10分間の平均速度】tripcodes/s
【GPUの平均速度】tripcodes/s
【CPUの平均速度】tripcodes/s
【その他】

409: ◆MERIKEN4.k
12/11/07 05:59:21.00 +2zE6v+s0
「GPU使用率」を付け足すのを忘れてたorz
動作報告はこちらのテンプレでお願いします。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】
【1WGあたりのワークアイテムの数】
【その他のオプション】
【Display Driver】
【10分間の平均速度】tripcodes/s
【GPUの平均速度】tripcodes/s
【CPUの平均速度】tripcodes/s
【GPU使用率】
【その他】

410: ◆MERIKEN4.k
12/11/07 06:02:57.05 +2zE6v+s0
>>391
よくみたら、これGPU使用率が35%しかないですねえ。
検索スレッドが1GPUあたり4個だとたりないかもしれません。
足りないようだったら次の開発版でオプションで検索スレッドの数を
変えられるようにしておきます。

411: ◆supernova.rT
12/11/07 06:57:03.71 4Ex6pXTl0
【GPU】GeForce GTX 570 / Radeon HD 5870
【CPU】Core i7-2600K
【OS】Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2 (CUI64)
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.11 beta
【10分間の平均速度】1216.38M tripcodes/s
【GPU使用率】GeForce 96%, Radeon 未計測
【その他】8完1タゲ、GPU検索のみ


CUDA DEVICE
===========
Device No.: 0
Device Name: GeForce GTX 570
Multiprocessor Count: 15
Clock Rate: 1464MHz
Compute Capability: 2.0

OPENCL DEVICE
=============
Vendor: Advanced Micro Devices, Inc.
Name: Cypress
Number of Compute Units: 20
Clock Frequency: 875MHz
Global Memory Size: 1024M bytes
Max. Work Group Size: 256
Version: OpenCL 1.2 AMD-APP (1084.2)
Driver Version: 1084.2 (VM)

412: ◆supernova.rT
12/11/07 06:57:43.67 4Ex6pXTl0
STATUS
======
Performing a forward-matching search for 1 pattern (1 chunk)
with 8 characters on GPU(s):
CUDA0: 565.0M TPS, 192 blocks/SM
OpenCL0-0: 139.0M TPS, 5120 work-groups/CU, 64 work-items/WG
OpenCL0-1: 176.8M TPS, 5120 work-groups/CU, 64 work-items/WG
OpenCL0-2: 175.5M TPS, 5120 work-groups/CU, 64 work-items/WG
OpenCL0-3: 175.6M TPS, 5120 work-groups/CU, 64 work-items/WG

0.740T tripcodes were generated in 0d 0h 10m 08s at:
1219.88M tripcodes/s (current)
1216.38M tripcodes/s (average)


連投失礼しました。
変則構成のせいかもしれませんが、どうにも挙動が怪しい気がします。
これらは実行ファイルのダブルクリックによる直接起動の結果です。
コマンドラインからオプション無しで起動した場合は、以下のエラーが発生しCUDA検索のみ有効となります。

TRIPCODES
=========
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.

413: ◆MERIKEN4.k
12/11/07 07:34:53.53 +2zE6v+s0
>>411
5870だったらもうちょっと速度が出てもいいはずですね。
GPU使用率が100% 近いなら、-yオプションでワークグループの数を調整したほうが
いいのかもしれません。
コマンドラインでエラーが出るのはOpenCLのソースが読み込めていないだけなので、
GTX 570とは関係ないはずです。ちょっと調べてみます。

414: ◆MERIKEN4.k
12/11/07 07:40:07.03 +2zE6v+s0
コマンドラインから起動してエラーが出たのはOpenCLのソースへのパスが
きちんと取得できていないだけでした。なんという凡ミス…
argv[0]でフルパスが取得できないとなるとどのAPIを使えばいいんだろう。

415: ◆MERIKEN4.k
12/11/07 07:47:40.66 +2zE6v+s0
>>412
_fullpath()を使ったらエラーは出なくなりました。
次の開発版ではちゃんとコマンドラインから起動できるようになるはずです。

416: ◆supernova.rT
12/11/07 07:58:44.95 4Ex6pXTl0
>>415
どうもです。次の開発版で-yオプションを試したいと思います。
ついでに補足ですが、GeForceのドライバは310.33 BETAでした。

417:394
12/11/07 08:11:24.58 TO2+iqd80
>>401
調べてみたのですがこんな感じです。
URLリンク(uploda.cc)
よく分かりませんが、負荷が掛かり過ぎると自動検知して時々休んだりするんですかね?
(なお速度は50M弱で安定している模様)

ついでに一つ。自動設定で走らせた場合に、
検索停止後にそのパラメータを「詳細設定」タブに反映して欲しい……
毎回検索の最適化されるのは辛いですので

418: ◆MERIKEN4.k
12/11/07 08:25:54.89 +2zE6v+s0
>>417
最適なパラメータは検索の条件によって変わってくるので
「詳細設定」タブに反映させるのは難しいのです。
あらかじめ値がわかっているならその値を指定しておけば
最適化は行われません。

419: ◆MERIKEN4.k
12/11/07 08:27:48.12 +2zE6v+s0
>>417
あ、あとこの温度だったら全然問題無いです。

420: ◆MERIKEN4.k
12/11/07 08:29:58.28 +2zE6v+s0
>>416
次の開発版では検索スレッドの数も変えられるようになっているので、
そちらのほうも是非試してみて下さい。

421: ◆supernova.rT
12/11/07 08:53:06.82 4Ex6pXTl0
>>420
-yと-zですね。5870に最適の数値が見つかりましたら報告致します。

422:ののたん ◆KiwamonoL.
12/11/07 12:07:48.18 XRqsjajg0
【GPU】N/A
【CPU】i7-2600
【OS】WIndows 7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】なし
【Display Driver】N/A
【5分間の平均速度】26M
【その他】タゲは TEST// のみで 5 分ではヒット無し

同条件で hip2 だと 74M ぐらいで同じくヒット無し。

>>379 と CPU とかは同じだが、別個体なので SDK のバージョンとかが違うかも。
なんかしらんが、>>379 の個体は遅いな。w

あとものすごくどうでもいい情報だが、Radeon HD 4000 番台では動かんな。

423:381
12/11/07 13:21:31.88 H54C/50b0
うーん。Alpha 2 だとパフォーマンスあまり出ないなあ。むしろ下がっている。
代わりに、OCしてAlpha 1で計測したものを。

【GPU】 Radeon HD 7970 (OC:1125MHz)
【CPU】 Intel Xeon E5645 (2.4GHz)
【OS】 Windows 7 x64 SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】 512
【1WGあたりのワークアイテムの数】 64
【その他のオプション】
【Display Driver】 Catalyst 12.10
【10分間の平均速度】 1230.65M tripcodes/s
【その他】GPUのみ

424: ◆MERIKEN4.k
12/11/07 15:39:45.37 +2zE6v+s0
>>423
結構OC耐性がありますねえ。あと検索スレッドの数を無闇に増やせばいいという
ものでもないみたいですね。自分の環境ではワークグループの数を半分に
したらGPU使用率が98~99%で安定するようになりました。次の開発版では
デフォルトの値を調整しておきます。

【GPU】Sapphire Radeon HD 5770 (OC: 960MHz)
【CPU】Intel Core i7-3770K (OC: 4300MHz)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】2560
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.9
【10分間の平均速度】486.23 tripcodes/s
【GPUの平均速度】454.71 tripcodes/s
【CPUの平均速度】31.52 tripcodes/s
【GPU使用率】98~99%
【その他】7完1タゲ。

425: ◆MERIKEN4.k
12/11/07 15:43:12.49 +2zE6v+s0
>>422
う~ん、それは全く謎ですね。>>389のリンクは切れていてダウンロード
できませんでした。

426: ◆MERIKEN4.k
12/11/07 15:55:32.36 +2zE6v+s0
あしたあたりに7970が届くはずなので、それでいろいろ実験して
デフォルトのパラメータを調整してから次の開発版をうpします。

427:395
12/11/07 16:00:26.76 DRUtyFmt0
若干スレチですが・・・
12-10をアンインストールしてから再インストールしても駄目でした。
12-8、12-6、12-4も試しましたが駄目でした。

AMD APP SDKで改善することはありえますか?

428:395
12/11/07 16:17:06.99 DRUtyFmt0
ちなみにBOINCのGPGPU(WCGのHCC)や待て屋GPU版はこの状態でも動作します。

429: ◆MERIKEN4.k
12/11/07 16:28:57.68 +2zE6v+s0
>>427
GUI版は起動できますか? コマンドラインから起動できないバグかもしれません。

430:395
12/11/07 16:31:45.44 DRUtyFmt0
>>429
GUI版では使用出来るGPUが見つかりませんでしたと出ます。

431: ◆MERIKEN4.k
12/11/07 16:36:59.52 +2zE6v+s0
それは謎ですねえ。AMD APP SDKで改善するかもしれませんけど…

432:ののたん ◆KiwamonoL.
12/11/07 16:48:29.13 XRqsjajg0
>>425
>>405 の時点で落としたものと思って消したわ。w
復活させたが、あんなもんをずっと置いとく気は無いので落としたら言ってくれ。

>>430
今コレを書いてるPCでも同じことになったんだが、CCC 12-6 入れて SDK v2.7 入れたら直ったぜ。
どっかの WindowsUpdate でなんかやられたのかもしれん。
12-6 なのは、4000 番台だからだ。このバージョンがいいとかいうわけではない。

433: ◆MERIKEN4.k
12/11/07 16:56:10.78 +2zE6v+s0
>>432
あ、そうですか。今落としたのでもう消していただいて大丈夫です。
それにしても、うちのi7-3770Kで95M TPS出てますけど、これは一体どういう
仕組みなんでしょうか…

434: ◆MERIKEN4.k
12/11/07 17:16:21.42 +2zE6v+s0
>>422
書き忘れてたけど、多分パラメータを替えれば4000番台でも動くと思いますよ。
CUI版ではどんなエラーが出ていますか?

435:ののたん ◆KiwamonoL.
12/11/07 17:26:15.21 XRqsjajg0
>>433
実際に速度分ヒットしてるか確認したほうがいいな。w
速度表示のバグとかかもしれんぞ。うひ。
なにせ途中で飽きてほうりだしたものだしな。

>>434
いや、処理そのものを書き換えないと動かないな。
理由はこれだ。

The 4XXX series does not have the requisite hardware to support byte addressable store, so it will never be supported.

436:ののたん ◆KiwamonoL.
12/11/07 17:37:35.12 XRqsjajg0
つーかさ、これも多分そのぐらいの速度なんじゃないかな。
URLリンク(trip2ch.net)

MERIKEN's Tripcode Finder はまだまだチューニングの余地があるというか、
まだやりはじめたばっかりなんだろ。
そのうち hip2 なんざ超えるんじゃね?

437: ◆MERIKEN4.k
12/11/07 17:45:31.86 +2zE6v+s0
>>435
ヒット率をチェックするルーチンを最初から組み込んでおくといろいろ安心ですよ。
Tripcode Finderの開発ではそれで随分助かりました。
4XXXシリーズの制限はちょっと厳しすぎですねえ。残念…

438: ◆MERIKEN4.k
12/11/07 18:33:41.58 +2zE6v+s0
>>436
MERIKEN's Tripcode Finderは他のプログラムに比べてキーの探索空間が広いので
単純に比較できないんですけど、ちょっと気になったのでCPU検索の速度を
調べてみました。CPUはCore i7-3770K 4300MHz、ターゲットは前方一致の
"TEST/"のみで、検索時間は5分です。

SHArp Tripper 1.1
報告された速度: 74.6M TPS
ヒットしたトリップの数: 19個

hip264.exe
報告された速度: 102.6M TPS
ヒットしたトリップの数: 0

MERIKEN's Tripcode Finder 0.07 Alpha 2
報告された速度: 42.8M TPS
ヒットしたトリップの数: 11

hip2は5完のターゲットだとちゃんと動いていないようです。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch