【GPGPU】NVIDIA CUDA質問スレッド

【GPGPU】NVIDIA CUDA質問スレッドat TECH

【GPGPU】NVIDIA CUDA質問スレッド - 暇つぶし2ch360:デフォルトの名無しさん
08/04/08 22:08:50
>>359
CUDAにはチップ間の転送なんてなかったと思いますが。

361:デフォルトの名無しさん
08/04/08 23:54:35
CUDA 2.0　in this month

URLﾘﾝｸ(forums.nvidia.com)

Vistaもサポートするよ。

362:デフォルトの名無しさん
08/04/09 00:10:04
一方のVistaはMSに見捨てられた。

363:デフォルトの名無しさん
08/04/09 00:27:55
PGがゴシップ記事鵜呑みにするなよ・・・

364:デフォルトの名無しさん
08/04/11 16:05:33
Linux でCUDA使っていますが、pthreadを使って以下のようにスレッド内でcudaMemcpyを呼ぶと
invalid device pointerでcudaMemcpyに失敗します。なぜでしょうか。
スレッドを作らずに、mainから直接testCopy(NULL)と呼び出すと、問題ありません。

#include <pthread.h>
#include <cutil.h>
#define NUM 512
int *h_buf=NULL;
int *d_buf=NULL;
pthread_t thread;
void *testCopy(void* args) {
CUDA_SAFE_CALL(cudaMemcpy(d_buf, h_buf, sizeof(int)*NUM, cudaMemcpyHostToDevice));
CUT_CHECK_ERROR("Copy failed");
}
int main(int argc, char **argv) {
CUDA_SAFE_CALL(cudaMalloc((void**)&d_buf, sizeof(int)*NUM));
CUDA_SAFE_CALL(cudaMallocHost((void**)&h_buf, sizeof(int)*NUM));
for(int i = 0; i < NUM; i++) h_buf[i] = i;
pthread_create(&thread, NULL, &testCopy, NULL);
pthread_join(thread, NULL);
}

365:デフォルトの名無しさん
08/04/11 18:24:09
Linuxよく判ってないけど次の点をチェック。
・cudaMallocHost()はメモリのページロックをしてしまうので、malloc()にしたらどうなるか。
・そもそもスレッドを分ける意図は何か。Stream系APIでは事が足りないのか。

366:デフォルトの名無しさん
08/04/11 19:16:30
CUBLASの使用においても他スレッドで確保したメモリは扱えないので注意が必要です

367:364
08/04/12 00:04:48
>>365
mallocも、newも試したのですが、だめでした。
CUDAの制御をするスレッドと、GUIの面倒を見るスレッドを分けたかったのです。
>>366
スレッド、またいじゃだめなんですか。それは、CUDAの仕様なのでしょうか。

368:デフォルトの名無しさん
08/04/12 00:23:19
>>367
CUDAの面倒を見るスレッドでメモリ確保すればいいだけじゃん。

369:デフォルトの名無しさん
08/04/16 17:03:58
URLﾘﾝｸ(pc.watch.impress.co.jp)

370:デフォルトの名無しさん
08/04/16 18:12:45
NVIDIA必死だなｗ

371:デフォルトの名無しさん
08/04/16 23:56:06
AdobeのPremierとか、先に取り込んだとこの勝ちになるんじゃね？

372:デフォルトの名無しさん
08/04/17 14:41:57
おまえら2.0（Beta版）きたぞ

URLﾘﾝｸ(forums.nvidia.com)

373:デフォルトの名無しさん
08/04/18 16:34:55
otu

374:デフォルトの名無しさん
08/04/23 01:01:57
CUDAプログラミングガイドに書かれているGPUの解説は
CUDAで使う場合限定の話ですか？CUDA対応GPUが行う処理全てについてですか？
例えば複数のグリッドで共有するメモリなど。

375:デフォルトの名無しさん
08/04/23 23:17:01
>>374
共通する点もあるとは思いますが、CUDAでは(利便性と引き換えに)GPUの利用に
制限が掛かっていることから類推して当てにならないと思った方がよさそうです。

376:デフォルトの名無しさん
08/04/24 23:35:24
夏ぐらいまでにCUDAで一本何か作ろうと思うけど
今から始めるなら2.0がいいの？というか何が違うんだ？

377:デフォルトの名無しさん
08/04/24 23:50:27
まずはEmuでつくれ

378:デフォルトの名無しさん
08/04/27 18:53:52
Visual　Studio　2005じゃないとだめなのね

379:デフォルトの名無しさん
08/04/27 19:05:52
サンプルが2005じゃないとビルドできないですね

380:デフォルトの名無しさん
08/04/27 20:39:58
AMDの新しいbetaSDKって
Radeonじゃ動かんよね？

381:デフォルトの名無しさん
08/04/27 20:46:11
>>380
スレ違い。

>>379
Linux版はインストールされているgccがあれば大丈夫。
# cygwinのgccが使えるといいんだけどねぇ。

382:デフォルトの名無しさん
08/04/27 20:52:27
>>379
金がないってことか?
Express試用したら?

383:デフォルトの名無しさん
08/04/27 21:32:45
>>381
スレねーじゃん
ケチくせーこと言わないで教えろよ

384:デフォルトの名無しさん
08/04/27 21:34:29
GPGPUのスレあるだろ

385:デフォルトの名無しさん
08/04/27 22:38:28
>>381
逆にgccのバージョン違ってると上手く動かないけど。
個人的には*BSDで動いて欲しい。それも64bitで。

386:デフォルトの名無しさん
08/04/27 22:44:17
>>385
そんときは、違うバージョンのgccを入れて設定を変えておけばいいらしい。
なので、ドライバは兎も角nvcc(とemu)は*bsdでも動く可能性はあるかと。

あー、今確認のために見に行ったら2.0betaの案内がCUDAZoneにも出てますね。
CudaVisualProfilerも2.0betaが出ているらしい。

>>384
だってAMDのは知らないし～

387:デフォルトの名無しさん
08/05/04 02:02:07
かけ算にかかるクロック数や足し算にかかるクロック数を知りたいのですが、
そのような資料はないものでしょうか？

388:デフォルトの名無しさん
08/05/04 08:38:43
ガイドブック。

389:デフォルトの名無しさん
08/05/04 08:47:28
>>387
基本的に、掛け算も足し算も同クロック。
問題は、そこに至る過程なのでptxを出力してループ内の行数を数えるとか
メモリアクセスの個数を数えるとか。
そもそもプロファイラを使いこなせとか。

390:デフォルトの名無しさん
08/05/06 18:16:16
SLI環境で、GPUから別のGPUに直接データを転送することはできるのでしょうか？
もしできるのでしたら、やり方を教えてください

391:デフォルトの名無しさん
08/05/06 19:48:28
>>390
>355-360

392:デフォルトの名無しさん
08/05/13 14:13:18
CUDAってｎVidia限定でしょ？
サンプル動かして感動したけど
せっかく作っても使える環境が限られると意味ないね

393:デフォルトの名無しさん
08/05/13 22:32:10
確かに、仮令MacやLinuxで使える場合があったとしても、Windowsの半数以上で使えないからね。

まぁ、使いたい人が使うからいいのよ。

394:デフォルトの名無しさん
08/05/14 00:14:56
スレッドをいくつか使うときに

スレッド0、１，２の計算が終わってから
スレッド4の計算を始めるってどうやって書けばいいの？

待ち同期どうやって作ればいいか解らない

395:デフォルトの名無しさん
08/05/14 00:27:53
GPU側関数で同期を取るのは__syncthreads()でできるけど、
恐らくそれではパフォーマンスが出ないと思われ。
スレッドは数個だけ動かしている積もりでもWarp単位でしか動かないので、
分割の仕方を見直した方がよさそう。

396:デフォルトの名無しさん
08/05/26 20:14:25
ついに、gtx 280がでるね。
第２世代型の統合シェーダーアーキテクチャってどんなんかな。
倍精度サポートとか、10秒で計算打ち止めへの対処とかいろいろありそうだけど。

自分的には、分岐への弱さの改良とか、ブロック間の同期機構とか、手を入れてくるんじゃないかと思う。
あとは、各種メモリの配分をどうしてくるか注目。shared memoryを倍増とかあるかな。

397:デフォルトの名無しさん
08/06/01 23:08:01
取らぬ狸のなんだが
GTX 280/260ではかなりの高速化が見込まれるがどう？

398:デフォルトの名無しさん
08/06/01 23:16:46
消費電力がやばすぎると思う

399:デフォルトの名無しさん
08/06/01 23:17:36
>>398
お前そんなネガ発言すると
このスレをN房の溜まり場にすっぞコラ？

400:デフォルトの名無しさん
08/06/01 23:53:38
400Wゲトー

401:デフォルトの名無しさん
08/06/02 00:09:32
IU鯖で使えるくらいになってほしいとこだよなあ

402:188
08/06/03 12:50:08
今頃になって説明の間違いに気づいた……

>188の説明において、途中に出てくる分散と共分散の式が全て(n-1)で割られてないや。
相関係数の段階では分母子に出てくるから消えてなくなるんで忘れていた。
スレ違いだけど間違いを放置するのも難なんで念の為。
# Excelの分散は分母が(n-1)で、共分散は分母がnなんて仕様なのに気づいて、ここを思い出した。

403:デフォルトの名無しさん
08/06/09 19:12:05
CUDAを使ったプログラムは専用ドライバが入っていない環境では動かないですか？
配布は無理がありますか

404:デフォルトの名無しさん
08/06/09 23:32:27
っ[knoppix for CUDA]

405:デフォルトの名無しさん
08/06/09 23:55:59
普通に使うWindowsソフトの高速化として使うものではないと

406:デフォルトの名無しさん
08/06/12 15:49:19
最新のnVIDIAドライバにだったら入ってるでしょ

407:デフォルトの名無しさん
08/06/12 16:34:56
でも手軽にCUDAテクノロジを使えるのソフトというのも面白いね。

408:デフォルトの名無しさん
08/06/12 16:36:45
>>406
最新のnVIDIAドライバにはCUDAが使える機能が入ってるってこと？

409:デフォルトの名無しさん
08/06/13 00:12:22
スレチなんですけど、ほかに質問できそうなところがなくて・・

nVIDIA のグラボで水平スパンやDualViewの設定をアプリから制御する API みたいなのはあるのでしょうか？

アプリケーション起動時に自動でそのあたりを設定したいのですが。

410:デフォルトの名無しさん
08/06/13 00:55:07
あると思うけど、しらね。NVIDIAに聞いたら?

411:デフォルトの名無しさん
08/06/13 09:59:32
CUDAは別途ドライバが必要
Geforx8以上ならドライバ入れれば動くけど
一般ユーザーにドライバ入れるなんて作業が簡単に出来るわけないので
ソフトとして配布するのは無理じゃないかな
専用のインストーラーでも作るなら別だろうけど

412:409
08/06/13 10:11:50
>>410
以前別件でnvidiaジャパンに問い合わせてみたけどシカトされたからなあ。
とりあえず ELSAジャパンにメールしてみました。

413:デフォルトの名無しさん
08/06/13 11:31:55
なんで標準ドライバにCUDAのドライバ入れとか無いんだろう・・・・

414:410
08/06/13 11:50:33
>>412
あ、やっぱり?w
1000枚単位の客じゃないと相手にしないって噂は本当だったか＜NVIDIA
ELSAもどうだろ。最近連絡くれなくなったからなぁ。

415:デフォルトの名無しさん
08/06/13 12:31:56
NVIDIAジャパンは営業ばっかで技術スタッフ皆無だからな

416:デフォルトの名無しさん
08/06/13 16:51:49
>>411
そうなんすかー
>>413
ですよねー

配るならDirectXやOpenGLでやるしかないということか。

417:409
08/06/13 17:33:23
>>410
エルザから返事がきましたよ！

>基本的には制御不可能かと思われます。

泣ける。あとは nVIDIA のデベロッパーサイトのリンク。号泣。
1000枚とはいわんけど、30枚くらいは買ってるんだがなあ。

418:デフォルトの名無しさん
08/06/13 22:17:30

だから、最初からドライバの入ってる
knoppix for CUDA と一緒に配布すれば
良いじゃん。

419:デフォルトの名無しさん
08/06/13 22:51:47
ドライバ内の公開向けには作ってない制御APIを、
公開しろとか騒いでも無駄だと思うぞ。
ドライバのバージョンでコロコロ変わってもおかしくないもんだし。

420:デフォルトの名無しさん
08/06/17 09:29:37
GPUはin-orderですかそれともout-of-orderですか？

421:デフォルトの名無しさん
08/06/17 10:41:22
ミクロではインオーダ
マクロではアウトオブオーダ

CUDAで見えるレベルだったらOoOと思っといてよい。

422:デフォルトの名無しさん
08/06/17 10:42:39
速攻でミスった。

× CUDAで見えるレベルだったらOoOと思っといてよい。
○ ～キホンインオーダ。ただしコンパイラはそれなりの最適化を施す。

423:デフォルトの名無しさん
08/06/17 15:03:34
>>417

今のバージョンで使えるかどうかはわからんけど、NVControlpanel（nvcpl.dll）のAPIはある。

URLﾘﾝｸ(developer.download.nvidia.com)

年代からして、Vistaはおそらく無理。

424:デフォルトの名無しさん
08/06/17 18:41:39
CUDAのサイトがリニューアルしてるぞ。
賛否両論あるとおもうが、とりあえず整理されている。

425:デフォルトの名無しさん
08/06/17 19:29:20
ROPユニットとストリームプロセッサの違いって何？

426:デフォルトの名無しさん
08/06/17 23:00:58
>>424
見た見た。

そして、例によってCUDA-Enabled ProductsにGTX280/260が載っていない罠。

427:デフォルトの名無しさん
08/06/17 23:37:37
GTX280 なんすかこれｗ

Vipperより糞じゃんｗ終わってるな

428:デフォルトの名無しさん
08/06/18 00:36:52
>>413
>>416
最新のドライバから統合するようになったみたいだよ
URLﾘﾝｸ(www.nvidia.co.uk)
提供されてるのが200シリーズ向けだけなので現在確かめようがないけど

429:デフォルトの名無しさん
08/06/18 00:39:29
ん、いや統合はvistaだけなんだろうか・・・？
URLﾘﾝｸ(www.nvidia.co.uk)
こっちにははっきり
Adds support for CUDA? Technology.
と記述されてる

430:デフォルトの名無しさん
08/06/18 04:25:53
PhysXとCUDAは同時に使えますか？

431:デフォルトの名無しさん
08/06/18 07:35:59
ゲロビディア終わったなｗ

432:デフォルトの名無しさん
08/06/18 19:53:32
だれかgtx280でcudaやったやつおらんのか。

433:デフォルトの名無しさん
08/06/18 22:38:05
ゲロビディア氏ね

434:デフォルトの名無しさん
08/06/19 10:43:41
>>432
やってみました。確かに速いが

435:デフォルトの名無しさん
08/06/20 13:31:41
>>434
確かに早いが？。。。その先が気になる。
すまないが、他のボードとの比較とかの情報があるととても嬉しい。

436:デフォルトの名無しさん
08/06/20 16:17:10
発熱が凄いってこったろう

437:ヽ・´∀｀・,,）っ━━━━━━┓
08/06/20 21:52:57
GPUとしては今はラデのほうが良いみたいね。
Brook+ってどうなのよ？

438:デフォルトの名無しさん
08/06/20 23:18:08
実用にはまだちょっと厳しい。
F@HはBrook+で書いてるし使えないこともないってレベル。
今のところOpenGLやDirectXと協調出来ないからそこも問題かな。

439:デフォルトの名無しさん
08/06/21 00:01:39
これから暑い夏を迎えて、発熱が凄いボードはどう評価されていくか興味深いね。

440:デフォルトの名無しさん
08/06/21 00:49:53
洞爺湖サミットでNvidia名指しで批判されるらしい
だから焦っていろいろアピールしてるらしい
環境もっとも悪い製品を作ってる会社の代表格て
声明が盛り込まれる予定

441:デフォルトの名無しさん
08/06/21 13:03:24
CUDA 2.0 Beta 2
URLﾘﾝｸ(forums.nvidia.com)

442:デフォルトの名無しさん
08/06/22 19:11:15
cudavideodecodeなんて今更何に使うんだと思ったけどDXVAがないOS向けか

443:デフォルトの名無しさん
08/06/27 21:18:32
倍精度計算したいどの変数使うの？

444:デフォルトの名無しさん
08/06/27 22:24:33
すいません。助けてください。
VC2005でサンプルをビルドしようとすると以下のエラーが出ます。

Visual Studio configuration file '(null)' could not be found for installation at 'C:/Program Files (x86)/Microsoft Visual Studio 8/VC/bin'

コンフィグファイルが必要なのかと思い、C:/Program Files (x86)/Microsoft Visual Studio 8/VC/binの下にnvcc.profileを
置いてみたのですが結果は変わりませんでした。

どうしたらいいですか。

ＯＳはwindows xp 64で、CUDAのtoolkitとSDKは1.1です。

445:デフォルトの名無しさん
08/06/27 23:14:43
>>444
cuda_build_rule.zip入れた？

倍精度で計算ってどうやって書けばいいの？

446:デフォルトの名無しさん
08/06/29 14:05:37
大学の課題でで使うことになったのでマニュアル読んでみたけど、日本語訳がファッキンなのは仕様ですか？
冗談抜きで英語の方が判りやすかったｗ

447:デフォルトの名無しさん
08/06/29 14:11:15
>>446
授業ページおしえてください

448:デフォルトの名無しさん
08/06/29 14:18:00
>>447
うちの大学の教授が俺用に30秒で考えて出した課題なので、特に授業ページはありません。ごめんね。

449:デフォルトの名無しさん
08/06/29 14:18:03
>>446
授業ページおしえろｺﾞﾗｧｱｱｱｱｱｱ

450:デフォルトの名無しさん
08/06/29 14:18:13
>>446
NVIDIAジャパンには、まともな技術者がいないので仕方ありません。
尤も、営業にもまともなのがいるかどうか些か疑問ではありますが。

451:デフォルトの名無しさん
08/06/29 14:24:24
Gerovidia Japanには屑営業しかいねーじゃん
実際CUDAとか国内研究で利用していて
すごそうなのは、Gerovidia本社から来るし

452:デフォルトの名無しさん
08/06/29 14:46:57
cudaのおかげで英語力が向上しました

453:デフォルトの名無しさん
08/07/01 11:15:26
cudaのおかげで彼女ができました

454:デフォルトの名無しさん
08/07/01 15:54:31
double float はいつ???

455:デフォルトの名無しさん
08/07/07 14:14:38
いつって、2.0β使えばすぐできるんじゃないの? エミュで。

456:デフォルトの名無しさん
08/07/09 18:26:35
CUDAが.NETから使えるようになってるらしいので興味持ったのですが（今現在動作環境なし）
C#とかVSとかとの親和性とか、ネイティブと比べて処理性能どれくらいかとか、試した人いたら教えてください

CUDA.NET
URLﾘﾝｸ(www.gass-ltd.co.il)

457:デフォルトの名無しさん
08/07/09 22:07:47
ランタイムだけじゃね

458:デフォルトの名無しさん
08/07/10 22:56:51
アセンブリ読み込めば後はどの言語でも使えてしまうんですかね
PowerShellやIronPython（pyCUDAというのもあるみたいですが）から使えたりしたら面白そう、面白そうなだけですけど

459:デフォルトの名無しさん
08/07/11 15:12:02
超初心者ですが質問お願いします。

自分のパソコンにグラボが2枚刺さっているのですが
CUDAで使うグラボを選択するにはどうしたらいいんですか？

めっちゃ初歩的な質問ですが回答お願いします。

460:デフォルトの名無しさん
08/07/11 16:42:36
サンプルにあるだろ

461:デフォルトの名無しさん
08/07/13 02:02:23
さわりだけだけど日本語資料みっけた
URLﾘﾝｸ(www.easize.jp)

462:デフォルトの名無しさん
08/07/13 21:18:58
>>461
今月のインターフェイス８月号にも似たような資料があったYO!

誰かGpuCV使ったやついねーか…
makeできねーん、OpenCVで聞けばいいのかこっちなのかわかんね

463:デフォルトの名無しさん
08/07/13 21:55:32
>>462
環境書かけよくず

464:デフォルトの名無しさん
08/07/13 22:34:52
>>462
釣られてやったけどVS2005、VS2008
SuseLinux RedhatES 5.0 Ubuntu 8.04 CentOS 5.1で
ビルドできたんだがｗ

ビルドすらできないPGってカスもいいとこだろｗ

465:446
08/07/15 06:03:10
うわぁぁぁぁファッキンなのは日本語訳だけかと思っていたらSDKもだったぁぁぁぁ

誰だcutil_math.hの float / float[2,3,4]の演算子オーバーロード書いた馬鹿は
俺の3時間返しやがれ
inline __host__ __device__ float2 operator/(float s, float2 a)
{
　　float inv = 1.0f / s;
　　return a * inv;
}

ひょっとしてcuda SDKのcommon/inc/以下のヘッダーってわりと危険だったりする？

466:462
08/07/15 06:50:30
>>463-464
ちょっｗｗｗｗｗ

環境はCentOS 5.19 64bit
GpuCV 0.4.2 driverはcudaのやつ174.55

gpucv,resources,sugoitoolsをダウンロードして

URLﾘﾝｸ(picoforge.int-evry.fr)
を参考にファイルコピー

cp -Rf bin\gnu\ ..\resources\bin\gnu\
cp -Rf lib\gnu\ ..\resources\lib\gnu\
は　sugoitools/bin/gnu,libが無いので実行できず無視して↓のみやった
cp -f include\SugoiTools\*.h ..\resources\include\SugoiTools\
cp -f include\SugoiTools\*.inl ..\resources\include\SugoiTools\
cp -f include\SugoiTracer\*.h ..\resources\include\SugoiTracer\

しかしgpucvに入って./createSolutions.shで

./createSolutions.sh
Generating GNU makefiles:
...GPUCVHardware
...GPUCVTexture
...GPUCVCore
...GPUCV
...GPUCVConsole
...GPUCVSimpleApp
を読み込めません: そのようなファイルやディレクトリはありません
を読み込めません: そのようなファイルやディレクトリはありません
sed: ./projects/gnu/example/Makefileを読み込めません: そのようなファイルやディレクトリはありません

467:462
08/07/15 06:58:15
無視してmakeしても

#make
==== Building CUDA plugin ====
==== Building GpuCV ====
==== Building GPUCVHardware ====
GLBuffer.cpp
<コマンドライン>:1:20: 警告: missing whitespace after the macro name
/usr/include/GL/glxew.h:150: error: ‘GLulong’ has not been declared
make[2]: *** [../../../Debug/gnu//GPUCVHardware/GLBuffer.o] エラー 1
make[1]: *** [GPUCVHardware] エラー 2
make: *** [SUB_DIR_ALL] エラー 2

468:デフォルトの名無しさん
08/07/15 07:35:41
>>465
cutilはサンプル集だと思ってた方がいい。

469:デフォルトの名無しさん
08/07/15 19:02:35
カーネル内で二次元配列を使うと

Advisory:　Cannot　tell　what　pointer　points　to,　assuming　global　memory　space
というwarningが出るのですが、どのようにすれば出なくなるのでしょうか？

470:デフォルトの名無しさん
08/07/16 00:38:28
>>469
「カーネル内」ってどこのこと?
いっそ再現する最小限のソースを貼ってくれた方が話が早そうな希ガス。

471:デフォルトの名無しさん
08/07/16 01:02:45
>>467
必要なもの
premake(これはビルドするかパッケ拾ってくるのじゃいいな
OpenCV
libglew1.5-dev

SugoiToolsとかいうふざけた名前のライブラリSVNから盗んでくる
ちなみにこのSugoiBakaToolsを作ったやつはUnixとLinuxの.soを作る流儀を
知らん白雉なので許してやれ

svn co URLﾘﾝｸ(sugoitools.svn.sourceforge.net) sugoitools
cd sugoitools
premake --file Premake.lua --target gnu --os linux
make

これで./libにlibSugoiTools.soが生成される。

次に、GPUCVをSVNから盗んできてくれ

cd gpucv
premake --file Premake.lua --target gnu --os linux
cp ../sugoitools/lib/gnu/*.so ./lib
ln -s ../sugoitools/include/gnu/SugoiTools SugoiTools
ln -s ../sugoitools/include/gnu/SugoiTracer SugoiTracer

make

後は必要なライブラリ入れるだけでうまくいく
いかなかったら>>470にゴルァしてくれたらまた何かかくぉ？

472:462
08/07/16 11:23:00
>>471
うひょーPremakeの使い方を始めて知ったお！

でもGPUCVTextureのコンパイルで止まる…

>必要なもの
>premake(これはビルドするかパッケ拾ってくるのじゃいいな
>OpenCV
>libglew1.5-dev

premake,OpenCVはインストしました。libglew1.5-devがCentOSで
rpmがなかったので
URLﾘﾝｸ(chihara.naist.jp)
を参考に導入しました

>svn co URLﾘﾝｸ(sugoitools.svn.sourceforge.net) sugoitools
>cd sugoitools
>premake --file Premake.lua --target gnu --os linux
>make

>これで./libにlibSugoiTools.soが生成される。

>次に、GPUCVをSVNから盗んできてくれ

>cd gpucv
>premake --file Premake.lua --target gnu --os linux

ここまで完璧です！

473:462
08/07/16 11:27:58
>cp ../sugoitools/lib/gnu/*.so ./lib
コピー先は../resources/lib/gnuでしょうか、
でもgpucv/lib/gnuのフォルダにGPUCVHardwared.soができてるのですが。。。
うーん、両方(/resourcesと/gpucv/lib)試しましたがうまくいきません。。。

>ln -s ../sugoitools/include/gnu/SugoiTools SugoiTools
>ln -s ../sugoitools/include/gnu/SugoiTracer SugoiTracer
コピー先は../resources/include/SugoiTools等ですよね。。
こっちは/gpucv/Sugoitoolsで試してません
コピー先は
URLﾘﾝｸ(picoforge.int-evry.fr)
を参考に決めました。。

でmakeすると
# make
==== Building CUDA plugin ====
==== Building GpuCV ====
==== Building GPUCVHardware ====
..中略..
Linking GPUCVHardware
==== Building GPUCVTexture ====
DataDsc_GLTex.cpp
..中略..
TextureGrp.cpp
<コマンドライン>:1:19: 警告: missing whitespace after the macro name
../../../src/lib/GPUCVTexture/TextureGrp.cpp:100: error: prototype for ‘bool TextureGrp::AddTextures(DataContainer**, unsigned int)’ does not match any in class ‘TextureGrp’
../../../include/GPUCVTexture/TextureGrp.h:118: error: candidate is: bool TextureGrp::AddTextures(DataContainer**, size_t)
make[2]: *** [../../../Debug/gnu//GPUCVTexture/TextureGrp.o] エラー 1
make[1]: *** [GPUCVTexture] エラー 2
make: *** [SUB_DIR_ALL] エラー 2

うわああああああああああんごｒｒｒｒｒっるうううううううううううああああああ

474:デフォルトの名無しさん
08/07/16 23:05:01
>>473
GPUCVの馬鹿どもはMakefileすら満足にかけないみたいだから
あれだけど

premake間違ってるからちょっと修正
premake --file Premake.lua --target gnu --os linux --cuda

あとコンパイル関係のログは一番上見て
○○.h No sucha file or directoryって出てるはず
きちんとログは最初から理解していきましょう。

以下の場所にGPUCVxxxx.makだかって糞Makefile入ってるから
ここで○○.hが足りないって言われたら　-Iでパス足してやって
vim ./project/gnu/lib/

それでうまくいくはず、この作業はちなみに6回ぐらい繰り返すので
GPUCVプロジェクト市ねって500回唱えるのがいい

475:デフォルトの名無しさん
08/07/16 23:59:18
sugoitoolsってなんだよｗ馬鹿にしてんのか？
と思ったらマジで日本語の「凄い」から命名してんだな
URLﾘﾝｸ(sugoiaware.free.fr)

476:デフォルトの名無しさん
08/07/18 13:45:05
>>475
どっかのインターフェイスカードかとおもったよｗｗｗ

477:デフォルトの名無しさん
08/07/18 15:48:34
確かにｗ

478:デフォルトの名無しさん
08/07/18 16:00:58
>>475
カナダにはSUGOIっていうスポーツウェアブランドもある
それくらいで驚いちゃ駄目だｗ

479:デフォルトの名無しさん
08/07/23 17:22:30
Windowsなんだけど、出来上がったexeって、
他のPCで動かすためには、exe以外に必要なものって何？

cudart.dllが無いって言われるのは、CUDA対応カードじゃないから？

480:125
08/07/23 19:17:13
cudart.dllをsystem32に放り込むかpath通せ。

481:デフォルトの名無しさん
08/07/23 19:27:03
.cuファイルって外部のincludeファイルは読み込めないのでしょうか
template.cuに
#include <cv.h>

と1行書き加え、（OpenCVという画像処理用のライブラリです）

Makefileに
# OpenCVのためにパスを通す
NVCCFLAGS+=`pkg-config opencv --cflags`
LIB+=`pkg-config opencv --libs`

でMakeすると
/usr/lib/gcc/x86_64-redhat-linux/4.1.2/include/mmintrin.h(49): error:
identifier "__builtin_ia32_emms" is undefined

/usr/lib/gcc/x86_64-redhat-linux/4.1.2/include/mmintrin.h(62): error:
identifier "__builtin_ia32_vec_init_v2si" is undefined

....................というのがダラダラ続く…

Error limit reached.
100 errors detected in the compilation of "/tmp/tmpxft_000010b9_00000000-4_template.cpp1.ii".
Compilation terminated.
make: *** [obj/release/template.cu_o] error 255

環境は
OS:CentOS 5.2 64bit
CUDA driver: NVIDIA Driver for Redhat Enterprise Linux 5.x with CUDA Support (174.55)
cuda toolkit:CUDA Toolkit version 1.1 for Redhat Enterprise Linux 5.x
CUDA SDK: CUDA SDK version 1.1 for Linux
です。よろしくお願いします

482:デフォルトの名無しさん
08/07/24 00:32:59
>>481
普通になんでもインクルードできるよ。
だからこそ、cv.h経由か何かで読み込んでも解釈できないmmintrin.hまでインクルードしてしまっているわけで。
取り敢えず、cv.hが何をインクルードしているのか順に見てみたら?

483:デフォルトの名無しさん
08/07/24 00:33:42
どうみても、Intrinsicの関数が無いと言ってるだろ

484:デフォルトの名無しさん
08/07/24 00:34:38
>>479
ドライバ入れてもらわないとダメじゃないのか

485:デフォルトの名無しさん
08/07/24 14:55:26
普段Radeonを使ってるんだけど、CUDAを使うならやっぱり取り替えなきゃダメかな？
もう一枚追加して普段はRadeonでCUDA用にだけGeforceを使えたらと思ったんだけど…

486:デフォルトの名無しさん
08/07/24 15:56:37
最近CUDACUDA言ってるやつ多いけど、ShやBrookGPUも忘れないでね。

487:デフォルトの名無しさん
08/07/24 15:58:31
>>485
ドライバがバッティングしないなら、その方が楽だね。GPU一枚だと、CUDAで暴走したときに画面が崩れる場合がある。
# ついでに言えば、Radeonで3Dアプリを動かしていてもCUDAの処理速度への影響が出にくいと言うメリットもある。

488:デフォルトの名無しさん
08/07/24 16:26:48
SIGGRAPH2008でいろいろやるらしーよ
民主化だってさ
URLﾘﾝｸ(www.siggraph.org)

489:デフォルトの名無しさん
08/07/24 21:50:54
GPGPUやってるやつらの論文
精度甘くてうそばっかりなんだけど

クイックソートレベルで嘘あるって
なんなんだろう

SIGRAPHも悪の片棒担いでるし
国内の正会員も歯切れ悪い胡散臭い爺多いし
あいつら本当に計算機科学全般に害悪な
ことばっかりしはじめたなぁ

490:デフォルトの名無しさん
08/07/24 21:58:06
>>489
具体的に晒してください

491:デフォルトの名無しさん
08/07/24 22:24:38
>>490
さらせねーよｗ俺社会的に終わる
それだけはヤダ

492:デフォルトの名無しさん
08/07/24 22:26:40
>>491
つまり、いいがかりなんですね

493:デフォルトの名無しさん
08/07/24 22:27:06
CPUに比べて○○倍ってよく見るけどCPUの方は最適化してなかったり１コアしか使ってなかったりやけに古いCPU使ってたり
数字をよく見せるために胡散臭いのはあるな

494:デフォルトの名無しさん
08/07/24 22:27:10
>>487
ドライバの干渉が一番の不安なんだよなあ。
Geforce2枚刺して用途別にするのが一番いいんだろうけど完全に環境を変えなきゃいけないし…

495:デフォルトの名無しさん
08/07/24 22:32:13
>>493
海外のも見てみてよ
査読ありの論文でレベル的ほとんど査読無しと
変わらないヒドイ質の論文多いから

GPUへのフェッチ性能とかそれのオーバヘッド
0扱いとかいう凄まじい論文あるぞ

496:デフォルトの名無しさん
08/07/24 22:52:43
>>493
結構同意
CPUの数十倍早くなりました、とあるが
CPU，GPU間の転送時間を含んでいませんとかアホかと

497:デフォルトの名無しさん
08/07/24 23:17:06
>>489
SIGGRAPHはもう正しく論文を精査できてない。
で、年度によってはとりあえず載せちゃえってスタンス。
それでも多過ぎてSIGGRAPH ASIAやっちゃえって事に。

498:デフォルトの名無しさん
08/07/24 23:19:53
あのーここは学会加入してないとだめなのでしょうか
皆さん頭のよさそうな話ばかりで困ります

499:デフォルトの名無しさん
08/07/24 23:27:22
同意する点もあるけれど、言いがかりに近いと思う点もある。

転送時間を含まないケースでも、CUDAに関して言えば転送時間を隠蔽できる可能性もあるし
初回だけで中間に転送がいらないケースもあると思う。

実際のところ、意味があるかはさておき単純なロジックを組んでみるとちゃんと理想値に近い時間で
処理できるのは事実だし、最新でないCPUでもGPUを使って高速化するという運用はありだと思うのだけど。

まぁ、一般論で片付けられる問題ではないから個別にレスするのは控えるけどね。

500:デフォルトの名無しさん
08/07/24 23:32:06
>>499

>転送時間を含まないケースでも、CUDAに関して言えば転送時間を隠蔽できる可能性もあるし
>初回だけで中間に転送がいらないケースもあると思う。
CUDA内部の処理と
CUDA-バス-キャッシュ-CPU間の話どっちを
しているわけなの？厳密に答えてくれないかな？思うじゃなくて

そこ厳密に計測すると汎用的なアルゴリズムになるとせいぜい40GFぐらいしか
出てない。8CoreのXeon２台MPIするよりも全然遅くなっちゃうんだけど

501:499
08/07/24 23:36:14
ついでに、WoodcrestXeon3GHzで8800GTを使った場合の実運用での処理時間について一言。
行列演算みたいなGPU向きの演算と違ってGPUには不利な演算なのだけど、
単体演算ではCPUのみに対してGPUを使った場合は約2倍の処理能力が得られた。
尤も、ファイル処理なども含めた実運用状態での処理能力比は1.3倍。
まぁこんなもんでしょってことで。要は、如何にGPU向きの演算に落とし込むかだね。

502:デフォルトの名無しさん
08/07/24 23:43:36
スレチだしそろそろ自重しようぜと過疎スレで言ってみる

503:デフォルトの名無しさん
08/07/24 23:44:14
>>501
それは何コア使って1.3なの？
SSEも入れて、TBL使ってMathLib使った場合と
比較して1.3倍？

504:499
08/07/24 23:46:29
>>500
「汎用的なアルゴリズム」で40GFlops出て、8coreXeon2台のMPIと勝負できるならいい方なんでない?
8coreXeonでかりかりにチューニングしたら、GPUなんて使わない方が速くて当然だと思う。
そういうCPUと勝負するなら、GPU単体の性能じゃなくてCPU+GPUでCPUより「何割」速くなるかでしょ。

あー、書き忘れてた。>501に書いたのは2core*2CPUのシステムで、CPUのみとCPU+GPUの処理能力比ね。
CPUでも1coreだけ使うよりは4core使った方が当然4倍近く速いのだけど、そこにGPUを足すことで
更に1.3倍になったということ。1coreだけと較べてどのくらい速くなったかは失念している。
1coreのみを1とすると、2core2CPUで3倍、それにGPUを足して4倍位じゃなかったカナ。

505:デフォルトの名無しさん
08/07/25 07:53:05
具体的な論文名出せよ、そうしないから話がややこしくなる

506:デフォルトの名無しさん
08/07/25 08:59:48
>>482

>取り敢えず、cv.hが何をインクルードしているのか順に見てみたら?
すみません、こういう時どう対処していいのかわからなくて。
includeしていく順番を探せば何か見えてくるのでしょうか

cv.h - cxcore.h - cxtypes.h - emmintrin.h - xmmintrin.h - mmintrin.h

とつながっていました。mmintrin.hはMMX？xmmintrin.hはSSEでしょうか
私の直感だとこのくらいの解釈が限界です…

includeファイルを順にコメントアウトしてみましたがやはり通らず…
gccではコンパイルを通っているのにnvccではダメということは
MMX？が使えないようになっているのでしょうか

__builtin_ia32ほげほげが何者なのかさっぱりです…

ググるとWinXPではOpenCVが使えているっぽいので
XPのnvccではMMXが使えてLinuxのは使えないのでしょうか…

507:デフォルトの名無しさん
08/07/25 10:18:10
何か足りてないんだろうね。

508:デフォルトの名無しさん
08/07/25 12:31:41
コンパイルできるようになりました。

cxtypes.hの中でSSE2がオンになっている場所
#if defined WIN64 && defined EM64T && (defined _MSC_VER || defined CV_ICC) \
|| defined __SSE2__ || defined _MM_SHUFFLE2
#include <emmintrin.h>
#define CV_SSE2 1
#else
#define CV_SSE2 0
#endif

を見つけました。見てみるとWIN64のときだけオンになるみたいで…
ここで
#include <emmintrin.h>
#define CVSSE2 1
をコメントアウトして
#define CVSSE2 0
と書いたらコンパイルできるようになりました。
Vistaではこのようなことをしなくても
コンパイルできたのでは32bitからだったのでしょうか…

509:デフォルトの名無しさん
08/07/25 12:44:05
>>509
お疲れさん。そう言えば、Windowsでは64ビットでコンパイルできないってレスがあったからその辺りも関係するかもね。

510:デフォルトの名無しさん
08/07/26 01:31:05
SIGGRAPHではないがCanny Edge Detection on NVIDIA CUDAなんてのを読むとなかなか笑える。

・Matlab並に速いアセンブラで最適化されたOpenCVと比較したよ！
　~~~~~~~~~~~~~~~pugya-
・使ったCPUはIntel Core2 CPU 6600 @ 2.40 GHzだよ！
　　　　　　　　　　　　　　　　　　　＾ EなのかQなのかはっきりしろと。
　　　　　　　　　　　　　　　　　　　　ま、所詮OpenCVだから結果に影響ないけどｗ
・GPUはGeForce 8800 GTX, 768 MB、OCなんてしてないよ！
　　　　　　　　　　　　　　　　　　　　　　　~~~~~~~~~~~~~~~~~~~~研究レベルでOCを考慮するッ
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　そこにシビれる！あこがれるゥ！

511:デフォルトの名無しさん
08/07/27 02:49:51
研究なら並列アルゴリズムだけ書いておけばいいんじゃね

512:デフォルトの名無しさん
08/07/28 11:33:26
opencvってアセンブラで最適化されてたっけ？

513:デフォルトの名無しさん
08/07/28 19:52:47
>>512
移植性考えてまったくされてないよ
デフォルトではシングルスレッドだからマルチコアも使われてない

514:デフォルトの名無しさん
08/07/29 12:41:15
今後GPUはえらい成長遂げるのに対しCPUはもう脚詰まりだから
いきなり8coreXeon2台とGPU一個が張り合えるという事実は大したことだ
後はプログラムの処理内容を最適化させれば良い

515:デフォルトの名無しさん
08/07/29 16:07:34
ハードgf98GX2 *2
ソフトwinXP VS2005
ドライバ　cuda2.0β

上記の環境でC++とcudaを混在させることはできるのでしょうか？
キャプチャーカードのSDKがC++なので・・・

516:デフォルトの名無しさん
08/07/29 16:29:57
>>515
ドライバはCUDAじゃねぇぞ。

CUDAの開発では、*.cuのファイルがnvccでコンパイルしてデバイスモジュールとホストモジュールが出力される。
その後リンクするのはVSのリンカになるので、この段階でVSのオブジェクトモジュールとリンクできる。
但し、nvccはベースがgccなのでextern "C"を使うなどの工夫が必要かも知れず。

517:デフォルトの名無しさん
08/07/29 23:27:10
GCC使う以上、素直にLinuxで開発すれば良いのに。
なんでワザワザ苦労してWin糞使うのか？

518:デフォルトの名無しさん
08/07/29 23:49:17
大昔のように、
プログラム開発者＝ハード＆ソフト環境を自由に整えられる人
じゃないんだよ。

519:デフォルトの名無しさん
08/07/30 02:02:48
nvccってclのバージョンでエラー吐くから
Windowsだとclベースじゃねーの。

520:515
08/07/30 09:46:46
>516
ありがとうございます。自身で試行錯誤してみます。
>517
MFCを使ってwindowsアプリケーションを作るのにwinの方がいいかと思いまして

521:デフォルトの名無しさん
08/08/13 00:43:16
対応カードのドライバがXP～しか対応してないみたいだけど、Win2kでプログラミングしてる人はいますか？
余ったPCでCUDAをやってみようと思ってるんですが>>173あたりを見ても対応して無さそうで…

522:デフォルトの名無しさん
08/08/14 01:03:10
余ってないPCに二枚挿した方がよくね?

523:デフォルトの名無しさん
08/08/14 07:57:32
余ったPCにLinux載せちゃうのがよくね?

524:デフォルトの名無しさん
08/08/14 20:52:04
余ったPCを俺にくれればよくね？

525:デフォルトの名無しさん
08/08/19 14:01:19
いつのまにかにノート向けも対応リストに載ってるのね

526:デフォルトの名無しさん
08/08/19 21:25:04
2.0 北っぽいよ
URLﾘﾝｸ(www.nvidia.com)

527:デフォルトの名無しさん
08/08/20 08:54:18
>>515
.NET for CUDA つうのがあるみたいなんだわ
突撃してみてほしいです。

528:デフォルトの名無しさん
08/08/21 20:11:04
日本版でもBeta2取れたけど相変わらずアナウンスはないな

529:デフォルトの名無しさん
08/08/25 01:43:22
SDK2.0入れて見たんだが、threadMigrationってサンプルプログラムが
"cuCtxDestroy","cuCtxPopCurrent","cuCtxPushCurrent"が定義されてないってエラー吐いてる。
他のサンプルはコンパイル通るので、インストールが悪いのかSDKが悪いのか分からん。

530:デフォルトの名無しさん
08/08/26 00:27:10
バージョンアップの観察はいいから何か作れよお前らｗｗｗ

531:デフォルトの名無しさん
08/08/26 00:32:38
作ってるよ～
仕事だから詳細語れないけど。

532:デフォルトの名無しさん
08/08/26 00:40:43
作ってるけど研究なので言えない
けど上手くいかない
ああああああ

はぁ…

533:デフォルトの名無しさん
08/08/26 00:48:53
研究って学生の卒論ですか？
それとももっと高いレベル？

534:デフォルトの名無しさん
08/08/26 04:37:54
自宅研究員…

535:デフォルトの名無しさん
08/08/26 11:45:11
>>533
CUDAをどう使うかと、論文のレベルは関係ないだろｗ

536:デフォルトの名無しさん
08/08/26 15:24:13
URLﾘﾝｸ(gpu4vision.icg.tugraz.at)
CUDAを使った領域選択

537:デフォルトの名無しさん
08/08/27 14:26:05
CUDAのビデオ講義、リンクきれちゃってるね
せっかくiPod nano買ったから英語の勉強に聞きたかったのに…

538:デフォルトの名無しさん
08/08/27 22:19:54
２日でCUDAマスターしますた
すごい簡単だなこれ
なんか質問あれば聞いて良いよ

539:デフォルトの名無しさん
08/08/27 22:28:04
>>538
100万桁のπは何秒くらいで計算できますか？
1995年当時のスパコンで5秒らしいですが超えられますか？

540:デフォルトの名無しさん
08/08/27 22:40:52
>>539
やってみないとわかりません

541:デフォルトの名無しさん
08/08/27 23:03:22
CUDAでソートするアルゴリズム思いついた　うひょ

542:デフォルトの名無しさん
08/08/27 23:40:53
だれか多倍長をCUDAで効率的に実現する方法教えてくださいー

543:デフォルトの名無しさん
08/08/28 01:21:54
>>541
URLﾘﾝｸ(www.nvidia.co.jp)

544:デフォルトの名無しさん
08/08/28 03:35:38
>>543
バイオニックソートってやつと同じｗｗｗ
車輪の再発明かｗ

545:デフォルトの名無しさん
08/08/29 19:20:37
当方 Mac なんだけど、CUDA 2.0 インスコしてサンプル make したのは
いいんだけど実行しようとすると

dyld: Library not loaded: @rpath/libcudart.dylib
Referenced from: /Developer/CUDA/bin/darwin/release/scalarProd
Reason: image not found
Trace/BPT trap

って出て先に進めない。どういうことなの。。。。。。
UNIX 詳しい人教えて下さい

546:デフォルトの名無しさん
08/08/29 19:43:28
並列に計算して計算結果を１つの変数に合計するってのをやってるんだけど
10回に1回くらい計算結果が狂うのはなぜだ

547:デフォルトの名無しさん
08/08/29 22:37:59
>>546
Ａｔｏｍｉｃ関数使ってみるとか・・・後、parallel reductionを読んでみると
良いかも

548:デフォルトの名無しさん
08/08/29 23:27:49
>>546
そういうのはCUDAの最も苦手とするところだ。
全スレッドで同期を取って、代表1スレッドが合計するのが手っ取り早いが遅い。
全スレッドで同期を取って、代表nスレッドがmスレッド分合計してからnスレッド分を合計するのが無難か。
或いは、n個になった時点でCPUに転送してしまう方がいいかもしれない。

549:デフォルトの名無しさん
08/08/29 23:45:31
転送が遅いんだよなあ

550:デフォルトの名無しさん
08/08/29 23:54:56
ストリームを使えば殆ど隠蔽できるよ。

551:デフォルトの名無しさん
08/08/30 00:47:54
>>548
ｎ個分の計算結果を別メモリに退避しておいて1個のスレッドでそれを順次合計するってこと？

552:デフォルトの名無しさん
08/08/30 01:09:07
>>550
kwsk

553:デフォルトの名無しさん
08/08/30 01:18:19
>>551
そのままＣＰＵ側へ転送してＣＰＵで合計しろってことでしょ？

554:デフォルトの名無しさん
08/08/31 05:37:24
すんません、日本語版ドキュメントが公開されたってあちらこちらで書いてあるので
公式サイト探したんですが、なんかないっぽいんですが、これってもしかして削除されたの？

555:デフォルトの名無しさん
08/08/31 05:47:06
日本語のマニュアルが必要なほど内容濃くないぞｗ

556:デフォルトの名無しさん
08/08/31 05:50:28
グローバルメモリを使っても速度に限界を感じたんで、
テクスチャメモリを使ってみたいんですよね

で、そのために日本語ドキュメントも読んでみたかったんすよ

557:デフォルトの名無しさん
08/08/31 07:52:18
テクスチャメモリはグローバルメモリの代わりにはならんと思うが。
共有メモリも使い難いし、定数メモリはデバイスから書けないし。
# 書けないのはテクスチャメモリもそうだけど。
アクセスパターンを見直したほうが医院で内科医?

558:デフォルトの名無しさん
08/08/31 13:22:07
vs2008には対応するんだろうか

559:デフォルトの名無しさん
08/09/01 12:52:26
2.0出たけど対応してなくてがっかりした

560:デフォルトの名無しさん
08/09/01 23:04:36
>>559
俺は結局2005入れた。

561:デフォルトの名無しさん
08/09/03 07:35:45
>>549
もれのやってるのでは転送に3msec、演算に400msecくらいなので
全然オーバーヘッドにはなってないすわ。演算の負荷小さ杉なんでは。
>>556
書き換え不要な定数行列をまとめて__constant__に置いて見たすが
ほんの3%くらいしか変わらなかったすわ。

両方とも、もれのコードがだめな可能性ももちろん有るけど。大有りッスけど。

562:デフォルトの名無しさん
08/09/03 12:19:40
CUDAじゃなきゃ困るって用途がいまいち思いつかない

563:デフォルトの名無しさん
08/09/03 14:50:39
それは、CUDAじゃなく直接GPUを扱うほうがいいということか、AMDのStreamナントカでもいいということか、なんだんだ？

564:デフォルトの名無しさん
08/09/05 04:17:53
>CUDAじゃなきゃ困るって用途がいまいち思いつかない
なら使わなきゃいい

565:デフォルトの名無しさん
08/09/05 09:42:01
100万回以上回るループとか、
何千回単位の二重・三重ループが有るならCUDAｻｲｯｺｫｩﾝｷﾞﾓｯﾁﾞｲｲｲｨｲ

566:デフォルトの名無しさん
08/09/05 12:40:56
>>564
バーカwwwwwwwwwww
頭悪いなお前

567:デフォルトの名無しさん
08/09/05 14:57:45
>>565
確かに
初体験のあの気持ち・・・忘れられない・・・

568:デフォルトの名無しさん
08/09/05 19:25:13
気持ちいのは分かるけど普段使わないようなものだしね
既にあるものを自力でCUDA対応させるのも気力が沸かないしね
倍精度浮動少数が扱えないしねｗｗｗ

569:デフォルトの名無しさん
08/09/05 19:40:59
>>568
CUDA 2.0は？単精度に比べてかなり速度が落ちるらしいけど。

570:デフォルトの名無しさん
08/09/05 19:43:46
ハードの問題だから無理だよ
やってみた

571:デフォルトの名無しさん
08/09/05 19:58:03
>>570
GT200世代じゃないとハードの問題で使えないのか・・・

572:デフォルトの名無しさん
08/09/06 01:17:51
二重ループは兎も角、三重ループとなるとCUDAは苦手だと思うが。
一重は並列にしても、二重ループが残ってしまう。
最近のIntelCPUはループが無茶苦茶高速だから、WoodcrestでOpenMPでも使われたら太刀打ちできなくなる。

573:デフォルトの名無しさん
08/09/06 02:59:57
CUDAをループの自動並列化だと思っていらっしゃるｗ

574:デフォルトの名無しさん
08/09/06 03:22:15
ところで2.0正式版は皆さん安定してる？
うちは、テクスチャmemoryがなんだか変。
エミュで正しく動いているのに実機だと挙動がおかしい。

575:デフォルトの名無しさん
08/09/06 13:32:41
CUDAでクラスが使えないのが痛いな
木構造系のアルゴリズムは並列処理にかなり向いてるし応用範囲も広いのにな
CUDAで無理やりやろうとすると無駄な処理をわざとさせないといけなくなるし
プログラムがむちゃくちゃ汚くて見てられない

576:デフォルトの名無しさん
08/09/06 14:08:13
PyCUDAかCUDA.NETあたりを使ってぜひ感想を聞かせて

577:デフォルトの名無しさん
08/09/09 02:19:48
CudaArrayに、48ビットや24ビットのRGBのデータを入れて、テクスチャにバインドできている方います？
うちではうまくいかないんですよね。

578:デフォルトの名無しさん
08/09/11 13:36:09
CUDAってCPUモードがあるけどドライバが無い環境だと自動的になるの？

579:デフォルトの名無しさん
08/09/11 22:59:45
エミュレーションモードの話かな?
自動的に切り替わるほど融通は利かないよ。

580:デフォルトの名無しさん
08/09/11 23:09:42
dim3 threads(100,1);
method<<<1, threads>>>();
これはいけるんだけど

dim3 threads(100,100);
method<<<1, threads>>>();
ってやると一回も呼ばれないんだけど
何か勘違いしてる
threadIdx.xとyで２次元的に呼び出せるんじゃないの？

581:デフォルトの名無しさん
08/09/11 23:12:59
スレッド総数は512まで(詳細はdeviceQueryを実行するべし)。
従って、100*100は拙い。

582:デフォルトの名無しさん
08/09/11 23:16:39
追記:
その条件だけなら、dim3 threads(ThreadsOfBlock, ThreadsOfBlock)にして
dim3 blocks(100 / ThreadsOfBlock, 100 / ThreadsOfBlock)を追加して
method<<<blocks, therads>>>()するのが定番かな。
勿論、methods<<<100, 100>>>()でもいいけど効率は若干落ちることになりそう。

583:デフォルトの名無しさん
08/09/12 00:23:28
method<<<dim3(100,100),1>>>();
にしたらいけた
もしやブロックって並列処理じゃないの？

584:デフォルトの名無しさん
08/09/12 01:06:40
GPUのプロセッサからあぶれた分は時間軸方向に並列になります。

585:デフォルトの名無しさん
08/09/12 13:31:48
whetstoneとかのベンチマークをCUDAで動かしたいんだけど、
とってきたソースをCUDA環境で動かすには書き換えないとダメなの？

586:デフォルトの名無しさん
08/09/12 13:47:04
sharedメモリなんだけど制限とかあるの？

method<<<dim3(1000,1000),4, 1000*1000*4>>>
とか

587:デフォルトの名無しさん
08/09/12 18:06:38
ガウシアンぼかし３ｘ３を５００ｘ８００のフルカラー画像で約０．３秒だった
8400GSですけど
こんなもん？もう少し早いのを期待したんだが

588:デフォルトの名無しさん
08/09/12 18:45:28
そのアルゴリズムはCPUでやるとどのくらいかかった？

589:デフォルトの名無しさん
08/09/12 18:51:26
ブロックの分け方をいじったら０．１５秒になった
CPUで同じの組むのめんどいです
エミュレーションモードってどうやってやるの？

590:デフォルトの名無しさん
08/09/12 22:29:38
>>589
＞エミュレーションモードってどうやってやるの？
nvccにオプション指定するだけだよ。
あくまでもエミュレーションだから余計に遅くなるけど。

>>587
サンプルで似たようなのなかった?
フィルタ類は色々あったと思うから眺めてみるといいと思う。

>>586
あんたもdeviceQueryを実行する必要がありそうだ。
sharedにそんなに取ると、物理量を大幅に超えるから巧く動いたとしても無茶苦茶遅くなるぞ。

>>585
whetstoneなんて、並列演算に向かないと思うのだけど。
あー、繰り返しを並列にすればいいか。それだったら移植もそれほど難しくはない。

591:デフォルトの名無しさん
08/09/12 23:29:34
デバイス上にRGB(unsigned char)の画像配列を確保してある状態で
これをOpenGLのテクスチャにホストを介さずにバインドして利用出来る？

592:デフォルトの名無しさん
08/09/13 05:38:14
すいません質問です。
CUDAでFFTやってるサンプルコードとかどこかにないでしょうか。
探しても見つからなかったんです。

593:デフォルトの名無しさん
08/09/13 06:58:27
>>592
simpleCUFFT違う？

>>590
「並列演算に向かない処理を並列にすればよくってよ？」
これ最高よね

594:デフォルトの名無しさん
08/09/13 08:25:22
>>592
そのくらい自分で考えれ、そんなに難しい事じゃなじゃん

595:590
08/09/13 08:48:04
>>593
＞これ最高よね
???

>>592
CUFFT使うだけならnvccも要らない。

596:デフォルトの名無しさん
08/09/16 07:06:46
>>590
誰かが「このアルゴリズムは並列化には向かないうんぬん」と言った
アルゴリズム×128本を同時に実行してしまうとか最高よね、という
意味なのではないかな。確かに上司の驚愕を呼ぶね。

597:デフォルトの名無しさん
08/09/16 13:08:08
俺は並列化できそうな新たなアルゴリズムを考案しろという意味かと思った

598:デフォルトの名無しさん
08/09/16 14:18:16
PIの計算だって本来並列には向かない

599:デフォルトの名無しさん
08/09/16 14:20:31
CUDAでデバッグDLLが付属してないようなのだけど
例外処理ってどうやればいいので？
try..catchとか使えるの？

600:デフォルトの名無しさん
08/09/16 15:34:27
無理。

601:デフォルトの名無しさん
08/09/17 01:10:50
多体シミュやりたいなーと思ってたら，本屋で見かけたGPU Gems3に載ってた
でもそれだけの為に買うのもなー・・・３はいつ原版が公開されるんだろー

602:デフォルトの名無しさん
08/09/17 02:51:27
なんかDirectX11で並列演算に対応するのと
11世代のOpenGLの仕様にOpenCLっていうCUDAの類似品が実装されるらしい
たぶんCUDAはこのまま消えていく

603:デフォルトの名無しさん
08/09/17 10:36:55
GPGPUの可能性を示してくれただけで十分だよ

604:デフォルトの名無しさん
08/09/19 00:12:03
カーネルのネストって出来るの？
__global__ void a(){
...
}

__global__ void b(){
a<<<dim3(100,100),1>>>();
}

void main(){
b<<<dim3(100,100),1>>>();
}

みたいな

605:デフォルトの名無しさん
08/09/19 00:50:28
なんか根本的にひどい勘違いしてなくね？

606:デフォルトの名無しさん
08/09/19 00:55:26
>>604
GPU内部からカーネルを発行することは不可能

607:デフォルトの名無しさん
08/09/19 06:46:20
__device__ でプログラミングガイドを検索汁。

608:デフォルトの名無しさん
08/09/19 09:12:17
>>602
CUDAの内部にOpenCLが含まれる構成だからCUDA

609:デフォルトの名無しさん
08/09/19 17:51:43
処理に時間がかかるとGPUが完全停止してタイムアウトでドライバレベルのエラー出すんだけど
一回そのせいで画面全体がぐちゃぐちゃになってWindowsが操作不能にまでなったぞ
非同期実行じゃないんかい
どうすんのこれ？

610:デフォルトの名無しさん
08/09/19 19:18:20
>>609
それは質問なのか？愚痴なのか？
質問だとしたら・・・分かるな？

611:デフォルトの名無しさん
08/09/19 20:43:54
>>609

OSがVistaなら下の資料を参考にレジストリ弄ってみるとか。

WDDM によるタイムアウトの検出と GPU の回復
URLﾘﾝｸ(www.microsoft.com)

612:デフォルトの名無しさん
08/09/20 12:00:52
192コアとか216コアとか240コアとか

使いづらいですよ！漏れの弱い頭がパンクしそうです！
お願いだから隠された力を覚醒させて256コア版出してくだしあ！！！１１

613:デフォルトの名無しさん
08/09/20 19:27:47
いや一回計算方法実装すれば後はそれを使いまわすだけだろ

614:デフォルトの名無しさん
08/09/22 11:58:30
>>612
CUDAをVer2にするんだ。デバイス情報取得APIでコア数が判るようになっているぞ。
# つーか、256コア版の歩留まりが悪くてサブプロセッサ単位で減らして対応しているんじゃないの?w
# PS3のCBEが7SSEなのはそういう事情だそうだし。

615:デフォルトの名無しさん
08/09/26 13:20:34
CUDAってなんて読むの？くーだ？

616:デフォルトの名無しさん
08/09/26 13:21:28
んだ。

617:デフォルトの名無しさん
08/09/26 14:49:14
cubaがキューバなんだから
cudaはクーダだろ・・・常識的に考えて・・・

618:デフォルトの名無しさん
08/09/26 15:18:21
キュ～(＞＜)～だ

619:デフォルトの名無しさん
08/09/26 19:23:46
8400GSだと、h264エンコで実速出ないねぇ
12fpsがやっとだよ
もう少し速いかと思ってたんだけどな

620:デフォルトの名無しさん
08/09/29 01:41:34
ＣＵＤＡを使いたいと思っている初心者です
macのxcodeでもできますか？？
imacで８８００ＧＳです

621:デフォルトの名無しさん
08/09/29 11:36:23
>>619
よりによって、CUDAが動く最底辺の方のGPUを使わなくても……

>>620
NVIDIAの公式サイトが全てなので、そこを読んで判断してください。
つーか、xcodeってなに?

622:デフォルトの名無しさん
08/09/29 20:31:53
>>620
５万払って雪豹もらってください。
動くレベルじゃないって話だけどね。

623:質問です
08/09/29 20:37:44
初心者です。
CUDAサンプルを動かしてみて感じた事なのですが、
HLSL,GLSL,Cg言語それらを使わずに、使った時のような絵が出せるのでしょうか？
CUDAもGPU上で計算しているみたいなので・・・

624:デフォルトの名無しさん
08/09/30 03:09:36
それじゃあ俺も初心者です

625:デフォルトの名無しさん
08/10/01 14:32:24
じゃあおれも

626:デフォルトの名無しさん
08/10/01 23:36:19
>>623
サンプルを見たのなら判ると思うけど、OpenGLはほぼそのまま使えるようですよ。

627:デフォルトの名無しさん
08/10/04 00:48:53
URLﾘﾝｸ(en.wikipedia.org)
これ見るとCUDAにそっくりだな
CUDAをちょっと修正するだけでOpenCLに対応出来そうだけど

628:質問です
08/10/05 00:39:12
>626
OpenGLは使えるのはわかってます。
CUDAでピクセル単位の計算できるのかが知りたいのです（汗
Cg言語を使ってバーテックスシェーダで計算していた処理を
CUDAで実現いてみたら、うまくいったのですが、
フラグメントシェーダでやってた処理が実現できなくて・・・
そもそもできるのかどうか・・・
ってところが知りたいのです。

629:デフォルトの名無しさん
08/10/05 03:26:43
そのためだけにCUDAは作られました

630:デフォルトの名無しさん
08/10/05 03:28:30
つかサンプルにSobelFilterってのがあるだろあれみれ

631:質問です
08/10/06 14:55:42
>>630
SobelFilter見てみました。
見落としてました。
ありがとうございます。

632:デフォルトの名無しさん
08/10/10 21:46:48
日本の公式フォーラムできた
URLﾘﾝｸ(forum.nvidia.co.jp)

633:デフォルトの名無しさん
08/10/10 22:23:43
なんとも直訳のような回答ばかりw

634:デフォルトの名無しさん
08/10/10 22:48:12
直訳なんかしたらまともな日本語になってるわけないじゃないか

635:デフォルトの名無しさん
08/10/10 22:49:17
あの回答がまともな日本語だと思うのか?

636:デフォルトの名無しさん
08/10/10 23:06:59
ああ俺の中で日本語ドキュメントの思い出が醜化されていたようだ

637:デフォルトの名無しさん
08/10/11 00:32:34
悪くない

638:デフォルトの名無しさん
08/10/11 01:03:23
え、俺これ読んですごいwktkしてるんだけど。
サンプル投稿みたいな質問したら、気が向いたらNVIDIAが答えてくれるかも知れないって事でしょ？

639:デフォルトの名無しさん
08/10/11 02:28:44
正直、ここで聞いた方がましだと思う漏れもいる。

640:デフォルトの名無しさん
08/10/11 06:42:53
投稿者：　NVIDIA CUDA Team
どんな人　専門家
自信　　　自信あり

ちょっと面白いｗ

641:デフォルトの名無しさん
08/10/11 07:43:30
少し読んでみたが日本語のあのドキュメントよりはずっと読みやすいよｗ
あれは酷すぎた

642:デフォルトの名無しさん
08/10/12 11:48:23
それでもどう考えても英語のほうが読みやすいけどな。

643:デフォルトの名無しさん
08/10/12 23:45:50
アトミック処理に放射線の危険はありません。:-)

644:デフォルトの名無しさん
08/10/21 20:40:02
質問です。
CUDAを使って、GPU上で計算している部分の一部を、
FBOとCg言語を使って、オフスクリーンで計算させることってできますか？

もちろん、無駄なことはわかっているのですが・・・

645:デフォルトの名無しさん
08/10/21 22:23:14
なんでCUDAのサンプルってコンソールアプリばっかりなんだろう

コンソールアプリじゃないときは
CUT_DEVICE_INIT(argc,argv);
CUT_EXIT(argc, argv);
のargc,argvってとりあえず 0 と nullとか渡しとけばいいの？

646:デフォルトの名無しさん
08/10/21 22:24:53
>>644
日本語でどうぞ。

647:デフォルトの名無しさん
08/10/21 22:27:14
>>645
そもそもCUT_DEVICE_INITはMultiGPU環境でGPUの番号を指定したりするためにあるようなもの。
0とNULLでもいいけど、敢えて使う必要もない。
CUT_EXITに至っては、プログラム終了時にプロンプトを出すためにあるようなもんだ。
# 詳細は、cutil.hを読め。

648:デフォルトの名無しさん
08/10/21 22:33:37
>>647
ありがとうございます

649:デフォルトの名無しさん
08/10/22 00:59:28
>>645
ウィンドウ出してグラフィックだすようなサンプルも多いが。

650:デフォルトの名無しさん
08/10/22 08:56:39
普通にイメージクラスでCUDAを実装してDLL化して使ってるが
DLLだからコンソールだろうがWindowだろうが使えるぞ
でもお前らにはやらない

651:デフォルトの名無しさん
08/10/22 12:41:14
>>694
頭のほうしか見てなかった...

652:デフォルトの名無しさん
08/10/23 14:06:38
ここでロングパス！

653:デフォルトの名無しさん
08/10/26 13:54:35
URLﾘﾝｸ(pepper.is.sci.toho-u.ac.jp)

654:デフォルトの名無しさん
08/10/26 15:14:01
今日からcudaプログラミングを始めようとしている超初心者です
nvidiaのGTX280のピーク性能は933GFlopsだって歌われているのですが、
しかし240のコアで1296MHｚで動作しているのなら、311GFlopsになるはずですよね？
この3倍の数値の差はどこからくるのでしょうか？

655:654
08/10/26 15:16:30
あ、もしかして1サイクルで３つオペランドを消費するような命令があるってことで
しょうかね？

656:デフォルトの名無しさん
08/10/26 17:22:50
maddならmul+addだから2倍なんだけど、3倍なんてあったかな? とこの前から思っている。

657:デフォルトの名無しさん
08/10/26 18:34:50
URLﾘﾝｸ(journal.mycom.co.jp)
madd + mul で3の気がする

658:デフォルトの名無しさん
08/10/26 19:15:55
ベクタ計算じゃないので最内ループの記述は楽々
それでいて300GFLOPS台の性能がでるなんて夢のようですね

659:デフォルトの名無しさん
08/10/26 19:25:03
巧く嵌まればね。書くのは楽だけど、チューニングが大変なのは変わらないわよ。

660:デフォルトの名無しさん
08/10/26 19:50:18
ローコストにCUDAプログラミングやチューニングのコツを掴むのに適したマシンってありますか？

いま持ってるノーパソのGPUがnvidiaならよかったんだが、そうじゃないので
安くCUDAできるマシンを買おうか検討中。「試し」なので自作とか高価なのは避けたい

参考になる話があったら聞かせてくださいまし

661:デフォルトの名無しさん
08/10/26 19:57:15
予算を教えなはれ。
14万でMacBookとか？
後は、Nvidiaチップ内臓の自作で10万切ることも可能
今デスクトップPC不所持で5万の予算だったら無理。

662:デフォルトの名無しさん
08/10/26 20:03:39
意味のある試しプログラミングができればいくら安くてもいい
中古ノートのオンボロで構わないと思っている

奮発しても10万といったところですかね

663:デフォルトの名無しさん
08/10/26 20:05:52
私は一世代前のCore2Duoで8800GT入れているけど9万ほどだったかな。
今だったら、45nmのCore2Duoでメモリ1GB積んで9600GTでも入れれば結構楽しめると思う。
DosPara辺りのゲーム用PCが丁度そんな感じのスペックじゃないかな。
# 都合いいことに、「ゲーム用」はVistaじゃないことが多いしね。

664:662
08/10/26 20:10:12
>>661
10万と書いたが、MacBookの14万というのはちと食指をそそられるな…

当方unixやlinuxはそこそこ扱えるが、Macは十年以上触ったことがないし
開発環境とかどうなっとるんでしょうか

665:662
08/10/26 20:15:35
あ、そうそう
今のノートに買い替えてから使ってないけどモニタとキーボードはあります
モニタったって今時CRTのSXGAですけどね

>>661 >>663
ありがとうございます。参考にします

666:663
08/10/26 20:21:45
ちょっとDosPara見てきたけど、XP足しても8万くらいで作れるようね。後は余裕次第かな。
この手のBTOの常で、キーボードとマウスは嫌でもついてくるけど。

それは別として、MacBookで色々苦労したいのならそれはそれでありだと思う。
私なら、ミニタワーで安く済ませた分で、1280x1024を越える大きさの液晶モニタでも買うけどね。

667:662
08/10/26 20:36:02
>>663
やっぱりMacは今でも苦労が多いのかw でもまあひと通り調べてはみよう。
ドスパラのBTOも、後で自分でチェックしてみることにします。

668:デフォルトの名無しさん
08/10/26 20:57:29
bootcampでlinux入れちゃえばOKジャマイカ？
と思ってググッたら酷い、お勧めできない。

669:デフォルトの名無しさん
08/10/26 21:36:37
GTX260は単体で3万円切っているので、工夫すれば10万でデスクトップ組めるかも？？

670:デフォルトの名無しさん
08/10/26 21:40:29
別にWinノートPCを持っているなら、ミニタワーはLinuxでもいいんじゃね？
CUDAをWinで使うとnvccがgccベースだからC++関連の内部関数がめんどくさいよ。

671:662
08/10/26 22:17:28
まあ先に言った通り自作は手控えたいです。トラブルを楽しむほどの余裕が今はないので。
ボード一枚突っ込むくらいですかね。自分の手でやってもいいやというのは。

>>670
VS2008があるので、できればそっちと連携させながらやりたい
（ガワとか作るのはC#が便利なので…）と思っていたんですが、難しいですかね。
cudaが基本gccだというのは判っているので、まあ何ならIPCで繋げばいいやくらいに
テキトーなことを考えていたわけですが。

672:デフォルトの名無しさん
08/10/26 22:43:00
VC向けのプロジェクトテンプレートあったよね

673:662
08/10/26 22:51:53
>>672
ああ、ありましたね

これから風呂入って寝てしまうので、今日はこのへんで。
皆様どうも、いろいろご親切にありがとうございました。

一応、明日以降もときどきこのスレをチェックするようにします。

674:デフォルトの名無しさん
08/10/27 10:21:12
グラボだけ変えればいいじゃん

675:デフォルトの名無しさん
08/10/27 10:23:30
PCIEマシンを持ってないなら
E1200+9400GTあたりで組めば3万以内で組める

676:デフォルトの名無しさん
08/10/27 10:27:01
ちなみにうちのE1200は３Gで動いてたけど
E7200に変えたのでサブにした
３Gあればメインマシンとしても十分だと思うけど
ただマザーはそれなりにOC耐性の高いものが要るので
どうしてもミドルクラスの1万5000円前後になるけどね

677:662
08/10/27 23:23:34
>>675
だいたいそのへんで検討中です。
Windows XPをインストールするとケチっても5万くらいにはなっちゃうようですが
（自宅PCは98SE→Vistaノートへポーンと飛ばしたので、XPを持ってない）ま、それはそれで。

678:デフォルトの名無しさん
08/10/28 21:31:33
強力な浮動小数演算ができる装置を手に入れても、物理屋、ごく一部の化学屋、工学屋の超上位層ぐらいしか使い道が無いぽ。

679:デフォルトの名無しさん
08/10/28 22:09:02
と無知な輩がわめいております

680:デフォルトの名無しさん
08/10/29 03:42:30
実際ない

681:デフォルトの名無しさん
08/10/29 04:44:41
GPU Gemsの3とかに沢山載ってるよ。
暗号化解析とかパケットフィルタリングとか。

682:デフォルトの名無しさん
08/10/29 05:09:26
パケットフィルタの為に２００W近く常時負荷掛けるなんて無理だ

683:デフォルトの名無しさん
08/10/29 08:49:21
＞物理屋、ごく一部の化学屋、工学屋の超上位層ぐらいしか
もともとゲームやCGでさんざん使い倒されているデバイスなのに何を言うのか

CUDAは、ということであれば、たとえばこれを土台にファイナンス系のミドルウェアが作られたら
そっち系の需要が一気に開花するかもしれない
今んとこCUDAのサイトで紹介されている事例はいささか高尚すぐる気がするけどな

684:デフォルトの名無しさん
08/10/29 09:33:00
どっかの銀行でやってるんじゃないか?

685:デフォルトの名無しさん
08/10/29 12:06:23
銀行ってイメージ的に扱うトランザクションは半端なく多そうだけど、それがSIMDではなさそうな。
必要なのはPOWERに乗ってるような十進演算器じゃないの？

686:デフォルトの名無しさん
08/10/29 13:21:47
そう言えば、NVIDIAの営業が得意気に「銀行系には1000台単位でお買い上げいただいてます」とか言ってたな。

687:デフォルトの名無しさん
08/10/29 14:19:44
それ演算用ではなくて表示用だったりして。

688:デフォルトの名無しさん
08/10/30 00:10:25
DoubleFloatのみで対決したら、最新GPU1機 vs. 最新のクアッドコアCPUのどっちが勝つと思う？
CPUはamd64と、SSE等使用時（誤差を考えればむしろこっちと比較するべき？）の両方で予想してほしい。

689:デフォルトの名無しさん
08/10/30 00:12:02
CPU

690:デフォルトの名無しさん
08/10/30 00:23:35
用途による。
考えるのが面倒くさければCPU。

691:デフォルトの名無しさん
08/10/30 02:35:58
メモリアクセスのペナルティがあるから、その観点で比べてもしょうがないよ

692:デフォルトの名無しさん
08/10/30 04:31:20
銀行で使うとしたら、勘定系ではないだろ。
そうではなくて、商品開発やシミュレーションなど、1円2円ずれてもいいような業務

693:デフォルトの名無しさん
08/10/30 15:04:09
銀行とかトラフィックが確かにすさまじいけど
システム改変するコストもすさまじいぞ
数十年に一回やれるかどうかだろ
それに負荷１００％で２４時間なんてカードが耐えられるとは思えない

694:デフォルトの名無しさん
08/10/30 16:15:06
常時負荷100%という状況になっていること自体設計ミス
60～70%が適正

695:,,・´∀｀・,,）っ-●◎○
08/10/31 02:29:13
>>671
マーケティングの人に直接聞いた話では、そのうちそのへんは改善されると思うよ。
あ、機密事項と言われてるので具体的には言えない。

696:デフォルトの名無しさん
08/10/31 17:56:27
最近銀行システムの開発で、6000人のSE集めた超プロジェクト失敗したものねえ。まあ当然だが。
SEが6000人だからねえ。プログラマはもっと多いとかもう想像つかない。

697:デフォルトの名無しさん
08/10/31 21:10:20
TMPGencのCUDA対応版が出たんでインストールしたんだけど
CUDAの項目にチェックできないのは何故・・？

ドライバは178.24でグラボがASUSの8800GTS(640MB)

698:697
08/10/31 21:19:21
スマソ自己解決
g80はダメなんだってねOTL

699:デフォルトの名無しさん
08/10/31 23:34:51
>>698
ｲｷﾛ。

700:デフォルトの名無しさん
08/11/01 00:39:03
G80はストリーム系のAPIが使えないからねぇ。

701:デフォルトの名無しさん
08/11/01 01:49:28
>>696
JRとかの鉄道や、電力といったインフラ系はもっと大きい。
しかし、大きいが故にPJ失敗しまくってる。

人数を増やせば増やす程、集めた人材の質は低下する。
そして頭脳労働の場合、一番質の低い人のレベルに
足並みを揃えなきゃいけなくなるからなぁ。

しかし戦中・戦後に一気に作ったシステムが老朽化して、
銀行どころでなく大規模な改修がどれもこれも必要なのだが。

#mixiで見掛けたよ＞団子の中の人

702:デフォルトの名無しさん
08/11/01 01:54:45
>>662
HP ML115サーバ機に、GF9400GTあたり刺して、
Linux入れたら？ 1CD-Linuxの knoppix for CUDA
なら、最初からCUDA環境が構築済みで、サンプル
も憑いて来るし。

慶應義塾大学泰岡（やすおか）顕治研究室 Yasuoka Laboratory
URLﾘﾝｸ(www.yasuoka.mech.keio.ac.jp)

個人的にはGF8200なM/BのオンボでCUDA走れば、
裸M/BのCUDAクラスタ組もうかと思ってるが、
CPUやメモリの値段を考えると、ML115の方が
安上がりなんだよな。

703:662
08/11/01 06:57:01
>>702
これはビックリ！こんな激安サーバがあるなんて知らなかった…
激安なのにPCI-Expressとかついてて（x16必須な）nvidiaのグラボもちゃんと動く、
ということでゲームの人達にも人気があると…ふむふむ。

ところで素のML115はメモリ512Mなのだけれど
上記研究室のページによるとknoppix for CUDAの推奨動作環境はメモリ2G以上、とある
ML115を使う場合、安いやつを別に買ってきて刺し換えればよろし、ということですね？
（ML115もhp直販だとメモリ増設オプションはECCつきの高いやつしかない…）

ML115が16k、9400GTが9k、2Gメモリも安いのは3k未満、で30kを切りますな。
個人的にサーバ機もAMD64もknoppixも使ったことがないので、
それらの組み合わせとなると微妙に不安だ（笑）が、いずれにせよこの値段は魅力的

大変参考になりました。ありがとうございます。

704:デフォルトの名無しさん
08/11/01 07:57:06
デモ機で借りたTeslaC1060使っているんだけど、ホストCPUがAMDのPhenom。
Xeonに較べて遅い遅い。普段使っているXeonに8800GTの組み合わせの方が早いって何さw

705:,,・´∀｀・,,）っ-●◎○
08/11/01 08:16:53
つまんない質問だけどGTX2xxの人は電源いくらよ。
＋150Wくらいはマージンとったほうがいいと思うよな？よな？

706:デフォルトの名無しさん
08/11/01 10:03:17
なんに対して+150?
GTX280ボード単体での消費電力は236W、GTX260でも180Wクラス消費するからね。
ついでに言えば、補助電源用コネクタもGTX280は6ピン+8ピンの特殊コネクタが必要だし。

707:,,・´∀｀・,,）っ-●◎○
08/11/01 10:25:14
>>706
システム全体で。500W電源以上推奨って言ってるけどじゃあ500Wで安定するかっていうと
信用できねー

708:デフォルトの名無しさん
08/11/01 10:25:55
無理。

709:,,・´∀｀・,,）っ-●◎○
08/11/01 10:28:03
とすると、マシン一式組んで貸し出してもらうのがベストだよな？
よし参考になった。

710:デフォルトの名無しさん
08/11/01 11:59:03
8800GTなら100Wだし、補助電源コネクタも6ピンだけで済むよ。

711:,,・´∀｀・,,）っ-○◎●
08/11/01 12:04:23
うん、俺も8800GTまでなら550Wで余裕といえるラインかなと思っている。

712:デフォルトの名無しさん
08/11/01 14:45:29
GTX280を使うのなら、700Wクラスの電源が欲しいところだね。

713:デフォルトの名無しさん
08/11/02 15:04:39
CUDAは8800以上のクラスで無ければ意味ない。
8500とかはとりあえず走るだけでパフォーマンスは全然駄目。

714:,,・´∀｀・,,）っ-●◎○
08/11/02 17:39:50
8400GSとかになると額面性能でもCore 2シングルコア以下だな。

715:デフォルトの名無しさん
08/11/02 19:59:18
　　そだ　 |------､｀⌒ｰ--､
　　れが　 |ﾊ{{　}} ）））ヽ､l l ハ
　　が　　　|､{ ﾊリﾉﾉﾉﾉﾉﾉ）､ l l
　　い　　　|ヽヽｰ､彡彡ﾉﾉﾉ}　　に
　　い　　　|ヾヾヾヾヾヽ彡彡} 　や
　　!! 　　 /:.:.:.ヾヾヾヾヽ彡彡} l　っ
＼＿＿／{ l ii | l|} ﾊ､ヾ} ﾐ彡ﾄ
彡ｼ ,ｪ､､､ヾ{{ヽ} l|l ｨｪ=ﾘ､シ} |l
lミ{　ﾞｲｼﾓ'ﾃ､ミヽ}ｼｨ=ﾗ'ｧ､ }ﾐ}} l
ヾﾐ　　￣~'ｨ''': |ﾞ:ｰ.￣　 lﾉ/l | |
ヾヾ　　 " 　: :　!､　｀　　lｲﾉ l| |
　>lﾞ､　　　　ｰ､,'ｿ　　 /.|}､ l| |
:.lヽヽ　　ｰ_ ‐-‐ｧ'　 /::ﾉl ﾄ､
:.:.:.:＼ヽ　　二"　 /::// /:.:.l:.:.
:.:.:.:.:.::ヽ:＼　　　　/::://:.:,':.:..:l:.:.
;.;.;.;.;;.:.:.:.＼｀ｰ-- '" //:.:.:;l:.:.:.:l:.:

716:デフォルトの名無しさん
08/11/03 01:57:15
サブノートPCでCUDA動くようにならんかな。
通勤、出張の途中でいぢってみたい。こんな
時でもないと、仕事に直結しないプログラム
組んでる暇無いからなぁ。

>>703
AMDの場合、メモリコントローラがCPUに内蔵なので、
ECCでもnon-ECCでも使える。安い通常のnon-ECCメモリ
1GBx2枚買ってくればOK。ML115はNTT-Xで買えば、
13800円(送料込)。

717:デフォルトの名無しさん
08/11/03 02:19:41
つ N10J

718:662
08/11/03 06:43:24
>>716
回答ありがとうございます。

719:デフォルトの名無しさん
08/11/03 11:13:39
>>716
俺はサブノートでソースは書いてるよ。動作確認は自宅に戻ってからだけどね。
一発で動けば気持ちいいもんだ。

720:デフォルトの名無しさん
08/11/03 11:52:24
質問です

OpenCLが出たらCUDAはお払い箱ですか？

721:デフォルトの名無しさん
08/11/03 12:00:27
>>719
エミュは動いている?

>>720
いいえ、画像処理だけがCUDAの使い道ではありません。

722:,,・´∀｀・,,）っ-●◎○
08/11/03 12:55:07
Apple主導の言語処理系って流行らんだろ。
GPU版Objective-Cだと思え。

ちなみにNVIDIAから補助もらってる俺は仕事につながるって言えるのかな？

723:デフォルトの名無しさん
08/11/03 13:08:35
>>722
その仕事、こっちにくれw
情報少なくて、参ってるんだ。

724:デフォルトの名無しさん
08/11/03 13:10:10
>>722
ObjectiveCは言語仕様からしてクソだったから流行らなかった。
それだけです。

725:,,・´∀｀・,,）っ-●◎○
08/11/03 13:25:26
>>723
メールサポートだけもらってるけどマニュアル落として自分でやったほうが早いしなぁ

俺のほうこそ各ptx命令のレイテンシ・スループットの資料欲しいんだけど。
Intelはそういうのまめに出してくれるから助かるんだが

726:,,・´∀｀・,,）っ-●◎○
08/11/03 13:29:01
YellowBoxだっけ？
WindowsでもMacでも動くアプリケーションが動くフレームワークとか
大風呂敷広げてあれ結局どうなったっけ？

MicrosoftはDX11があるからOpenCLの標準化なんて破談する可能性大
Appleのフレームワークは地雷ばかりで困る。

727:デフォルトの名無しさん
08/11/03 15:35:29
>>725
なんだ、ないのか。NVIDIAの日本法人は、ろくに情報持ってないっぽいんだよね。

728:デフォルトの名無しさん
08/11/03 16:03:03
>>725
ptxは中間言語だろ？

729:デフォルトの名無しさん
08/11/03 17:02:05
>>726
先入観が身を滅ぼすだろう。

730:デフォルトの名無しさん
08/11/03 17:55:12
質問スレッドなので、唐突に質問するわけですが、ごきげんよう

CUDAのSDKに付いてくる
Programming Guide Version2.0の60ページ目の真ん中あたり

For devices of compute capability 1.x,
the warp size is 32 and the number of banks
is 16 (see Section 5.1);
a shared memory request for a warp is split into one request
for the first half of the warp and one request for the second half of the warp.
As a consequence, there can be no bank conflict between a thread belonging to the first
half of a warp and a thread belonging to the second half of the same warp.

が分からない。
何が分からないのかというと、これはShared Memoryの最適なアクセスに関する記述なんだけど、
ワープの中に並列実行できるスレッドが32個あるというのにshared memoryのバンク数は16個しかない。
普通に考えたら２つのスレッドが同時に１つのbankにアクセスするわけで、
思いっきりバンク競合するはずよね？
でも、この記述はバンク競合が起こらないって自信を持って記述されているわけよ
nVidiaの人教えてちょ

731:デフォルトの名無しさん
08/11/03 18:59:44
Half Warp(つまり16スレッド)ずつスケジューリングされるんじゃなかったかな
だからバンク競合は起きない
nVidiaの人では無いが

なら何でWarp=16スレッドとしないんだろう…というのが俺の疑問

732:,,・´∀｀・,,）っ管
08/11/03 20:56:32
中の人いわく
命令レイテンシ隠蔽のためにクロック毎にインタリーブしてるだけだから細かいことは気にすんな

733:730
08/11/03 22:01:55
なるほど～
ワープの正体は16並列と見つけたり
ってことですな！

734:デフォルトの名無しさん
08/11/04 14:28:34
GeForce 9400MってCUDA使える？

735:デフォルトの名無しさん
08/11/04 16:04:29
2.1でサポートできるように頑張ってるけど間に合わないかもしんないって言ってた

736:,,・´∀｀・,,）っ-●◎○
08/11/08 18:21:17
今月中に何かしら動きが・・うわなにをする
くぁwせｄｒｆｔｇｙふじこｌｐ；「’」

737:デフォルトの名無しさん
08/11/08 18:28:53
個人的には1.3世代の1スロット厚のGPUボードが欲しいのだけれど……
# 出ますと言ってた奴はその後連絡寄越さないしなぁ。

738:,,・´∀｀・,,）っ-●◎○
08/11/09 21:55:53
コードの実行時動的生成（分岐除去とかパラメータの定数化とかってレベルで）って
CUDAではいまんとこ無理なんだよな？
Larrabeeが出たらそういう最適化できる部分はXbyak使おうかなと思ってるんだが

っていうか、SPMDじゃないプログラミングモデルまだー？

739:,,・´∀｀・,,）っ-●◎○
08/11/10 01:14:51
>>730-732
に補足。

各SPは最大2issue同時実行なんだけどデコーダは半速。
1SPあたり4スレッドでインターリーブして同じオペレーションを実行するとちょうど命令供給が間に合う構造だな。

1warp＝
16にすると、デコーダは等速か、半速×2にしないといけない。
デコーダの負荷を抑えたかったんじゃないの？

740:デフォルトの名無しさん
08/11/11 21:20:50
CUDAはじめようと思って調べ始めたんだが、
7xxxシリーズはなんで切り捨てられたのか・・・

今週末に9600GT買いに行かなきゃ

741:デフォルトの名無しさん
08/11/11 21:26:36
どうせなら260だか280あたりにしといたら

742:,,・´∀｀・,,）っ-○◎●
08/11/11 22:15:53
電源とかケースとかの敷居高くない？

743:デフォルトの名無しさん
08/11/11 22:33:54
>>740
切り捨てられたんじゃなくて、始めから想定されてない。

URLﾘﾝｸ(journal.mycom.co.jp)
この連載のはじめの方のGPUの進化を追うと、少しは判るかも知れない。
で、どうせならQuadroFX3700をお勧めします。8800GTとほぼ同一仕様でお値段10倍w

744:デフォルトの名無しさん
08/11/12 22:41:03
CUDA-Zなんて便利なものがありました。
forum.nvidia.co.jp

745:デフォルトの名無しさん
08/11/13 21:17:18
それよりレイトレベンチマークのほう、Ｂｉｏ１００％が作ったのか！
SuperDepthとかカニミソとかが蘇ってきたぜ

スレ違い済まん

746:デフォルトの名無しさん
08/11/13 21:20:01
>>745
URLﾘﾝｸ(noridon.seesaa.net)

747:デフォルトの名無しさん
08/11/13 21:58:30
>>745-746
まだ生きてたのか！
PC-98では大変お世話になりました。

そしてブログを読んでみたら、超わかりやすい！
coalescedの意味とか、8/29のエントリみたいなメモリアクセスが遅い理由とかよく分からなかったんだよ。助かった。

748:デフォルトの名無しさん
08/11/15 01:15:52
vista sp1にCUDAをインストールしたいんだけど
ドライバ：○
↓
tool kit：×インストールが終了しない。。

で上手くインストール出来ないんですが、誰かしりません？
強制終了したらアンインストールの項目にtool kitの項目があるのにアンインストールするとerror:5001で失敗しやがるし。。。

最悪

749:名無し募集中。。。
08/11/15 02:28:14
TMpegEncのCUDA対応は4フィルタだけで今のところあまり効果がないみたい
AviUtilのCUDA対応フィルタもパフォーマンス出ないという理由で公開停止
今からでもチャンスありますかね?

750:デフォルトの名無しさん
08/11/15 03:36:03
作りたいなら是非作ってくれ

751:デフォルトの名無しさん
08/11/15 06:15:48
>>748
管理者権限でやっている?
後柱ね。

752:デフォルトの名無しさん
08/11/15 21:32:05
なんかLinux向けのドライバにCUDA2.1入ってるらしーよ
URLﾘﾝｸ(www.nvidia.com)

753:デフォルトの名無しさん
08/11/17 19:18:56
>>738
URLﾘﾝｸ(www.nvidia.com)
スライド87

754:,,・´∀｀・,,）っ-○◎●
08/11/18 17:41:42
>>752
ついに来てしまったか>>736

755:デフォルトの名無しさん
08/11/18 23:45:16
ラジオシティできるソフトってありますか?できればソース付きで...

756:デフォルトの名無しさん
08/11/20 23:06:52
Cg勉強しようと思って調べてたら、CUDAってのもあるんだな。
それぞれできる事って、具体的に何が違うの？

とりあえず7600GTしか持ってないんで、CUDAは使えないんだが、
Cg勉強するぐらいなら、CUDA勉強したほうが圧倒的に良いなら
対応グラボ買おうと思うんだが

757:デフォルトの名無しさん
08/11/20 23:34:27
そういう何処にでも載っていることすら調べられないのならCgにすれば。

758:デフォルトの名無しさん
08/11/21 13:20:39
CUDA 2.1 beta
URLﾘﾝｸ(forums.nvidia.com)

VC++9とDX10インターオペラビリティがやっと

759:デフォルトの名無しさん
08/11/21 21:39:18
cuda sdkのサンプルを実行するとtest failedと出て実行できないんですけど。
環境はos xp 64, quadro FX 4600です。
先ほどnvidiaからドライバとツールとSDKをダウンロードして
インストールしました。ドライバは更新されています。
visual studio 2005も入れました。

760:デフォルトの名無しさん
08/11/22 17:06:06
Teslaを使っているのですが、電源コードを抜く以外の方法で、装置を再起動
する方法はないでしょうか。
バグのあるコードを何度も実行した結果、cudaMalloc()が返ってこない
状態になっています。

761:デフォルトの名無しさん
08/11/22 18:21:05
たわけた質問だと思いますが、お許しください。
NVIDIA製のカードが入っていないPC上で、
nvemulate.exeを利用してCUDAを使用する事は可能なのでしょうか？
実際の処理に使うのではなく、CUDAプログラミングの練習に使うのが主です。

762:デフォルトの名無しさん
08/11/22 18:21:19
>>760

Sシリーズならホストを再起動するだけで復活しませんか？

763:デフォルトの名無しさん
08/11/22 18:48:56
やっぱ大学くらいしかまだ使ってないのかね

764:デフォルトの名無しさん
08/11/23 00:55:06
最近発売された、GeForce9300、9400を積んだＭＢ、
少し前のGeForce8200、8300を積んだＭＢでも実用ではないですが、
CUDAのプログラミングをして走らせる事は可能なのでしょうか？
誰もmGPUでCUDAを使っていないので…

765:デフォルトの名無しさん
08/11/23 16:49:51
みんな何の計算させてるの？

766:デフォルトの名無しさん
08/11/23 16:53:52
株価予測をリアルタイムに

767:デフォルトの名無しさん
08/11/23 19:03:26
株価の予測はできんだろ。アホか。

768:デフォルトの名無しさん
08/11/23 20:24:25
>>767
阿呆丸出し乙

769:デフォルトの名無しさん
08/11/23 20:25:59
株価の予測ができたって言ってるのは、数年前の慶応が出してた論文ぐらいじゃねーの？

770:デフォルトの名無しさん
08/11/23 20:35:29
>>768
予想と予測は明確に違うんだぜ？

771:デフォルトの名無しさん
08/11/23 23:52:44
論点がづれてるー髪もづれてるー

772:sage
08/11/25 12:13:34
>> 762
shutdown -> 電源切断 -> 電源投入の手順を踏むと、復活しました。
ただのrebootで良いかどうかは試していません。

773:アク禁中なので纏めてレス
08/11/25 12:18:30
>>772
色色と掲示板の使い方を間違っているw
で、reboot試してないなら報告しなくていいから。

>>771
髪はずれないと思うぞ、髪は。

>>765
私の所では、最近はFFTWの代わりにCUFFTでFFTを計算させている。

>>764
NVIDIAのサイトのCUDA ZONEでリストアップされていれば、使える。

>>763
んなこたーない。

774:デフォルトの名無しさん
08/11/25 15:29:23
--device-emulationでは正しく動くけれども、実機では動かないときには
ソースコードをにらむしかないのでしょうか。

nvcc --device-debug (-G) というオプションがあったので、これをつけて
コンパイルすると、ptxas が Parsing error を出して失敗します。

URLﾘﾝｸ(forums.nvidia.com)
の会話を見ると、--device-debug は今年5月の段階ではまだ使えなかった
らしく、私の場合と現象が似ているので、以前としてまだ使えないままか
と思ったのです。

775:デフォルトの名無しさん
08/11/25 18:33:51
>>769
そりゃ、予想は出来る罠
ただ、外乱はいつも不明だし、確定解は得られない。
つまり、最尤推定しかできないし、当然推定結果が大ハズレってことも、
初めから推定理論に謳われてる

776:デフォルトの名無しさん
08/11/25 19:24:20
株価予想が正確になればみんなそれを信じて買うようになるでしょ
予測自体が株価に影響を与えだして本来の予測とは違う値動きを始める
そして的中率は下がる
つまり一定以上の正確な予測を行うことは不可能なのだ

777:デフォルトの名無しさん
08/11/25 20:36:28
ここには、当たり前の簡単なことを、必死に難しく言おうとしてる
能無しがたくさん居るようだねｗ

778:デフォルトの名無しさん
08/11/26 02:25:54
１つの.cuの中で実装しているglobal関数の個数によって、
Kernel呼び出しのターンアラウンドタイムが変わるという奇妙な現象に遭遇してます。
特にKernelで処理するデータが少ない時に顕著になります。
関数の数を５～１０個で変えてみると、ターンアラウンドタイムは
最悪値で80μsec、最良で30μsecでした。
この値は
timer.start();
for (int i=0;i<100;i++) test_kernel<<grid,thread>>(test);
cudaThreadSynchronize();
timer.end();
みたいな書き方で調べてます。

9個目、10個目あたりで底があるようなのですが
こういう現象について、合理的な説明はありますか？
僕にはさっぱり見当がつかないのであります。

779:デフォルトの名無しさん
08/11/26 02:28:14
何かを勘違いしている

780:アク禁中（以下略
08/11/26 20:28:00
>>778
再現できるソースを貼ってくれたら解析するじょ。

781:778
08/11/26 23:00:43
#include <windows.h>
#include <stdio.h>
#include <cuda_runtime.h>
//Round a / b to nearest higher integer value
int cuda_iDivUp(int a, int b) {return (a + (b - 1)) / b;}
#define BLOCK_DIM ( 32)
template <unsigned int loops>
__global__ void testcuuuuKernel(float* d_h0, unsigned int size)
{
unsigned int i = blockIdx.x * blockDim.x + threadIdx.x;
if (i < size) {
float d = d_h0[i];
for (int j = 0; j < loops; j++) {d -= j * 0.1; d += 0.9;}
d_h0[i] =d ;
}
}

void dummy() {
dim3 block(BLOCK_DIM, 1, 1); dim3 grid(1, 1, 1);
testcuuuuKernel<4><<<grid, block>>>(NULL, 0);
//testcuuuuKernel<5><<<grid, block>>>(NULL, 0);
//testcuuuuKernel<6><<<grid, block>>>(NULL, 0);
}
int main(int argc, char* argv[]) {
cudaDeviceProp deviceProp;
cudaGetDeviceProperties(&deviceProp, 0);
cudaSetDevice(0);
#define DATA_SIZE ( 100)
unsigned int byte_size = DATA_SIZE * sizeof(float);

782:778
08/11/26 23:02:57
float* data = new float[DATA_SIZE];
for (int i = 0; i < DATA_SIZE;i++) {data[i] = i;}
float* d_data; cudaMalloc((void **)&d_data, byte_size );
cudaMemcpy(d_data, data, byte_size, cudaMemcpyHostToDevice);
LARGE_INTEGER nFreq, nBefore, nAfter; //TIMER初期化
DWORD dwTime;
memset(&nFreq, 0x00, sizeof nFreq);
memset(&nBefore, 0x00, sizeof nBefore);
memset(&nAfter, 0x00, sizeof nAfter);
dwTime = 0;
QueryPerformanceFrequency(&nFreq);
#define LOOPNUM 100
dim3 block(BLOCK_DIM, 1, 1);
dim3 grid(cuda_iDivUp(DATA_SIZE, block.x), 1, 1);
for (int k = 0; k < 10; k++) { //試行の試行
//start!
QueryPerformanceCounter(&nBefore);
for (int i=0; i<LOOPNUM;i++) { testcuuuuKernel<3><<<grid, block>>>(d_data, DATA_SIZE); }
cudaError err=cudaThreadSynchronize();
//stop!!
QueryPerformanceCounter(&nAfter);
cudaMemcpy(data,d_data,byte_size,cudaMemcpyDeviceToHost) ;
dwTime = (DWORD)((nAfter.QuadPart-nBefore.QuadPart) * 1000000 / nFreq.QuadPart / LOOPNUM);
printf("%d usec for %d times kernel launch\n", dwTime, LOOPNUM);
Sleep(400); //ちょっと待つ
}
cudaFree(d_data); delete [] data; getchar(); return 0; }

783:778
08/11/26 23:07:45
再現できるコードを書いてみました。
Dummyという関数でテンプレート展開されている__global__関数の数を調整してみてください。
ちなみに使っているチップはGTX260です

784:アク禁明けw
08/11/26 23:21:32
>>783
面倒だから動かしてもじっくり読んでもいないのだけれど、
カーネル関数はGPUに都度転送することになるから
一回の呼び出し粒度が小さいと転送コストが目立つことになるよ。
その位だと、恐らくは起動コストも無視できないからもっと処理させるべき。
つーか、カーネル呼び出し(<<<>>>)をループで包んだらそりゃ遅いって。

785:778
08/11/26 23:28:05
>>784
もちろんそれは分かるのですが、カーネル呼び出しの処理の内容は、<<<>>>の中の次元数に束縛される
傾向にあると思います。
データ構造などが異なる色々な処理を連携して実行する場合は、カーネル内の分岐では限界があるように思われます。
なので、１回当たりのカーネルのレイテンシを正確に把握しておきたいわけです。

786:デフォルトの名無しさん
08/11/26 23:35:04
＞データ構造などが異なる色々な処理を連携して実行する場合は、カーネル内の分岐では限界があるように思われます。
何にも判ってないと思われ。

787:,,・´∀｀・,,）っ-○◎●
08/11/26 23:39:07
っていうか、分岐ってさ、プレディケートで全部実行するんだよな？

if (cond) { //ここの条件は要素ごとに変わる
　　funcA();
} else {
　　funcB();
}

だったら、funcAとfuncBをインライン展開して全部プレディケートつき実行する感じだと思ってるんだが。

788:デフォルトの名無しさん
08/11/26 23:42:08
困ったことに、団子に同意。

789:デフォルトの名無しさん
08/11/27 00:03:15
条件分岐したら負けかなと思ってる by GPU

790:デフォルトの名無しさん
08/11/27 00:32:04
そいえばCUDAって１つのカーネルのサイズが制限されてない？
でかいやつがまったく動かなくて苦労したんだけど

791:デフォルトの名無しさん
08/11/27 01:39:04
どの位かは知らんが、そりゃぁ制限はあるだろうねぇ。

792:,,・´∀｀・,,）っ-○◎●
08/11/27 01:54:09
64Kのコンスタントメモリがあるじゃん。
コンスタントメモリは自分自身では中身の入れ替えは不可能。
あとはわかるよな？

793:デフォルトの名無しさん
08/11/27 02:23:46
cudaで自己書き換えプログラムってできますか？

794:,,・´∀｀・,,）っ-○◎●
08/11/27 02:37:41
GPUのカーネルコード自身で書き換えるって意味なら無理。
PTXのバイナリコードを動的生成とかなら何かやれば可能かもしれない。

その辺の資料を中の人に要求したら

「機密事項ですのでお答えできません」

795:デフォルトの名無しさん
08/11/27 17:49:14
大学の研究室にCUDAプログラミング用のコンピュータが導入された！と喜んでいたら、
HP ML115 + げふぉ8400GSカードだった…orz 学習用仕様で萎えた…

次ページ