08/07/05 22:42:41 xnhbYW3B0
NL-Meansを開発しているものです。現在CUDA実装を行っております。
フレームの内容を参照する際に素でデバイスメモリにアクセスすると
DirectX版に比べて10倍以上遅いという結果になりました。
メモリアクセスの局所性を考慮し、テクスチャフェッチ経由に改造したのですが、
まだ3倍程度遅いという結果になりました。
次はシェアードメモリに必要な部分だけ乗せて処理をするルーチンを書いてみます。しばらくお待ちください。
ところで、0.10betaでマルチGPUが高速に動いているという方はいらっしゃいますか?
いないようでしたらルーチンを消そうと思います。