14/03/16 17:56:55.94 +NlF5oWx
明示的なcudaMemcpyが必ずしも必要なくなるくらいですけどね。
ランタイムが自動で行うから。
でもそれだけでもかなりわずらわしさは減る
デバイスメモリが足りなくなったときにホストにスワップアウトすることができ、
例外処理のコーディングの手間からも開放される。
あと1つのプログラムを複数GPUにディスパッチする仕組みに踏み込んだのは
CUDA6が始めてだろ。
HSAの世界って1ノード=1APUだけで閉じてて、APU + 外付けRadeonの
GPGPUコード連携すら考慮されてない。