12/01/05 21:51:18.38
OpenMPでプログラムの並列化に取り組んでいるんですが、
スレッド生成・クローズのオーバーヘッドが大きすぎて逆に遅くなってしまいます。
#pragma omp parallel for
for( int i = 0; i < N; i++ )
{
・逐次処理では30000クロックほどかかる処理
・ループ間での依存性はまったくなし
}
こうすると60000クロックくらいかかってしまうので、
スレッド生成・クローズのオーバーヘッドが30000クロックもあることになります。
このオーバーヘッドを避けたいと思い、調べていると、スレッドプールというテクニックがあることを知りました。
予めスレッドを生成しておいて、必要に応じてそれを割り当てるという方法です。
この方法だと、最初の一回だけスレッドを生成すれば後はfor文に差し掛かる度にスレッドを生成する必要がなくなります。
ただ、これを実装するのは、OpenMPとは比べ物にならないほど煩雑で気が進みません。
そこで、VC++2010で追加されたPPL(Parallel Pattern Library)がどうかと思ったのですが、
スレッド生成オーバーヘッドが小さかったり、あるいはそれを回避する手法を手軽に取れたりするでしょうか?