08/04/05 13:34:13 yGreZDhq0
よーしパパ日記レスしちゃうぞー
filterByCPUをSSE2でベクトル化続続編
範囲3 分散50 1024x786で11.124秒 -> 5.796秒 -> 4.563秒(4.515秒)
指数関数のベクトル化。精度を犠牲にすればカッコ内までいけました。
>>881
S式のごとくネストして書かないとメモリへの書き戻しだらけになりました。
const __m128等に代入しても最適化してくれないこともありました。
VC8は結果をXMMレジスタからすぐに追い出したがる傾向があるようです。