06/07/18 07:13:29
>恐らく2回分ずつアンロールしたコードを書くと速そうですが、コンパイラも同じ程度のコードを出しそうです。
インラインアセンブラの内部はコンパイラの最適化は効かない。
movsdやmovhlpsで1要素ずつ移動してるのが無駄だ。
>えーと、最終的なコードはもそっと複雑になるので
それがどんなコードか書いてくれないとレスのしようがない。
>>324のような最適化が最も重要なのに、それを検討する前から
アセンブラの書き方を考えるのはちょっとおかしい。
>FPU命令とSSE命令って組み合わせるとどうなるのかなぁ。
それは面白いのでレスをしたいところだが、
どんな処理かわからんことには・・・。