10/06/27 23:02:01 Iw7f5ZOt
レジスタ間movapsが無くなるとか、平均命令長が短くなるとか
コードサイズの縮小やオペレーション密度の向上だけでも十分性能向上しうるでしょ
別に全部256ビットにする必要ないよ。
software.intel.comに上がってたRGBA→RGBの変換サンプル、シミュ通してみたら
俺の書いた128ビットSIMD実装の方が数割速かったwwww
無理に256ビットにする必要ないよ。
オペランド数が増えるのはなにげに性能向上効果大きいよ。
新たなSSE命令を追加するより、確実に性能上がる。
しかしそのコードサイズについてだけど、GCCとかVCはまだ命令長の最適化がウンコだね
vadddps xmm0, xmm7, xmm15なんて平気で吐くし。
ソースオペランド入れ替えるだけで1バイト短くなるのくらいやって欲しいんだが。
命令フェッチ帯域狭いんだし。
というか、REXの削減すら実質やってくれないっぽいので期待するだけ無意味かな