10/04/23 22:57:20 sO0Pzc63
>問題は(3)で、48Bytes/cycleというのは、多分16Bytes Load×2と16Bytes Storeを同時に行えるから48Bytes/cyleという事なのだろう。
>つまりSSE命令に関しては、完全命令スループットが1Cycleで実施可能な構成になった訳だ。
>ただしAVXに関しては、まだLoad/Storeを同時に行う事ができない。
>恐らく当初はAVXのLoad/Storeのスループットが低くてもそれほど問題ではなく、
>むしろSSEのスループットを底上げする事を重視したのと、ここでAVXにあわせて96Bytes/cycleの帯域を設けるのは
>実装上不可能だった事の両方が理由ではないか、と想像される。