10/06/07 13:47:25 yNMKQf5o
>>365
たとえば、AMDが既にやってることだけど、Loadユニットが2本に増える。
3つのALUに対して1つのLoad Unitではどうしても足りないケースは出てくる
ミスアラインロードだとロード命令のスループットは半分以下に落ちるから
ユニットが倍増するのは効果が期待できる。
あとMacro Ops Fusionの対象命令拡大。
これはシミュレータで実際に確かめたんだけど。
cmpやtestなどの条件フラグのみを更新する命令だけでなくadd/subやand/orなどの一般の論理算術演算命令も
分岐命令とFusion可能になった。
分岐の多いコードだとこれはかなり大きな効果はあると思う。
あと、更に細かいところで言うと、ビットスキャンとかの命令のパフォーマンスもかなり改善されてる。
ただ、全体としてはそんなに大がかりなことはやってないと思う。
最近のCPUは演算ユニットそのものよりもスケジューラの方が実装面積大きいからね。
AVX対応以外の部分は、地味な改良の積み重ねでトータル性能向上を目指すのだと思う。