11/12/10 12:21:32.88 DK7iOzHK
>>537
全然内容理解してないのな。
> 早いフェッチの機会が少なくなるため、
これがデタラメだって言ってるの。スケジューラのリソースのある限りいくらでも
レジスタ(この場合ymm0)を読み替えて先読みが可能。
ロード・ストアの帯域さえ十分なら、加算ユニットのレイテンシ×2+α程度のレジスタ本数があれば
実用上問題ないね。Sandy Bridgeはストアが狭い(Bulldozerはもっと狭い)からできるだけ
オンレジスタで処理したいが。
逆に論理レジスタが多いほどレジスタリネーム機構の実装コストは大きくなる。
単精度行列積の場合も書いておく。
AVXのYMMレジスタでは8x8単精度行列は8本のレジスタで表現できるけど、こればかりは
こればかりは論理レジスタ16本は少し苦しくなる。
加算用に8本、被乗数用に8本、乗数ロード+乗算用に最低1本でできれば17本以上は欲しい。
まあ入れ替えて処理するしかない。
加算用に8本、被乗数に7本、ロード+乗算に1本にして被乗数を入れ替えて処理すれば
Sandy Bridgeの持つLoad帯域的にはなんとか間に合う。