09/12/18 01:51:48 HjFduLsy
シングルスレッドを同モジュール内の2コアの両方で実行しようとしたときに障害になるのって、
要するにキャッシュコヒーレンシだよね?
だったら
①スケジューラを賢くしてなるべく他方のコアの演算結果を参照しないようにする
+キャッシュ制御を賢くして、さらにL1・共有L2をInclusiveにする
②2コアのレジスタ間を繋ぐクロスバーとかを作る
のどっちかで解決できるような気がするんだけど、どうよ?
素人考えだし、両方とも技術的に簡単じゃないってのは分かってるけど
212:,,・´∀`・,,)っ-○○○
09/12/18 02:00:54 ZyHdS8Sd
> ①スケジューラを賢くしてなるべく他方のコアの演算結果を参照しないようにする
> +キャッシュ制御を賢くして、さらにL1・共有L2をInclusiveにする
> ②2コアのレジスタ間を繋ぐクロスバーとかを作る
そんなコストかけて1スレッドの性能上げたいならissue数を上げてSMTにしたほうがいいだろ
213:Socket774
09/12/18 02:10:38 u9z6DHFD
>>209
Intelの現実こそ見るべきだな
米FTC、独占的地位を利用し競争を阻害したとしてIntelを提訴
URLリンク(pc.watch.impress.co.jp)
最早悪の組織
214:Socket774
09/12/18 02:15:15 u9z6DHFD
>>211-212
めんどくさいことはわからんが、シングルスレッド性能上げるだけなら、
ターボブーストもどきでクロックを上げればいいんじゃないか?
215:Socket774
09/12/18 02:24:52 Gpv1GeRO
つーかK8とK10でクロック当たり1割しか性能違わないじゃん
変なチューンよりK8に戻したほうが
216:,,・´∀`・,,)っ-○○○
09/12/18 02:25:26 ZyHdS8Sd
クロックドメインも整数とFPで独立だったらワロス
Pentium 4はALUが倍速でFPUが半速だったんだよな
217:,,・´∀`・,,)っ-○○○
09/12/18 02:49:25 ZyHdS8Sd
同じコアのレジスタファイルへの読み書きすらレイテンシが大きいんで演算結果をバイパス
(古い言い方だとアキュムレータ)するのが常套手段なのに、
よそのコアの演算結果を取ってくるなんざいくらレイテンシが大きくなるやら。
てなことで>>211は現実問題無理。
つーわけで>>214のほうが現実解。というか、本当にGPUでFP命令発行することを想定してるなら
クロックドメインの独立は当然なんだが。
つーか、どっちかというとベストケースで2コア分のSIMD演算ユニットを占有できるのが
シングルスレッド性能の要なんじゃないの?
FPは対Sandy Bridgeでは微妙だが、SIMD整数の性能のほうはXOP独自命令を使うことで
Bulldozerにもそこそこ優位性は得られるかもしれない、と思ったり。
(IntelはSIMD整数は256ビット化されないのでNehalemに毛がはえた程度)
218:Socket774
09/12/18 08:32:19 DHzcJH+R
気持ち悪いからさっさと死んでくれ