AMDの次世代CPUについて語ろう第30世代

AMDの次世代CPUについて語ろう第30世代at JISAKU

AMDの次世代CPUについて語ろう第30世代 - 暇つぶし2ch400:,,・´∀｀・,,）っ-○○○
09/10/25 16:31:57 vK8GI5hT
レジスタ本数に関しては問題ないだろう。
もともと論理レジスタの数倍の規模の物理レジスタに対し動的にアロケートする方式だし。
K7もなんだかんだで短期間でSSEに対応してるからなー。
どっかでバックアッププランが発動したのでは？

401:Socket774
09/10/25 16:42:58 ztsGLjDH
>>398
陰儲は恐ろしいほどAMD技術レベルを、
過大評価しまくるときもがあるからな。

402:,,・´∀｀・,,）っ-○○○
09/10/25 16:52:42 vK8GI5hT
Fusion（笑）でRadeonのR600アーキテクチャをダイレクトに実行するような機構作ろうとしてるのがAMDだ。
今のGPUの演算粒度そのまんま使うなら10240ビット（笑）だぜ。
フカシにしても面白すぎる。

403:Socket774
09/10/25 17:07:09 uKemcroY
AMDの場合R600系統のまま統合するとIntelでいうSandy Bridge的なものにしかならんし
ま、それを狙ってるんならいいんだけど

演算云々は出直しておいでって感じ
それともR900系統でも用意するの？
アーキテクトいないのに

遠いようで実は一番近いところにいるのがVIAなきがする

404:Socket774
09/10/25 17:21:58 ztsGLjDH
>>403
統合するのは"Evergreen"世代。HD5x00世代のMobile版っぽいね。
一応DirectX11までは対応しているみたいよ。
その次の世代のVGAは流石に時期的に無理じゃないの？
第二世代Fusionでは統合してくるだろうけどさ。

405:Socket774
09/10/25 17:33:14 uKemcroY
だからEvergreen=R600世代なんだよ

406:Socket774
09/10/25 17:40:26 1GR/YoGv
超並列お絵かき器を棄てて新しいGPUを作る力が今のAMDにあるのかね？
Haswell以降どう対抗していくんだろうか？

407:Socket774
09/10/25 18:01:23 QYVxW2vd
まぁ待ちなさい、相手が転ぶ可能性もあるよ?

408:Socket774
09/10/25 18:08:10 uKemcroY
転ぼうが転ぶまいが、圧倒的なシェアの差の前には関係ない

409:,,・´∀｀・,,）っ-○○○
09/10/25 18:11:31 vK8GI5hT
まったくもって汎用コンピューティングには向いてないR600の延長で経営持ち直そうとしてるんだから
皮肉なモンだよな

410:Socket774
09/10/25 18:12:38 ztsGLjDH
>>405
その通りだが、凄いな。いろいろな意味で。

411:Socket774
09/10/25 18:36:53 K5hmpxT9
R600の改良版でNVが傾きかけてますが

412:Socket774
09/10/25 18:45:29 u36Rl1qM
>>409
ユーザーが求めているものは「コスト効率にすぐれたGPU」ってことなんだよな・・・。

413:Socket774
09/10/25 18:54:37 SFtSWMgW
おいおいFusionの存在意義を否定するなよ

414:Socket774
09/10/25 19:05:06 QYVxW2vd
(笑)をつけろよデコ助野郎

415:Socket774
09/10/25 20:17:39 hKbBDH7T
>>413
初代Fusionなってのは、一般向け小型PC向けだろうよ。
"Evergreen"じゃなくて次のR900(?)世代なら別だろうけど。

416:Socket774
09/10/25 23:50:30 z74zqnMR
NVIDIAのお陰でAMDが生き延びてIntelもそれに対抗するCPU開発の手を緩めないんだから結構なことだ

417:Socket774
09/10/26 00:05:00 ckFtChF5
>>416
いみがわからん。

418:,,・´∀｀・,,）っ-○○○
09/10/26 00:49:16 ijmzBkZG
PATCH: Add LWP support for upcoming AMD Orochi processor.
URLﾘﾝｸ(archives.free.net.ph)

LWPのkwsk
URLﾘﾝｸ(support.amd.com)

419:Socket774
09/10/26 06:07:06 WVV4CYT0
知的障害者が来てた

420:Socket774
09/10/26 06:09:49 DsFF+YyH
>R600の改良版でNVが傾きかけてますが

そう思ってるのはお前らだけだろ
実質RV870の構造じゃG80にすら届いてない

421:Socket774
09/10/26 08:00:56 u2UqdDGl
>ユーザーが求めているものは「コスト効率にすぐれたGPU」ってことなんだよな・・・。
絶対性能が現世代品の1/10でもか？
なら数世代前の捨て値で売ってる中古のグラボを買って来い、でおわりそう話だな

422:Socket774
09/10/26 09:40:46 B0Jp+MpB
ノートやネットブック売れまくっとるし
そんな性能もう要らんのや

423:Socket774
09/10/26 09:49:06 mWl36bXs
enableにするだけでLWP使わなくてもコンテキストスイッチのオーバーヘッドが
増える、というのは許容?

424:Socket774
09/10/26 16:51:28 l0z8JsQk
>>420
商業的な話に設計的なツッコミしてアホか？

425:Socket774
09/10/26 18:10:45 WVV4CYT0
どうせ突っ込むなら「ふえるわかめ」のほうに

426:Socket774
09/10/26 18:35:26 YKiiqvTQ
RV870の構造でG80にも届かないって、先行き不明なGPGPU限定の話だろうが
ゲームのFPSや動画トランスコードのワットパフォーマンスはGT300でもRV870の足下に及ばない

427:Socket774
09/10/26 20:38:16 pajanbf1
>>421
いまのIntel GPU搭載ノートやPCに同じことを言うのか？

428:,,・´∀｀・,,）っ-○○○
09/10/26 22:09:09 ijmzBkZG
絶対性能ですら5870優勢じゃねーのか？

429:Socket774
09/10/26 22:19:41 2O5SMMVH
>>426
まだ出てない物とは比べられないだろ

430:,,・´∀｀・,,）っ-○○○
09/10/26 22:29:48 ijmzBkZG
出てない時点でビジネス的に負けてる。
もちろんLarrabeeも含めてだけど。

431:Socket774
09/10/26 23:52:31 ssSDoaBW
まあGPGPUに関しては、FireStreamは性能云々の前に
まずスタートラインに立つのが先だと思うけど。

432:Socket774
09/10/27 05:01:02 8voJVEAp
全く噂すら聞かないよなFireStream
GPGPUやOpenCL対応を謳っているから、HPC向けも用意しているはずなのに。
もしかしてRadeonを優先してStreamは後回しなのかな。

433:Socket774
09/10/27 05:48:04 z9ZA8wVb
ﾗﾃﾞと差を付けるのやめちゃったろ

434:Socket774
09/10/27 06:22:40 8voJVEAp
機能や性能での差をなくしただけ。
HPC向けには性能と同じくらい品質とかサポートが重要。
今は環境やドライバがDirectX>>OpenCLだから、RADEONへのリソースを多くしているんだろう。

435:Socket774
09/10/27 14:37:44 lq60SQGD
ECCもないカードがHPCで実用たりうるかという問題もある。
HPC用としてはTeslaの性能あたり価格が異常に安いのはECCに
対応してないからという面もある。
もちろんGPU基準ならボッタクリ

436:Socket774
09/10/27 15:18:16 1kTyibyX
その辺まるっとFermiで対応してきたから、HPC用途のGPGPUで
FireStreamが検討の爼上にのることはないでしょ。
そういう目的のチップじゃないし。

437:Socket774
09/10/27 15:53:35 nrDUdxXv
HPCを真面目にやる人（大学とか研究所とか）向けの
ちゃんとしたGPGPUカードはFermiにくれてやるのが正解でしょうな。

どうせ市場狭すぎてnVと取り合って儲かるほどでないし、
実際の戦力がどれほどかは不明ながら、近い将来
戦艦Larrabeeに全滅させられる可能性もあるし。

438:Socket774
09/10/27 17:37:25 SrPM7p/+
GPGPUもできるけどメインはグラフィックだよ路線で行ってくれればグラフィックはラデ、
GPGPUボードにLarrabeeという夢のタッグマッチの完成ですよ（Fermiなら1枚でどっちもできるという突っ込みは受け付けない）

439:Socket774
09/10/27 18:07:07 KaoGLWl0
どうせコンシューマ向けのGPGPUなんてDX Compute Shaderで
ゲームの物理演算とエフェクト、動画トラスコ辺りにしか使わんのだから、
ECC付けたり倍精度演算装置をたくさん付けたりして
HPC分野の専門家喜ばせるだけの高いものにしてもしょうがない。

440:Socket774
09/10/28 15:21:40 Ombubw+i
「AMDの元CEOヘクター・ルイズ氏、インサイダー取引に関与」の報道
URLﾘﾝｸ(www.itmedia.co.jp)

441:Socket774
09/10/28 15:33:36 jMLxfx1/
AMDも関わってたか…
そういやヘクター・ルイズってCEO退いてから何やってたんだ？

442:Socket774
09/10/28 15:49:07 zQBImA4E
GFの会長

443:Socket774
09/10/28 16:09:04 uUesMLG2
MACオタが喜んでネタにしそうな話題なのに最近見ないな
Intelの財務担当もこの件で首突っ込んでたっけ？

444:Socket774
09/10/28 16:30:18 Yp7AzswW
MACオタは名無しで書き込んでるかインフルエンザで逝ったか

445:Socket774
09/10/28 17:37:18 jAWuVeAL
知障コテならこの前来たばかりじゃん

446:Socket774
09/10/28 20:44:31 hRJm478X
>>440
こういう奴はさっさと消えればいい。

447:Socket774
09/10/30 14:09:29 h1t2F4WE
まぁ、こんなウンコ経営者じゃ経営悪くなって当然ってことか…

448:Socket774
09/10/30 16:28:38 A37Cp6KL
中村　前半になんでかわからないけど、ルイス・ガルシアが２回くらい俺が走ったのに
　　　　出てこなかったから、見えてなかったのかなと。あれが出てたら決定的なチャンスだったし、
　　　　もらえればチャンスってところでもらえなくて、味方のチャンスを作ってたんで、結構難しいね。

↑代表の10番 31歳のベテラン

↓代表の20番 23歳の若手

本田　パスが来ないというのが俺の実力。それでも俺は勝負したい

449:Socket774
09/10/30 16:32:20 A37Cp6KL
中村の主張
・足が痛くて万全じゃない
・ルイスガルシアがパスださない
・代表が３人程度の雑魚チームじゃ技術で劣る
・代えられたのは監督が怪我を心配したからで出来は関係ない、足痛い

中村のやらかしている点
・プロ選手で怪我を言い訳にする人は茸ぐらい
・ルイスガルシアはスペイン(EURO2008制覇ワールドカップ優勝候補筆頭)で代表クラス、茸はEU圏外の助っ人(年俸2億)
・メディアの評価がチーム最低の選手がチームメートの技術を批判
・試合前は怪我を大丈夫と言いながら、低パフォーマンスは怪我のせい

450:Socket774
09/11/01 15:38:24 cflGvpE5
公式ロードだないちお。
URLﾘﾝｸ(image.itmedia.co.jp)

ほぼ噂通り。、

451:,,・´∀｀・,,）っ-○○○
09/11/01 15:39:18 mtXW/RVq
直リンやめればいいのに

452:書き逃げ
09/11/01 21:01:17 oGAV8xce
IntelによるDDR3普及を糧に、ある程度普及したときを見計らって、

AMDはネイティブ8コアを出して、Intelのなんちゃって8コア（i7）と勝負！

また同時に来年あたり、ATOMに対抗して省電力CPUも二種類出すかも

453:,,・´∀｀・,,）っ-○○○
09/11/01 21:05:15 mtXW/RVq
ところがどっこい
来年出るCore i9はネイティブ6コア12スレッドなんです

454:Socket774
09/11/01 21:07:12 7zc5oU4v
>>452
書き逃げ以外に何もできない。
何もコメントしようがない内容だな。
オレならば恥ずかしくてネタでも書けない。
あえてコメントするならば妄想はチラシの裏にとしか。

455:Socket774
09/11/01 21:08:58 afc7BLv3
i7でHT有効にしてBOINC回してるがニコ動見ると微妙にカクツク
BOINC止めると大丈夫なんだけどね
905eだとBOINC回しながらニコ動見ても大丈夫

やっぱHT切ったほうがいいんかなあ
切ったらカクツキ無くなるかどうか確認はしてないが

456:Socket774
09/11/01 21:09:38 oGAV8xce
>453
ならば、ネイティブ12コアで勝負！

>454
(・ε・)ピヨピヨ

457:,,・´∀｀・,,）っ-○○○
09/11/01 21:18:21 mtXW/RVq
あれか？あれが「ネイティブ」か？

458:,,・´∀｀・,,）っ-○○○
09/11/01 22:00:36 mtXW/RVq
ところでなかなか面白い特許じゃないか
URLﾘﾝｸ(www.freepatentsonline.com)

459:,,・´∀｀・,,）っ-○○○
09/11/01 22:26:22 mtXW/RVq
まあMagny-Coursも悪くはないんだが、コア適用計数0.5以下じゃないとOracleユーザーにはきついと思うぞ
低クロックなのに1ソケット6ライセンスもってかれる。

URLﾘﾝｸ(www.oracle.com)
URLﾘﾝｸ(www.oracle.com)

係数上げられない程度にクロック上げてスレッド数稼ぐ方が有効ってことになるわな。

460:Socket774
09/11/01 22:59:44 b8R5Ks1n
コア適用計数てなんだよ団子
ぐぐるのめんどうだから教えろ団子

461:Socket774
09/11/01 23:01:52 BIZ2dPD5
広辞苑引けカス

462:Socket774
09/11/01 23:05:05 b8R5Ks1n
ありがとうゴミ

463:Socket774
09/11/02 11:14:38 wsXE1QZ9
POWER6なんでコア係数1.0なのん?
SPARC T1の1.2GHzは0.25で1.4GHzは0.5とか意味不明

いっそベンチスコアの1ポイントいくらで価格決めちゃえYO!

464:Socket774
09/11/02 14:25:50 38Zg86vj
ID:mtXW/RVqが暴れるための予備動作がID:oGAV8xce

465:Socket774
09/11/02 17:45:11 RKSlqoub
と妄想するアム厨であった

466:Socket774
09/11/02 20:57:12 38Zg86vj
更に別のコテ名まで無意味に持ち出す
真に気持ち悪い雑音

467:Socket774
09/11/02 21:56:35 xG1T9lHD
頭の悪い同胞まで貶すなよ

468:Socket774
09/11/02 22:07:28 3kap+Jre
PC版ベヨネッタでねーかなー
HD5870でヌルヌル遊びたい

469:Socket774
09/11/02 23:27:13 rQ37W6bC
AMD butters up the Arabs
URLﾘﾝｸ(www.theinquirer.net)

470:Socket774
09/11/03 00:05:05 Hu4f2Fdu
>>468
PS3版の劣化具合にﾜﾛﾀ

471:Socket774
09/11/03 00:32:58 1zy3nIj4
ゲハに帰れ

472:Socket774
09/11/03 07:01:29 xefhDQPp
>>469
高い金出した以上、開発と製造を自国でやりたい、というのは
真っ当な話だが、実際に出来るかどうかは未知数だな。
うっかり「アラブ企業化」したと認識されれば、顧客と人材流出で無惨なことになりそうだ。

473:Socket774
09/11/03 10:58:22 018FPdnV
AMD終了ｗｗｗｗｗｗ

474:Socket774
09/11/03 12:20:30 GOxSK5AV
今の状態で終わりなら
3年前にすでに終わってますけどねｗ

475:Socket774
09/11/03 12:51:13 zXcbCXzX
資源国の通貨は資源輸出のせいで高くなりがちだから製造業に不利。
こうなったら出来るだけ石油成金からボッたくってTSMCとかに投資する方がいいかも。

476:Socket774
09/11/04 21:35:53 GOlLXO8u
>>475
勘違いしている。
石油成金が石油がなくなった時のために″GFに″資金を入れているんだよ。
AMD本体への投資はオマケ。本命はどうみてもGFの半導体製造施設。
AMDが潰れてもCPU系の技術は中東には流さないし、流れないので、
投資者としてはAMDは潰れなければ潰れないでいいぐらいの気持ちかと。

477:,,・´∀｀・,,）っ-○○○
09/11/05 00:26:19 B/8/aVsq
軌道エレベータにでも出資してくれ。

478:Socket774
09/11/06 19:45:28 zdyPP/tR
Hector RuizがGlobalFoundriesの会長を辞職
URLﾘﾝｸ(blog.livedoor.jp)

479:Socket774
09/11/06 21:27:07 I9rR6sfv
一方Intel(違法行為当たり前会社)のほうは休職扱い

480:Socket774
09/11/06 23:33:51 uP/NE0GM
AMDの違法行為は綺麗な違法行為

481:Socket774
09/11/06 23:38:58 FBnhbQfF
Intelはアマアマだねぇ
まあ某国企業と比べれば目くそ鼻くそですな

482:Socket774
09/11/06 23:56:43 H+TUgz7B
会長はまずいだろ
頂点が汚職じゃ歯止めがなにもねえ

483:Socket774
09/11/07 00:01:19 +RCXMnL2
トップの汚職という弩級のスキャンダルを華麗にスルーしてIntel批判とは儲の鑑ですな

484:Socket774
09/11/07 00:04:54 FBnhbQfF
思い出したように湧いて出てきて吹いたわｗ

485:Socket774
09/11/07 00:05:25 WEsgg8kt
ヘクター・ルイズがAMDに貢献したことあった？
害にしかなってないじゃんこの人

486:Socket774
09/11/07 00:13:07 vFHZdN2X
以上クズ儲の負け惜しみでした

487:Socket774
09/11/07 03:52:49 Q039vUiy
tst

488:Socket774
09/11/07 06:07:29 Q6ba2Ox4
Intelだと係長くらいにならないと退職しなくて済みそう

とか書くと「AMDの係長は綺麗な係長！！！」とかいうお花畑レスが返ってきそうだが

489:Socket774
09/11/07 09:47:40 /fza3ftq
AMDの係長は綺麗な係長！！！

490:Socket774
09/11/07 12:50:35 HyaPaM3H
汚職に絡んで「休職ですむ」のも問題だわな。

491:Socket774
09/11/07 13:12:59 510DNDqU
Chartered voters approve takeover by GlobalFoundries owner
URLﾘﾝｸ(www.brightsideofnews.com)

Dresden, Germany: Fab 1 Module 1 and Module 2, expandable with Module 3
Saratoga, United States: Fab 2 Module 1, expandable with Module 2 and 3
Singapore, Singapore: Fab 3 Module 1 to Module 6 [former 2, 3, 3E, 5/SMP, 6CSP, 7]

2010 - GlobalFoundries Inc. completely merges with Chartered Semiconductor Manufacturing Ltd.
2010 - Chartered facility is renamed into Fab 3 with associated modules [Module 1-7]
2010 - AMD announces the foundation of AMD Design Center in UAE, financed by ATIC
2010/2011 - ATIC announces strategic acquisition of two more companies
2011 - 65nm equipment is transitioned from Singapore to Abu Dhabi for learning phase
2012 - Fab 2 Module 1 in Saratoga officially opens
2015 - ATIC announces the building of Module 2 in Fab 2, Saratoga NY
By 2015 - ATIC announces the building of Fab 4 in Abu Dhabi

ATIC資金でUAEにファブとデザインセンター

492:Socket774
09/11/07 13:32:28 HyaPaM3H
>>491
UAEに…ねぇ？　インドや中国に建てた方が人材の意味で現実的のような…。

493:Socket774
09/11/07 14:06:53 In1XNggR
中国インドではスポンサーにとって意味がない。

でもたとえ中国インドでも半導体開発を成功させるのは難しいような。
金さえ出せばなんとかなるのか。

494:Socket774
09/11/07 15:02:13 NSwzYPJY
ＴＢＳ　パナソニックドラマ『いのちの島』　　　　2009年11月23日放送　
　　URLﾘﾝｸ(www.tbs.co.jp)
▼出演者
神野めぐみ：永作博美
　　○
桜井まどか：山下リオ
新見トオル：池松壮亮
倉持由香里：岡本　玲
牛島泰一：林　剛史
徳田　勇：尾美としのり
　　○
長谷川治：今井雅之
小倉元子：岸本加世子

495:Socket774
09/11/07 16:54:45 ikQyAE37
意外と数学者とか技術者を国中からかき集めれば設計はできるんじゃないか。
龍芯は意外といいできっぽい。生産はST丸投げとして設計でどれだけ関わってるのかわからんけど。

496:Socket774
09/11/07 17:07:27 l8mJzPpX
>>485
それを在籍中言われたら顔真っ赤にして怒るくせにｗ
辞めたからどうでもいいとばかりに叩くとか、最低だな

497:Socket774
09/11/07 19:02:58 vY1daA6I
煽りあいをやりたければ該当スレへ逝けよ。
陰厨はどうして空気が読めないのか。

498:Socket774
09/11/07 19:41:09 u+OnD/xT
今日のお前が言うなレスですか

499:Socket774
09/11/07 21:53:50 ohFZ3R1V
>>455貴重な情報ありがとう。

500:Socket774
09/11/07 22:29:10 In1XNggR
>>495
＞龍芯
MIPSのデッドコピー。
まあ後からライセンス買ったからいいんだけど。

501:Socket774
09/11/08 10:30:00 dHoeqjmG
>455
BOINCのプライオリティ変更で済む話じゃ?

502:Socket774
09/11/08 12:29:29 dJRzDZVJ
>455が何のプロジェクトやってるか知らんけどたまに優先度がアイドルじゃない実行ユニットがあるんで確認してみて
たまに最適化版とかで優先度が通常になってるのがある

503:Socket774
09/11/11 19:46:43 123oMXN0
Analyst Dayで何か面白い情報が出るといいんだが。。。

504:Socket774
09/11/11 23:44:04 kPHGmuSo
0

505:Socket774
09/11/12 00:38:40 05iJ1A0p
ARABIC GLOBALFOUNDRIES FACTORY IN FOUR YEARS

URLﾘﾝｸ(xtreview.com)

506:Socket774
09/11/12 01:12:49 4mqplCAN
AnalystDayみたいけど超眠い…

507:Socket774
09/11/12 05:18:02 4mqplCAN
結局寝てたし～

Llanoのダイ写真っぽいのが出てる
コアは既存のK10.5っぽい
L2が1MB x4でL3はなさげに見えるが果たして？

そしてBulldozer
コア部のブロックダイヤグラムが出てた
詳しくは画像を
URLﾘﾝｸ(u9.getuploader.com)
整数部は4issueなのかな？
これはおもしろい

508:Socket774
09/11/12 05:59:59 4mqplCAN
Bobcatを見逃してた
URLﾘﾝｸ(u9.getuploader.com)

この書き方でいくとBulldozerのパイプラインのうち二つはLoad/Storeとか？
まさかね…

その他の資料
URLﾘﾝｸ(phx.corporate-ir.net)

509:Socket774
09/11/12 06:41:06 05iJ1A0p
AMD uncovers Bulldozer, Bobcat and Fusion
URLﾘﾝｸ(www.semiaccurate.com)

URLﾘﾝｸ(www.semiaccurate.com)
URLﾘﾝｸ(www.semiaccurate.com)
URLﾘﾝｸ(www.semiaccurate.com)

510:Socket774
09/11/12 07:16:09 05iJ1A0p
First Die Shot of AMD Fusion Processors
URLﾘﾝｸ(resources.vr-zone.com)

511:Socket774
09/11/12 08:03:55 kWKhveEc
穴リスト…だと…

512:Socket774
09/11/12 08:31:17 pOZwdyU4
Chekib Akrout, General Manager, Technology Groupのpdfに
> Two tightly linked cores share resources to increase efficiency
と書いてあるけど
Bulldozerのコア数＝整数ブロックの数なのかね?

513:,,・´∀｀・,,）っ-○○○
09/11/12 09:13:33 gjkqx3Og
>>508
流石にop reg., reg/mem形式はこれまで通りfusedで扱えるようにするんでない？ストアは独立だろうけど。

>>512
つか、ほかにIntelの倍もコアを積めこめるような魔法の種は見当たらない。
しかしまあ、Intel以上のズコー仕様なわけだが。

514:Socket774
09/11/12 09:18:24 QBo1QZD5
AMD2009 Analyst Day_Server Platforms.pdfの17ページを見るとL3$もBulldozer”module毎に独立なんだな

515:,,・´∀｀・,,）っ-○○○
09/11/12 09:21:38 gjkqx3Og
Intel：
　256ビット版AVXを使わないとフル性能を発揮できない

AMD：
　FMA4を使わないとフル性能を発揮できない（ただし128ビット版でも埋められる）

516:Socket774
09/11/12 09:25:08 b2NdOj4/
よくわからん4行でまとめてくれ

517:Socket774
09/11/12 09:26:15 05iJ1A0p
PDFどこ

518:Socket774
09/11/12 09:49:17 ujcvkhhi
>>517　>508の下

519:Socket774
09/11/12 11:42:57 p6k7otTn
どうでもいい疑問だけど世代としてはK10なのかな

このシェアした構成でシングルスレッドとマルチスレッドそれぞれで
どれくらいのピーク値を叩き出せるか興味深いところ

時期的にはSandyBridgeとの直接対決になるけど
ここでキャッチアップできないと今後も苦しいしなぁ

520:Socket774
09/11/12 12:04:46 kZ2QvtNk
カス過ぎワロタ

521:Socket774
09/11/12 12:57:03 gAb+ilzb
>>519
いちおうK11でしょ。

SIMD性能についてだが
ユニット構成だけ見れば、Intel AVXのコードの土俵では最大2倍の
差をつけられて不利というのは確実だな。
演算ユニットが256ビット化されてないし、積和ユニットも乗算のみor加算のみでは持ち腐れ。
AMD独自のXOP, CVT16, FMA4が使われて初めて勝負に持ち込める。

とりあえずコンパイラをどうにかしないとな。

あとシャッフルユニットはどこに消えた？
FMACと同時発行できないと実効性能は期待できない。

522:Socket774
09/11/12 13:09:09 qleaCujm
decode性能と、intパイプ内部でのループができるか否か
そこがポイントになりそうだなー

第一印象では「省電力は狙えるかもしれんが速さは期待できない」感じ

523:Socket774
09/11/12 13:21:33 6xJvXZ9r
海外でもNiagara/Rockとか言われてる
デスクトップ&モバイルはK10続投かな

524:Socket774
09/11/12 13:27:23 6270/pHT
L2とL3もそれぞれコア(?)共有になったのか
Exclusiveを続けるのか、止めるのか

以前の大原さんの解析・解説ではL2/L3の遅さも
K8のボトルネックだったそうなので解消してるのかどうか
URLﾘﾝｸ(journal.mycom.co.jp)
URLﾘﾝｸ(journal.mycom.co.jp)
URLﾘﾝｸ(journal.mycom.co.jp)
URLﾘﾝｸ(journal.mycom.co.jp)
URLﾘﾝｸ(journal.mycom.co.jp)

525:Socket774
09/11/12 13:38:02 ujcvkhhi
6コア35Wなんて書いてあるページもあるから処理能/電力は狙ってそうだな

526:Socket774
09/11/12 13:45:59 b2NdOj4/
絶対性能は期待しちゃいけないけど
ワットパフォーマンスには期待していいよってことか

527:Socket774
09/11/12 14:10:16 ujcvkhhi
あー35WはLinsbon世代で出す話かもしれん
pdfは全部がBulldozer世代の話じゃないから

528:Socket774
09/11/12 14:15:32 gAb+ilzb
>>527
いや6コア＝3クラスタとすればそんなもんじゃないの？

529:Socket774
09/11/12 14:20:23 M+87Np5Y
何気にSocketC32の概要は今回が初めて？だよね
と言っても省電力関係とDDR3以外前世代と変わったところ無いけどさ

530:Socket774
09/11/12 14:20:25 ujcvkhhi
>521
APUのpdf 5ページとかみると、Bulldozer世代の時期にはスループット
コンピューティングの重いやつはまだGPUでやれと思ってるくさいなAMDは

531:Socket774
09/11/12 14:22:59 6270/pHT
semiaccurateのフォーラムから（中の人発言）

・コア（つかモジュラー）のカウントと呼び方を用意している
・（SunのNiagaraみたいに）CMTとは呼ばないで欲しい
・Interlagosは8モジュール、計16integerコア
・概略図は極めて大まかで実際はもっと書き足す要素があるよ
・マーケティング畑の連中があのスライド作ったんだろうな
・だから幾つか他の要素が抜けてるね（笑）
・Bulldozerにはお楽しみが一杯あるよ、としか言えないね
・沢山の革新的要素があるけど時間が経てば明らかになるよ

532:Socket774
09/11/12 14:27:16 ujcvkhhi
>>528
35Wって数字が載ってるのがOpteron4000のページだった
Bulldozer世代でも同様の物を出してくるとは思うけどね

533:Socket774
09/11/12 14:30:30 ujcvkhhi
>521 >530
で、それに対してIntelは、独立したGPUは持ってないも同然だから
早い時期にスループットコンピューティングも自分の土俵に
引きずり込むためにAVXやらLarrabeeを推進中、ということなんだろうな

534:Socket774
09/11/12 14:55:09 gAb+ilzb
> ・概略図は極めて大まかで実際はもっと書き足す要素があるよ
> ・マーケティング畑の連中があのスライド作ったんだろうな
> ・だから幾つか他の要素が抜けてるね（笑）

ちょっとだけ安心。256ビット化は置いといても、FMADとは独立した
シャッフルユニットが消えたらHPCでの勝負は厳しい。

なんにせよ256ビット版AVXはしばらく遅いのは確実
22nmまでにSIMDユニットの倍増と3オペ版FMA対応できれば
対Haswellで優位に持ち込むことができるかもしれない。

それはそうとクラスタ化はGPUと演算ユニット共用するための布石に
見えるんでFusionで何かやらかすかも知れんね。
そのときにはGPUコアもVLIWアレイじゃなくなりそうだが。

535:Socket774
09/11/12 15:10:16 HT3xuWEH
>>534
AVXの実装はインテルも初期は128bit×2で実行だったはずなので、
そこは別に問題ないはず。実行ユニットの性能はわからないが。
あとは色々と情報がでてこないとわからない。
L3も各コアだとすると、インテルのように、
キャッシュをリングバスみたいなので繋ぐのか？

ただ…本当に作っていたんだな…。よかった。

536:Socket774
09/11/12 15:19:28 gAb+ilzb
>>535
みんなそう思ってたが
イスラエルチームは容赦なかった

URLﾘﾝｸ(software.intel.com)

537:Socket774
09/11/12 15:40:37 HT3xuWEH
…イスラエルの魔術が絡んだらしょうがない。

538:Socket774
09/11/12 16:01:50 6270/pHT
既報通りだが一応日本語記事ということで

AMD、Bulldozerアーキテクチャを公開
URLﾘﾝｸ(pc.watch.impress.co.jp)
AMD、2011年までのクライアントロードマップを公開～Fusion CPUについても言及
URLﾘﾝｸ(pc.watch.impress.co.jp)

あとは後藤さん・大原さん・安藤さんあたりの記事待ちかｗ

539:Socket774
09/11/12 17:26:34 01o4f+ZX
Dresdenboy凄いな、AMDの特許から半年以上も前に
推測したブロックダイアグラムが今回の発表とほぼ一緒だ

Dresdenboy
URLﾘﾝｸ(data5.blog.de)
AMD
URLﾘﾝｸ(pc.watch.impress.co.jp)

更に三ヶ月前に仕上げた詳細な推定ブロックダイアグラム
URLﾘﾝｸ(info.nuje.de)
辻褄はあっていそうな印象・・・

Pentium4のTrace Cacheとほぼ同様のNehalemのLoop Cacheが
SandyBridgeでは強化されるらしい（Trace Cache並の容量に戻る）

同様にAMDのBulldozerもRedirect Recovery Cache（特許取得済み）で
これと同様の仕組みを実装するものと推測される模様
狙いも勿論一緒でデコーダの負担軽減（とそれによる消費電力低下）

540:Socket774
09/11/12 17:38:01 01o4f+ZX
はい来たー
後藤さん書くの早いね

【後藤弘茂のWeekly海外ニュース】
AMDが次期アーキテクチャ「Bulldozer」と「Bobcat」の概要を明らかに
URLﾘﾝｸ(pc.watch.impress.co.jp)

541:Socket774
09/11/12 18:16:17 4mqplCAN
2010年内にカスタマーにサンプル出すと言ってるから
登場は2011年前半でいけるかな
バリデーションとか予定通りに進めばだが

542:Socket774
09/11/12 18:17:13 01o4f+ZX
いや今のスケジュールだと後半らしいよ

543:Socket774
09/11/12 19:56:12 RVoNTfuM
>>541
AMDの予定は遅れるのがデフォだから
半年か一年ズレるのは今から覚悟してるがｗ

544:Socket774
09/11/12 19:59:29 X/+nWE5b
GFのプロセス的には開発さっさと終わらせろってくらい余裕あるから
どんだけAMDが頑張れるかだな

545:Socket774
09/11/12 21:21:24 IEroqXPi
まぁBulldozerが予定より遅れて
2012年以降に登場なんて事態になったらもう詰みだな

546:Socket774
09/11/12 21:32:53 UGFvQ8gl
OpteronのほうはともかくZambeziなんて出せるんかね

547:Socket774
09/11/12 22:20:49 l+zKthzu
でもBulldozer出ればAMD圧勝じゃね？
Intelにこれを凌ぐだけの性能が出そうな次世代計画あんの？
クラスタ化も特許押さえてるからまねれなさそうだし。

548:Socket774
09/11/12 22:29:07 b2NdOj4/
いやいや、とりあえずベンチとってみんことには・・・

549:Socket774
09/11/12 22:34:38 1024Vzr/
AMDによるとクラスタ化は50%のリソース増で80%のスループット向上。
intel曰くHTTは5%ほどのリソース増で15～30%の性能向上。
クラスタ化の方がHTTより効率が凄く良いというわけではなさそう。

550:,,・´∀｀・,,）っ-○○○
09/11/12 23:11:31 gjkqx3Og
>>547
それは最初のSSE5プランで今年中に出た場合ならそうだったかもな
現時点の情報では

Sandy Bridge　256bit FADD+FMUL / cluster
Bulldozer 128ビットFMA×2 / core

で、クロック当たりのピーク浮動小数演算性能はどっちも同じ。
性能評価したいなら、Sandy Bridgeの簡易サイクルシミュレータをIntelのサイトから落とせるよ。

クラスタと言ってもデコードフロントエンドは共有なので、そこで2スレッドの合計性能は頭打ちになる。
合計4issueだとしたらそれこそSandy Bridgeも同じだし、そうなるとピーク性能で差別化するのは難しい。
あとAMD独自命令抜きのAVXの土俵だとAMDは厳しいと思う。

どっちかというとL1データキャッシュがスレッド毎に独立してるのでキャッシュを取り合わずに済むとか
ワーストケースでの性能低下を防ぐ要因が大きいんじゃないかと思うんだが、この辺はどうとも言い難い。
SMTにもCMTにもそれぞれ利点はある。

551:,,・´∀｀・,,）っ-○○○
09/11/12 23:12:11 gjkqx3Og
逆だ

Sandy Bridge　256bit FADD+FMUL / core
Bulldozer 128ビットFMA×2 / cluster

552:Socket774
09/11/12 23:37:10 iWGs1LF+
いきなりSandyBridgeキャッチアップ出来たら本当に軌跡だよ
Pentium4からcore2位の衝撃を感じる
後は電力だな

553:Socket774
09/11/12 23:43:50 LcbAsGOP
>>543
ここで一年なんぞ後ろにずれ込んだらマジで終わりだろ。
来年に続き再来年もフルボッコじゃ流石にもたねーよ。

554:,,・´∀｀・,,）っ-○○○
09/11/12 23:46:27 gjkqx3Og
IntelはHaswellまでにかけてFMAを実装、AMDはMADの256ビット化で
浮動小数ユニットの実装の違いはある程度埋まるかと思う

555:Socket774
09/11/12 23:52:54 vH3UdDYv
AMD and Intel reach antitrust, IP settlement
URLﾘﾝｸ(www.fudzilla.com)
Intel to pay AMD $1.25 billion

556:Socket774
09/11/13 00:56:23 1ALjVUgI
コアが大きくなって、リソース共有で複雑化して、
クロック周波数が犠牲になる気がするんだけど杞憂かしら。
デスクトップはもう市場は広がらないとみてあきらめたのかな。
ただサーバにしても、デコーダ共有で80%スループット向上するのかな？

557:Socket774
09/11/13 01:29:59 EQWfLDgj
Bulldozerが1年早く出ればIntelに勝てるんだが。

558:Socket774
09/11/13 01:38:45 kXEwaJiQ
12.5億ドルあればBulldozerが出るまでは延命できるかな

559:Socket774
09/11/13 01:50:13 agcLwFTo
2スレッド同時実行とするとき >>549 の言うとおりに、AMDのほうが面積は喰うけど
性能が良い、Intel HTは面積は喰わないけど性能はあまり伸びない、
という点だけから単純化して考えると、同じ面積のチップでは当然、AMDのほうは
同時実行スレッドは少ないけど最大負荷時にスレッドあたりのパフォーマンスは上、
Intelはスレッド数多いけど最大負荷時のスレッドあたりのパフォーマンスは下
というトレードオフになる。

Intelが今のHTのやり方でこのまま進むかは不明だけど、両社が2011年以降のPC用
プロセッサで同時実行スレッド数とスレッドあたりの性能のどっちを優先している
かの違いと単純に見ることも出来るかも。

560:Socket774
09/11/13 02:01:46 Cbg6mSdh
1モジュールを２コアと数えるのか・・・・。それとも、１モジュールを1コアと
数えるかで相当考え方が変わってくるような気がするけど。

561:Socket774
09/11/13 02:08:51 eV1J7UVZ
どう考えても1モジュールが既存の概念での1コア相当
1モジュール内で2スレッドを走らせることが出来る

562:Socket774
09/11/13 02:46:37 +sTnL0Ee
モジュラーに割り当てられる仕事が1スレッドの時は２コア分のリソースを占有できて
2スレッドの時は柔軟にリソースを分配することが可能ってことか？
1スレッドあたりに用意できるリソースがふえるならシングルスレッド性能もあがりそうだな

つーか今後はモジュラー単位でスケジューリングしろってことになるのかな
いままではソケット-コア-スレッドだったけど
今後はソケット-モジュラー-コア-スレッドってことになるのかな？

563:Socket774
09/11/13 02:53:27 UDVdCX1X
以前の性能予測と比べると、Magny-Coursは若干向上しているが、
Interlagosは若干低下しているように見えるのは気のせいかな。
URLﾘﾝｸ(pc.watch.impress.co.jp)
URLﾘﾝｸ(www.anandtech.com)

564:Socket774
09/11/13 03:11:04 Cbg6mSdh
後藤氏曰く、１モジュールは2コアとカウントするそーな。
だとすると、良い方へ考えると、むちゃくちゃ効率の良いデュアルコアって事かな。
悪い言い方だと、２コアの様にも動作する１コアを、２コアとして売るって事になる。
どっちみち、なんかまだ仕掛けがありそうだけど。

565:Socket774
09/11/13 03:52:30 kPJQhmos
なんとかMhz相当とか昔あったけど
相当って嫌なんだよね。なんか・・・。
その分値段絶対高く設定するっしょ。

566:Socket774
09/11/13 03:56:41 agcLwFTo
>>562
> モジュラーに割り当てられる仕事が1スレッドの時は２コア分のリソースを占有できて
> 2スレッドの時は柔軟にリソースを分配することが可能ってことか？

図を見る限りデコードとFP unitだけが共用、逆に言うと、1スレッド/モジュラーの
時は片方のIntegerパイプは遊んだまま。流石に2スレッド分のIntegerパイプ全部
アウトオブオーダで1スレッド実行ってのは、無茶苦茶大変な割に効果出ないでしょう。
FPパイプのスケジューリングの詳細はまだよく判らないけど。

>>564
2人で暮らすのに主食の米を食うのに必要な箸と茶碗だけは2組用意するけど、
毎食使うわけでもないフォークやスプーンは1人分しか用意しないという感じ

567:Socket774
09/11/13 04:10:21 ZXSR7QJW
何となく図にしてみた。こういうことで合ってる？
URLﾘﾝｸ(sukima.vip2ch.com)

568:Socket774
09/11/13 05:17:48 f+mJfUR4
統合するGPUの性能では引き離しそうだ。

569:Socket774
09/11/13 07:59:11 RmSlr9CD
1モジュールを1コアと数えると同じコア数のインテルを整数演算でぶっちぎるが
2コアと数えると同じコア数のインテルに浮動小数点演算でぶっちぎられる
値段付けの問題もあるから悩ましいが1コアと数えて欲しかったな

570:Socket774
09/11/13 08:16:36 VtGETNpO
ベクタ演算はベクタコアででしょ

571:Socket774
09/11/13 08:19:50 NXyHlb6O
>>547
ブロダイ見る限り圧勝する要素が無いんだが…

572:Socket774
09/11/13 08:44:47 aa2/JaLQ
一部を共有させたデュアルコアだな。
一部死んでたら両方死ぬ。
部留まり悪そ。

これをコア数何個に数えて売るんだろ。
セコイ売り方しないで欲しい。

573:,,・´∀｀・,,）っ-○○○
09/11/13 08:53:24 TwafIZZ/
>>567
惜しい。Sandy Bridgeは
256ビットFP MUL×１
256ビットFP ADD×１

あと、ドローやるならここお薦め。
URLﾘﾝｸ(cacoo.com)

574:Socket774
09/11/13 09:14:16 GNWz4a6A
理論値では浮動少数負けてるけど
実効値ではそんな事ないっ(ｷﾘｯ

575:,,・´∀｀・,,）っ-○○○
09/11/13 09:21:56 TwafIZZ/
バックエンド部分だけだけどSandy Bridgeの実行ユニット構成を
シミュレータから解析したんで書いとく
URLﾘﾝｸ(cacoo.com)

他はほとんどこいつ（Nehalem）の正統進化形
URLﾘﾝｸ(pc.watch.impress.co.jp)

576:Socket774
09/11/13 09:23:51 VtGETNpO
低脳の孫引きが活発化しています

577:Socket774
09/11/13 09:54:57 aa2/JaLQ
スレッド性能はほとんど上がらないな。
面積5割増で性能8割増。
面積効率2割増。
HTと大差無い。
なのに1単位が大きくなり、部留まりが低い。

最低が2コアになれば、マルチスレッド化が進む。
いかに多くのコア、高いクロックが要点なのは変わってない。
そして、面積効率以上に電力効率が必要になるだろう。

ブルドーザがそういう性質なのかは、分からない。

578:Socket774
09/11/13 10:01:32 I+iSjOLc
ただでさえ複雑なx86のフェッチ/デコードを
2スレッドで共有するのは合理的でないと思うんだが。
分割して簡素化して「50%のトランジスタで80%の効率」を達成すれば、
トランジスタを増やさずに効率を上げられるところなのではないか?

579:Socket774
09/11/13 10:03:38 qU8D8GOW
AMDはデュアルCPUをデュアルコアにしたけど、
今度はデュアルコアを更に融合させて1モジュールにするってことだよね。

ダイサイズ50％増でパフォーマンス80%アップというなら、
ダイサイズ100%増でパフォーマンス100%アップだったデュアルコア時代よりも効率がいい

それに1モジュールの中の2スレッドは同じL2L3キャッシュを参照するから
今までのAMD CPUで弱点だったコア間のキャッシュヒットが向上する。

580:Socket774
09/11/13 10:05:03 8JZwV8y1
1日で年初来高値更新とか･･･
URLﾘﾝｸ(jp.moneycentral.msn.com)

581:Socket774
09/11/13 10:10:31 qU8D8GOW
浮動小数点演算が2スレッドで共有なのは確かに弱点だけど
それってその頃にはGPU側が担うこと多くなりそうだから問題無い希ガス

582:Socket774
09/11/13 10:21:43 I+iSjOLc
>>579
デュアルコア化はシングルスレッド性能を落とさないが
モジュール化では間違いなく落ちる。
性能低下がどの程度かによってチップとしての評価は変わるが、
個人的には(程度の大小に関わらず)受け入れ難い。

583:Socket774
09/11/13 10:30:20 RYVvNZWP
「ハイパースレッディングは80%性能が落ちる」ですか？

584:Socket774
09/11/13 10:30:36 qU8D8GOW
>>582
モジュール化するとシングルスレッド性能が落ちるというのが意味不明なんだけど

デュアルコアと1モジュールでは、
同じダイサイズならば後者のほうが普通に性能上でしょ

そもそも1スレッドしか走らせないという前提ならば
デュアルCPUだろうがデュアルコアだろうがSMTだろうが同クロックで性能同じやん。

585:Socket774
09/11/13 10:42:15 I+iSjOLc
>>584
1個のフェッチ/デコードでは、2スレッドそれぞれに命令を従来と同じだけ
フィードすることはできない。
実際に1スレッドあたりの整数演算コアは縮小されている。

URLﾘﾝｸ(pc.watch.impress.co.jp)
> ALUとAGUのペアが2個だとすると、現在のコアの2/3の規模となる。

もし整数演算コアが逆に拡張されているとしたら、それはそれでおかしなことだ。
ボトルネックはフェッチ・デコードの方が深刻だろう。

586:Socket774
09/11/13 10:42:44 roanPeol
>>581
インテルもi系で整数を強化してきたわけで
浮動小数点はGPUにシフトしていくのは時代の流れかも

587:Socket774
09/11/13 10:45:35 I+iSjOLc
まあ、一言で言えばAMD's Rockなのだよ。
スループットコンピューティングに振って巨人Intelとの棲み分けを図るのは
間違っていない。くらうどｗの時代だしな。
わざわざ「個人的に」受け入れ難いと書いたのはそういう意味。

588:Socket774
09/11/13 11:15:05 I+iSjOLc
よく考えると、SMTは入れてこないあたり、スループットに振ったわけでも
ないんだな。やっぱりモノをみないと、何者なんだかよくわかんないな。

本当にやりたかったのは、(浮動小数点演算と同様に)多数の整数演算パイプを並べて、
1スレッドで占有も2スレッドで共有もできる仕組みだったと思う。
シングルスレッド性能を犠牲にすることなくスループットを向上できて、
素人目に断然カッコイイ。でもやってみたら難しくて挫折したんだろうなあ。

589:Socket774
09/11/13 11:25:37 aa2/JaLQ
FPUを使うのは古いソフトで、古いソフトはシングルスレッドプログラム。
てことで、こうなったのかな。
最低4コア時代だと4コアモジュールにするんか。
性能向上の目的じゃないな。

590:Socket774
09/11/13 11:33:04 3eKQEwYI
共用する128bitのFPUって、今までどおりSSEとAVXも実行するんだろうから、
古いソフト以外にも関係すると思うけど。

591:Socket774
09/11/13 11:52:46 tl2E6tFt
>>585
CMTの意味分かってるのか
INTが縮小したと解釈するのは間違い
あとそこの抜粋部分だけじゃなくて
続きの文章にもきちんと目を通そうな

592:Socket774
09/11/13 11:55:55 I+iSjOLc
その前のレスから目通せばわかるけど、585はシングルスレッド性能の話だよ。

593:Socket774
09/11/13 12:07:08 tl2E6tFt
こいつはあくまでもモジュール単位で見るべきであって
物理的なブロックで見てしまいがちでそう思えるんだろうな

IntelのHTよりもむしろH/WリソースをINTに割いてる構成だからね
HTでシングルスレッド性能が下がると言ってるくらいにおかしいから

594:Socket774
09/11/13 12:10:27 GNWz4a6A
Bob猫沢山積むのが一番性能上がりそうな気がする。

595:Socket774
09/11/13 12:26:20 I+iSjOLc
> こいつはあくまでもモジュール単位で見るべきであって
そして2スレッド並行実行が前提。

認めたくないのはわかるけど、
Bulldozerのアプローチだと「シングルスレッド性能は」落ちるよ。
Hyper-Threadingとは違う。
スループットはパフォーマンスとのトレードオフなんだから、しょうがない。

596:Socket774
09/11/13 12:30:14 07IvdgNE
>>588
突然その位置まで飛躍は無理でしょ？
次世代以降ではそうなるのでは？

あと、シングル性能は落ちるだろうけど、
時期的には拘らなくてもいいかもね…。

597:Socket774
09/11/13 12:37:27 I+iSjOLc
BobcatはBulldozerよりさらによくわかんないな。
50%のダイサイズで90%のパフォーマンスを実現する技術はなんだろうね?
それが本当ならBobcat二つ並べれば180%で、Bulldozerなんて要らない(笑)。

キャッシュ省略、デコーダも演算器も良く使う命令にあわせて簡素化・・・
90%は実は誤解を招く数字なんじゃないかと思えるし、
ダイサイズ半分では、コストも消費電力もあまり下がらないないようにも思える。
モノがないとさっぱりだ。

598:Socket774
09/11/13 12:43:37 3BMh1r8o
>>597
仮説１：シュリンクによる縮小分も含まれる
仮説２：キャッシュやアンコア部を削る

599:Socket774
09/11/13 12:45:56 07IvdgNE
大本営発表を真剣に考えちゃう人って…。

600:Socket774
09/11/13 13:10:26 I/pKTnkE
ピーク性能が高いのがintel
実行性能が高いのがAMD

1w単位の性能が高いのがintel
1\単位の性能が高いのがAMD

601:Socket774
09/11/13 13:46:23 3BMh1r8o
SSEや128-bit AVX性能だと若干Bulldozer有利。
2つのMADをmulps×2のみあるいはaddps×2のみとして使えるから。

256-bit AVX性能だと断然Intel有利。
256-bit vmulpsとvaddpsを1サイクルに同時実行できるから。

AMD独自のXOP/FMA4もありでなんとか肩を並べることができる
256-bit vmulpsとvaddpsに対し、128-bit版vmaddps×2あるいは256-bit版×1で
張り合うことができるから。

> 1\単位の性能が高いのがAMD

これ誇ることじゃないけどな。
製造コストが低いならまだしも、そうじゃないし。
卸値が安い今の現状は単に市場競争力がないだけ。

602:Socket774
09/11/13 14:00:33 1ALjVUgI
そういえば、TurboBoost的な何かの搭載は発表なかったのかな？

603:Socket774
09/11/13 15:19:55 eV1J7UVZ
>>595
さっきから言ってることが無茶苦茶すぎる
シングルスレッド性能が落ちる理由をきちんと説明してみな？

604:Socket774
09/11/13 15:42:37 QXoJ4iD7
パイプ減ってるのに落ちないはずがないだろ

605:Socket774
09/11/13 15:58:29 kXEwaJiQ
Hyper-ThreadingだってOnにすればシングルスレッドの性能は落ちるよね

606:Socket774
09/11/13 16:02:06 0Yk1E7jB
まあパッと見
デコーダーが足引っ張ると転けそうなアーキだな。

フロントエンドの共有化って結構バクチなような気がする。

607:Socket774
09/11/13 16:14:17 UsRtvPLa
>>602
APM Boostという類似技術は搭載される模様

>>604
HyperThreadingと比べるとスレッドの競合起きないから
その分有利にならないのかな？単純にシングルスレッド処理が
落ちるという計算も妙な気がするけれども

608:Socket774
09/11/13 16:18:30 5AJDJJPE
HyperThreadingと比較する意味がわからん。

609:Socket774
09/11/13 16:45:48 RYVvNZWP
>>585
まさかデコーダーが1個とか考えてるの？

>>597
シングルスレッド性能が落ちるからしか考えようが無いだろ
AtomをマルチコアにしたらNehalemなんて要らない(笑)。すか？

610:Socket774
09/11/13 17:01:31 3QEHNsiP
凄い低脳が来た

611:Socket774
09/11/13 17:05:24 VtGETNpO
URLﾘﾝｸ(www.ne.jp)
＞x86ではLOAD、STORE系の命令が頻繁に使用される
＞デコード能力が十分だったとしてもALUの処理能力で全体の能力が決まる

「一般的な依存関係のある整数演算での命令同時発行（順番があるのに並列？）」とか個人的に演算部分にはよく解らん部分あるけど
とりあえずBullのアーキはマルチスレッドで当たり前な鯖での効率に合わせた設計をしてんじゃないかと思う

612:Socket774
09/11/13 17:29:11 MvpZEtlb
URLﾘﾝｸ(pc.watch.impress.co.jp)
>ホットスポットであるデコーダが、CPUの動作周波数の事実上の制約となる
各integer coreが2つの整数演算実行ユニットを持ってたとしてもデコーダは4命令同時発行で、かなり複雑
これからクロックを追求したPower6的プロセッサでないことが分かる

スレッド並列だけを求めるなら、それこそBobcatを並べたほうがシンプルなコアでクロックを高くできて、
(内部バスとかメモリ帯域とかの問題を解決できるなら)チップ単位でのパフォーマンスが高くなる

消去法的にIPCを高めてあると考えられるけど、
URLﾘﾝｸ(pc.watch.impress.co.jp)
>Intelも、おかしなプリフィックスがない“ノーマル命令(Normal Instruction)”を、3から4命令ずつデコードすることを前提としているはずだ
>それ(ノーマル命令)以外のケースに(3～4命令の同時デコードを)拡張しようとすると、デコーダが極端に複雑になってしまうだろう
各integer coreが3つ以上の整数演算実行ユニットを持ってたら、デコーダが6以上同時に命令発行できなきゃいけない
これは非現実的

とすると>>531の「書かれていない他の要素」に
①シングルスレッドをハードで動的に2スレッドに振り分ける機能
②2つのinteger coreを１つのリソースとして扱う機能
のどちらかがある、と考えられる。どっかに論理の飛躍あるかな？

613:Socket774
09/11/13 17:43:33 +sTnL0Ee
今すこし考えたんだけど、
コア数に対してデコーダーは1/2になるんだよな？
そのぶん熱容量浮くからクロックアップにまわすとか・・・・・・ない？

なんだかんだいって４コア以上はソフトが対応しててもほとんど費用対効果わるいし、
クロックアップだけが今のところフリーランチ的に性能をあげられる唯一の手段なんだから、
コア数をそのままにして1スレッドあたりに用意されている実行リソースも減らさないで
一部リソースをコア間で共有化して節約しcpu全体で熱量さげてクロックあげられるなら、
ありえない選択肢ではないと思うんだが。

問題はクラスタードアーキテクチャのオーバヘッドと、Bulldozer以前と比べたシングル・マルチスレッドの実行効率で、
この良し悪しによりクロックアップ分の性能が生きるか死ぬかのどっちかになるんだよな。
あと、キャッシュ自体をどうにかしないと永遠の二番手におさまっちまう

614:Socket774
09/11/13 17:58:00 aFz22ZLA
>>612
2011年まで待たせるんだからそのどちらか位のことはやって欲しいね

615:Socket774
09/11/13 18:04:10 RmSlr9CD
HTから5年後くらいにこの整数演算機構のCPUが出ていたらなあ・・・

616:Socket774
09/11/13 18:09:39 Ne4VIStf
>>611
>デコード能力が十分だったとしてもALUの処理能力で全体の能力が決まる

これデコーダーとバックエンドが１対１の場合の話な。
頑張ってデコーダーが命令送り込んでも
実行ユニット足りなきゃ意味無いよって話。

Bulldozerは基本1対２だからバックエンドは足りてるんだよ。
だから逆に
ALUの処理能力が十分だったとしてデコード能力で全体の能力が決まる。
Bulldozerの場合は。

617:Socket774
09/11/13 18:10:04 3eKQEwYI
>>612の
＞各integer coreが3つ以上の整数演算実行ユニットを持ってたら、
＞デコーダが6以上同時に命令発行できなきゃいけない
両方のInegerCoreの演算器が全部動く自体なんて想定してないんじゃないの？
特許から予想しているサイトみたいに、
デコーダーは4命令発行で、デコード後のμopsをキャッシュして再利用することによって、
デコーダーの負担を減らすんじゃないだろうか。

618:Socket774
09/11/13 18:24:53 ipaMH2N9
そろそろデコードなんかしないで、コンパイルしてから実行した方が早くね？

619:Socket774
09/11/13 18:29:16 xW8/SbO/
RISCが壊滅した今にそれはない

620:Socket774
09/11/13 18:29:26 VtGETNpO
URLﾘﾝｸ(pc.watch.impress.co.jp)
この図でintのスケジューラからFPのスケジューラに矢印流れてるけど
intのスケジューラ同士でやりとりは出来ないんだろうか
出来るんなら「ｷｭｰが溢れる」だとか足りないとかした場合に平均化出来ていいというか
L1データキャッシュを1コアに2つ入れた構成ってことになるというか

621:Socket774
09/11/13 18:30:51 TQDx+WpO
>>617
でもそれってK8・K10の「最低速を速くする」アプローチとは真逆だよね。
対象なデコーダ・ALU・AGU×3でワーストケースに備えるような。

デコーダは対象4wayでinteger coreで2＋2になるって感じの方が、AMDらしい気がする

622:Socket774
09/11/13 18:49:52 3BMh1r8o
> 対象なデコーダ・ALU・AGU×3でワーストケースに備えるような。

そこまで考えた設計じゃない。
あれはただ単純にスケジューラの実装が楽だから。
どこに突っ込んでもALUの機能が均一だからスケジューラをサボれる。
LSUが2本しかないのにAGUが3つあっても理論性能上意味ない。

623:Socket774
09/11/13 18:59:20 LlJ4bQ3m
デコーダ1つと言っても中身はほぼ2つ分で
FP schedulerに送る部分で情報共有+最適化しているだけじゃね。

fetchも状況によって1:1が2:0に変わるくらいで。

624:Socket774
09/11/13 19:49:18 JiLcy5rd
大原さんのレポ来た

AMDがロードマップ公開 - 2011年にFusion投入、Bulldozer/Bobcatコアの概要も
URLﾘﾝｸ(journal.mycom.co.jp)

3ページ目
＞Photo13: ここでは128bit FMACが2つとされているが、実際にはもう少し複雑な構成になると思われる。
＞恐らくx86のFPU命令を実装するのは片方のみで、もう片方はSSE3とAVXなどの128/256bit演算のみを
＞実装しているのではないかと思われる。それと、遂にIntegerが4Pipelineになったのは注目に値する。
＞恐らくALU+AGUのセットが4組、という構成であろう。

この辺は情報が少ないこともあって見解が分かれるようですね

625:Socket774
09/11/13 19:58:28 JiLcy5rd
>>539のDresdenboyは後藤さんと同じ解釈ですね
URLﾘﾝｸ(info.nuje.de)

626:Socket774
09/11/13 20:07:30 6UpggKHr
合計4組だとリソース50%スループット80%も増えなくね？

627:,,・´∀｀・,,）っ-○○○
09/11/13 21:36:57 TwafIZZ/
>>626
去年の今頃、SPECintでNehalem 4コア(8スレッド)でShanghaiの2ソケットよりスループット上回ったなんて
どっかのMACオタが狂喜してたがさ

事前最適化ありの定型的なベンチですらそうなんだから
要するにHPCじゃない一般的なサーバのワークロードにおいてOpteronは平均2IPCは確実に下回ってるわけだよな。
なら、2スレッド合計4IPCになるなら、80パーセントは達成出来るんじゃないの？

まあこれはデコーダが4Wayで十分な根拠にはなるが
ALUとAGUを別パイプラインにして1スレッドで性能が出るかどうかは別だよな

628:Socket774
09/11/13 21:41:27 +sTnL0Ee
今、気がついたんだけど
２コアを１モジュールにすることでリソースを1/4節約して(逆に言えば１コアから１モジュールにアップグレードするのに１コア分の50%の追加リソースが必要)、
それにともなう性能低下も2コア合計で1/10におさめました（逆に言えば2コアを一つにすることで80%の性能向上が見込めます）
って事なんだよね？

HTTと比較するとけっこう対極的な位置関係になってるねこれ

629:Socket774
09/11/13 21:50:47 LlJ4bQ3m
レジスタをそれぞれのALUの近くに完全に分散して持てるから
HTとは違うんでない。

630:Socket774
09/11/13 22:51:43 CGqeEOT9
>>617
>両方のInegerCoreの演算器が
>全部動く自体なんて想定してないんじゃないの？

そう思う。
実際には片側４つ全部遊んでいる状況もあるだろうな。

631:Socket774
09/11/13 23:00:52 EO/YjpG6
よくわからんが、C2Dっぽい二気筒エンジンになるのか。
デスクトップ向けが4コア8スレッドなのかな？

632:底辺投機家
09/11/13 23:04:16 Ly7aps2U
有識者の方々にお尋ねしたい。

先日発表された内容の
Ａ． Bulldozerがポシャる可能性
Ｂ． Bobcatがポシャる可能性
Ｃ． Fusion/APUがポシャる可能性
を具体的数字で示していただけますか。

633:Socket774
09/11/13 23:07:12 Rjv2vUM8
まず「ポシャル」の定義を教えてくれ

634:Socket774
09/11/13 23:09:17 xs3ZX472
A 12㌫
B 24㌫
C 38㌫

635:Socket774
09/11/13 23:09:45 zCXK77Zf
Q：Bulldozerがポシャる可能性
A：0

Q：Bobcatがポシャる可能性
A：0

Q：Fusion/APUがポシャる可能性
A：0

Q：それぞれが遅れる可能性
A：低くない

636:Socket774
09/11/13 23:11:26 8JZwV8y1
なんか妙な言い回しが板のあちこちでみる
別に困ることでもないだろうに
A,わからん
B,わからん
C,わからん
おれたちトーシローの意見をきいても意味無いと思うが

637:Socket774
09/11/13 23:14:35 Ly7aps2U
>>633
中止、もしくはデザイン変更

638:Socket774
09/11/13 23:20:12 EO/YjpG6
今さら中止も変更もないだろ。
仮にAMDが倒産してもIBMが引き継ぐんじゃね？

639:,,　´∀｀　,,）っ-○○○
09/11/13 23:24:28 TwafIZZ/
>>633
テンがない

640:Socket774
09/11/13 23:27:51 Rjv2vUM8
A. これまで紆余曲折あってアーキテクチャー公開だから、中止・デザイン変更の可能性は低いと思う。
B. ダイ写真の公開してるし、中止・デザイン変更の可能性は低いと思う。
C.中止・デゼイン変更の可能性は上二つほど低くないと思う。

思ったほど性能が出ないとか、発売が遅れるとか、プロセスの歩留まりが向上しないとかはありがちだが。

641:Socket774
09/11/13 23:43:27 Ly7aps2U
識者の皆様
貴重なご意見ありがとうございました<（＿）>

642:Socket774
09/11/14 00:02:04 0mOzxaqI
識者じゃないが、あそこまで時間とリソースをかけて開発してきたのだから
ブルドーザーが市場投入されないとしたらAMDがその前に潰れた場合だけだろうな。

643:Socket774
09/11/14 00:16:54 UwvtsPbJ
整数演算ユニットを4パイプx1組じゃなくて
2パイプx2組にするメリットって大きいのかな？
消費電力の低下には寄与しそうだけど
性能面での貢献が期待できるのかどうか
特にシングルスレッド重視の用途に限れば
不利になりそうに思えるけどそうでもないのかね

644:,,・´∀｀・,,）っ-○○○
09/11/14 00:36:50 8rfW0ww8
3パイプ＋ストアの予感

645:,,・´∀｀・,,）っ-○○○
09/11/14 00:40:10 8rfW0ww8
そもそもAMDの資料でも4パイプ書かれてるわけなんで
AGUはALUとペアにするべきかLSUとすべきかは議論の余地はあるが

Fused μOPs形式を辞めるとかぶっちゃけ無いだろ。
デコーダのドメイン数が増える。

ま、256ビット AVXが2ドメインなんでそういう面では不利確定ぽ

646:Socket774
09/11/14 01:51:34 qaFX6RGC
性能予測だとコアの増加に比べて、Integer性能の増加が小さいので、
整数演算ユニットがすごくリッチになるとは思えない。
「ALU+AGUのセットが4組」はありえないと思う。

647:Socket774
09/11/14 01:56:14 HzOHIkYI
>>644でやっとさんざ書かれた
>両方のInegerCoreの演算器が
>全部動く自体なんて想定してないんじゃないの？
が理解できた気がする。

4命令/サイクルの命令が各integer coreに必ずしも2:2で振り分けられるわけじゃない。
それこそ4:0から0:4まで状況に応じて変わる。
スレッド数が少ないときのシングルスレッド性能は、K10からデコーダの性能向上分上がるし
スレッド数が多いときは、K10よりはシングルスレッド性能が低いコア×2として扱える。

ってことでおｋ？

648:Socket774
09/11/14 03:51:45 Q177t1I6
URLﾘﾝｸ(journal.mycom.co.jp)
Photo11: 128-bit FMAC
Photo12: 128-bit FAMC
Photo13: 128-bit FAMC

649:,,・´∀｀・,,）っ-○○○
09/11/14 10:54:57 8rfW0ww8
iMac、じゃなくてIMAC機能も2つのFMACユニット両方で使える気がするんだが
IMACが有効に使えるケースでのSIMD整数算術演算のスループットは最大2倍ってことになるよな
PMUL* と PADD* を連結して使いたい場合に有効だな

ま、整数で積和使えても美味しいケース少ないけどな

650:Socket774
09/11/14 14:12:32 kKKwIMcC
画像を見る限り、２コア８整数２浮動小数が全体で１コアなのか、
これが４コアとか複数展開されるのかよくわからないな。
L3まで書いてあるってことは、これがCPU全体の処理構造になる
ように読めるんだが。

651:,,・´∀｀・,,）っ-○○○
09/11/14 14:48:08 8rfW0ww8
コアの考え方が曖昧になるな

652:Socket774
09/11/14 15:03:08 M3LDRNq8
オラクルのライセンスで揉めそうだなw

653:Socket774
09/11/14 15:29:30 ybR/zvmW
否定的なことを言えば、FPUのコア間共有はトランジスタを増やさずに
見かけのコア数を増やす(整数演算を優先する)過渡期のアプローチ。
微細化で余裕が出来る次の世代では1:1で持つようになるはず。Niagaraとか見ると。

スレッドを複数束ねればピークはずれるので、2コアといわず4コア・8コアを集約して
リソースを配分できれば理想的だが、高速なチップはそういうふうに作れないようだ。

あと、マルチコア全盛に至った理由の一つが「きっちり1コア作ればあとはコピペでおk」
という点であり、手間をかけて2コアを融合させるのが、1コアを改良
するより費用対効果でみて有利なのかどうかはまだわからない。

654:Socket774
09/11/14 15:49:06 ybR/zvmW
肯定的に言えば、Intelの後追いではないことを明確にアピール出来たのは
借金抱えてアラブの投資家のご機嫌を伺わなければいけないAMDにとって
大きな意義がある、かな。

Atom対抗という位置付けだったBobcatも、Atomとは違う高付加価値路線だった。
IntelがAtomで利益を上げていることを考えれば、Atomクローンを
作ってもよさそうなものだが(派生品を作りやすいのもそのセグメントだろう)、
価格競争しても勝ち目はないという真っ当な判断が働いたのだろうか。

655:,,・´∀｀・,,）っ-○○○
09/11/14 15:53:47 8rfW0ww8
LlanoとSandy Bridgeのコアサイズ見ると既にSandy Bridgeの1コアがLlanoの1.5倍くらい
GPU部分はほぼ同サイズなんだが

656:Socket774
09/11/14 15:54:08 XtAgcAD1
>>653
ほぼ同じダイサイズなのに整数演算のスループットで2倍以上の差があるからな
URLﾘﾝｸ(www.spec.org)
URLﾘﾝｸ(www.spec.org)
NiagaraのCoolThreads的な、面積あたりの性能にフォーカスするのは自然

657:Socket774
09/11/14 15:56:25 iDwikhuU
たるさんの予想が当たる

658:Socket774
09/11/14 16:00:45 t4BTVAAy
>>656
HTTアリと無しでは話がまた違うが…。
アンカ違いか？

659:Socket774
09/11/14 16:06:41 XtAgcAD1
何それ怖い

660:,,・´∀｀・,,）っ-○○○
09/11/14 16:18:47 8rfW0ww8
まあ何にせよフロントエンドとFPUを共用する以上、
HTと同様にタスクの振り分け方で性能が変わるなんてことがあるわけで
OS側の対応が大変だ

661:Socket774
09/11/14 16:22:00 ybR/zvmW
SMTも入れてスループット特化したらもっと面白かったかな
きっと売れないけど

662:Socket774
09/11/14 16:39:00 Iou8SRFI
実は4pipeが独立スレッドとしても動かせて
1コアで4*2=8スレッド、4コアなら32スレッドで動くとか
エンコ屋さんは喜ぶかもなー

663:,,・´∀｀・,,）っ-○○○
09/11/14 16:40:34 8rfW0ww8
そういえばSMTがないなんて一言も言ってないんだよな

664:Socket774
09/11/14 16:49:50 XtAgcAD1
>>663
あるとしたらSoEMTじゃね
URLﾘﾝｸ(pc.watch.impress.co.jp)

665:Socket774
09/11/14 16:55:22 ua6oLThd
つか前に1モジュール内で並列処理やるって言ってなかったっけ
整数ユニット2つ積んでるのがそれだと思ったんだけど

666:Socket774
09/11/14 16:59:47 Q177t1I6
Bulldozerモジュール内で4スレッドも走らせたらFPUパンクしちゃうよ

ところでFPUってL2にしか繋がってないの？
両方のL1Dに繋がってるって書き方してる人もいるけど

667:,,・´∀｀・,,）っ-○○○
09/11/14 17:23:26 8rfW0ww8
整数部のLoadユニットで読んで内部データバスで供給でしょ。今までと同じかと。

668:,,・´∀｀・,,）っ-○○○
09/11/14 17:32:41 8rfW0ww8
たとえば
addps xmm0, [rax]
って言う命令は整数パイプと浮動小数パイプの両方にオペレーションが発行される。
整数部のAGUを使ってアドレスを算出、格納先の１２８ビットデータを読んで
FPUのシャドウレジスタに格納→浮動小数ユニットでそのデータをxmm0に加算
みたいな。
Bulldozerの場合はシャドウを含めたレジスタセットをスレッド毎に持ってそれぞれの
整数コアに接続すればいい。

669:Socket774
09/11/14 17:47:51 BOY857X6
きも過ぎ

670:Socket774
09/11/14 17:49:54 kKKwIMcC
マクロFusionはx86の実行効率向上にかなり効果的みたいだな。
AMDもRISC変換はしてるけど、インテルの特許技術と同じような
手法はとれないと思うし、AMDの高速化に向けたアプローチは
苦難の道が待っていそうな気がする。

671:Socket774
09/11/14 18:21:45 UwvtsPbJ
>>670
前からやってるぞ？何言ってんの

672:Socket774
09/11/14 20:35:49 BOY857X6
AMDが使えないインテルの特許技術ってx86のことですか

673:,,・´∀｀・,,）っ-○○○
09/11/14 20:39:26 8rfW0ww8
今年通ったIntel特許だとLarrabee関連とか

674:Socket774
09/11/14 23:08:19 t4BTVAAy
>>672
何を言っているの？

675:Socket774
09/11/14 23:34:35 w5rttL5q
4つのパイプラインが肝だろうけど謎が多いな
ALU+AGUのペアが4つというのは難しそうだが
かといってペアが2つだと性能落ちてしまうよな
うーん・・・

676:Socket774
09/11/14 23:40:44 qatVKIjB
>>675
そこで3+1説
Cellじゃないけど

677:,,・´∀｀・,,）っ-○○○
09/11/15 00:05:30 GwkMRAwb
LSUは整数コア毎に128bit×2基なのかな？
2スレッド合計で64KB/clkのロード帯域になるなら、Sandy Bridgeに対する優位性としては十分だな

678:,,・´∀｀・,,）っ-○○○
09/11/15 00:11:44 GwkMRAwb
64byte/clk orz

679:Socket774
09/11/15 00:34:43 1qZbvTOG
>>675

3+3なら(スレッドが少ないときの)シングルスレッド性能とマルチスレッド性能両立できるよ
>>647参照

680:Socket774
09/11/15 01:49:01 9HSPvDU/
1スレッドあたり平均2命令発行だから2ペア、だろ
+50%で1コア相当の省スペース性がウリなんだから
リッチなわけもなし

681:Socket774
09/11/15 01:57:08 y809ROyU
“Bulldozer”のサンプルは2010年早期に登場する
URLﾘﾝｸ(northwood.blog60.fc2.com)

682:Socket774
09/11/15 02:20:22 fEyWNb8j
>>676 >>679
K8以来ずっとALUとAGUのペアがで1組の構成でしたが
これが3組だとしたら残りのパイプ1つはどうなるのでしょうか

683:,,・´∀｀・,,）っ-○○○
09/11/15 02:28:55 GwkMRAwb
だからAGUだけ（Load or ストア専用）

684:,,・´∀｀・,,）っ-○○○
09/11/15 02:46:15 GwkMRAwb
URLﾘﾝｸ(www.chip-architect.com)

整数ユニットってサイズそんなに食ってなくね？

L2キャッシュ込みでなら1.5倍は十分可能だと思うけど。

685:Socket774
09/11/15 06:45:26 67+W7s0j
死ね

686:Socket774
09/11/15 07:35:43 9HSPvDU/
整数演算リッチにする余裕あるならフェッチ・デコードも分離すると思うんだけど。
要はRockと同じくFPUのみ共有。新味はないが確実。

2スレッド分のリッチな整数演算パイプに充分な命令を発行できる
スーパーリッチな共有型フェッチ&デコーダだったらミラクル過ぎる。

687:Socket774
09/11/15 07:43:40 9HSPvDU/
OSのスケジューラはスレッド毎に256bitAVX使用の有無に応じて
コアへの割り当てを配慮しなきゃいけないのかしら。
出来なくはないだろうけど、面倒そうね。

688:Socket774
09/11/15 09:00:36 67+W7s0j
1スケジューラにつき1スレッドなの？
1フェッチ＆デコードにつき1スレッドなの？
後者ならBullはデータL1とスケジューラが2つになっただけで
「2コアで1モジュール」とかあんま関係無いような気がする

689:Socket774
09/11/15 11:43:52 xGo1jOrD
よーするに「整数演算はインテルより強い」といわる時代がまたやってくるのか。

690:Socket774
09/11/15 11:56:49 rl8QvWPu
整数の4パイプは
「ALUx2、ロードx1、ストアx1」ってことはないのか？
BobcatもAGUを分解してそんな感じだけど

691:Socket774
09/11/15 12:04:58 CqsdRnHp
>>689
まー浮動小数点演算を大々的に使うならGPUという時代が目の前だからねぇ
整数演算強化は正解かと

692:Socket774
09/11/15 12:33:15 9HSPvDU/
GPGPUは「これまでCPUでは出来なかったこと」をやるためのもので
仮にGPGPUが普及しても、CPUの浮動小数点演算需要は減らんよ

693:,,・´∀｀・,,）っ-○○○
09/11/15 12:48:47 GwkMRAwb
>>689
まあ、数＝性能じゃないと思うけどねぇ。振り分けが巧くないと結局ユニットが遊ぶ。

>>690
ロードと整数演算を分解するとμOPsのドメイン数が増えるだろ。Macro fusionを辞めるわけがない。
辞めたところでデコーダのポートが増えてスケジューラが大変になるか、スループットが落ちる。
まあBobcatは外部2～3 issueの内部4issueだろうからそれでいいんだろ。

>>691
だからそれはSandy Bridgeのスペックが解るまでの話だろう。
SSE5（現FMA4）を使うことで浮動小数演算性能も2倍で、
今年に登場しNehalemをぶっちぎる予定だった。

694:Socket774
09/11/15 12:57:56 67+W7s0j
>>692
ﾃﾍですか？

695:,,・´∀｀・,,）っ-○○○
09/11/15 13:06:09 GwkMRAwb
PenrynとNehalemって殆どパイプライン構成同じでHTが増えたくらいなんだが
それで性能増えるのは要するにそれだけスカスカだったってことで。

大体にx86みたいなレジスタ本数が少なくて依存関係の多い命令セットじゃ
整数演算ユニット増やした分だけ性能があがるようなもんじゃないだろ。
整数コアに更に2スレッド動く構成とかならありだろうが。

696:Socket774
09/11/15 13:22:42 67+W7s0j
>>695
ﾃﾍですか？

697:Socket774
09/11/15 13:27:18 xGo1jOrD
>>692
いや、画期的に減ってるんですが……エンコをGPUでやれるのは大きい。

GPUが「使える」ようになってきた以上、とくにAMDみたいな内蔵GPUが強い場合、
演算能力はCPU単体で考えるより、内蔵GPU込みで考えた方がいい時代になってきた。
そしてグラボ追加でエンコなどの能力アップと。

　　　　　　　,.ｨ , - ､.＿　　　、
.　　　　 ,ｲ/ l/　　　　￣￣｀ヽ!__
　　　ﾄ/ |'　{　　　　　　　　　　｀ヽ.　　　　　　　　　　　 ,ﾍ
　　Ｎ│ ヽ. `　　　　　　　　　　ヽ　　　　　 /ヽ　/　 ∨
　　 N.ヽ.ヽ、　　　　　　 ,　　　　　 }　　　　l＼/　　`′
.　　ヽヽ.＼　　　　　　 ,.ｨｲﾊ　　　　　 |　　＿|
　　ヾニｰ　__　_　-=_彡ｿﾉ u_＼ヽ、　 |　　＼
.　　　￣ﾞr=<‐ﾓﾐ､ﾆr;＝=ｪ;ｭ＜_ゞ-=7´ヽ　　　>　つまりコプロセッサ増設の時代が戻ってきたんだよ！
.　　　　　 l 　￣ﾘーh ｀ｰ‐‐'　l‐''´冫)'./　∠__
　　　　　　ﾞiｰ- ｲ'__　ヽ､..＿__ノ　　ﾄr‐'　　　　/
　　　　　　　l　　 `＿__,.、　　　　./│　　　　/＿
.　　　　　　ヽ.　 }z‐r--|　　　／　ﾄ,　　　　　 |　 ,、

698:Socket774
09/11/15 13:33:25 67+W7s0j
>692はまず1行目に突っ込むべきだと思うんだが・・・
1行目がこのままなら2行目との矛盾は無いけれど
「これまでCPUでは出来なかったこと」ってPC内で言うとHDDやらLANやら電源やらの機能のどれかってとこかな
そんなことがGPGPUに出来るんですか
現実世界のGPUは「演算なら何でも御座れ」なCPUの機能限定版ですよ

699:Socket774
09/11/15 13:34:13 67+W7s0j
限定というか特化か

700:Socket774
09/11/15 13:35:11 1na4qW8D
DOS/VマシンがCPUとGPUを別パーツに分けたように
「あれ？もう整数演算と浮動小数点・ベクトル演算を同居する意味無くね？」
と気付いてしまったのが現在

701:Socket774
09/11/15 14:00:40 9HSPvDU/
みなGPGPUにあらぬ期待をかけすぎだ。
団子はもっとプロパガンダ頑張らないと。

GPGPUはバズーカ持ったシュワルツェネッガーみたいなもんだ。
戦場の様子を一変させる破壊力。
でもやっぱりマシンガンも要るんだよ。

702:Socket774
09/11/15 14:32:47 0m/z0btM
FPUはCPUに取り込まれたし、
GPUもCPUに食われると思うが・・・

703:,,・´∀｀・,,）っ-○○○
09/11/15 14:48:52 GwkMRAwb
>>701
往年のシュワちゃんはボディービルダーだからアウターマッスルは立派だが
インナーマッスルは相対的に弱い。

銃撃戦に必要なのは瞬発力だろう

704:Socket774
09/11/15 14:51:12 CqsdRnHp
そもそも今現在、CPUで浮動小数点演算使う場面ってあるの？
職場で使う大ファイルのエクセルくらいじゃないのか。

レタッチやキャド分野ではもうGPUにどんどん移行してるし
3D描画やゲームは全部GPUで決まるし、
エンコももうGPUにどんどん移行してる。

CPUの浮動小数点を無くすのはまだ乱暴だが、現状維持程度にするというのは
ニーズからいっても非常に現実的な解だと思うが。

欲しいのはやっぱり整数演算でしょう。

705:Socket774
09/11/15 14:51:38 LG75kTK/
>>702
５年以上先にはなｗ

706:,,・´∀｀・,,）っ-○○○
09/11/15 14:56:35 GwkMRAwb
>>704
だから浮動小数も2倍になってるっつーの

707:Socket774
09/11/15 15:00:03 PQNIAS0b
>>704
×どんどん移行してる
○ゆっくり移行してる？

708:Socket774
09/11/15 15:13:12 1na4qW8D
DTMはレイテンシが命だからGPGPUとか無理
CPU並みのレイテンシでGPUを使えるAPUが将来的に望まれる

709:,,・´∀｀・,,）っ-○○○
09/11/15 15:19:07 GwkMRAwb
てかGMA内蔵Sandy Bridgeの対抗は当分K10.5のLlanoだろ
Bulldozerは鯖とエンスー向けで

710:Socket774
09/11/15 15:21:17 9HSPvDU/
こんなにFermiへの期待度が高いとは正直驚きだ。

Fermiだよな?

711:,,・´∀｀・,,）っ-○○○
09/11/15 15:24:06 GwkMRAwb
FermiはGPUとしては単体カードでGTX295を超えられるか微妙

712:Socket774
09/11/15 15:24:46 0m/z0btM
GPUを扱えるAPUってなんぞｗ
普通に、サウンドカードのチップとかコーデックが
全てソフトウェア化してCPUに取り込まれれば、解決する問題じゃん。

713:Socket774
09/11/15 15:39:51 RAbvWwq1
>>683 >>690 >>693

K8の、というかAMDの3命令/cycle哲学からして
さすがに2(ALU+AGU)は無いんじゃないの？
同様にストアだけ強化っての何だか違和感あるし
正当な進化として4(ALU+AGU)にならんのかね

714:Socket774
09/11/15 15:46:39 6zMlLZ7M
Chekib Akroutのpdfで5ページ目、Single-Core Eraの項が気になる
この先シングルスレッド性能が上がるか下がるか？って書き方だしなあ

以前どこかの記事でシングルスレッド性能は落とさないとAMDの人が言ってた気もするんだが

715:,,・´∀｀・,,）っ-○○○
09/11/15 15:50:13 GwkMRAwb
>>713
むしろストアって基本的に整数演算とペアにできないんだよね。

add [eax], ecx だとload→add→storeになるけどさ
load+add と storeで十分だろってさ。

716:,,・´∀｀・,,）っ-○○○
09/11/15 16:06:32 GwkMRAwb
ストアアドレスが確定するまでロードが出来ないことを考えるとストア専用パイプを用意して
専用のスケジューリングをする意味はあるのかなと。

アドレス値予測して投機的にロードするテクニック（Memory Disambiguation）はどこぞの特許に抵触するし。

717:Socket774
09/11/15 16:18:00 67+W7s0j
低脳うぜぇ

718:,,・´∀｀・,,）っ-○○○
09/11/15 16:21:23 GwkMRAwb
逆に言うとストアアドレスが確定するまでストアできない制限がある以上
ALU＋AGUのペアをいくら増やしても頭打ち

719:,,・´∀｀・,,）っ-○○○
09/11/15 16:22:24 GwkMRAwb
○逆に言うとストアアドレスが確定するまでストアの後ろのロード命令を先行実行できない制限がある以上

720:Socket774
09/11/15 16:32:08 67+W7s0j
メモリディスアンビグエーション＝プリフェッチ＝フェッチはどこの特許に触れますか？

721:,,・´∀｀・,,）っ-○○○
09/11/15 16:33:28 GwkMRAwb
US Patent 6591342

722:,,・´∀｀・,,）っ-○○○
09/11/15 16:36:54 GwkMRAwb
というかIntelの特許はこれ

7590825 Counter-based memory disambiguation techniques for selectively predicting load/store conflicts
URLﾘﾝｸ(www.patentgenius.com)

723:,,・´∀｀・,,）っ-○○○
09/11/15 16:57:59 GwkMRAwb
プリフェッチ君背走

724:Socket774
09/11/15 17:24:14 67+W7s0j
未だにメモリディスアンビグエーション＝プリフェッチ＝フェッチと信じてるとは驚き

725:,,・´∀｀・,,）っ-○○○
09/11/15 17:27:35 GwkMRAwb
プリフェッチ君おはよう

726:,,・´∀｀・,,）っ-○○○
09/11/15 17:32:20 GwkMRAwb
プリフェッチ君（ID:67+W7s0j）の恥ずかしいレスが見れるスレはこのスレだけ

727:,,・´∀｀・,,）っ-○○○
09/11/15 17:37:09 GwkMRAwb
ねえねえプリプリフェフェフェッチくん♥

728:Socket774
09/11/15 18:41:30 maZmd7kF
L2の速度ひとつで性能2、3割とか余裕で変わるんで
コア内部だけのユニット構成だけで性能予測しても
殆ど当たらんけどな。

729:,,・´∀｀・,,）っ-○○○
09/11/15 18:44:49 GwkMRAwb
まあパフォーマンス要因はL1が2つあることだと思う。
1つのL1の帯域・ポート数を増やすのは大変だが、クラスタ化すればスケールする。
結果的に浮動小数ユニットに2倍のスループットでデータを供給できるようになる。

730:Socket774
09/11/15 18:59:01 uFGZc0jr
Memory Disambiguationでウィスコンシン大学に訴えられてた件は和解したんだな。

Wisconsin Alumni Research Foundation settles suit against Intel
URLﾘﾝｸ(www.jsonline.com)

731:Socket774
09/11/15 19:41:47 psl1E2jj
>>597
自分も非常に気になった部分だ。

クラスタードを採用するとかしてないと無理な気がするが、其処まで面倒な事を
してるのかな？

まあいずれにしてもクラスタードはいいなあ。

IntelのHTやターボboostなんかで差をつけられたイメージが有ったが、一気に
取り戻した感じがするよ。

732:Socket774
09/11/15 19:50:30 lSnNYP9x
3年遅れているけどな

733:Socket774
09/11/15 22:15:42 0a/GhY9+
2011年の淫は3年先を逝ってるのか・・・

734:Socket774
09/11/15 23:53:47 PSAdY57M
なんつかAMD黄金時代がまたきそうだな

735:Socket774
09/11/15 23:56:31 pgD4d6yQ
もっさりスレの主をファビョらせるとはだんごせんせーもなかなかのもんじゃな

736:Socket774
09/11/16 00:32:35 DME5PNJN
でも、AMDのはまたコスト上がりそう。
今のAMDの石は、ぶっちゃけ値段を下げて無理矢理Intelとタメ貼ってるような状況だから
これで決定的な差が出せなかったら、色々きついんじゃないか・・・。
そうでなくても、今だってSOIとかIntelに比べてコストのかかるの使ってるんでしょ？

737:Socket774
09/11/16 00:44:52 PQFXVnqC
SOIの価格に関しては確かに割高ではあるけど、技術の出始めと
安定後では価格が劇的に下がるのが工業製品の常識。
詳しい価格差は明らかになってないので何ともいえないところでは
あるんだけどね。

個人的な印象としてはAMDは下の温度は下がりにくいかわりに、
OCしてもあまり温度が上がりにくい、インテルはその逆という感じ
がする。

738:Socket774
09/11/16 00:56:10 nNs3ccTR
かけるコストに見合う見返りがあるからこそずっとSOIを採用してるんでしょ
ウェハが高いからSOIは高コストなんて言っても意味ないよ
それに微細化が進んでいろんなテクニックが必須になってきてるから
相対的にウェハコストの影響は小さくなるし

739:Socket774
09/11/16 01:30:41 BLwecK3L
工業製品、特に汎用品でコストパフォーマンス以上に重要なものなんてない

740:Socket774
09/11/16 01:45:13 PQFXVnqC
>>739
じゃあインテル最悪だな。

741:Socket774
09/11/16 01:53:41 f00qFtF+
>>716
もしストア専用にパイプを足したとしても
他のALU+AGUのペア含めた制御面倒じゃないの？
果たして性能面でそんなに寄与するのだろうか

742:Socket774
09/11/16 04:29:25 Krqt6Gqh
AMDがSOI採用してるのは他に方法が無いから以外にないでしょう

最初にSOI導入したときは何も導入してないIntelにそれで勝った。

IntelはSOIの導入を飛ばしてHigh-kを実現したが、
材質や配分などを独自研究して誰よりも早く実現したのであり
そこまで至ってないAMDはSOIに頼るしかなく今に至る。

AMDもやっと2010年からHigh-k導入。

743:Socket774
09/11/16 06:09:22 UDDZWGiS
採用時はいいアイディアだったんだよ、SOI。
クラスタ化も多分そんな感じになる悪寒。

744:Socket774
09/11/16 07:46:51 xv3fRmCg
複数コアでのFPU共有は悪いアイディアではないと思う。
そこから一歩進めてコア自体を不可分に一体化するのは、
長期的にはメリットよりデメリットの方が多いと思う。

745:Socket774
09/11/16 08:05:56 xv3fRmCg
よく考えると、開発の遅れと言う形で、
短期的にも既にクラスタ化のデメリットは露出しているのだった。

仮にクラスタ化のアプローチが成功しても、Bulldozerの次の世代で
さらに4コア1モジュールに進めるのは現実的でないし、
逆にクラスタ化マズーとわかっても戻れないし、
これは分の悪い賭けだ。

746:Socket774
09/11/16 08:06:04 wW/IKRAf
シングルコアなら暇だろうと何だろうと各機能が一通り配置されてないと
いけないが、マルチコアなら暇そうにしてる機能ブロックは共有化してしまえ
（忙しそうなところだけ多重化した、でもいい）

つまり、どこも忙しくなることを目指した、ということだと思っていいのかい

747:Socket774
09/11/16 08:14:43 mmVO9cPX
データL1を1コアに2つ積んだんでしょ

748:Socket774
09/11/16 08:19:39 xv3fRmCg
>>746
FPUはともかくフェッチ・デコード段が暇なのか、というと、あまりそんな
風には思えないけど、考え方としてはそういう事。

BulldozerはSandy Bridgeよりも確実に同時実行スレッド数が多くなり、
マルチスレッド化されたアプリケーションならば整数演算能力で
上回り、256bit AVXを多用するアプリケーションでなければ浮動小数点演算でも
同等の能力を発揮する。

>>747
1コアではなく1モジュールに2つ。
1モジュール=2コアと考えるならば、ふつう。

749:Socket774
09/11/16 08:40:31 mmVO9cPX
だからデータL1を1コアに2つ積んだのをモジュール言ってんでしょ

750:Socket774
09/11/16 08:49:31 xv3fRmCg
1コア=1モジュールという言い方はAMDもしてないと思うが、
仮にそういう視点に立つと、Bulldozerはとてもでかいコアということになる。
(2倍まではいかないが)

実際そのために開発遅れたし45nmに載らなかったんだから、
そういう見方でいいのかもしれないなあ。

で、1ハードウェアスレッドあたり1個のデータL1だから、ふつう。

751:Socket774
09/11/16 10:47:03 PCRLSz6U
実際に大事なのは性能だから
AMDが見誤ってなければそれなりの商品に仕上がってるんじゃね?
何しろcore2の後だしなんだからこれで駄目だったら本当につぶれる

752:Socket774
09/11/16 11:46:09 xv3fRmCg
性能と一口に言ってくれるが、一人一人みな違う性能を求めているのが今の時代。

753:Socket774
09/11/16 13:55:36 HRZwBxZn
L1少量でL2を2コアで共有、Bulldozerの構造はC2Dの改良版に見える

一方core i7はphenom類似の構造になってるし、
隣の庭は青く見えるのかね

754:Socket774
09/11/16 14:09:19 UDDZWGiS
どっちも似てないと思うけど

755:Socket774
09/11/16 15:05:39 Krqt6Gqh
メモリ回りのアプローチが気になる

Intelは、CPUとメモリの速度の違いを吸収するために
間に多段階のキャッシュを潤沢に用意してるし、
メモリチャンネル数もハイエンドは3チャンネルにしてる。

AMDは伝統的に小容量キャッシュだが、Intelもメモコン内蔵してしまったし、
Phenom2のL3の遅さと容量の少なさも既に問題になるレベル。

1モジュール内の2ハードウェアスレッド動かしてL2が共用となると
それなりの大容量L2、L3じゃないと意味ないと思うんだよね

756:Socket774
09/11/16 15:14:33 DJXDN/Ex
メモリスタッキング

757:Socket774
09/11/16 15:57:54 f00qFtF+
今になって考えるとPhenomではやや過剰に思えるほど
L1の幅を32bytesに強化したのはBulldozerへの布石だったのかな

758:Socket774
09/11/16 16:49:38 LKdhIkOd
何を言おうと結局は体感速度にどれくらい影響してくるかだろう

759:Socket774
09/11/16 18:39:09 4v3rJRPp
Z-RAM

760:Socket774
09/11/16 19:28:39 f00qFtF+
うーん、海外のサイト見てると整数の4パイプが
2ALU&2AGUってのはまずあり得んだろうという論調が支配的だ
もしこれだと何のためのBobcatだよってなっちゃうしね
じゃあ具体的な構成は？となるとまだ定まってないが・・・

761:Socket774
09/11/16 20:01:06 f00qFtF+
このCMT原案はAndy Glewらしい・・・ｗ

762:Socket774
09/11/16 23:38:33 f00qFtF+
どうもChuck Moore氏のコメント通りなら
それぞれの整数演算ユニットで4命令/cycleできる模様
にわかには信じがたいな

763:Socket774
09/11/17 00:03:10 ZP5bH0r0
分解した後の4命令?

764:,,・´∀｀・,,）っ-○○○
09/11/17 00:09:20 ouelv6RY
URLﾘﾝｸ(www.ospn.jp)

Bulldozerの性能はこの辺で触れてる

>>762
片方のスレッド同士じゃないの？

765:,,・´∀｀・,,）っ-○○○
09/11/17 00:10:00 ouelv6RY
○片方のスレッドだけに命令供給した場合だけじゃないの？

766:Socket774
09/11/17 00:14:03 QEHAUjcr
AMDよ頼む！
BulldozerもAM3で対応してくれ頼む！

767:Socket774
09/11/17 00:21:21 mXQq1VkI
>>764

Each Bulldozer "core" is capable of 2 loads/cycle; each is a 4-way out-of-order machine
Each INT scheduler can issue 4 inst./cycle; the FP scheduler can issue 4 inst./cycle

らしいよ

768:,,・´∀｀・,,）っ-○○○
09/11/17 00:37:49 ouelv6RY
FPからみて合計4load/cycleだな。
HPCも十分狙えるんじゃないの？これ。

769:Socket774
09/11/17 01:01:02 HWM8g8Qc
>>768
HPC向けに設計してるだろ

770:Socket774
09/11/17 01:07:57 +aciI08W
ｗｋｔｋできるのはいいことだ

771:Socket774
09/11/17 01:17:28 V8eHzwsO
なんてことはない
基本的にはCoreDuoと同じか
二つのコアを融合させてL2は共有、これを基本モジュールにしてるだけ

モジュールふたつで4コアCPU扱いのデスクトップ向けダイ
モジュール4つで8コアCPU扱いのサーバー向けダイ

772:Socket774
09/11/17 01:18:19 mXQq1VkI
　　　　　　　　　　　　　　　　　　　 |
　　　　　　　　　　　　　　　　　　　 |
　　　　　 ∩＿＿＿∩　　　　　　　　　 |
　　　　　 | ノ　 _,　　,_ ヽ　　　　　　（（　 |　ﾌﾟﾗﾌﾟﾗ
　　　　 /　　●　　　● |　　　　　　　　　(=)
　　　　 |　　　　( _●_)　ミ　＿　(⌒)　　J　　））
　　　　彡､　　　|∪|　ノ
⊂⌒ヽ　/　　　ヽノ　ヽ /⌒つ
　＼　ヽ　 /　　　　　ヽ　/
　　　＼_,,ノ　　　　　　|､＿ノ

773:Socket774
09/11/17 01:20:01 MwjUAsuq
>>764
Float＞IntからInt＞Floatに変わったのか？

774:Socket774
09/11/17 01:31:50 hfDzkHHM
Opteronがスパコンランキングトップ取ったぞｗ
5位にはHD4870を使った中国のスパコンが初ランクイン

AMDがんがれ

775:Socket774
09/11/17 01:39:35 16uLYW7E
まさかの4 ALU + 4 AGUなのか
あるいはALUとAGUの対称構造を
崩した実装になるのか・・・？

776:Socket774
09/11/17 01:43:35 HWM8g8Qc
>>774
元々トップ10は全部オプテロンだったよ。
つまり5位以外はオプテロンということだ。

777:Socket774
09/11/17 01:45:21 GGQJiBg0
ALUが整数ユニットでAGUってなんぞ？

778:Socket774
09/11/17 01:45:57 sDLjTGPh
Bulldozerのコア数が大きくスケールするならFermiキラーにもなるかもな
といっても、発売時期が１年違うから比較すべきではないか

779:Socket774
09/11/17 01:50:54 hfDzkHHM
>>776
いや、前2回はOpteron＋Cell。

今回の1位は全部Opteron

780:Socket774
09/11/17 01:54:06 FWxU6oTK
微妙に話がずれてるなｗ

781:Socket774
09/11/17 01:54:07 sDLjTGPh
でもORNLの新型はOpetron+Fermiの特注品という噂

782:Socket774
09/11/17 02:05:32 +aciI08W
ALU　=　Arithmetic Logic Unit
AGU　=　Address Generation Unit

のはず
Load/Store担当です。たぶん

783:,,・´∀｀・,,）っ-○○○
09/11/17 02:42:26 ouelv6RY
正確にはロード・ストアのアドレスを生成するのと、ユニットに指令を投げる役目な。

AGUをつかってアドレスを算出
→ロードユニットに○○番地呼んでこいという指令を発行
→読んだ値をALUで利用
っていうコンボ

784:Socket774
09/11/17 03:06:46 HWM8g8Qc
>>781
どのみちオプテロン使っているな
多分詐欺スペックのフェルミ(単精度2T、倍精度1T、220W位)での計画だから、その組合せはキャンセルになるだろうね。
何せCPUソケットに挿す為には130W以下に抑える必要があり、倍精度が200G程度に落ちることになる。
それなら550mmで高コストかつ数が限られるフェルミより、180mmのHD5770使ったほうが安く大量に積めるよ。

785:,,・´∀｀・,,）っ-○○○
09/11/17 03:14:29 ouelv6RY
> 多分詐欺スペックのフェルミ(単精度2T、倍精度1T、220W位)

これ自体がなにげに詐欺だわ。
公称スペックが1.26GHz動作の単精度1.26T, 倍精度0.63T, 225W

786:Socket774
09/11/17 03:22:23 hK6y8K0D
Tsubameや天河の理論と実測の乖離具合を見るとありえないきがするんだｇ

787:Socket774
09/11/17 03:26:13 LBrdbIXa
Dresdenboyさんが予想しているように、
ALUでアドレス計算できるようにするってことかな。

788:Socket774
09/11/17 03:44:01 aiMaGKKw
焦点はただ一つ。
再びi7を超えて帰り咲けるか否か。
それしか興味ない。
もしも逆転を成し遂げられることができるならもう一台パワーユース用PCが増えるだろう。

789:Socket774
09/11/17 05:03:40 MwjUAsuq
There was one AMD patent about an AGU, which recycles intermediate results for more complex address calculations.
While I'm not sure, if this patent could be related to Bulldozer (but to Bobcat or Geode or something else instead),
it offers the possibility to use a regular ALU for address calculations with only little modifications.

これか

790:Socket774
09/11/17 07:12:56 m6pdpuqQ
Fermiって実装考えると糞だな

面積と電力食い過ぎて実用的でないな

791:Socket774
09/11/17 07:14:16 m6pdpuqQ
再びＡＭＤが盛り返しそうだな　長かった

792:Socket774
09/11/17 09:19:04 eh0jiikC
でも一番の問題は、省電力かどうかにかかってくるのでは？
多少性能がIntelより良かったとしても、TDPが130Wとかで発熱がPhenomIIより
かなり増えてしまっては、TDPがGPU込みで85WのSandy Bridgeに販売では差を
付けられる可能性もある。
URLﾘﾝｸ(en.hardspell.com)

元々日本人は省電力志向だから性能がよくても、i7の様に微妙になる可能性も
結構あると思う。

793:Socket774
09/11/17 12:19:53 HWM8g8Qc
サンディ対抗はリャノになりそうだ。
AVXのサンディvsDX11CSのリャノ。

794:Socket774
09/11/17 12:38:33 nDdpLAqK
Sandyは12SPでGPUアーキのメジャーアップ無いから
L3共有等の効果を楽観的に見てもG45(10SP)の2倍ってところだろう。
かなりCPU偏重な性能バランスだと思われる。

一方のLIano GPUは480SP、レイテンシ増加等を考慮しても4650以下は無いだろう。
95W枠でCPU部を3GHz後半～4GHz前半にできればLIanoが有利か？

…しかしこうやって考えてみるとGMAアーキのダイ効率の悪さはGT200の比じゃないな。

795:Socket774
09/11/17 13:04:41 hfDzkHHM
CPUとGPUを1パッケにするとなると、とたんにIntelのGPU部分のまずさが
浮き彫りになってくるね

796:Socket774
09/11/17 13:43:46 YaUsdhIU
>Sandyは12SPでGPUアーキのメジャーアップ無いから
それはIron Lakeではないのか？SandyのGPUは45nmのIron Lakeとサイズ
同じ位だから何かしらの強化はされていると思うんだけど。
intel発表によると3DmarkVantageでIron LakeはG45の1.5倍らしいから
大雑把に考えてシュリンクで2倍、周波数が最大で2倍で、アーキテクチャ
が変わってないならG45比で最大で6倍になる計算。
URLﾘﾝｸ(pc.nikkeibp.co.jp)
まあこれが6倍になったところでどうしようも無いんだけどな。

797:Socket774
09/11/17 14:29:12 P5Tm3QYx
Intel graphics drivers employ questionable 3DMark Vantage optimizations
3DMurk all over again?
URLﾘﾝｸ(techreport.com)

こんなこともあるからね、LIanoとの比較のときは細工してきそうだね

798:Socket774
09/11/17 14:51:20 oMwY05k8
again? っていうところがミソ。

3DMark Vantage は早く動くけれど、他はそんなに早く動きません。っていうところもミソ。

だとすると、crap(ry

799:Socket774
09/11/17 15:07:22 x11LA5fA
Opteronのセールスポイントの一つはメモリ帯域/理論flops がXeonよりも
大きい事で、HPCで採用される理由の一つだと思うが、Intelのこれ

URLﾘﾝｸ(pc.watch.impress.co.jp)
URLﾘﾝｸ(www.nec.co.jp)
＞広いメモリバンド幅、高速インターコネクト接続技術などの
＞ベクトル処理システムの開発における豊富な経験は、
＞インテル・アーキテクチャーを新たな市場へさらに前進させることができます。

が成果を出したらOpteron苦しくなりそう。Opteronだけじゃなくて
Power7やSparcVIIIもだが

800:Socket774
09/11/17 15:13:56 gJX2rr8N
>>797
細工というか、GMAが遅いならCPUを使えばいいじゃない、という本末転倒作戦だよ。
GMAがピクセル、バーテックス処理で飽和したなら、ジオメトリー処理はCPUが肩代わりする。
DirectX9のときの設計で10にも対応できるようにしたけど、性能が全く足らないので、
GMA950以前のように、またCPU頼りになっているんだろう。

801:Socket774
09/11/17 18:44:51 U370BL4N
GPU同士ならフレームなりラインなりブロックなりで
簡単に負荷分散できるんだけどね･･･

802:Socket774
09/11/17 20:19:49 k80vxkhD
intelがNVIDIAを買収すると見た。

803:Socket774
09/11/17 20:41:13 vMNn1Y32
それはない

804:Socket774
09/11/17 20:43:16 FWxU6oTK
いやそうでもない

805:Socket774
09/11/17 20:47:45 oMwY05k8
AMDがATI買うよりもはるかに難しい。
Intel自身が全てがNVIDIA並みの企業を独立してつくってNVIDIA買う方が楽。

806:Socket774
09/11/17 20:50:15 FWxU6oTK
それこそない

807:Socket774
09/11/17 20:56:57 bxYBypih
実際Intelから見てNVIDIAに欲しいものってあるの？

808:Socket774
09/11/17 20:59:36 FWxU6oTK
ない

809:Socket774
09/11/17 21:03:51 HWM8g8Qc
どのみちDX11対応でHD4650以上の性能を発揮するLIanoに対抗する術は、インテルはおろかヌビというか地球上のどの企業も持ってないない。
Propusと同程度のサイズと消費電力でCPUは4コアL2 1MでPhenomIIx4クラス、GPUはDX11対応した480SPのHD4650クラス。
しかもオンダイだからCPU-GPU間通信が高速でGPGPUも期待出来る。
正直サンディが対抗出来る気がしない。
明らかに完成度の次元が違う。

810:Socket774
09/11/17 21:06:44 3/bXTsW7
NVIDIAから技術者を引き抜く方が手っ取り早い

811:Socket774
09/11/17 21:08:34 ZP5bH0r0
2011年にK10コアなんだから、確かに次元が違うわな。

812:Socket774
09/11/17 21:09:14 XMgQralJ
"LLANO"じゃないの？　"LIANO"なの？

813:Socket774
09/11/17 21:32:22 gJX2rr8N
LLANOじゃないかな。後藤氏はずっとLlanoだし、本間文はLianoと書いてたけど、
後でLlanoの訂正してたし。

814:Socket774
09/11/17 21:36:58 oMwY05k8
Intel+NV は、AMDよりチップが大きくなりそうね。残念。

815:Socket774
09/11/17 21:43:20 FPDrH33l
LlanoはHD4650級のﾁｯﾌﾟがCPUと一つになるのかよ…やべー

816:Socket774
09/11/17 21:57:10 gLyEgX+s
480spだからチップとしては4650より上
でもメモリ帯域落ちるから4650ぐらいの性能では？ということだろ
780GみたいにGPU専用メモリつけられるなら変わってくるだろうけど

817:Socket774
09/11/17 22:26:15 r1Mczqyk
>>812
LlANO

818:Socket774
09/11/17 22:50:23 HWM8g8Qc
>>811
傑作コアのPropusの唯一の弱点のキャッシュを1Mに倍増と、サイズパフォーマンスが非常に優れたHD5000コアの融合だからね。
ターボもどきも多分搭載するだろう。
正直bulldozerが失敗しても気にしなくていい位のハイスペックだろう。
少なくともデスクトップやハイエンドノートに敵はいない。

819:Socket774
09/11/17 22:53:25 uDz5DALg
ところでLlanoってAVXとかXOPに対応してんの？

820:Socket774
09/11/17 22:54:11 eh0jiikC
>>809
でも油断はしない方がいいと思うよ、イスラエルチームはオレゴンチームと違って
秘密主義で統率が取れているチームなので、Core2の時のような隠し玉がある可能性も
結構ありそう、まだ全容が完全に明らかになったわけではないし。

821:Socket774
09/11/17 22:55:58 P5Tm3QYx
隠し玉＝ベンチ対策

822:Socket774
09/11/17 22:56:15 X4PWSu+L
K10.5

823:Socket774
09/11/17 23:01:08 Cn/8l8He
LlanoはWiiの次世代機に乗りそう

824:Socket774
09/11/17 23:31:35 k1BDvN9C
まじで？

825:Socket774
09/11/17 23:37:26 OMNI6+3Y
SPがなんぼあっても、ROP＆各種固定ユニット＆メモリ帯域とのバランスが
取れてないと（ゲームとしての）性能は出ない
ボトルネック部分をCPUによるエミュレートが少し手伝うって手が取れるくらいFusionしてると良いのだが

826:,,・´∀｀・,,）っ-○○○
09/11/17 23:38:23 ouelv6RY
>>809

> どのみち256ビットAVX対応でCell以上の性能を発揮するSandy Bridgeに対抗する術がないAMDは愚か。
まで読んだ

827:,,・´∀｀・,,）っ-○○○
09/11/17 23:55:35 ouelv6RY
というか、GMAが圧倒的なシェアを得るのに性能が強みになったことは一度たりとも無いわけで。
オフィス用途にはG41レベルですらオーバースペック過ぎるが、
一方で世の中にはアホみたいにCPUスペック要求する業務アプリがあるわけだ。

どのみちグラフィック性能が必要な人はGMAで満足するわけないわけで、
それこそディスクリートGPUを増設しろって話になる罠。
CPU側をキャッシュ容量もSIMD性能も半分の「K10.5のL3削除版」に落としてまで
Llanoの内蔵GPUを使いたい人は相当変わり者だと思うぞ。

次ページ