CPUアーキテクチャについて語れ 16

CPUアーキテクチャについて語れ 16at JISAKU

CPUアーキテクチャについて語れ 16 - 暇つぶし2ch600:MACオタ＠続き
10/02/14 06:48:35 Wj71GeXX
- - indeed, the scheduler structure of queues
　feeding an RS arose from the debate between OOO (me) and in-order (Sager
　and Upton) -

　実際、(Willamette 開発時に) スケジューラの構造で OoO派(俺)とインオーダー派
　(Seger と Upton)で議論があった。
　
- Mitch Alsup was K9.

　[K9について尋ねられて]Mitch Alsup が K9 をやってたな。
　[MACオタ注: Mitch Alsup は Motorola 88Kや Ross HyperSPARC のアーキテクト]
　
- Some of us have done a lot of work on dynamic predication. (My resume
　includes an OOO Itanium, plus I have been working on VLIW and
　predication longer than OOO.) But since such work inside companies will
　never see the light of day, do not let that hold you back, since you are
　not so constrained by NDAs and trade secrets.

　俺の経歴にも書いてあるように、OoO の Itanium やプレディケーションについては色々
　研究したけど、Intel 社内では日の目を見なかった。俺はNDA とか色々あって無理だが、
　お前さんがやるなら頑張れ。

601:MACオタ＠ここまで
10/02/14 07:10:42 Wj71GeXX
ALU間の配線レイアウトの話について語っているところも面白かったので
書こうかと思いましたが、長いのでヤメておきました。

ところで、この話に関して AMD のサイトで blog を執筆している John Fruehe 氏
(URLﾘﾝｸ(blogs.amd.com) 参照)が「Andy Glew なんて知らねーし。そんな怪しい
ヤツの言うことより、俺を信じろ」とか書いて失笑をかっていました。
例のアニキと言い、どうして AMD のマーケティングは間抜けなのやら…
URLﾘﾝｸ(www.xtremesystems.org)
　　------------------------
　　I have no idea who Andy Glew is, but he left the company several years ago.
　　------------------------

602:Socket774
10/02/14 07:19:32 D4oXSgCt
ワロスｗ

603:Socket774
10/02/14 07:38:58 3oTjQGRW
K9で却下された提案をブルで再び使うのか
URLﾘﾝｸ(pc.watch.impress.co.jp)

提案は、CPUをマルチスレッド&マルチクラスタの構成にし、マイクロアーキテクチャの全レベルでマルチレベル化、
さらにさまざまなマルチスレッディングテクニックを実装するというものだったようだ。
例えば、スケジューラやインストラクションウインドウ、ストアバッファ、レジスタファイル、ブランチプレディクタなどをマルチレベルにする。
加えて、投機マルチスレッディング(SpMT:Speculative Multithreading)、非明示的マルチスレッディング(IMT:Implicit Multithreading)、
スキップアヘッドマルチスレッディング(SkMT:Skipahead Multithreading)といった技法を持ち込む。

604:MACオタ＞603 さん
10/02/14 08:32:13 Wj71GeXX
>>603
後藤氏を信じるのは自由ですが、Glew 氏によるK9情報は>>600。

605:Socket774
10/02/14 08:39:26 3oTjQGRW
K10って書いてた
＞Glew氏は、以前、K10のために提案したものの、AMDに拒否されてしまった技術をリストアップしていた。
＞Glew氏が提案したのは、かなり尖ったアーキテクチャだった。

606:MACオタ
10/02/14 12:37:56 Wj71GeXX
ちなみに２ちゃんねる的には Andy Glew 氏のサイトの職務経歴は2005年半ばの
話題でした。
　　---------------------
　　132 名前：MACオタ投稿日：2005/08/08(月) 06:18:21 ID:9pfRTF4F
　　　　P6の主要アーキテクトの一人として知られるAndy Glewが昨年AMDを退社した後，Intelに
　　　　戻ってるとのことす。
　　　　URLﾘﾝｸ(www.geocities.com)
　　---------------------

607:580
10/02/14 13:28:59 sxHaLuFq
どうやら>>580の解釈であってるようでした

608:Socket774
10/02/14 16:04:06 JviKC0SN
>>593
M*ってのが気になる
なんか書いてないの？

609:MACオタ＞608 さん
10/02/14 21:57:01 Wj71GeXX
>>608
ご当人のブログで発表資料等が紹介されています。
URLﾘﾝｸ(andyglew.blogspot.com)

610:Socket774
10/02/15 10:07:43 Dg+O6xA1
Andy Glewのスライドのほう、新風やハイパースカラじゃないか…

611:Socket774
10/02/15 17:30:09 6N+k5INy
SIMDを使ったプログラムを書いているのだけど、マンデンブロ集合以外に、
プログラミングコストに比較して満足感があるものってなにかないかな。

ゲームは、キャラクターつくったりドット絵かくの大変なのでパス。

612:Socket774
10/02/15 17:31:08 6N+k5INy
つかいま一番つかってみたいのはG4/G5のAltiVecなんですけどね。

613:,,・´∀｀・,,）っ-○○○
10/02/15 22:38:10 imhVWoSl
別に大したことないぞあれ

614:Socket774
10/02/17 23:12:59 jIvzAyKW
俺はMVI,MAX,VIS辺りかな…

615:MACオタ
10/02/23 00:33:21 6aN/dP7E
IntelのサイトにTukiwilaのTDPが書いてます。
URLﾘﾝｸ(www.intel.com)
　-9350/1.73GHz (4-core): 185W
　-9340/1.60GHz (4-core): 185W
　-9339/1.46GHz (4-core): 155W
　-9320/1.33GHz (4-core):; 155W
　-9310/1.60GHz (2-core): 130W
流石に20億トランジスタは伊達じゃありませんな。
これと比較すると8-core, 4GHzでチップあたり200Wと言われる POWER7 は低消費
電力と言えるのかも…

616:Socket774
10/02/23 09:02:25 TpvPnKnq
ネタの古さと程度の低さにビックリ

617:Socket774
10/02/23 16:28:23 ie/mu8Le
最後の行を言いたかっただけでしょｗ

618:,,・´∀｀・,,）っ-○○○
10/02/24 16:11:08 QutNOdX2
describe（笑）

ますます描「画」と遠くなったぞ

619:Socket774
10/02/26 20:04:46 oGRP4Zxp
ね…描画

620:MACオタ
10/02/28 11:29:22 TTBuX29w
まずは古めのニュースをまとめておきます。
まず、POWER7の製造状況に関するIBM Power Systemsのゼネラルマネージャ、
Ross Mauri のコメント
URLﾘﾝｸ(www.itjungle.com)
　　--------------------
　　"The yields are good on the Power7 chips," Mauri said to me ahead of his
　　presentation. "And if you are hearing rumors to the contrary, call me up and
　　I am happy to deny them," he added with a smile.
　　--------------------
それから、日立と仏Bull SAのPOWER7搭載機の発表。
両者ともPower 75xのOEMの様です。
日立: URLﾘﾝｸ(www.hitachi.co.jp)
　　　URLﾘﾝｸ(www.hitachi.co.jp)
Bull SA: URLﾘﾝｸ(www.wcm.bull.com)

621:Socket774
10/02/28 12:33:35 fQ/ywCDH
IBMオタさんだあ

622:MACオタ
10/02/28 13:04:07 TTBuX29w
円周率計算でIntel i7 PCで世界記録を樹立した Fabrice Bellard 氏が件の
実行コード "tpi" を公開しています。Linux版とWindows版。
URLﾘﾝｸ(bellard.org)
手近で見つかった結果はこんな感じ。
　128Mi (134,217,728)桁, 8-Thread
　・Barcelona Opteron/2.3GHz./8-core: 125.018 sec.
　・Shanghai Opteron/2.7GHz/8-core: 91.986 sec.
　・Harpertown Xeon/2.5GHz/8-core: 89.859 sec.
　・Nehalem Xeon/2.66GHz/4-core: 65.080 sec.

マルチスレッドとSSE3に対応した最新の円周率計算コードですので、今後のベンチマークは
この辺に移行すべきかと思うのですが…

623:MACオタ＠補足
10/02/28 13:05:28 TTBuX29w
上記の結果は全てLinux版によるものでした。

624:Socket774
10/02/28 13:06:52 IOPfYmwP
AMDで遅いものなんてアム虫がブーブー言うだけだろ

625:Socket774
10/02/28 13:40:08 IOPfYmwP
ちなみに i5 670で2thread

tpi.exe -T 2 -o pi.txt 128M
Using 3.67GiB of RAM
Computation to 128000000 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=53.1MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
545M 545M 0 0 completed 100.0% 0
time = 63.601 s
Compute P, Q
362M 545M 0 0 completed
time = 0.836 s
Division
599M 599M 0 0 completed
time = 5.646 s
Sqrt
528M 599M 0 0 completed
time = 3.793 s
Final multiplication
925M 925M 0 0 completed
time = 2.353 s
Total time (binary result) = 76.247 s
Base conversion
523M 925M 0 0 completed
time = 13.922 s
Total time (base 10 result) = 90.170 s
Writing result to 'pi.txt'

626:MACオタ＞625 さん
10/02/28 13:51:20 TTBuX29w
>>625
参考までに>>622の結果は"128M"じゃなくて"128Mi"の結果です。

627:Socket774
10/02/28 14:03:24 IOPfYmwP
あまり変わらんな
tpi.exe -T 2 -o pi.txt 128Mi

Using 3.67GiB of RAM
Computation to 134217728 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=55.7MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
571M 571M 0 0 completed 100.0% 0
time = 66.222 s
Compute P, Q
377M 571M 0 0 completed
time = 0.874 s
Division
623M 623M 0 0 completed
time = 6.115 s
Sqrt
547M 623M 0 0 completed
time = 4.134 s
Final multiplication
966M 966M 0 0 completed
time = 2.699 s
Total time (binary result) = 80.044 s
Base conversion
549M 966M 0 0 completed
time = 14.836 s
Total time (base 10 result) = 94.879 s
Writing result to 'pi.txt'

628:Socket774
10/02/28 14:23:38 7SwDPgiv
マルチスッドレに対応してるわりには遅い

629:MACオタ＞628 さん
10/02/28 14:28:21 TTBuX29w
>>628
タスクマネージャで負荷変動でも眺めていれば理由は自明ですよ。

630:MACオタ
10/02/28 16:06:38 TTBuX29w
>>403でも紹介した中国語版Power.orgにおいてある資料ですが、"64-bit Multi-
threaded"の次世代組込コアについて言及がありました。
URLﾘﾝｸ(www.cn.power.org)
(P.6参照)
今見ると、これが PowerPC A2 コアであることは明らかなのですが、当該スライドの
タイトルが"Power Architecture Cores Available for Licensing"とあるように、A2コア
を外部にライセンスする気満々なのは明らかです。

で、Sequoia 用コアについて再度考え直してみると、>>396, >>403, >>561あたりで書い
たようにPPC 470系であろうと予測している訳ですが、
URLﾘﾝｸ(newsline.llnl.gov)
　- 1.6 PetaBytes of memory
　- 98,304 Nodes
ということで、プロセッサカードあたりのメモリは明らかに16GBを想定していることが判
ります。Blue Gene/P からはプロセッサカード内でのSMP動作モードが追加されていま
すので、16GBのメモリを使用するのに32-bitコアのままで問題無いのであろうかという
疑問が出てきます。

PPC470自体がサポートする物理メモリは、ちょうど上のプレゼンに書いてあって、4TB
とのこと。
　　---------------------
　　- Real memory support up to 4 terrabytes
　　---------------------
16コアで16GBを共有するのですから、プロセスあたり4GBの制限があっても何とかなる
のかもしれませんが、PC的な64-bit SMP のようにノード内の全メモリをスレッド間で共有
するようなコードは使えません。

どうせ Blue Gene で動かす以上、PCクラスタからのベタ移植なんて考えないのかもしれ
ませんが、64-bitの A2 コアを選択する可能性も出てきた…ということで。

631:MACオタ
10/02/28 17:07:37 TTBuX29w
ECのスーパーコンピュータ共同利用プロジェクト PRACE が2009年の技術報告書
を公開しています。
URLﾘﾝｸ(www.prace-project.eu)
この報告書から>>336で述べた QPACE について、目に付いた話題を。

　2009年下期のGreen500の上位を独占した QPACE の試作機 eQPACE ですが、
　開発目標は下記のように設定されている (P.13)
　　- QPACE アーキテクチャの QCD 計算以外の分野への応用
　　- トーラスネットワーク用 FPGA の他分野応用のための改良
　　- 上記の目的のためのQPACEネットワーク用 MPI ライブラリ等、ソフトウェアの開発

　汎用HPCコード応用のため、FPGAインタコネクトは、ハード／ソフト両面から、現在も
　開発中 (P.63-66)

　現状のインタコネクト性能 (P108, 表24)
　　・QPACE　　　　　　　　　MPI Latency: 4.7us, BW: 845MB/s
　　・Altix XE (IB QDR)　　MPI Lantecy: 1.7us, BW: 2500MB/s
　　・Altix ICE (4x IB)　　　MPI Latency: 1.9us, BW: 1800MB/s

2009年下期のTop500の登録ではeQPACEの実行効率は77.2%とあまり良好とは言えま
せんが、今後もう少し向上は期待できるのかもしれません。

632:MACオタ＞624 さん
10/02/28 17:24:40 TTBuX29w
>>624
　　-----------------
　　AMDで遅いものなんてアム虫がブーブー言うだけだろ
　　-----------------
ちょっとπスレッドを見てきましたけど、もうAMDで速いコードなんて無くなったみたいですよ。
URLﾘﾝｸ(h2np.net)

633:Socket774
10/02/28 17:33:05 IOPfYmwP
蟲にはそれがわからんとです

634:Socket774
10/02/28 19:47:53 7eumbHoc
業界が汎用に走り過ぎている希ガス
とんがったアーキテクチャで差別化しないと共食いになりそう…

635:Socket774
10/02/28 20:19:48 j/skOWaY
>>634
あなたの住んでる世界にはASIC市場がないんですか？

636:MACオタ
10/02/28 20:54:04 TTBuX29w
>>622で紹介したTachusPIはWindows版でもコマンドコンソールが必要なので、
バッチファイルを書いてみました。

Bellard氏のサイトからダウンロードして解凍したフォルダに、以下のテキスト
ファイルを "tpi.dat"という名前で保存して、ダブルクリックすると計算できます。
なお、Windows版は64-bit Windows必須。

@ECHO OFF
SET /P NTHREAD="スレッド数: "
SET /P NDIGIT="計算桁数 (例: 1M): "
.\tpi -T %NTHREAD% %NDIGIT%
SET /P ENDOK="終了"

637:Socket774
10/02/28 21:23:30 +dcUonSP
>>622
πってCPU内蔵キャッシュの性能テストだよな。

638:Socket774
10/02/28 21:25:28 YmPAfr1t
完全に同意

639:Socket774
10/02/28 21:37:57 IOPfYmwP
amdの報告はまだ？

640:Socket774
10/02/28 22:34:13 7SwDPgiv
MACオタのレスくらい読めって
ちゃんと書いてあるよ

641:Socket774
10/02/28 22:54:29 IOPfYmwP
linuxだろ

642:Socket774
10/03/02 23:44:13 N2L1uw05
あげ

643:MACオタ
10/03/04 21:03:08 bi/m7VuB
POWER7とTukwilaのSPEC CPU2006の結果がSPECのサイトで公開されています。
どちらもRateのみ。POWER7の値は既にIBMのサイトで公開済みですが、個別の
ベンチマーク結果を確認したい方はどうぞ。
CINT2006_rate
　・POWER7 on AIX
　3.3GHz/32-core URLﾘﾝｸ(www.spec.org)
　3.55GHz/32-core URLﾘﾝｸ(www.spec.org)
　3.1GHz/64-core URLﾘﾝｸ(www.spec.org)
　3.5GHz/48-core URLﾘﾝｸ(www.spec.org)
　3.86GHz/16-core URLﾘﾝｸ(www.spec.org)
　3.86GHz/64-core URLﾘﾝｸ(www.spec.org)
　4.14GHz/32-core URLﾘﾝｸ(www.spec.org)
　・POWER7 on Linux
　3.3GHz/32-core URLﾘﾝｸ(www.spec.org)
　3.55GHz/32-core URLﾘﾝｸ(www.spec.org)
　・Tukwila on HP-UX
　1.73GHz/8-core URLﾘﾝｸ(www.spec.org)

644:MACオタ＠続き
10/03/04 21:06:42 bi/m7VuB
CINT2006_rate
　・POWER7 on AIX
　3.3GHz/32-core URLﾘﾝｸ(www.spec.org)
　3.55GHz/32-core URLﾘﾝｸ(www.spec.org)
　3.1GHz/64-core URLﾘﾝｸ(www.spec.org)
　3.5GHz/48-core URLﾘﾝｸ(www.spec.org)
　3.86GHz/16-core URLﾘﾝｸ(www.spec.org)
　3.86GHz/64-core URLﾘﾝｸ(www.spec.org)
　4.14GHz/32-core URLﾘﾝｸ(www.spec.org)
　・POWER7 on Linux
　3.3GHz/32-core URLﾘﾝｸ(www.spec.org)
　3.55GHz/32-core URLﾘﾝｸ(www.spec.org)
　・Tukwila on HP-UX
　1.73GHz/8-core URLﾘﾝｸ(www.spec.org)

645:Socket774
10/03/04 21:19:14 SoPZxcZc
Tukwila死亡

646:MACオタ＠続き
10/03/04 21:38:24 bi/m7VuB
色々な基準で他のアーキテクチャと比較してみると、こんな感じ
■ 2-socket
processor　　　　　　　core　CINT(base/peak)　CFP(base/peak)
　POWER7/3.86GHz　　16　　586 / 652　　　　　　　531 / 586
　Nehalem/3.33GHz　　 8　　255 / 274　　　　　　　204 / 211
　Istanbul/2.80GHz　　 12　　168 / 215　　　　　　　133 / 148
　Niagara2/1.58GHz　　16　　171 / 183　　　　　　　124 / 133
　Tukwila/1.73GHz　　　 8　　128 / 134　　　　　　　132 / 136

■16-core
processor　　　　　　　CINT(base/peak)　CFP(base/peak)
　POWER7/3.86GHz　　586 / 652　　　　　　　531 / 586
　POWER6/5.0GHz　　 466 / 542　　　　　　　465 / 544
　Nehalem/2.93GHz　　466 / 499　　　　　　　361 / 372
　POWER6/3.60GHz　　289 / 363　　　　　　　226 / 263
　Shanghai/3.1GHz　　 232 / 274　　　　　　　203 / 228
　Dunnington/2.4GHz　 204 / 221　　　　　　　120 / 128

647:Socket774
10/03/04 21:45:55 qysoWJlI
POWER7はパッケージにもソケットにも馬鹿みたいに金かけてるから参考にならねえ
プロセッサモジュールの価格も数倍違うだろどうせ

648:ﾚﾄﾘｯｸ君
10/03/04 22:15:08 afk/VI64
いやそれは正しい方向なんだよ。
上に上にと逃げて、高く売らなきゃ生き残れない。
立場的に。

649:Socket774
10/03/05 01:44:31 RvfR0pQp
power4のMCMは家が建つくらいだったが

650:Socket774
10/03/05 13:38:20 kx6mSf6e
>>649
不意を突かれたw

651:Socket774
10/03/06 11:32:31 Ea/vz0ED
>>646
POWER６って性能悪かったんだな…

652:ﾚﾄﾘｯｸ君
10/03/07 00:50:05 lr+sNJma
>>649
売値はな。
製造原価は…

653:Socket774
10/03/07 10:54:21 Kg4/tQIn
レトリック君ってIBMの人だったのか

654:MACオタ
10/03/08 01:49:41 /G1wwpzL
先週IBMがチップ間光インタコネクトに利用可能なアバランシェ光検出素子を
発表しました。
IBM Researchにまとめた情報が出ていたので、URLを書いておきます。
URLﾘﾝｸ(domino.research.ibm.com)
IBMによると、今これでダイ上に検出素子、光変調器、光スイッチ、光バッファを集積する
ことが可能になり、光インタコネクトを実装する基礎技術は一通り揃ったとのこと。

655:Socket774
10/03/09 00:29:29 VgdHrP1y
>>41
ゴーストバスターズもPS3リードだけど、超絶劣化したね。

656:Socket774
10/03/09 02:00:08 7vXMo2ih
MACオタが後藤をネタに語る悪寒

657:Socket774
10/03/09 03:12:42 qIkLB7Ou
なんでMIPSて落ち目になったの？

658:Socket774
10/03/09 12:07:17 JLHxoplb
WSがPCに喰われほぼ消滅→組み込みに活路を見いだす→ARMとの競争に負ける
というのが消費者側からの見方だが、どうなんかね。

659:Socket774
10/03/09 17:03:13 HQi3QE5m
捲土重来を狙ってるみたいだが。

Androidでビジネス拡大を狙うミップスの新戦略
URLﾘﾝｸ(monoist.atmarkit.co.jp)

660:Socket774
10/03/10 13:51:56 IQPA8ybZ
POWER7Macを発売してください＞MACオタさん
MACオタならできる

661:Socket774
10/03/10 17:57:11 4a0mAjv3
MACオタ「俺にだって、、できないことくらい、、、ある・・・・」

662:Socket774
10/03/10 23:49:13 gDim2SPA
実際にMIPSがARMに比べて組込向けで劣ってたところって何なんだろうね。

SoC向けのIP展開の遣り方や価格がダメダメだったのかね？

それともPCと対抗するのに力を入れてる間に、ARMが組み込み向けのシェアを
占拠してしまって、出遅れたのが致命傷だったって事なのかな？

663:Socket774
10/03/11 00:17:19 7PFYjvS2
>>662
高性能に傾斜しすぎていた傾向はあるのでは無いかな。
SHが16bit化コードで先行して、ARMがthumbで続き、MIPS16とかはあまりやる気が…

求められているのは高性能ではなく、ほどほどの性能とローコストだから。
ま、今でもだけど。
なのでARM主流がなかなかARM7TDMIからCortexに移らないww

664:Socket774
10/03/11 13:15:51 MjsrZS4R
そしてなぜダメだったのかとか議論にもの登らず消えていくSuperH。

665:Socket774
10/03/11 19:12:25 M1Aywpxl
MIPSは1995年頃に内紛があったような気がした
R10000はスペックの割に異様に遅かった(速くない)のが印象に残っている。クロックも上がらなかったし

ARMはIPを積極的に売ったので勝ったというのが定評だと思う。

MIPSは命令セットだけ買えるので、独自コアや独自拡張が欲しい人が使っていたかな
ゲーム機とかネットワークプロセッサとか

666:Socket774
10/03/11 19:27:01 M1Aywpxl
MIPSの内紛はクボタがらみだったと思うが輪をかけて自信なし

個人的な好みで言うと、MIPSは割り込みの扱いが面倒だし、SHはディスプレースメントが短くて不便

667:Socket774
10/03/11 20:18:21 KeqIbbWN
すーぱーえっち

668:Socket774
10/03/13 18:43:26 MIRMiKRQ
みだらなぷっしー

669:Socket774
10/03/14 09:04:14 5Ch/VAb8
2000年からのXeonのCPUコア数の
変化が解るグラフってどこかにありませんか？

670:Socket774
10/03/17 00:09:23 IV5d0fQd
■福田昭のセミコン業界最前線■
2009年はどんな年だったのか
URLﾘﾝｸ(pc.watch.impress.co.jp)

671:Socket774
10/03/17 21:42:36 rnoPU6n6
ロースペの性能比較が面白すぎて困る

672:Socket774
10/03/18 08:52:19 CMwPYB3D
［GDC 2010］Larrabee計画の延期が影を落とす，Intelの“グラフィックス最適化”セッション
URLﾘﾝｸ(www.4gamer.net)

＞　しかし蓋を開けてみれば，その内容は「デュアルコアCore i7・i5・i3プロセッサに搭載された
＞『Intel HD Graphics』と，同グラフィックス機能に向けた最適化の話題のみ」という，お寒い内容。
＞ただでさえ閑散としたセッション会場を，早々に立ち去る参加者も目立ち，聴講者は筆者を含めて数える程度だった。

673:Socket774
10/03/18 10:21:18 t92ebmtx
URLﾘﾝｸ(www.4gamer.net)
［GDC 2010］Larrabee計画の延期が影を落とす，Intelの“グラフィックス最適化”セッション

674:Socket774
10/03/19 02:53:13 mPCuMPHr
Cellといいララビーといい
シンプルコアレンダリングの何が障害なんだろうな

675:Socket774
10/03/19 23:20:55 J0fmKyKv
>>674
構造がシンプルでも、求められる出力は従来と変わらないんだから、別の何処かが複雑化するだけじゃね？
おまけに新しい構造だからゼロスタートで頑張れとか言われたら、誰も近寄りたくないんじゃないかな。

一方、従来型で構造が複雑なのはプロセスの進化で相殺できるし、使う側もノウハウ流用できる。

676:Socket774
10/03/20 05:29:38 76reHPwT
Larrabeeは多少性能に難があっても製品として出しちゃえば良かったんだよ、否が応でも対応アプリが出てくるだろ
第一期製品で完全版を目指しすぎインテル

677:Socket774
10/03/20 05:37:38 sbh4BvJ2
Mercedみたいになったと思うぞ

678:MACオタ
10/03/20 09:19:51 2FaaqQLO
Intelと富士通がWestmereのSPEC2006を登録しています。
URLﾘﾝｸ(www.spec.org)
この話題を語る前に少しばかりおさらいを。

最近のIntelコンパイラは"Auto Parallel"オプションによってCINT/CFPの結果でも
単純なコア当たりの性能が判りにくくなっています。
それでも"base"の結果のみAuto Parallelが無効にされている結果を見つけたという
話がRWT掲示板に投稿されていました。
URLﾘﾝｸ(www.realworldtech.com)
このCore i3-540搭載機のBullの登録(並列化OFF)と富士通の登録(並列化ON)を比較して
みましょう。

■Core i3-540のCINT2006_base & CFP2006_base
　　　　　　　　CINT_base　　CFP_base
並列化無　　　25.6　　　　　　27.5
並列化有　　　26.2　　　　　　29.3

参考:
Bull CINT2006 URLﾘﾝｸ(www.spec.org)
　　最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -opt-prefetch
富士通 CINT2006 URLﾘﾝｸ(www.spec.org)
　　最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -parallel -par-runtime-control -opt-prefetch
Bull CFP2006 URLﾘﾝｸ(www.spec.org)
　　最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -opt-prefetch
富士通 CFP2006 URLﾘﾝｸ(www.spec.org)
　　最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -parallel -opt-prefetch

679:MACオタ＠続き
10/03/20 10:03:24 2FaaqQLO
CINT/CFP を構成する個別ベンチマークの結果を比較すると、更に興味深い結果が
見て取れます。
■自動並列化の効果
　CINT （全12ベンチマーク)
　　- 462.libquantum: +50.4%
　　- その他: -3.2～0%
　CFP (全17ベンチマーク)
　　- 436.cactusADM: +85.7%
　　- 434.zeusmp: +16.5%
　　- 410.bwaves: +9.9%
　　- 482.sphinx3: +9.1%
　　- 456.GeemsFDTD: +6.6%
　　- 481.wrf: +3.1%
　　- 470.lbm: +2.4%
　　- その他: -2.9～+1%

つまりCINTで並列化が寄与するベンチはたった一つ。CFPでも顕著に効果があるモノは
5つ程度ということです。
コア単体の性能比較を行いたい場合は、これら並列化の効果が大きなサブベンチマークを
除いた幾何平均を求めればOKということでもあります。先のCore i3-540の結果をこの方式で
計算してみると次のようになりますが、自動並列化の効果がキャンセルできてることが判ります。

■Core i3-540の修正CINT2006_base & 修正CFP2006_baseの比較
　CINTは 462 を除く。
　CFPは 410, 434, 436, 459, 481, 482 を除く。
　　　　　　　　CINT_base(Mod)　　CFP_base(Mod)
並列化無　　　　　22.3　　　　　　　　　　26.3
並列化有　　　　　22.1　　　　　　　　　　26.2

680:MACオタ＠ここまで
10/03/20 11:01:14 2FaaqQLO
ここから本題です。Intelと富士通が登録したWestmere-EPの結果を同クロックの
Nehalemと比較してみましょう。

■ i7-980X vs i7-975 on Windows
　　　　　　　　　　　　CINT_base　CINT_base(Mod)　CFP_base　CFP_base(Mod)
i7-980X/3.33GHz　　　　34.8　　　　　28.4　　　　　　　　36.9　　　　　　30.0
i7-975/3.33GHz　　　　　31.6　　　　　26.5　　　　　　　　32.9　　　　　　27.1

つまりシングルコア性能で見てもCINTで+7%,, CFPで+11%程度の性能向上があります。
ただし、この比較、980Xは64bit Win7 + icc11.1, 975は32bit Vista + icc11.1なので
その点は考慮する必要もあるかもしれません。

■ Xeon X5680 vs Xeon W5590 on 64-bit Linux
　　　　　　　　　　　　CINT_base　CINT_base(Mod)　CFP_base　CFP_base(Mod)
i7-980X/3.33GHz　　　　39.0　　　　　30.2　　　　　　　　44.8　　　　　　33.4
i7-975/3.33GHz　　　　　34.2　　　　　27.8　　　　　　　　40.4　　　　　　32.0

こちらは両方とも64-bitコードということで、より信頼が置けます。
int でのコア当たりの性能向上は 8.5%, fp では 4.2%ということになります。
まあ Tick-Tock での "Tock" での性能向上としては、こんなモノでしょうか？

681:MACオタ@参考資料
10/03/20 11:35:40 2FaaqQLO
ソースのリンクを書いておきます。
■Core i7-980X on Win7 64-bit
　CINT2006: URLﾘﾝｸ(www.spec.org)
　CFP2006: URLﾘﾝｸ(www.spec.org)
■Core i7-975 on Vista 32-bit
　CINT2006: URLﾘﾝｸ(www.spec.org)
　CFP2006: URLﾘﾝｸ(www.spec.org)
■Xeon X5680 on SuSE 10 x86_64
　CINT2006: URLﾘﾝｸ(www.spec.org)
　CFP2006: URLﾘﾝｸ(www.spec.org)
■Xeon W5590 on SuSE 10 x86_64
　CINT2006: URLﾘﾝｸ(www.spec.org)
　CFP2006: URLﾘﾝｸ(www.spec.org)

682:Socket774
10/03/20 11:52:00 /cHpY9+M
Modの方は参考にはなるだろうけど
「コア当たりの性能向上」って言い切っちゃうのはどうなの？

683:MACオタ＞682 さん
10/03/20 12:11:34 2FaaqQLO
>>682
どの辺が疑わしいと思いますか？
ちなみにSPECの登録データによると、ターボブーストのリミット値は3.6GHzで同じとのこと。

684:,,・´∀｀・,,）っ-○○○
10/03/20 13:13:28 lZIalqH7
そもそもWestmereはコアレベルで見るとAES/CLMUL命令の有無を除けばNehalemの単純シュリンクなんで
そんなもんでしょう。

IACAのDLLがNehalem用とWestmere用で全く同じサイズだった時点で素性はわかったようなもの

685:Socket774
10/03/20 18:00:42 GAgr2qiY
Macオタさんと団子さんが引っ付いたw

686:Socket774
10/03/20 20:00:43 vV2SC1Bl
うほっ

687:Socket774
10/03/20 20:54:20 akBc5CBs
TBの上限が同じならL3$が増えた以外にエンハンスあるっけ？ブーストしやすいくらいか？

688:,,・´∀｀・,,）っ-○○○
10/03/20 22:29:25 lZIalqH7
AES/CLMULの利用で高速化出来るコードってどれくらいあるのかしら

689:,,・´∀｀・,,）っ-○○○
10/03/20 22:51:13 lZIalqH7
URLﾘﾝｸ(www.freeweb.hu)
この辺見るに本当にNehalemと同じだな
L3は確かに容量1.5倍だがレイテンシは14clk→17clkと増大してるし
一概に性能向上に寄与してるとは言い難い気が。

>>687が正解じゃない？
シュリンクでコア当たりの消費電力が落ちてる分TDP枠に余裕ができてるはず

690:Socket774
10/03/20 23:53:20 VN9Nq9cJ
>>683
省略した項目が「コアあたりの性能向上」を反映してる可能性はないの？

691:Socket774
10/03/21 11:15:12 MZqFJVal
LSDが増えるって話はどうなったんだ?

692:MACオタ
10/03/21 12:00:10 tQ2m2qMB
>>684 団子さん
　-------------------
　　IACAのDLLがNehalem用とWestmere用で全く同じサイズだった時点で素性は
　　わかったようなもの
　　------------------
「そんなもの」で頭から決め付けては面白くもなんとも無い訳で、L3の変更やらメモリバッファの増量等の影響がどのように現れるかを問題にしているという
ことになります。命令仕様の改善とマイクロアーキテクチャの改善は区別して考えるべきかと。
URLﾘﾝｸ(www.realworldtech.com)

>>690
上に書いた話とは逆に、Nehalem -> Westmere ではそれほど劇的な変更があったわけでは
ありませんから、個別ベンチマークごとに劇的な性能差が出るとも思えません。
特殊なアクセラレータ命令を使用する場合は話が別ですが、それはまた別の話かと。

693:,,・´∀｀・,,）っ-○○○
10/03/21 12:25:23 NRePceAu
だからレイテンシ・スループット一通りデータ取れてるだろ。
データを見る限りでは劇的に変わったものはない

Merom->Penrynでスループットが劇的に改善された命令はあるが
Westmereの特性はNehalemの単純なシュリンクそのものだ

AES/CLMULのために演算ユニットを拡張したと言う情報も特にないし、
むしろAES-NI/CLMULはNehalemに元々実装されていた（が無効にされていた）可能性すらある

> 「そんなもの」で頭から決め付けては面白くもなんとも無い訳で

へえ、Intelはおまいさんを面白がらせるために存在してるのか
見上げたもんだなあ

694:Socket774
10/03/21 12:37:35 CmAgKTjb
人間性が表れる2レスだなｗ

695:Socket774
10/03/21 13:43:43 PgI8z6kb
ああ、なんか落ち着く

696:Socket774
10/03/21 15:14:11 mhJ301ub
>むしろAES-NI/CLMULはNehalemに元々実装されていた（が無効にされていた）可能性すらある
HTT隠してたオレゴンの事だから、これは可能性でかいよね
隠し玉と呼ぶにはインパクト弱いけど暗号関係のスピードアップは目を見張るものがある

697:Socket774
10/03/21 15:38:05 RsOxVsOx
「鶏冠にきてけんか腰な物言いしてる方が負けだわ！」

ララァは賢いなぁｗ

698:MACオタ＞696 さん
10/03/21 16:57:45 tQ2m2qMB
>>696
　　------------------
　　HTT隠してたオレゴンの事だから、これは可能性でかいよね
　　------------------
物事の前後関係を理解されていない様に思います。
WillametteでHTTが無効にされていた理由は、開発者当人が語っている通り(>>587-600参照)。一方団子さんが書いているように、AES-NI/CLMULに関してハードウェア的な強化は無さそうです。

推理小説じゃ無いんですから、『動機があるから怪しい』という論法は違うかと。

699:MACオタ
10/03/21 17:15:54 tQ2m2qMB
今回やってみた Westmere vs. Nehalem の比較に関する、個人的なまとめです。
1. Intelはマルチコア化でコア性能を犠牲にするつもりは無さそう。
　AMD が Istanbul で 4 → 6 へのコア増強と引き換えにクロックを下げたのとは対照的です。

2. L3レイテンシの低下はL3容量その他の改善によりカバーされている。

3. 次世代以降の性能向上の鍵はダイスタッキング等によるメモリ帯域の改善になる可能性が大きい
　今回の比較でもCINTに比べてCFPの改善が小さいという結果になりましたが、これはCFP2006が結果に対するメモリ帯域の依存性が大きいという特性によるものです。
マルチコア化に伴って『コア当たり』のメモリ帯域はますます逼迫する方向に向かうため、メモリ帯域の分野でのブレークスルーがますます重要になりそうです。

700:Socket774
10/03/21 17:38:47 iJ9hNA/p
CellGPUぜひ見たかったｗ

701:Socket774
10/03/21 17:41:36 zgBIADX0
>>700
どうぞ
URLﾘﾝｸ(journal.mycom.co.jp)

702:Socket774
10/03/21 19:16:49 NqPTbfLG
>>699
コンパイルオプションの違い（-m32と-m64など）がけっこう効いてそうな気がするなぁ

703:MACオタ＞702 さん
10/03/21 20:06:52 hb18Li8q
>>702
X5680とW5590の比較は、どちらも -m64 です。(>>681 参照)

704:MACオタ＠補足
10/03/21 20:20:37 hb18Li8q
よく読みなおして、>>703は間違っているかもしれませんね。
x86_64 Linux 上の ICC は、-m32 のオプションを明示的につけない限り 64-bit コードでコンパイルします。
W5590でのコンパイルオプションは、
　　--------------------
　　C benchmarks:　icc
　　C++ benchmarks: icpc
　　--------------------
とあるので、64-bit と決め込んでいましたが、"Bortability Flags"の項目を見ると
　　--------------------
　　400.perlbench:　　　-DSPEC_CPU_LINUX_IA32
　　462.libquantum:　　-DSPEC_CPU_LINUX
　　483.xalancbmk:　　　-DSPEC_CPU_LINUX
　　--------------------
とあるので、32-bit 用の互換オプションがつけてあります。

つまり、64-bit Linuxでわざわざ 32-bit 版 ICC でコンパイルしたということですか…

705:MACオタ
10/03/21 21:14:07 hb18Li8q
CINT2006_base での 32-bit コードと 64-bit コードを比較してみました。
>>680と比べることが可能なW5590のデータはありませんでしたが、X5570だといくつか比較が存在します。
・32-bit: URLﾘﾝｸ(www.spec.org)
・64-bit: URLﾘﾝｸ(www.spec.org)
■32-bit ICC on x86_64 Linux の Xeon X5570 CINT2006_base
　(Modは462.libquantum を除いた幾何平均)
　　　　　　CINT_base　CINT_base(Mod)
64-bit　　　　34.5　　　　　27.3
32-bit　　　　32.0　　　　　26.1

今回比較に用いたMod指数はちょうど64-bit版が1.5倍ほど有利になる 462.libquantum を除いているため、差が小さくなります。
例によって個別のベンチマークで 32-bit と 64-bit の得失を比較するすると、こうなります。
　- 456.hmmer: 約2倍 64-bit 版有利
　- 462.libquantum: 49% 64-bit 版有利
　- 401.bzip2: 10% 64-bit 版有利
　- 473.aster: 10% 64-bit 版有利
　- 429.mcf: 16% 32-bit 版有利
　- 403.gcc: 11% 32-bit 版有利
　- 471.omnetpp: 8% 32-bit 版有利
　- 464.h264ref: 7% 32-bit 版有利

32/64で差が大きい 456.hmmer も除外した新指数で幾何平均を求めると、上記の結果は次のようになります。
■32-bit ICC on x86_64 Linux の Xeon X5570 CINT2006_base
　(Modは462.libquantum と 456.hmmer を除いた幾何平均)
　　　　　　CINT_base　CINT_base(Mod)
64-bit　　　　34.5　　　　　26.0
32-bit　　　　32.0　　　　　26.4

706:MACオタ＠続き
10/03/21 21:19:42 hb18Li8q
>>705で述べた、462.libquantum と 456.hmmer を除いた改変版 CINT2006_base を用いて Westmere と Nehalem を比較してみましょう。
■ Xeon X5680 vs Xeon W5590 on 64-bit Linux
　　(Modは462.libquantum と 456.hmmer を除いた幾何平均)
　　　　　　　　　　　　CINT_base　CINT_base(Mod)
X5680/3.33GHz　　　　39.0　　　　　28.7　　　　　　
W5590/3.33GHz　　　　34.2　　　　　28.2　　　　　　

それでも約2%の性能向上ということになります。
コア性能は犠牲にしていないという結論は変わらないと思いますがいかがでしょうか？

707:,,・´∀｀・,,）っ-○○○
10/03/22 04:25:28 oQigsKs+
そもそもキャッシュの容量（エントリ数）増やせば必然的にヒットレイテンシは増大するもんなんだが
低下ってなんだ低下って
そのL3自体1コアあたり2MBだし実際のワークロード考えればスレッド当たりのL3容量は決して増えてないしな

ヒットレイテンシの特性見ても8MBが12MBに増えたところで大きくは変わらんでしょう

シュリンクによる消費電力低下とTurbo Boostで説明できてしまうな

708:Socket774
10/03/22 09:20:02 6u2oaeOj
柄の悪い方が出て来た

709:Socket774
10/03/22 11:18:14 J9zaGnO2
Cellの基礎技術開発は着々と進んでいるね。
PS3では爆熱をいとわない開発陣と組んだから、高性能だが爆熱の熱処理のため
に高価になって出足くじいたが、PS4では200Wからスタートせずに済みそうだ。
Cellへの東芝の貢献は非常に大きいね。

低電圧LSIを実現するSRAM回路技術の開発
32nmで試作、0.7V動作の不良率1/10000
URLﾘﾝｸ(www.semicon.toshiba.co.jp)

710:Socket774
10/03/22 12:05:17 RwX/2B1W
アーキテクチャにはもう飽きてくちゃった

711:Socket774
10/03/22 12:49:57 mDKCd74y
>>674
ハードが楽した分、ソフト側が割喰うという構造を何とかしない限り
普及しない。

CELLコンパイラの顛末なんてその好例だろう。

712:,,・´∀｀・,,）っ-○○○
10/03/22 12:52:45 oQigsKs+
スカラロード・ストア命令さえあれば多少使い勝手はマシになる

713:Socket774
10/03/23 15:05:11 lIIkywfm
>>711
小規模のアプリなら特に問題は無さそうだけどな。
ハードを絞り出すような開発なら何だろうとカスタマイズのスキルは要るだろう。
今時のコピペPには無理な話なだけで。

714:Socket774
10/03/23 21:09:32 85lM8si1
>>713
わかったからお前が手本見せろ

715:,,・´∀｀・,,）っ-○○○
10/03/24 00:45:21 CSoVWjfI
SIMD厨の俺ですらあれはかったるい

716:Socket774
10/03/24 19:31:05 Uyef6FHP
それは1クロックに命をかけた男達の物語である…

717:Socket774
10/03/24 20:36:57 GVNDVloH
もう伸びしろのないCPUなんか語ったって仕方ないだろ
GPUについて語れ！にスレタイ変更すれば？

718:Socket774
10/03/24 20:47:29 kSW2qE5Q
だってGPUの完成形はlarrabeeだもの

719:MACオタ
10/03/25 03:13:07 su5o4Ss9
TheRegisterのMorgan記者がIBM純正のCELL Blade QSシリーズについて書いてます。
URLﾘﾝｸ(www.theregister.co.uk)
QS21は今年の6/25で受注終了、次世代機QS2Zは昨年報じられたように開発中止という話なのですが、最後をこのようにまとめています。
　　---------------------
　　The reason why the QS22's days are numbered is simple. IBM, say sources
　　familiar with the company's plans, is to add specialty processing capabilities
　　like those embodied in the SPEs in the Cell chip to the future Power chips
　　beyond the current Power7 generation. Perhaps starting with Power7+ and
　　definitely in full bloom with the Power8 generation.
　　---------------------
CELL/B.E.としての開発を止めた理由は、SPEがPOWER8のアーキテクチャに取り込まれるから…という話。

もっとも、IBMはPOWER5の頃から『アクセラレータを搭載する』と言い続けていますが、実際に登場した実装は Altivec, DFP, VSX のように、単なる演算ユニットが増えていくだけでした。
今回も今までと同様に、宣伝文句のみで終わるのか？本当に CELL/B.E .の様ななヘテロコアを投入するのかは注目かもしれません。

VSXが既にSPU ISAの改良版としての要素を取り込んでいますし、今更、Sonyや東芝も権利を持つSPEを使ってまでヘテロコアやコプロ的なアクセラレータに手を出すというのは眉唾なのですが…

720:Socket774
10/03/25 10:35:41 Z9LKG++e
命令を取り込むだけでしょ？
まさかローカルストアを持つコプロを取り込んだりはしないだろうし。

721:Socket774
10/03/25 13:49:49 IUfpmytz
ローカルストアが最大の肝なのに

722:Socket774
10/03/25 17:07:21 Ya0WTCv/
32nm版のCellもないのかな？

723:Socket774
10/03/25 18:18:29 R93NR76S
それとこれとは別

724:Socket774
10/03/25 20:28:11 gOPi5wvK
つかPOWERにSPEが付いたらそれCellやん

725:Socket774
10/03/25 22:33:54 Aqr9RnII
完全体の？

726:Socket774
10/03/25 22:38:58 bonIn+xi
Cellみたいな共同開発って権利関係はどうなってんの？

727:Socket774
10/03/25 23:48:50 wC+TcV9l
>>724
たしかに

728:Socket774
10/03/26 06:44:17 JtrMw9Au
共同開発元のライバルの案件すらPPE流用しちゃう権利ゴロのIBMさんだから
自社案件にSPE流用することなんて問題にならんだろう

729:Socket774
10/03/26 11:32:06 QUNgcQXQ
なんかデジャブかと思ったらアナハイムだった。

730:Socket774
10/03/26 16:37:15 JJrWFIys
SCEや東芝の権利が入っていようが、POWERに採用したら
金払わないといけないとかそういうのはないから、
大した問題にはならないだろうな。

731:MACオタ
10/03/27 16:48:32 N3xCMfP5
安藤氏の今日の更新は色々と突っ込みどころが多いですね。
URLﾘﾝｸ(www.geocities.jp)
　　--------------------
　　１．NVIDIAがFermiベースのGTX480，470を発表
　　--------------------
流石に真っ当な仕事をしているヒトがネットばかり見ているという訳でも無いでしょうから『情弱』呼ばわりするつもりもありませんが、ルーマーサイトに属する Semiaccurate よりは Anandtech のレビュー位は読んで欲しいような気もします。
GPGPU性能も扱っているという点では、御本人の専門分野にも重なるかと思うのですけれど…
URLﾘﾝｸ(www.anandtech.com)

　　---------------------
　　このQS21はTop500　2位のRoadrunnerに使用されているもので，まだ，3年やそこらは
　　使うでしょうから，その間に必要となる保守部品はストックしておくのでしょうね。
　　---------------------
PowerXCell 8iを使ったCELL BladeはBladeCenter QS22の方だったりします。
URLﾘﾝｸ(www.top500.org)

732:Socket774
10/03/27 16:55:15 DXYWK1Ye
なんだ結局Cellは止めちゃうのか

733:Socket774
10/03/27 17:01:17 qGrVqydH
> 安藤氏の今日の更新は色々と突っ込みどころが多いですね。

そう思うなら本人にメールしてあげなよ
きっと喜ぶと思うよ
退職して暇してるかもしれないし

734:Socket774
10/03/27 17:05:26 qGrVqydH
>>732
まあ、クターがいなくなっちゃったしね

735:Socket774
10/03/27 17:07:36 0tVzBGoR
QS21に使われているCellって90nm版だけ？

736:Socket774
10/03/27 17:45:28 SNFwEVpK
>GPGPU性能も扱っているという点では、御本人の専門分野にも重なるかと思うのですけれど…

退職して唯のライターになったからかんけーないとか

737:Socket774
10/03/27 17:56:13 SNFwEVpK
URLﾘﾝｸ(images.anandtech.com)
URLﾘﾝｸ(images.anandtech.com)
というかこの辺はアーキテクチャどうこうよりも
比較対象が遅すぎるだけジャン
285比じゃ物量並では？

738:Socket774
10/03/27 19:22:07 lAQzL8NX
しかしPower8がSPEとのヘテロコアとか面白いな

739:Socket774
10/03/27 19:40:37 xrqHB3PX
>>732
5年前とは状況がまるで違うからな。
前提が崩れたら予定を変えるのは当然。

740:,,・´∀｀・,,）っ-○○○
10/03/27 23:28:52 pJg4SW1L
SONYが家電のIntelになるとか息巻いてた頃の話だからな

741:MACオタ＞団子さん
10/03/28 10:22:38 Xy1m3rTn
>>740
団子さんの方は Anand の GPGPU の結果を見て、ちっとはやる気はでましたか？
URLﾘﾝｸ(www.anandtech.com)

742:,,・´∀｀・,,）っ-○○○
10/03/28 11:11:23 nvnx7jQ0
得意なのだけ引っ張ってきた感が否めないがそれ以上に前世代が酷すぎた

743:Socket774
10/03/28 11:13:30 hxCdHi1o
比較対象の他社もね

744:,,・´∀｀・,,）っ-○○○
10/03/28 11:13:49 nvnx7jQ0
CPUとの比較がない時点で×だな
ちなみにN-QueenはCell SPEより半速のAtomの方が速かった

745:,,・´∀｀・,,）っ-○○○
10/03/28 11:14:56 nvnx7jQ0
URLﾘﾝｸ(dango.chu.jp)

746:,,・´∀｀・,,）っ-○○○
10/03/28 11:32:41 nvnx7jQ0
N-Queenは分岐粒度が問われるのでSIMDの並列度が高いのよりも
独立動作するスカラプロセッサ大量のほうが速いよ。

実際問題FermiはGT200に引き続きSIMDをラップしただけのエセスカラからは脱却してないようだから
単純に命令フロントエンドの増分しか性能上がっていない。

予想だと
SCC＞＞Larrabee＞＞Fermi

747:Socket774
10/03/28 11:38:26 HabHO05I
だらだらつまんねえレスしてないで、string libraryでも書きなおしたらどうだ？

748:,,・´∀｀・,,）っ-○○○
10/03/28 11:42:40 nvnx7jQ0
無駄ｗ

749:Socket774
10/03/28 12:02:02 hxCdHi1o
＞＞745
なんかルパンが出てくるんだが

750:,,・´∀｀・,,）っ-○○○
10/03/28 12:19:30 nvnx7jQ0
イベント終了っぽいから消しといた

751:Socket774
10/03/28 19:36:51 gbVvaAPa
ちゃんとベクトル化したか？
探索問題のベクトル化については昔から研究があるぞ

752:Socket774
10/03/28 19:38:04 gbVvaAPa
京大津田研あたりが日本では有名

753:,,・´∀｀・,,）っ-○○○
10/03/28 19:44:49 nvnx7jQ0
どのみちビットボード使うのが速い

754:Socket774
10/03/28 22:31:39 LY1KKagf
海外BBSでもPower8がSPEとのヘテロみたいに書かれてるけど本当にそうなん？
単にSSEみたいに各コアに簡略化されて搭載されるんじゃないの？

755:Socket774
10/03/29 00:40:55 r88MONsI
オタさんも書いてるけど、VSXが拡張されるだけだと思う

756:Socket774
10/04/01 13:15:18 mJxKklpu
まあ、出て見ないとわからないな
VSXが拡張されてるだけなら現状でもそうなってるわけだし意味わからなくなるｗ

757:MACオタ
10/04/01 18:25:23 Xb5zlDzT
Magny-Cours, Nehalem-EX と新製品の発表でSPEC2006の登録も面白いことになっていますが、今回は>>678-681と>>704-706に続いて Westmere vs. Nehalem の比較です。
あれから、同じ4-coreでの Westmere と Nehalem の結果も登録されました。前回の考察がどの程度正しかったのでしょうか。
比較対象は次の二つです。
　・Westmere Xeon E5630/2.53GHz
　　CINT: URLﾘﾝｸ(www.spec.org)
　　CFP: URLﾘﾝｸ(www.spec.org)
　・Nehalem Xeon E5540/2.53GHz
　　CINT: URLﾘﾝｸ(www.spec.org)
　　CFP: URLﾘﾝｸ(www.spec.org)
OSおよびコンパイラは同じ条件で64-bit環境になります。
　OS: SuSE Linux Enterprise Server 11 (x86_64), Kernel 2.6.27.19-5-default
　Compiler: icc/ifort Version 11.1 Build 20091130
　Base Pointe: 64-bit

では結果を見てみましょう。Mod版は>>679の基準で、次の基準で計算しています。
　CINTは 462 を除く。
　CFPは 410, 434, 436, 459, 481, 482 を除く。
■ Westmere vs. Nehalem (4-core, Linux, 64-bit)
　　　　　　　　　　　　CINT_base　CINT_base(Mod)　CFP_base　CFP_base(Mod)
E5630/2.53GHz　　　　30.7　　　　　24.0　　　　　　　　35.6　　　　　　34.0
E5540/2.53GHz　　　　29.8　　　　　23.5　　　　　　　　26.6　　　　　　25.3
　　　　　　　　　　　　　+3.2%　　　　+1.9%　　　　　　　+4.6%　　　　　　+2.7%

コア増加分を抜きにしても2-5%程度の性能向上を果たしています。注目は、シングルスレッド性能のみを評価したMod版での比較より並列化の効果が加味されている公式版の指数の方が差が大きくなっていることで、WestmereとIntelの
最新コンパイラは並列コードへのチューニングが進んでいることが示されているのでしょう。

758:MACオタ
10/04/01 21:10:20 Xb5zlDzT
Magny-Cours と Nehalem-EX の方ですが、HP (Magny-Cours), Bull SA, Dell (Nehalem-EX) が rate の結果を登録しています。
Magny-Cours の登録全て2-socket/24-core, Nehalem-EX の方は全て4-socket 構成ということで直接の比較は難しいのですが、同クラスの構成と比較してみた結果を示します。

■各種マルチコア・サーバープロセッサの CINT2006_rate
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　base　　　　　peak
POWER7/3.86GHz/2-socket/16-core/4-SMT　　　　586　　　　　　652
Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT　　466　　　　　　502
Westmere-EP/3.33GHz/2-socket/12-core/2-SMT　355　　　　　　378
Shanghai/2.6GHz/4-socket/24-core/noSMT　　　　　313　　　　　　400
Magny-Cours/2.3GHz/2-socket/24-core/noSMT　　309　　　　　　398
Westmere-EP/3.47GHz/2-socket/8-core/2-SMT　　286　　　　　　302

■各種マルチコア・サーバープロセッサの CFP2006_rate
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　base　　　　　peak
POWER7/3.86GHz/2-socket/16-core/4-SMT　　　　531　　　　　　586
Magny-Cours/2.3GHz/2-socket/24-core/noSMT　　290　　　　　　318
Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT　　272　　　　　　280
Shanghai/2.6GHz/4-socket/24-core/noSMT　　　　　251　　　　　　276
Westmere-EP/3.33GHz/2-socket/12-core/2-SMT　248　　　　　　257
Westmere-EP/3.47GHz/2-socket/8-core/2-SMT　　214　　　　　　222

出揃ってみると、圧勝ですね。POWER7
物量主義だけでなんとかなるのは、CFP2006_rate だけというのも良く判ります。

759:MACオタ＠補足
10/04/01 21:21:10 Xb5zlDzT
登録データのリンクです。
- POWER7/3.86GHz/2-socket/16-core/4-SMT
　CINT_rate: URLﾘﾝｸ(www.spec.org)
　CFP_rate: URLﾘﾝｸ(www.spec.org)
- Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT
　CINT_rate: URLﾘﾝｸ(www.spec.org)
　CFP_rate: URLﾘﾝｸ(www.spec.org)
- Magny-Cours/2.3GHz/2-socket/24-core/noSMT
　CINT_rate: URLﾘﾝｸ(www.spec.org)
　CFP_rate: URLﾘﾝｸ(www.spec.org)
- Westmere-EP/3.33GHz/2-socket/12-core/2-SMT
　CINT_rate: URLﾘﾝｸ(www.spec.org)
　CFP_rate: URLﾘﾝｸ(www.spec.org)
- Westmere-EP/3.47GHz/2-socket/8-core/2-SMT
　CINT_rate: URLﾘﾝｸ(www.spec.org)
　CFP_rate: URLﾘﾝｸ(www.spec.org)
- Shanghai/2.6GHz/4-socket/24-core/noSMT
　CINT_rate: URLﾘﾝｸ(www.spec.org)
　CFP_rate: URLﾘﾝｸ(www.spec.org)

760:MACオタ@訂正
10/04/01 21:33:34 Xb5zlDzT
>>758はCFP2006_rateの方に間違いがありました。
　誤) Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT　　272　　　　　　280
　正) Nehalem-EX/1.87GHz/4-socket/16-core/2-SMT　　272　　　　　　280
要するに4-core の E7520 のデータということです。

>>758-759の Nehalem-EX は 1.83GHzのモデルで揃えたつもりでしたが、CINTは6-coreで2.53GHzまでブーストがかかるL7545の結果。CFPは4-coreでターボブースト無しのE7530の結果ということで混じってます。

761:Socket774
10/04/02 03:41:51 q2NHfUh6
POWER７の爆熱振りを見ると，どうしてもあれがARMと張り合うような組み込み向けプロセサには見えない。

762:Socket774
10/04/02 04:20:05 Zj71dDLH
>>761

763:Socket774
10/04/02 14:15:25 02Isnjd/
>>761
POWERとPowerPCは別物だしARMともターゲットが違う
最近はCortex-A8/9などでPPCの領域にも手を伸ばしつつあるが

764:Socket774
10/04/02 16:03:26 IfvCAZdp
>>755
単体では今もVSXとSPUと同じようなもんでしょ
各コアに点在して実装してるからトランジスタ辺りの演算性能が稼げないだけで

765:Socket774
10/04/03 20:16:45 tJ9AOKia
URLﾘﾝｸ(www.macrumors.com)

766:Socket774
10/04/04 14:10:42 3D2MWI0u
>>765
あー、確かCortex-A9で2GHz達成できるっていう技術ね。
今年本当に出るんかね？

767:Socket774
10/04/05 20:35:43 AULwJfHa
マイクロソフト、次期Windows ServerではItaniumをサポートせず
URLﾘﾝｸ(www.computerworld.jp)

Itaniumはゆっくり死亡していきそう？
富士通もItaniumサーバ出さないみたいだしね

768:Socket774
10/04/05 20:58:02 hBB9sjEb
HPどうすんの…

769:Socket774
10/04/05 21:17:17 I72SdhdD
alpha復帰

770:Socket774
10/04/06 01:27:50 azMAhxkq
ルネサスエレクトロニクスの誕生
URLﾘﾝｸ(pc.watch.impress.co.jp)

771:Socket774
10/04/06 15:01:33 X9u+UT3W
PA-RISC…

772:MACオタ
10/04/07 01:10:33 MdJIazCm
ロシアのiXBTなどで既に言及されていた話ですが、GPU版のGF100は倍精度浮動小数点演算が単精度の1/8に制限されているんだとか…
もう少し判りやすい記事を待っていたのですが、Hexusのレビューを見ると間違い無さそうです。
URLﾘﾝｸ(www.hexus.net)
　　-----------------------
　　Delve a little deeper, handily not mentioned in any briefing, and NVIDIA
　　is limiting the double-precision speed of the desktop GF100 part to one-
　　eighth of single-precision throughput, rather than the one-fifth speed of
　　the Radeon HD 5000-series. We'll have to wait for the Tesla parts before
　　that's restored to the one-half speed the GF100 is capable of.
　　-----------------------
安いGPUを買って、文字通りのGPGPUを企んでいた皆さんは残念でした。

PS3のLinuxサポート廃止と言い、貧乏HPCにはイヤな時代になってきました。背景としてはさほど大きいものとは言えないHPCが不況の中で市場として認められきたという事実があるようです。
URLﾘﾝｸ(www.theregister.co.uk)
　　=======================
　　The non-HPC portion of the server market was actually down 20.5 per
　　cent, to $34.6bn - a decline that was nearly twice as steep as that in
　　the HPC space.
　　=======================
唯一の希望は Magny-Cours の投入で自爆的なディスカウントによるサーバー市場での逆襲を狙うAMDプラットフォームくらいでしょうか…

773:MACオタ
10/04/07 01:20:52 MdJIazCm
AnandTechによると、iPad に搭載された Apple A4 の性能は Nexus One の Snapdragon/1GHz より随分性能が良さそうなんだとか。
URLﾘﾝｸ(www.anandtech.com)
いくつか有名どころのサイトの表示時間を比較していますが、m.cnn.com を除いて9-60%高速だとのこと。
SunSpider Javascript Bench の結果も、次の通り。
　- iPad (Apple A4): 10475 [ms]
　- Nexus One (Snapdragon QSD8250): 14409 [ms]
　- iPhone 3GS (Cortex A8): 17360 [ms]

もっともこの結果に関しては、モノが携帯デバイスだけに省電力設定の違いに起因する可能性も大きいと考察しているようです。

774:Socket774
10/04/07 01:24:30 /KHeBKlf
RADEONの倍精度解禁によってRADEONに手を出す人も増えるかも

775:Socket774
10/04/07 01:55:58 agXJZ8l8
解禁つってもHD4800から倍精度使えてたし中華GPGPUスパコンもそれで組んであるしいまさらだなぁ
どうせならHD5800だけでなく下位モデルでも解禁してくれりゃいいのに

776:Socket774
10/04/07 02:11:55 URNZ+iiN
SunSpiderベンチ Core i5 660&safariでやったら685.4msだった。
速すぎわろた。まあ比べる方が間違いなんだけど・・・
Atomだとどれくらいなのかな？

777:Socket774
10/04/07 02:19:51 fZDt943f
PA-RISCバイナリ互換性を持ったItanumuエミュレーターをamd64版HP-UXで実装予定です

778:Socket774
10/04/07 03:07:25 1nKupBD0
そこで颯爽とPOWER7Macの登場だろ

779:,,・´∀｀・,,）っ-○○○
10/04/07 20:11:25 4uyD1/UY
債務超過状態で辛うじて儲かるネットワーク部門（PSN）をソニー本体が吸収
有能な社員は辞めていく倒産秒読み状態に入ったそんなSCEにまともなサービスを期待する方が無駄。

780:Socket774
10/04/07 20:47:27 Hz520nAY
うわープログラム齧ってるくせに数字も読めないんだ？

ソニーに承継されるネットワーク事業は2009年3月期売上高15億円、
旧SCEは2009年3月期売上高9851億円、営業利益375億円、債務超過額105億円。
ネットワーク事業以外は新しいSCEに継承。

781:Socket774
10/04/07 21:50:38 BdKDLvJw
サムスン電子の第1四半期業績見通し、連結営業利益は過去最高に
URLﾘﾝｸ(jp.reuters.com)

782:MACオタ
10/04/07 23:27:08 MdJIazCm
Apple製品の分解・修理法を公開しているサイトとして有名な iFixIt が、半導体調査会社の ChipWorks と組んで Apple A4 の断面写真やらダイのX線写真やらを公開しています。
URLﾘﾝｸ(www.ifixit.com)
せいぜいインタビューくらいしか一次ソースを持たない日本のメディアと比較して絶望してみてはいかがでしょうか？

783:Socket774
10/04/07 23:41:36 aVNJDfId
設計はAppleが握ったけどチップの製造はやっぱりSamsung？

784:MACオタ＞785 さん
10/04/08 00:10:35 e+L2hcR4
>>783
上の記事ですが、色々面白いことが書いてあります。
A4はTSVでは無いとは言え、プロセッサダイにDRAMダイ2枚を重ねた3層-3Dダイスタッキング構造なのですが、
　- DRAMダイは Samsung 製 K4X1G323PE
　- プロセッサダイには、従来の iPhoneプロセッサには必ず記されていた Samsung の型番が無い

785:Socket774
10/04/08 00:14:35 NxY/A/El
なんだワイヤボンディングか
そらそうよね

786:Socket774
10/04/08 02:50:42 Pp7nulOP
この手だと、内蔵のグラフィックス・コアが貧弱だったり
有って無きが如しが多いというか…
Imageon積んでたアレとか何故かアクセラレータ無しの
WM標準ドライバで動いてたり、なんて事が珍しく無いけど…

A4はどうなんだろうねぇ…

787:,,・´∀｀・,,）っ-○○○
10/04/08 11:01:02 urB6a2Po
>>780
ああ読む気にもならないね。粉飾まがいなんていくらでも操作しようがある。

そもそも、その「2009年3月期」の営業利益は年じゃなくて四半期単位の数字ってオチだろ。
第2～第3四半期に莫大な赤字を計上しておいて第4四半期のみ数字をよくするいつもの手だよ。
通年ではどんどん赤字が膨らんでいく。

PSNはゲームのみに収まってるからその程度だがあらゆる家電向けの配信インフラとして拡大した場合の
収益の可能性を考えると、多少見込みあるんじゃね。
あくまで少なくともCell家電だとかPS3搭載家電だとか作るよりは見込みがあるって話であって
俺の感想としてはうまくいきそうにないけどね。

もちろんバージョンアップで元々あった機能を強制的に使えなくするような製品なんて
他のメーカーは見習っちゃいけないしね

788:Socket774
10/04/08 11:40:08 5eDBhtAb
おまえさん住友銀出身の奴かい？

789:Socket774
10/04/08 16:34:39 y8pbynC6
おまいら、ﾃﾗｽｹｰﾙﾘｻｰﾁ謹製SCC48ｺｱがQ2に出るってのに何やってんの…

790:Socket774
10/04/08 17:50:46 CLAxXYv0
>>787
読む気にもならないとか言いつつ粉飾まがいとか恐ろしいこと口走るなよ
つーかパッと見りゃ売上1兆が四半期だとゲーム事業どんだけって話じゃん
ついでに2010年3月期も黒字見込みなんだとよ

で、売上15億のネットワーク部門って読めばこれはインフラベースの事業で
収益ってのは上層のコンテンツプロバイダに乗せるモデルになってんだな、と思うだろうに
事業の再編成は収益ベースでどーのこーのって着眼がそもそもオカシイって言ってんだよ

数字読めないつーかスタンスで頭ん中が固まっちまうのはアホだね

791:Socket774
10/04/08 20:48:53 X9QyeQND
>>786
iPadはサクサク動作
URLﾘﾝｸ(d.hatena.ne.jp)
URLﾘﾝｸ(www.nikkei.com)

792:,,・´∀｀・,,）っ-○○○
10/04/08 21:30:10 urB6a2Po
だからお前の脳内資料はいいから正確なのソース付きで提示してみ。
2008年4月から2009年3月までのQ1からQ4の営業利益全部並べてみ？

Q2で在庫の値下げ分含めて超絶赤字計上してるのにどこでどうやって返してるんですか。

793:,,・´∀｀・,,）っ-○○○
10/04/08 21:38:34 urB6a2Po
そもそもゲーム事業、PS3出して以来通年で黒字出した年一度もないですよ。

URLﾘﾝｸ(jp.reuters.com)

> 今期のゲーム事業は４年連続の営業赤字になる見込みだが、
> 「黒字化は私の使命」と述べ、積極的なコスト削減や売り上げ増加を狙っ
> て早期の実現を図る考えを示した。

しかも今年度は売上げ台数下方修正してるしね。
それとも逆鞘だから売れないほうが利益になるのか？

794:Socket774
10/04/08 21:42:44 NSCn+KJz
>>786
今時のPC基準でいけば貧弱でも
XGA固定で必要十分な性能は確保してある。

795:MACオタ
10/04/08 22:05:10 e+L2hcR4
AMDが業務用GPUの新型 FirePro V8800 を発表しました。
URLﾘﾝｸ(www.amd.com)
GPGPU的に見ると、VRAM 2GB, ECC 無しということで新味は無いようです。
現世代ではチップの仕様として、ゲーム向けと大きく差別化することが出来ない様で…

796:Socket774
10/04/08 22:08:31 CLAxXYv0
>>792
決算の数字は再編のプレスリリースからだよ。
URLﾘﾝｸ(ke.kabupro.jp)

最近SCE単独としての子細な決算の数字は本体側に編入されていて出されていなかった。
今回そういう数字を表に出せた事はむしろ経営の健全化に向けた目途が立ったようなもんだろ。

797:,,・´∀｀・,,）っ-○○○
10/04/08 22:13:23 urB6a2Po
株主向け情報にゲーム事業（≒連結子会社でもあるSCE）の営業利益含めて載ってるから
読んでみたらいいよ。

会計学以前に算数の問題だ

798:,,・´∀｀・,,）っ-○○○
10/04/08 22:18:35 urB6a2Po
> 今回そういう数字を表に出せた事はむしろ経営の健全化に向けた目途が立ったようなもんだろ。

違うな。
在庫を抱えるのはソニー本体（＝値下げ時には棚卸資産の評価損で赤字計上）だから
連結での「ゲーム事業」分野でみた方が実情をよく表している。

要するに重要なことからは常に逃げている

799:MACオタ
10/04/08 22:43:20 e+L2hcR4
まあ団子さんはいつものように、『見たいものしか見えない』状態なんで頭が冷えるまで真っ当な議論は無理かと(笑)
PS3に関して言えば、よく話題になるコストは社内のエレクトロニクス部門に貢いでいるだけという構造になています。
例えば、最新のPS3のコスト評価はこれ。(2009/12/11報道)
URLﾘﾝｸ(www.isuppli.com)
　　---------------
　　Bluray Drive　　　　　　$66.00 x 1
　　RSX　　　　　　　　　　　$45.82 x 1
　　120GB HDD　　　　　　$38.00 x 1
　　CELL/B.E.　　　　　　　$37.73 x 1
　　Power Supply　　　　　$20.35 x 1
　　Cooler Assy.　　　　　　$11.27 x 1
　　XDR DRAM　　　　　　$9.80 x 4
　　PCB (6-layer)　　　　　$8.47 x 1
　　I/O Bridge Chip　　　　$5.59 x 1
　　Blutooth/WLAN chip　$3.92 x 1
　　Other parts　　　　　　　$79.52 x 1
　　----------------
参考までにBD-ROMの市場価格は URLﾘﾝｸ(www.google.com)
内製品のコストじゃないですよね…

皆さんのお好きな四半期業績資料でも、「ゲーム向けシステムLSI」が売上の大きな要因であることが書いてあります。
URLﾘﾝｸ(www.sony.co.jp) (P.6 参照)
BD-ROMドライブやゲーム機向け半導体が大半を占めると思われる CPD事業部のセグメント間取引による売上は
2009Q4で848.3億円。
URLﾘﾝｸ(www.sony.co.jp) (P.18 参照)
ちゃんと内製品としての原価で入手できれば、もっと表向きの赤字は縮小するでしょうに…

800:Socket774
10/04/08 22:44:47 CLAxXYv0
>>797
逆にSCEは黒字で、ゲーム事業単独で営業収支の推移を見た場合でも
ほぼブレイクイーブンまで持ってきたことがわかるじゃん？

だいたい債務超過や在庫の棚卸資産化とかまるでアンチの受け売りじゃん。

売上と純資産の数字を見ればこの程度の債務超過の規模はハッキリ言って大した事がない。
また頻繁な本体モデルチェンジや北米での市場在庫ひっ迫の報など
昨今の情勢で在庫を資産にどうのこうのだからってのも無理がある。

801:Socket774
10/04/08 22:48:37 CLAxXYv0
>>798
だいたいSCEの決算といった場合に棚卸資産がそちらには反映されないと考える方がおかしい

802:MACオタ
10/04/08 22:54:24 e+L2hcR4
PS3と言えば、Geoge Hotz が "OtherOS" 復活版 firmware の開発に成功したようです。
URLﾘﾝｸ(geohotps3.blogspot.com)
URLﾘﾝｸ(www.youtube.com)

803:Socket774
10/04/08 23:35:25 h7iiQJAx
Cellの話するならともかくSCEの赤字額がどうCPUアーキテクチャに関わるのか教えて欲しいもんだ
このクソッタレ共、ゲハか最悪板でやれ

804:MACオタ＞803 さん
10/04/08 23:48:45 e+L2hcR4
>>803
　　-----------------
　　どうCPUアーキテクチャに関わるのか
　　-----------------
業績関係の資料は、製品計画や研究開発投資、契約関係の情報が入っているので、重要なソースになります。嘘書いたら違法ってレベルの信頼度ですから。

805:,,・´∀｀・,,）っ-○○○
10/04/08 23:57:01 urB6a2Po
連結子会社の帳簿なんていくらでも操作出来るぜ。
物理的に移動して無くてもSCE-ソニー本体間で取引したことにできるからな。

重要なのは「ソニーがゲーム事業を存続する価値があるかどうか」であって
赤字がどこの連結子会社あるいは本体が被っていようが連結実績は「大赤字」なのは
4年連続なにも変わってない

倒産しても債務は負いませんという意思すら感じるが

806:Socket774
10/04/09 01:03:24 QqSlppFW
また団子病か

807:Socket774
10/04/09 01:25:06 TUJvRC6/
PSを捨てるなんて絶対無いよ。
そりゃ赤字だけど数千万台売れるプラットフォームなんて他に無いでしょ。
ウォークマンやソニエリ携帯だけでAppleに対抗なんて不可能だよ。
ゲーム機だけなんだよ可能性があるのは。

808:Socket774
10/04/09 01:29:30 FwByYC2h
何で唐突にSCEの話を始めたんだろう。もしかして誤爆？

>>779を見た時はだんごさんが壊れてしまったのかと思ったよ。

809:Socket774
10/04/09 02:04:32 ZnEPoRxN
ゲハでやれ

810:Socket774
10/04/09 11:23:27 h7EW+l/g
盛　り　上　が　っ　て　ま　い　り　ま　し　た　！！

811:Socket774
10/04/09 16:12:10 hzyOo2OY
>>766
ARMアーキでLinuxを積んだ、本格的なネットPCやネットBookが出るのかなあ。

そうだとGoogleOSなGooglePCってのが出ても不思議は無さそうだよなあ。

812:Socket774
10/04/09 17:04:47 exz0YvEV
Googleは全都市規模の無料無線LAN環境の構築が先だろ

813:Socket774
10/04/09 20:02:29 tg3rVoT+
水を得たゲハコテ

814:Socket774
10/04/10 07:55:27 jfFKl7Qv
ああ屁ルミ　キミはどうして屁ルミなんだ

815:Socket774
10/04/11 06:42:46 /0ZuXJln
団子はプログラムを語ってればいいのに、「俺は何でも知っている」としゃしゃり出てくるから赤っ恥をかく事になる

816:Socket774
10/04/11 13:10:44 0OFh+S05
たかが掲示板のレス如きで恥を感じるような奴ならとっくの昔にここに来なくなってるだろうよ

817:,,・´∀｀・,,）っ-○○○
10/04/11 13:45:26 tO9vU4ZA
どっちが恥ずかしいのかの判別もできないからそんな馬鹿なことも言えるんだな

818:Socket774
10/04/11 13:45:56 ME0BGB06
それより最悪板以外でコテ叩きをすることに恥じ入ってもらいたいものだね

819:Socket774
10/04/11 13:52:18 LnnjZ9Y+
興奮すると連続で書き込んでしまう病

820:,,・´∀｀・,,）っ-○○○
10/04/11 13:56:09 tO9vU4ZA
さしずめお前は見えない敵と戦う病だな

821:,,・´∀｀・,,）っ-○○○
10/04/11 14:05:49 tO9vU4ZA
PS3 Owner Gets $100 Rebate for Losing Linux
URLﾘﾝｸ(www.tomshardware.com)

EUの消費者法違反だったらしいね。
身勝手な機能削減が結果的に損失うけることを馬鹿共に理解させただけでも小気味いい話だ。

822:Socket774
10/04/11 15:39:10 6LWeFiBr
そろそろ春休みはおしまいだっけ？

823:Socket774
10/04/11 18:29:17 OvBokQYs
団子は年中春だからなぁ…

824:MACオタ
10/04/11 19:43:11 zqDDguT3
3月半ばにスイスのHPC関係のワークショップの講演のIBMのプレゼンです。
URLﾘﾝｸ(www.hpcadvisorycouncil.com)
p.15 に POWER7 の FPU/VSX 周辺の詳細ブロック図があります。
　- VSX レジスタの物理レジスタ数は 344 個
　- 2個のVector Unit は機能が異なる。
　　　pipeline0 はスカラFPU VSX, Altivec VPU
　　　pipeline1 はスカラFPU, VSX Altivec VPERM, DFP
　- POWER4-POWER6以来、伝統的に高クロック動作のため
　　にパイプラインごとにレジスタが独立していたが、単一の
　　VRFを"Bypass"機構経由でアクセスする模様。

見たところ、IBM Journal of R&D の論文用の図と思われますので、近いうちにPOWER7特集号が出るのではないでしょうか？

825:MACオタ＠補足
10/04/11 22:00:16 zqDDguT3
ちなみに VRF の構造の話は、>>531 の情報と異なるようで…
POWER7アーキテクチャの論文の公開が待たれます。

826:Socket774
10/04/12 01:21:41 7jl6Z+mU
>>817
「ゲハでやれ」っていうのが理解できないお前も馬鹿なのは理解出来た

827:Socket774
10/04/14 23:58:16 ttJvNLmo
>>773
A4は携帯機器にしては珍しくメモリバスを64bitにして帯域稼いでるそうだから
そこで差が付いてるというのはありそうだ

ただ、画面サイズをあれだけ大きくしておいてiPhone3GSと同じ256MBってのはないわー

828:Socket774
10/04/15 00:24:12 gXSndMka
>>827
> A4は携帯機器にしては珍しくメモリバスを64bitにして帯域稼いでるそうだから
消費電力が厳しそうだな。

829:MACオタ
10/04/16 21:34:52 xAp7NVrJ
色々紹介する内容が溜まっているのですが、XILINXのプレスリリースから。
URLﾘﾝｸ(press.xilinx.com)
　　--------------------
　　Xilinx, Inc. (Nasdaq: XLNX), the world's leading provider of programmable solutions, is applauded for its role in developing QPACE; a bespoke supercomputer developed to unlock the mysteries of Quantum Chromodynamics.
　　--------------------
ここでも>>336, >>631で紹介した PowerXCell 搭載のスーパーコンピュータ QPACE のインタコネクトチップに Virtex-5 が使用されたという発表です。
なぜこのタイミングなのか？という疑問もありますが…

830:MACオタ
10/04/16 21:48:13 xAp7NVrJ
POWER7搭載の Power 780 が 2-socket の TPC-C で新たな記録を打ち立てました。
URLﾘﾝｸ(www.tpc.org)
上位に丁度 POWER7, Magny-Cours, Nehalem-EP と 45nm 世代のプロセッサが並んでいます。

　IBM POWER7/4.14GHz, 8-core, 32-thread: 1,200,011 [TpmC], 0.69 [US$/TpmC]
　HP　Op6176SE/2.3GHz, 24-core, 24-thread: 705,652 [TpmC], 0.60 [US$/TpmC]
　HP　Xeon W5580/3.2GHz, 8-core, 16-thread: 661,475 [TpmC], 1.16 [US$/TpmC]
　HP　Xeon X5570/2.93GHz, 8-core, 16-thread: 631,766 [TpmC], 1.08 [US$/TpmC]

Magny-Coursの倍近い性能はともかく、AMD並みのコストパフォーマンスというのは驚異です。

831:Socket774
10/04/16 21:49:55 vemGmEK6
>>829
何故って…
決算発表が4/28に控えてるからじゃね?

832:MACオタ
10/04/16 22:18:24 xAp7NVrJ
>>758-760の続きですが、Nehalem-EXの真打 X7560/2.26GHz の SPEC CPU2006 の結果が追加しています。
CINT2006_rate と CFP2006_rate の結果の比較を更新しておきます。
■各種マルチコア・サーバープロセッサの CINT2006_rate
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　base　　　　　peak
POWER7/3.86GHz/2-socket/16-core/4-SMT　　　　586　　　　　　652
Nehalem-EX/2.26GHz/2-socket/16-core/2-SMT　　362　　　　　　387
Westmere-EP/3.33GHz/2-socket/12-core/2-SMT　355　　　　　　378
Shanghai/2.6GHz/4-socket/24-core/noSMT　　　　　313　　　　　　400
Magny-Cours/2.3GHz/2-socket/24-core/noSMT　　309　　　　　　398
Westmere-EP/3.47GHz/2-socket/8-core/2-SMT　　286　　　　　　302

■各種マルチコア・サーバープロセッサの CFP2006_rate
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　base　　　　　peak
POWER7/3.86GHz/2-socket/16-core/4-SMT　　　　531　　　　　　586
Magny-Cours/2.3GHz/2-socket/24-core/noSMT　　290　　　　　　318
Nehalem-EX/2.26GHz/2-socket/16-core/2-SMT　　274　　　　　　283
Shanghai/2.6GHz/4-socket/24-core/noSMT　　　　　251　　　　　　276
Westmere-EP/3.33GHz/2-socket/12-core/2-SMT　248　　　　　　257
Westmere-EP/3.47GHz/2-socket/8-core/2-SMT　　214　　　　　　222

参照: Nehalem-EX/2.26GHz/2-socket/16-core/2-SMT
　CINT2006_rate: URLﾘﾝｸ(www.spec.org)
　CFP2006_rate: URLﾘﾝｸ(www.spec.org)

833:MACオタ@続き
10/04/16 22:26:17 xAp7NVrJ
IBMは Nehalem-EX の CINT/CFP2006 の結果も登録しています。
自動並列化のためにコア性能を直接比較することはできませんが参考まで。
■ CINT2006 (base/peak)
　Xeon X7560/2.26GHz, 4-socket: 29.1 / 32.6
　URLﾘﾝｸ(www.spec.org)
　Xeon X7560/2.26Ghz, 2-socket: 28.8 / 32.1
　URLﾘﾝｸ(www.spec.org)
■ CFP2006 (base/peak)
　Xeon X7560/2.26GHz, 4-socket: 35.1 / 38.6
　URLﾘﾝｸ(www.spec.org)
　Xeon X7560/2.26Ghz, 2-socket: 34.7 / 36.8
　URLﾘﾝｸ(www.spec.org)

834:MACオタ
10/04/16 22:41:03 xAp7NVrJ
最後は POWER7 搭載の BladeCenter 発表の話題。
URLﾘﾝｸ(www-06.ibm.com)
　　-----------------
　　[ POWER7搭載ブレード・サーバー ]
　　（1） BladeCenter PS700
　　　　・CPU：動作周波数 3.0 GHz、コア数4コア
　　　　・メモリー： 8GB～64GB
　　　　・最小構成価格（税別）： 928,100円
　　　　・出荷開始日： 6月4日
　　　　・保守サポート： 3年保証
　　（2） BladeCenter PS701
　　　　・CPU：動作周波数 3.0 GHz、コア数8コア
　　　　・メモリー： 16GB～128GB
　　　　・最小構成価格（税別）： 1,264,300円
　　　　・出荷開始日： 6月4日
　　　　・保守サポート： 3年保証
　　（3） BladeCenter PS702
　　　　・CPU：動作周波数 3.0 GHz、コア数16コア
　　　　・メモリー： 32GB～256GB
　　　　・最小構成価格（税別）： 2,528,800円
　　　　・出荷開始日： 6月4日
　　　　・保守サポート： 3年保証
　　-----------------
シングルソケット, 4-core モデルは100万切ってます。
公開された性能は、この辺をどうぞ。
URLﾘﾝｸ(www-03.ibm.com)
システムの構成は Redbook に詳細があります。
URLﾘﾝｸ(www.redbooks.ibm.com)

835:Socket774
10/04/17 03:46:18 JbDK5X7Y
==最速レース===
１．Oracle Database 10G Enterprise Edition 824,164tpmC 8.28 US $(2003/07/30)
２．IBM DB2 UDB 8.1 　　　763,898tpmC 8.31 US $(2003/06/30)
３．Microsoft SQL Server 2000 Enterprise Ed. 64-bit 707,102tpmC 14.96 US $(2003/05/20)

==コストパフォーマンスレース===
１．Microsoft SQL Server 2000 Standard Ed.　 20,108tpmC 2.28 US $(2003/07/14)
２．Microsoft SQL Server 2000 　　　　　　　　 19,526tpmC 2.38 US $(2003/05/12)
３．Microsoft SQL Server 2000 Standard Ed. SP3 19,718tpmC 2.44 US $(2003/07/15)

836:MACオタ
10/04/17 13:33:27 mhZut3dm
AppleInsider が Apple が AMD とプロセッサ採用について話し合いを行っているらしいという話を伝えています。
URLﾘﾝｸ(www.appleinsider.com)
時々出る噂ですが、今回はちょっと面白いタイミングかと思うので、AMD次世代スレッドに感想を書いています。
ｽﾚﾘﾝｸ(jisaku板:173番)
Apple は各社の秘密のロードマップを元に次世代の採用計画を立てられる立場にありますから、Apple の選択には注目かと。Intel 劣勢だった Netburst の時代に PPC -> Intel へのスイッチを発表したことは思い出すべきでしょう。

837:Socket774
10/04/17 13:49:02 2Xgwo4Ii
>>836
＞Intel 劣勢だった Netburst の時代に PPC -> Intel へのスイッチを発表したことは思い出すべきでしょう。
いやいやいや、その発表する時は既にCore2の話題があったはずだよ。
x86にしろARMにしろ、CPU界への影響がかなり大きな会社になったのは確かだと思うけどね。

838:,,・´∀｀・,,）っ-○○○
10/04/17 14:02:16 w3NivDY2
ノートは「Pentium Mの時代」なんだけどな。
PowerBookのハイエンドが1.5GHzとかじゃとても信者だって騙しきれないよ。

まあPWRficientがもう少し早く出てればまた事情は変わったかもしれん。

839:Socket774
10/04/17 14:36:45 K/+4GiOC
>>836
> Intel 劣勢だった Netburst の時代に PPC -> Intel へのスイッチを発表したことは思い出すべきでしょう。
PPCに関してIBMから三行半を突きつけられたから。
単に金の問題。

840:Socket774
10/04/17 15:06:34 RCxuepwE
>>839
逆だろ。
現状を見てもCoreに勝る電力効率のCPUをIBMが作るとは考えにくい。

841:,,・´∀｀・,,）っ-○○○
10/04/17 15:58:32 w3NivDY2
そうそうにPPC970ワークステーション撤退してXeonに移行したからな。
PPC980の計画だってあったのにコストメリットを支えてくれるAppleに逃げられて頓挫。

842:Socket774
10/04/17 23:03:54 h4susa1a
>>836
ローエンドの利幅を増やす為だけに採用するだけじゃねーの？
供給問題ならAMDの方が心配だし、先日に出たノートのローエンドは、わざわざ新チップセットまで作って製造コストを下げようとしている。

843:MACオタ
10/04/17 23:30:14 mhZut3dm
安藤氏の今日の更新はCool Chips XIII レポート。
URLﾘﾝｸ(www.geocities.jp)
　　----------------------
　　Trenchキャパシタは直列抵抗も大きいようで，高速バイパス用に通常のゲート絶縁膜を使うキャパシタも配置しているとのことでした。
　　----------------------
将来的にはSOIを生かしたFBCに向かう様で…

844:MACオタ
10/04/18 17:26:36 mmSWz0XC
何度か紹介した QPACE と同様に、欧州のスーパーコンピュータ共同利用プロジェクト PRACE の下でスウェーデンの国立計算機センター(SNIC)と王立工科大学(KTH)の共同で Super● の4Pブレードサーバーと Opteron のシステムを試作しています。
この成果をまとめたプレゼンが、結構面白かったので紹介しておきます。
URLﾘﾝｸ(www.prace-project.eu)
基本的な目標は『汎用パーツで Blue Gene/P 並みの電力効率』ということで、HPCクラスタでは一般的な2Pマザー + 高速x86の組み合わせの代わりに4-socketブレードに ATP 55W の Istanbul/2.1-2.2GHz の Opteron 84xx を使用しています。
　・マザーボードは Infiniband QDR 搭載でディスクレス
　・7U筐体に10枚のブレード、空冷
　・Infiniband スイッチはブレード筐体内蔵
　・メモリも Elpida, Hynix, Micron, Samsung で消費電力と性能のベンチマークを収集して Hynix を採用
　・1,440 core, ～28kW (HPL実行時), 12.1 TFlops
　・床面積あたりの消費電力で 43.6 kW/m^2 (BG/P はおよそ 45.6 kW/m^2)
　・電力効率は 343.91 MFlops/W (BG/P は 357.14 - 371.67 MFlops/W)
　・MD (Gromacs) では BG/P の3.9倍の電力効率を達成

Magny-Cours でこの手のシステムは値段コア数2倍になる訳で、我国の国家プロジェクトを含む専用プロセッサによる HPC はいったいどうなることやら…
参考までに Super● から出ている広報資料も書いておきます。
URLﾘﾝｸ(www.supermicro.com)

845:MACオタ＠訂正
10/04/18 17:29:42 mmSWz0XC
上のカキコミちょっと訂正。
　誤) Magny-Cours でこの手のシステムは値段コア数2倍になる訳で、
　正) Magny-Cours でこの手のシステムは値段半額コア数2倍になる訳で、

846:MACオタ
10/04/18 20:10:45 mmSWz0XC
昨年12/10に開催されたPCクラスタコンソシアムの第九回クラスタシンポジウムの資料が公開されていますが、ところどころ面白いところがあります。
URLﾘﾝｸ(www.pccluster.org)
・Intel URLﾘﾝｸ(www.pccluster.org)
　(P. 33)
　　----------------------
　　- グラフィックまたはスループット計算の評価用プロセッサとしてLRBも登場予定です
　　----------------------
・AMD URLﾘﾝｸ(www.pccluster.org)
　(P.56-61) プローブフィルタの詳細
　(P.68) HT Assist の効果 4Pシステムの Stream Benchmark で約60%の向上
・日立 URLﾘﾝｸ(www.pccluster.org)
　(P.16-24) GPGPU の評価