CPUアーキテクチャについて語れ Part.13

CPUアーキテクチャについて語れ Part.13at JISAKU

CPUアーキテクチャについて語れ Part.13 - 暇つぶし2ch588:,,・´∀｀・,,）っ-○◎●
08/11/26 20:55:06 GrKYm10I
はぁー

Skyfireってさ、
サーバサイドで前処理して携帯の画面表示用に表示データを落とし込むソフト連携型の「Webサービス」だよ。
Atomを蹴散らせせるほどの顧客を抱え込むことが出来るサービスとはとても思えない。
たとえばだけど、HTMLはテキストの解析からやらないといけないけど、DOMの構造をサーバ側で解析して
構造化されたバイナリデータにして送ればクライアント側のCPU負荷はそんなに少ないわけだ。
で、これが月額いくらとかだろこれ。

この手のよくある　株式会社＜商標名＞の新興企業の作るものって掲げるものは立派なんだけど
いざ実物が出てみるとメッキが剥がれて終了か、いつの間にか会社がなくなってたり
するパターンが多いんだけどあてになるの？

MSもコレと似たDeepfishなるWebブラウザ開発してるけど、MSのWebサービス部門は数年連続赤字だ。

589:Socket774
08/11/26 21:20:40 YpWkD+4P
まあモバイル機器はブラウザさえまともに動けば問題ないもんなー
JavascriptのJITの最適化がし易いアーキが勝利じゃね？

590:,,・´∀｀・,,）っ-○◎●
08/11/26 21:39:13 GrKYm10I
Firefox 3.1 TraceMonkey凄いな。ChromeのV8より速いぜ。
nanojitっていうらしいが

URLﾘﾝｸ(hg.mozilla.org)
やってることはV8と同じ。
V8はAMD64には対応してないがこっちは対応してる。

例によってベクトル化は難しいようだね
インタプリタ実行がネイティブコード実行になるだけでもJITのオーバーヘッド加味しても効果はある。

591:MACオタ＞皆さん
08/11/26 22:13:01 Ix4vgDrA
>>567-590
えっとモノ知らずのヒトに釣られているみたいすけど、基本的に機械制御等の多くの組込
分野わ『ホンモノ』の並列プロセスの世界す。
単一のプロセッサをOSがあたかも複数のプロセッサがあるように見せかけているPCと
異なって、本当に沢山のコントローラが並列動作しているすけど。。。

592:,,・´∀｀・,,）っ-○◎●
08/11/26 22:14:25 GrKYm10I
ｳﾞｧｶだねぇそれ言ったらPCのほうがより多くのプロセッサが走ってるよ

593:Socket774
08/11/26 22:16:05 rSn4HXd1
だから汎用プロセッサのコア数について話してんだって

594:MACオタ
08/11/26 22:19:37 Ix4vgDrA
UMCが45nm HKMGプロセスの検証を終了したとのことす。
URLﾘﾝｸ(www.eetimes.com)
　　-----------------
　　United Microelectronics Corp. has validated its high-k metal gate process with a test
　　SRAM design run at the 45nm node. The move is a step toward the company's goal of
　　offering a high-k process at the 32nm node in 2010.
　　-----------------
量産わ32nm世代からとのことす。

595:Socket774
08/11/27 00:26:30 UDYeb10r
一口に組み込みといっても、クルマのように百単位のものからリモコンのような1個のみまであってだな・・・

596:,,・´∀｀・,,）っ-○◎●
08/11/27 00:31:47 KVJ1xHPt
複数の専用プロセッサを使うことになると言ってもモジュール毎に開発グループが違うからな。
汎用コア複数だと1グループで複数のCPUをどう使うか考えないといけない。

597:Socket774
08/11/27 02:11:07 nKqRBMOg
>>588
Deepfishは死にました。

598:Socket774
08/11/27 09:50:23 zKZWX/Ru
>>596
> 複数の専用プロセッサを使うことになると言ってもモジュール毎に開発グループが違うからな。
> 汎用コア複数だと1グループで複数のCPUをどう使うか考えないといけない。

(μITRONでいう)タスク分割は組み込みの基本ですがな。
スケジューラも一般に単純だからタイムスライスでラウンドロビンなPCより
注意深く設計しないといけないよ。

599:Socket774
08/11/27 10:32:33 ai9eq4VQ
東京工業大学が世界初の大規模GPGPUコンピューティング基盤を大規模スーパコンピュータ基盤TSUBAME上に実現
URLﾘﾝｸ(www.gsic.titech.ac.jp)

らしいです
既出ですっけ？

600:Socket774
08/11/27 15:34:38 pR59hlz2
>>599
10TFも実効性能上がらなかったんだな。実効効率50%切っている。
4種類のプロセッサを協調させるのは容易ではないんだな。
京速計算機はスカラベクトル混合になるらしいけど大丈夫なんだろうか？
Linpackでも効率出にくいのに実際のアプリケーションで連携させるとなると
更に難しい気がしてしまう。

601:Socket774
08/11/28 18:16:29 ru5uBaGs
そんなことよりこいつを見てくれ。こいつをどう思う？
URLﾘﾝｸ(www.intellasys.net)

602:Socket774
08/11/28 18:36:32 uNC6M+w3
メモリスタ、来まスタ。

HP社、3次元構造のメモリスタ・チップを発表（2008/11/28）
URLﾘﾝｸ(eetimes.jp)

603:Socket774
08/11/28 18:43:34 CWy3yUzV
>>601
非同期型というのは珍しいと思う
forthチップは昔から根強い人気
ゼロサイクル通信萌え

604:Socket774
08/11/29 18:39:42 +8kVxKbM
>>600
京速のベクトル部は飾りです
偉い人にはそれがわからんのです

605:MACオタ
08/11/29 21:07:08 /fC9cO28
ベクトルと言えば、牧野教授がSX9について語っているす。
URLﾘﾝｸ(www.artcompsci.org)
　　------------------
　　これを x86 PC と比べると、例えば Opteron で DDR2-800 2チャネルだと理論値は1ソケット
　　12.8GB/s ですが実力はまあ 7GB/s くらい、これが Core 2 になると同じ理論値で実力は
　　5GB/s 程度まで低下します。
　　これは面白い状況で、 x86 並列機をソケット 100万で買うとメモリバンド幅 1GB/s 当りのコスト
　　は 14-20万円ですが、 SX9 が1ノード2億円だとすると (地球シミュレータセンターの買い値は
　　もうちょっと安いです)1GB/s 当りの価格は7万円となって、大きな差があるわけです。
　　------------------
安易にベクトル機を叩くヒトもモノ知らずに過ぎないらしい。。。ということで。
その他面白いコメントわ、こんな感じす。
　　-------------------
　　　1年前の議論で若干問題だったのは、 x86 のメモリバンド幅を理論ピーク値で評価している
　　ことです。Opteron (少なくとも 1ソケットや2ソケットなら)はまあ実力がピーク 6-7割がでるの
　　でそれほど大きな乖離はないのですが、 Core 2 は4割くらいしかでないので結 2.5倍の差に
　　なり、2倍程度の差を議論している時には結論が変わってきます。
　　　これは、HPC でベクタ向けに書かれたアプリケーションだと、Opteron のほうが Core 2 より
　　も速いこともある、ということでもあります。
　　-------------------
同時期に設計されたプロセッサにわ、優劣わ無く向き不向きがあるだけという普通の話かと。

606:Socket774
08/11/29 21:29:49 H1hlms5v
MACヲタﾀﾀﾀﾀﾀｱｱｱｧｧｧｧ...

607:MACオタ＠補足
08/11/29 21:37:11 /fC9cO28
参考までに今回、牧野教授がやっていたSTREAM Benchmarkの最新x86プロセッサによる結果す。
URLﾘﾝｸ(www.amd.com)

608:Socket774
08/11/29 21:39:17 Ila9AF2M
>>607
そこにNehalemも載せると楽しいだろうな

609:Socket774
08/11/29 22:08:58 /1+RhT2L
>>608
リンク先読めばわかるが、

もちろん、来月になって Nehalem がでてくるとメモリバンド幅の実力が Core 2 に比べて
3倍程度になるようなので、SX9 と同等になり、メモリバンド幅当りのコストとしては地球
シミュレータ当時と同様に x86 ベースの高い計算機とベクトル機で同等、 x86 で安く上げる
ことができれば1桁良い、ということになります。

とも言ってるぞ。

610:MACオタ＞608 さん
08/11/29 22:26:15 /fC9cO28
>>608
　　-----------------
　　そこにNehalemも載せると楽しいだろうな
　　-----------------
Intelによる準公式の数値わ、下記の通りす。
URLﾘﾝｸ(journal.mycom.co.jp)
　　==================
　　Stream Benchmarkで測定したメモリバンド幅は、現状のCore 2プロセサであるHarpertown
　　では、クロック3.0GHz、FSB 1600MHzのチップに800MHzのDDR2メモリをつけた場合は
　　約9.8GB/sであるが、2.66GHzクロックのNehalemに 1066MHzのDDR3メモリを接続した場合
　　は33.4GB/sと3.4倍の向上を示している。
　　==================

611:Socket774
08/11/30 00:21:48 f0SaP70u
>33.4GB/sと
3ch DDR3 1066MHzの理論地より増えているんだが

612:MACオタ＞611 さん
08/11/30 00:37:45 Cnm2ifs0
>>611
2-socketシステムでの値だと思われるす。

613:Socket774
08/11/30 03:48:46 iFAksI9b
大規模共有メモリがSXの大きな利点かと思っていたけど、
同程度のコストパフォーマンスなら楽できるSXの方が選ばれるだろうから
メモリバンド幅が壁になる分野ではマルチノードシステムも有用なんだな。

614:Socket774
08/11/30 10:40:36 BSLQ9HBk
似たような理由で、東大の情報基盤センターでも
ピーク性能が圧倒的に高いT2Kよりメモリバンド幅重視&大規模SMPのSR11000の方が
遥かに重用されてるらしい

LINPACKは通信量のオーダが計算量に比べて低いので、飾りにしかならないんだと

615:MACオタ＞614 さん
08/11/30 13:45:17 Cnm2ifs0
>>614
それ、大学の計算機センターという利用形態のために複数ノードをまたぐような並列化アプリが
少ないというだけでわ？
箱の中だけで完結する並列化しか行っていない場合わ、当たり前だと思うす。

おそらくT2K仕様も、スーパーコンピュータとしてのコストパファーマンスの悪い4-socketノードを
選択したのも、同様の事情を考慮したものと思われるす。

616:MACオタ
08/11/30 16:54:09 Cnm2ifs0
なんとなく牧野教授の『スーパーコンピューティングの将来』シリーズの過去記事を読み直して
いたすけど、半年前のRoadrunnerの1PFlops越えについて、こんなこと書いているす。
URLﾘﾝｸ(www.artcompsci.org)
　　-----------------------
　　とはいえ、やはり、ボード 4 枚も使って CELL 4 チップ、400Gflops というのは、Opteron
　　とか Xeon だけのとどれくらい違うの？というのは非常に微妙なところでしょう。同じボード
　　4枚構成で、Quad Core Xeon E5450 が載った IBM HS21 を使えばほぼ同じ性能が消費
　　電力も大きな差なしで実現できそうだからです。
　　-----------------------
今回のTop500で示された現実わ、下記の通りす。
　- x86 (K10/2.3GHz):　　　1.059 PFlops, 6.95MW, 444.9 MFlops/W
　- Cell (PowerXCell 8i):　 1.105 PFlops, 2.48MW, 152.4 MFlops/W
URLﾘﾝｸ(www.top500.org)
URLﾘﾝｸ(www.green500.org)

617:Socket774
08/11/30 17:16:06 HaHh9MQf
MACヲタタタタタタタタｱｱｱｱｱｱｱｱｱｱｱｱｱｧｧｧｧ……

618:Socket774
08/12/01 00:08:18 ZWHFUNmr
算数が出来ないMACオタ

619:MACオタ＠訂正
08/12/01 05:16:22 IovCRttr
>>616わ電力効率が上下ひっくり返っていたす。
　誤)
　　- x86 (K10/2.3GHz):　　　1.059 PFlops, 6.95MW, 444.9 MFlops/W
　　- Cell (PowerXCell 8i):　 1.105 PFlops, 2.48MW, 152.4 MFlops/W
　正)
　　- x86 (K10/2.3GHz):　　　1.059 PFlops, 6.95MW, 152.4 MFlops/W
　　- Cell (PowerXCell 8i):　 1.105 PFlops, 2.48MW, 444.9 MFlops/W

620:Socket774
08/12/01 07:23:45 iuMrr0Pa
だが情報収集だけなら人一倍だぞ

621:Socket774
08/12/03 11:06:55 7jOTbXW8
東工大、世界初のGPU採用スパコンに進化した「TSUBAME 1.2」を解説
～NVIDIA CEOフアン氏は特別講演を実施
URLﾘﾝｸ(pc.watch.impress.co.jp)

622:MACオタ
08/12/03 22:12:02 Rm/iubZB
量子色力学計算用の専用システムQCDOCがBlue Geneの先祖だったことを知っている方も
多いと思うすけど、PowerXCellをコアにした専用システム"QPACE"を紹介するす。
今回もIBMがスポンサーになっているすから、次世代Blue Geneわ似たようなモノになる可能性
もあるす。
URLﾘﾝｸ(www.itwm.fhg.de)(Dirk_Pleiter_-_Desy).pdf

623:Socket774
08/12/04 21:33:34 xGCfhHhW
４８時間以内に退職を選ばないと解雇する
正社員削減「このままだと自殺者」
URLﾘﾝｸ(www.asahi.com)

624:Socket774
08/12/05 00:26:27 aV6EPLQ5
>>622
これQCDOCに比べてあまりQCD計算専用と言えるような作りではないよね？
LS増やすかeDRAM付けるとか、そういうのはお金掛かるからダメなのかな。

625:Socket774
08/12/05 01:44:58 CILxL403
QCD専用機ｲﾗﾈ
理由：役に立たないから

626:Socket774
08/12/05 05:58:46 kT2GZMb3
QCDなんぞGPGPUでいいわ！
んじゃ次世代BlueGeneって何よ…
それこそTSUBAMEライクになるんか？

627:Socket774
08/12/05 15:51:16 f4SfpQjQ
日本IBM「加藤候補を3000人創出します」
ｽﾚﾘﾝｸ(news板)

628:Socket774
08/12/06 02:41:11 AmeHS/F+
>同労組には、これまでに７０～８０件の相談が寄せられているという。
_~~~~~~~
ほっとけつーのｗこういう和田岩。本質に関係ないから。