10/02/08 10:48:31 8s5N9LAv
URLリンク(www.yusuke-ohara.com)
>iPadにP.A.Semiの技術が...という論調を目にするけれど、私が知る限りにおいてP.A.Semiの部隊は四散してしまった筈。
530:MACオタ
10/02/08 20:33:19 i2j+4fL+
ISSCCを前に、色々情報が出てきています。
まず、発表を目前に控えたPOWER7搭載サーバーの話題。
URLリンク(www.theregister.co.uk)
URLリンク(www.theregister.co.uk)
- Power 750 (Power 550 後継)
- Power 755 (HPC向け)
- Power 770, 780
- 3 GHz, 3.3 GHz, 3.5 GHz, 3.55 GHz, 3.8 GHz, and 4.1 GHz。最高 4.5GHz?
- 4.1GHz は Power 780 の "TurboCore" モード (4-coreのみ有効でOC)
531:MACオタ
10/02/08 20:54:57 i2j+4fL+
RealWorldTech の David Kanter 氏が掲示板に POWER7 講演の詳細を投稿していました。
URLリンク(www.realworldtech.com)
- L1D のレイテンシは 2-cycle (POWER6は4-cycle)
- L1のSRAMセルは、0.426um^2。6T構造
- "Fast Local L3" の load-to-use レイテンシは 25-cycle。SRAM を採用した場合より
3-cycle 程度のペナルティはある。(>>316参照)
- L3 の動作クロックはコアの1/2
- L2のレイテンシは 8~9-cylcle
- L3 全体のレイテンシは 75-cycle 程度
- 2つの整数および4つ?の浮動小数点パイプラインごとに独立したレジスタファイルを持つ
532:MACオタ@訂正
10/02/08 21:00:49 i2j+4fL+
上の話ですが、講演はまだ始まっていないので、予稿集の情報だと思われます。
533:Socket774
10/02/08 21:25:01 fymYUEha
Fast Local L3、コヒーレンシ取らない占有領域として使うんですかLSみたいに
534:MACオタ>533 さん
10/02/08 21:31:26 i2j+4fL+
>>533
>>316のプレゼン資料を見れば判りますが、コヒーレンシは維持されます。
---------------------
- Automatically clones shared data to multiple private regions.
---------------------
535:Socket774
10/02/08 21:46:24 fymYUEha
Power7の最大の売りは何ですか?
536:MACオタ
10/02/08 22:00:58 i2j+4fL+
先週のニュースらしいですが、POWER7で浮かれるIBMの East Fishkill 工場で
飲料水に大量の鉛が含まれていることがバレたそうで…
URLリンク(www.poughkeepsiejournal.com)
----------------------
WICCOPEE ― Too-high levels of lead have been found in drinking water at
IBM Corp.’s East Fishkill complex, prompting the company to provide alternate
sources of water.
----------------------
流石、工場労働者なんて人とも思わない守銭奴IBMらしい所業ですね。
537:Socket774
10/02/08 22:17:56 fymYUEha
>>536
Power7の最大の売りは何か答えてよ?
538:MACオタ>537 さん
10/02/08 22:25:42 i2j+4fL+
>>537
-----------------
Power7の最大の売りは何か答えてよ?
-----------------
そういうことはIBMの営業に電話すれば良いのでは?
539:Socket774
10/02/08 22:28:01 fymYUEha
>>538
さんざんコピペしてるくせに、答えられないのかよ
540:MACオタ
10/02/08 22:39:52 i2j+4fL+
POWER7のベンチマーク結果も出てきました。
まずは SAP SD (Standard) URLリンク(www.sap.com)
- SPARC64 VII/2.88GHz (32-chip/128-core): 17,430 [users]
- POWER7/3.55GHz (4-chip/32-core): 15,600 [users]
- POWER6/4.2GHz (16-chip/32-core): 14,432 [users]
- Itanium2/1.6GHz (32-chip/64-core): 12,500 [users]
- Tigerton Xeon/2.93GHz (16-chip/64-core): 10,600 [users]
- Istanbul Opteron/2.6GHz (8-chip/48-core): 10,000 [users]
541:Socket774
10/02/08 23:37:37 zSjOHSur
性能ぶっ千切りだな
542:Socket774
10/02/08 23:46:50 h/Ciw5Ft
お値段の方もブッチギリです
543:MACオタ
10/02/09 05:41:31 wiDvnLYd
IBMのプレスリリース来ました。>>535さんご希望の『売り文句』も書いてありますよ。
URLリンク(www-03.ibm.com)
FUDの元祖IBMとは思えないほど発表から販売開始までの時間は短く、一部機種は
2月半ばに販売するとのこと。
- Power 750 Express, Power 755: 2/19
- Power 770, Power 780: 3/16
ベンチマークをまとめたSystems Performance Report はこちら。
URLリンク(www-03.ibm.com)
SPEC2006_rate, SPECjbb, 前述の SAP SD 2-Tiers, Oracle eBS Benchmark,
LINPACK HPC, STREAM, NAMD, SPEC OMP2001 の結果があります。
544:MACオタ
10/02/09 06:16:24 wiDvnLYd
IntelのTukwila発表も来ました。Itenium 9300シリーズとのこと。
URLリンク(www.intel.com)
----------------
The Intel Itanium processor 9300 series ranges in price from $946 to $3,838 in
quantities of 1,000. OEM systems are expected to ship within 90 days.
----------------
搭載製品の同時発表とはいかなかったようで…
なお、製品ラインは下記の通り。
URLリンク(download.intel.com)
9350: 4-core, 1.73GHz, 24MB L3
9340: 4-core, 1.60GHz, 20MB L3
9330: 4-core, 1.46GHz, 20MB L3
9320: 4-core, 1.33GHz, 16MB L3
9310: 2-core, 1.60GHz, 10MB L3
その他、注目点はこんなものでしょうか?
- 既報通り、Neahlem-EPとはプラットフォーム共通化が図られているとのこと。
"share several platform ingredients, including the Intel(R) QuickPath Interconnect,
the Intel Scalable Memory Interconnect, the Intel(R) 7500 Scalable Memory Buffer
(to take advantage of industry standard DDR3 memory), and I/O hub (Intel(R)
7500 chipset). "
- "Foxton" Technology はNehalenと共通のブランド"Intel Turbo Boost Technology"
になった模様。
545:Socket774
10/02/09 06:23:21 7vLXVre+
>Intel 7500 Scalable Memory Buffer
ここだけ興味がある
他はもうガイシュツネタばっかだろ
546:Socket774
10/02/09 17:22:43 oVTzk6E5
URLリンク(pc.watch.impress.co.jp)
547:MACオタ
10/02/09 23:02:45 wiDvnLYd
当然のごとく今日も色々。
まず国内でのPOWER7搭載サーバーの発表。
URLリンク(www-06.ibm.com)
URLリンク(enterprise.watch.impress.co.jp)
個人的な注目はパッケージの写真です。
URLリンク(enterprise.watch.impress.co.jp)
今回発表されたミッドレンジサーバーに搭載されているのは、この中で「セラミック・
モジュール」のチップと思われます。真ん中の「オーガニック・モジュール」(要するに
プラスチックパッケージ)のチップはBladeCenter等に使用される筈です。
BladeCenter や IntelliStation POWER がどういった価格帯で登場するかが楽しみかと。
電力効率のスライドも、サーバー製品の消費電力が公開されたという点で興味深いかと
思われます。
URLリンク(enterprise.watch.impress.co.jp)
ちなみに POWER System サーバー (旧 pSeries) で用いられる性能指標 rPerf の
解説はこちら。
URLリンク(www-03.ibm.com)
548:MACオタ
10/02/09 23:11:42 wiDvnLYd
"Wire-Speed POWER" (>>318-329 参照)講演のレポートが EETimesに来てます。
URLリンク(www.eetimes.com)
用途に関しては、色々含みを込めているよう感があります。
--------------------
"It's not a network processor or a server processor but a middle ground, a blurring
of the two worlds," Johnson said.
The chips will be used in a range of standalone systems and PCI Express adapter
cards in servers. It is mainly designed for use in IBM's own systems, however the
company is willing to sell it on a merchant basis as well.
--------------------
正直、『サーバープロセッサと(組込向け)ネットワークプロセッサの中間的存在』って
デスクトッププロセッサのことでは? かつての PowerPC G3/G4 の様な。
含みを持たせていると言えば、記事の最後がこう締めくくられています。
--------------------
Johnson was chief architect of IBM's Power4 processor. He also designed IBM's
portion of the processor in the Microsoft Xbox 3609 [MACオタ注: Xbox 360の誤植
でしょう] videogame console.
--------------------
単に PX/PPE と同じグループが開発したと言いたいのかどうか…
549:MACオタ@続き
10/02/09 23:27:33 wiDvnLYd
話の順序が逆になりましたが、記事中に含まれる新情報は下記の通り。
- 64-bit
- 16-core, 1.43B Transistors, 428mm^2 (POWER7は 1.2B Transistors, 567mm^2)
- 65W @ 16-core/2.3GHz, 20W @ 4-core/1.4GHz
- 16-core 版は 8MB 内蔵キャッシュサポート
- 10G Ethernet 4ポート内蔵
- XML, 正規表現処理, 暗号化アクセラレータ搭載
- グルーレスでSMP可能
- プロセッサ製品としてを外販予定
- 開発期間は5年
- Linux ハイパーバイザをサポート
- (製品版の?)テープアウトは一週間前。ファーストシリコンは2週間以内に
(既に製作済みの)搭載システムでテスト予定。
- ここでの議論と同様に、アナリストも用途に疑問を呈している。
----------------
"That's a huge chip, bigger than most of the PC and server processor Intel
makes and probably twice the size of many network processors out there,
so cost-wise it will be tough for them to be competitive," Gwennap said.
----------------
550:Socket774
10/02/09 23:27:49 sBXrnP6s
> デスクトッププロセッサのことでは?
ないない
551:Socket774
10/02/09 23:34:24 775lAe+4
> 『サーバープロセッサと(組込向け)ネットワークプロセッサの中間的存在』
こう↑言われると
旧P.A. SemiのPWRficientを連想してしまったんだが…
# あるいは,SunのNiagaraに近いかな?
552:Socket774
10/02/09 23:46:42 3UG+NB9t
Azulみたいなアクセラレータ的に使えそうだな
553:Socket774
10/02/10 00:29:16 gZDUJ9IR
MSと協議して、WindowsにPowerチップを対応してもらうようにすべきだな。
Xbox360にWindows派生のゲームOSが載っているから、
Windows for Power PCをつくるのも難しい話ではない。
554:Socket774
10/02/10 00:33:23 ubNaBToy
日本勢がんがれ
URLリンク(journal.mycom.co.jp)
555:Socket774
10/02/10 02:28:12 wB5XLdWt
以前発表されたRP2の改良型っぽいな。
556:Socket774
10/02/10 09:27:48 JuDALow/
>>553
おっと、NT4をディスるのはそこまでだ。
557:Socket774
10/02/10 14:08:32 wB5XLdWt
一応2000のRCまでAlpha版はあったんだよな。
558:Socket774
10/02/10 17:19:52 gZDUJ9IR
URLリンク(twitter.com)
東京の公共の場所では関西弁は法律で禁止すべきである。関西人はまともな世界では不良外国人。
559:MACオタ
10/02/10 20:51:21 ioIW7ln4
"Wire-Speed Power Processor" = PowerPC A2 の確定情報来ました。
正確には SOC 製品である Wire-Speed Power Processor の汎用プロセッサコアが
PPC A2 ということになります。
URLリンク(www.theregister.co.uk)
------------------
The processor's A2 cores are small, 64-bit PowerPC cores based on IBM's
embedded architecture - "a little bit different from our server architecture,"
said Johnson. Full vitualization and hypervisor support is also included, along
with some new instructions that allow for low-latency interaction with the
processors' accelerators.
------------------
その他、新情報は次の通り。
- 2.3GHz は電力効率が良い周波数というだけで、3GHz でも動作する。
- アクティブなコア数で消費電力は 20-65Wの範囲で変化する。平均的には 55W 程度。
560:MACオタ
10/02/10 21:01:09 ioIW7ln4
ところで前述の Wes Felter 氏 (>>452 参照)、ArsTechnica 掲示板でも A2 コアに
関して思わせぶりな投稿をしています。
URLリンク(episteme.arstechnica.com)
--------------------------
Originally posted by BadAndy:
Whatever it is, not hard to see cross-over from this thing into next-generation
game-console tech
Because games loooove low per-thread performance.
--------------------------
上に書いた3GHzで動作するという話も含めて、PX/PPE と A2 の関係は『何か』ありそうな
感じです。
561:MACオタ
10/02/10 21:45:05 ioIW7ln4
Sequoia (=Blue Gene/Q)の情報が少しだけ。
URLリンク(www.er.doe.gov)
P.13 にアルゴンヌ国立研究所の ALCF-2 の後継機 "Mira" について次のような
記述があります。
-----------------
Mira Blue Gene/Q System
・10 Pflop/speak
・~800K cores, 16 per chip
・~70PB disk, ~470 GB/sI/O bandwidth
・Power efficient, water cooled
-----------------
Sequoia のプロセッサに関しては 8-core説と16-core 説がありましたが、16-core で
確定ですね。
SIMDユニットも、3.2GHz/倍精度2並列説と1.6GHz/倍精度4並列 (or 倍精度2並列 x 2)説
がありましたが、16コアともなると1.6GHzで間違いないのではないでしょうか。
PPC470系コアと VSX x 2の"Double Hummer"後継 APU の可能性が高くなったかと。
562:Socket774
10/02/11 11:50:02 8a7XpUlw
PS4のCPUは普通のマルチコアCPUのプランが浮上してるってことだけど
"A2"を使ったマルチコアなのかな?
去年夏頃にIBMが"A2"を提案
↓
強い関心を持つが態度をはっきりさせないSCE
↓
痺れを切らすIBM、自社販売に旨味がない32ivを開発中止と意図的にリーク
↓
返事を迫られるSCE ←いまここ
563:Socket774
10/02/11 14:43:51 /EY2WhMq
SPE2の試作が行われたのは去年で
しかもFPGAベースのシミュレータを作成したのはSCEIらしいから
依頼してるにしてもPPE部分だけじゃないかね
564:MACオタ
10/02/11 14:58:28 GsEjP4NF
日経BPのISSCCレポートに"Wire-Speed Power"の追加情報がありました。
プロセッサコアのL2キャッシュがeDRAMなんだとか。
URLリンク(techon.nikkeibp.co.jp)
---------------------
Wire-Speed Power Processorでは,8MバイトのL2キャッシュに混載DRAMを
それぞれ使った。
混載DRAMのセル寸法は,0.067μm2である。Intel社のWestmereのL3キャッシュ
のSRAMのセル寸法は 32nm世代でも0.171μm2であることからも,面積密度が
非常に高いことが分かる。Wire-Speed Power Processorの発表では,SRAMに
比べて面積で2倍,消費電力で5倍以上よいと述べた。
---------------------
565:MACオタ>563 さん
10/02/11 15:00:28 GsEjP4NF
>>563
面白そうな話なので、ソースがあるならよろしくお願いします。
566:Socket774
10/02/11 15:27:55 Q6+4pX7+
性能とか信頼性はどうなんだろうね<eDRAM
567:MACオタ
10/02/11 15:35:35 GsEjP4NF
スーパーコンピューティングの話題を少しだけ。
Anton というMD専用計算機があります。SC09でゴードンベル特別賞を取ったとのこと。
URLリンク(journal.mycom.co.jp)
概要は牧野教授のサイトのこちら。
URLリンク(www.artcompsci.org)
技術的な話題は別にして、開発プロジェクトとして興味深い点がいくつか。
・私企業が開発している。
MYCOMの記事にはこうあります。
---------------------
D.E Shaw研究所はAntonと呼ぶ分子動力学(Molecular Dynamics:MD)計算専用
のスパコンを開発し、その最初のシステムでのシミュレーション結果を発表した。
[中略]
D.E.Shaw氏が創立したD.E.Shaw & Coは運用資産2.5兆円の世界最大規模の
ヘッジファンドであるが、現在は、Shaw氏はヘッジファンドの日常のマネジメントに
は携わらず、 D.E.Shaw Researchのチーフサイエンティストとして、MDのアルゴリ
ズムやAntonシステムの開発を行っているという。そして、同研究所の運用費用は
Shaw氏のポケットマネーで賄われていると言われている。
---------------------
・ハードウェア自体は…
一昨年の Hot Chips 20 でも講演が行われています。プレゼンはこちら。
URLリンク(www.hotchips.org)
P.30 に演算コアとなる ASIC の写真があります。
チップに記された製造国は… MBxxxというチップ名ですから京速のあの会社でしょうか。
568:Socket774
10/02/11 15:36:18 7fcMxBTe
>>565
ソースは後藤氏のこの記事でしょ。
URLリンク(pc.watch.impress.co.jp)
>>562
SCEがPS3との互換性を完全に捨ててでも普通のマルチコアCPUを選択しようと
考えているならPOWERを選ぶ必然性自体がないからなぁ。
他の選択肢も余りないかも知れないけど。
569:Socket774
10/02/11 15:55:58 mozDik8n
>>567
ESですね。
PKGが白色で見慣れないなあ。材料がPEEKとかかな?
570:Socket774
10/02/11 15:57:35 mozDik8n
と思ったら後ろのページにセラミックって書いてた。。。
普通か。
571:Socket774
10/02/11 16:14:58 Q6+4pX7+
>>567
> チップに記された製造国は… MBxxxというチップ名ですから京速のあの会社でしょうか。
p.32に "90 NM CMOS .implemented in Fujitsu CS100HP Process" って書いてあるよ
572:MACオタ
10/02/11 16:33:03 GsEjP4NF
>>571 さん
見逃してました… 間違っていた訳でもないので勘弁してください。
教訓としては、こういうことかと。
・欠けているのは予算では無く、知恵ではなかろうか?
・本当に必要なモノなら、投資を集められるのではなかろうか?
・本当に必要で、投資を集めるほど信用されていなくても、自前でできることは
あるのではなかろうか?
・最先端プロセスでプロセッサごと開発しなくても、目的には適うのではあるまいか?
等々
お金の話をすれば、東大一校で集めた個人寄付金は2008年度で50億円近くとのこと。
URLリンク(utf.u-tokyo.ac.jp)
個人寄付金って大半は医学部でしょうか… ガン治療とか看板にすればなんとかなる?
573:レトリック君
10/02/11 18:21:41 eco9lAS2
MBっちゃあ、8bitの時代からFがchip名に付けてたぜ。
MB6809とか。
NならμPDか。
574:Socket774
10/02/12 00:51:05 s3jTWByn
URLリンク(pc.watch.impress.co.jp)
575:Socket774
10/02/12 00:57:18 Cz04gznl
>しかし一方で回路ブロックの設計を根本から改良する機会を失ってはいないだろうか。
>回路ブロックを統合する段階で設計の手直しが発生し、貴重な時間を失ってはいないだろうか。
>あるいは設計内容が陳腐化しているのに気付かず、再利用し続けてはいないだろうか。
何様気取りなんだ、福田
576:Socket774
10/02/12 04:39:24 S8jVMyOY
おれも思った.
本業の人たちが既に検討済みなんだろうとは想像しないのかね?
# その上で,最も「早い・安い・旨い」のが現状なんだろうけど
そもそも某 i や別の某 I 等の少数以外は自社fabすら無くて
TSMCやUMCで製造してるのに独自設計してメリットあるのかね?
個人的には,せっかく動いてる(≒枯れてる,実績ある)ものを
金かけて壊そうとしている中二病患者を見ている気分なんだけど
577:Socket774
10/02/12 06:20:33 8l2ZpoUw
そりゃ本業も検討済みだろ
本業であってもそれが正しいか正しくなかったかは結果論でしか語れんが
578:Socket774
10/02/12 06:28:32 1pmLcTi0
例えば、既存のIPの組み合わせて設計すると、既存IP部の消費電力
はだいたい決まってるのでシステム全体の消費電力の削減にあれ
これ頭を悩ますことになる。
既存のIPを使わずを新規設計した場合、効率を重視した設計をする
ことにより、その部分の消費電力を元から削減出来たりするるので
システム全体の消費電力を削減しやすい。
今回の講演は新規設計のメリットを考えさせられるほど優れた成果だった。
ということでしょ?
579:Socket774
10/02/12 13:45:54 7SFXIriB
必要ならするし不要ならしない
判断ミスはあっても検討しない奴なんてネット番長にしかいない
580:Socket774
10/02/12 21:15:31 uiERv3a6
URLリンク(techon.nikkeibp.co.jp)
> SOIプロセスの採用によって,通常のしきい値電圧のNMOSトランジスタを電源スイッチに使えた。
SOIだとNMOSをスイッチに使えるのはなんで?
NMOSがスイッチってことは仮想VssをVdd電圧まで
釣ることになるんだろうけど、通常のCMOSと違って
ソース・ドレインからサブストレートへのリークが少ない
からってことなのかな?
581:Socket774
10/02/12 23:20:12 QtndgfLN
NEC to show quad-core Cortex-A9 processor
URLリンク(www.eetimes.com)
ARMのクアッドコアだって
582:Socket774
10/02/12 23:54:38 5KVBDrlY
NEC?
なにそれうまいの?
583:レトリック君
10/02/13 00:31:45 Tqp83x79
IPによる設計には色々と光トカゲがある
なまじっかブラックボックス化しようとして中の情報を十分出さないと全体の設計や検証に差し支える。
中の仕様や動作を知らずに全体を作ったり検証できるわけがない。
かといって中の情報を詳しく出していたらな何のためだったのか分からなくなる。
しかも綺麗な理想論を言う人は少なくないので中と外の設計担当間で情報の疎通が…
実際には結構大変でそ
584:Socket774
10/02/13 18:39:03 PHIWper2
光トカゲの鳴き声↓
585:MACオタ
10/02/13 19:20:22 QBVVRxhO
PPC746FP を共同開発した LSI Corp. が自社でネットワークプロセッサ "Axxia"
をリリースしました。
URLリンク(www.lsi.com)
-------------------
Axxia Communication Processors are capable of managing huge volumes of
wireless traffic with low latency and no load on the CPU complex. The first
member of the Axxia Communication Processor family, the ACP3448 processor,
features four powerful PowerPC^(TM) 476FP processor cores with a large 512KB
L2 cache per core, 4 MB of system cache, integrated DDRIII memory controllers,
and a wide array of intelligent offload engines, including industry-proven packet
classification, traffic management, security processing and deep packet inspection.
The on-chip processing elements are tied together using the new LSI Virtual
Pipeline technology.
-------------------
製品ページはこちら。(PDF資料へのリンク有)
URLリンク(www.lsi.com)
・4-core, up to 1.8GHz
・512KB L2
・4MB eDRAM システムキャッシュ (アクセラレータを含むSoC全体で共有)
・Dual DDR3 メモリコントローラ
・各種アクセラレータ (パケット処理、セキュリティ、正規表現)
・45nm, SOI
リリースによると
--------------------
The first members of the Axxia family, designed to deliver 20 Gbps performance
for today’s wireless infrastructure requirements, will be available in February of 2010.
--------------------
最初の製品は今月にも販売開始ということと、上記の製造プロセスから IBM で製造するものと
思われます。
586:MACオタ
10/02/13 19:29:13 QBVVRxhO
既に Freescale を分社している以上、もはやどうでも良い話なのですが、
栄光の Motorola が更に2分割されるんだとか。
URLリンク(mediacenter.motorola.com)
-----------------------
SCHAUMBURG, Ill., February 11, 2010 -- Motorola, Inc. (NYSE: MOT) today
announced the Company is targeting the first quarter of 2011 for its planned
separation. Motorola intends to separate into two independent, publicly traded
companies. One will include the Company’s Mobile Devices and Home businesses,
and the other will include its Enterprise Mobility Solutions and Networks businesses.
-----------------------
587:MACオタ
10/02/14 03:24:04 Wj71GeXX
AMDネタの上、11月の Financial Analyst Day の頃の話題なのですが、
プロセッサ・アーキテクチャ的には面白い話題なのでここで取り上げて
おきます。
ネタは当時の comp.arch での "bulldozer details + bobcat"というスレッド
なのですが、業界の人気者 Andy Glew が登場して色々語っています。
URLリンク(groups.google.com)
Glew の投稿だけでも拾い読みすると面白いかと。とりあえずここではかい
つまんで興味深いところだけ抽出しておきます。
- AMD's Bulldozer is an MCMT (MultiCluster MultiThreaded)
microarchitecture. That's my baby!
Bulldozer は俺の考えた MCMT (MultiCluster-MultiThread) アーキテクチャの
実装。
- The only bad thing is that some guys I know at AMD say that Bulldozer is
not really all that great a product, but is shipping just because AMD
needs a model refresh. "Sometimes you just gotta ship what you got."
でもなぁ… AMDのツレが言うにはAMDは製品サイクルに切迫して製品化
してくるらしいんだよな。「何でもいいから今出来てるのを出さなきゃいけない
時もあるんだよ」って。
588:MACオタ@続き
10/02/14 03:37:20 Wj71GeXX
- came up with MCMT in 1996-2000 while at the University of Wisconsin.
It became public via presentations.
I brought MCMT back to Intel in 2000, and to AMD in 2002.
I was beginning to despair of MCMT ever seeing the light of day. I
thought that when I left AMD in 2004, the MCMT ideas may have left with
me.
元々MCMTはウィスコンシン大にいた1996-2000頃に考えていたんだ。
で、Intelに2000年に戻ったときに提案し、2002年に移ったときにも宣伝
しまくったんだ。でも中々日の目を見なくてAMDを離れた2004年には
すっかりあきらめてたんだよ。
- Of course, AMD has undoubtedly changed and evolved MCMT in many ways
since I first proposed it to them. For example, I called the set of an
integer scheduler, integer execution units, and an L1 data cache a
"cluster", and the whole thing, consisting of shared front end, shared
FP, and 2 or more clusters, a processor core. Apparently AMD is calling
my clusters their cores, and my core their cluster. It has been
suggested that this change of terminology is motivated by marketing, so
that they can say they have twice as many cores.
もちろんAMDは俺のMCMTのコンセプトにに色々手を入れてる。例えばオリジナル
のアイデアでは整数スケジューラ・整数ユニット・L1キャッシュをセットで「クラスタ」
とよび、2組以上のクラスタと共有デコーダ、共有FPUで「コア」を構成するという
ものだった。ところがAMDは俺の「クラスタ」をコアと命名し、「コア」の方をクラスタ
と呼んでる。マーケティングのためにコアが2倍あるように見せかけたいのが丸判り
だよね。
589:MACオタ@続き
10/02/14 03:59:15 Wj71GeXX
- My original motivation for MCMT was to work around some of the
limitations of Hyperthreading on Willamette. E.g. Willamette had a very
small L0 data cache, 4K in some of the internal proposals, although it
shipped at 8K. Two threads sharing such a tiny L0 data cache thrash.
Indeed, this is one of the reasons why hyperthreading is disabled on
many systems, including many current Nhm based machines with much larger
closest-in caches.
元々 MCMT のアイデアは Willamett で Hyperthreading の性能が上がらない
問題を解決するためのものなんだ。知ってのとおり Willamett の L0 [データ]
キャッシュのサイズはメチャ小さい。初期の設計では 4KB だったし、出荷された
バージョンでは増えたとは言え 8KB だ。
このちっぽけなデータキャッシュを2つのスレッドで共有するとキャッシュスラッシ
ングが多発する。結局のところ、これが多くのシステムで Hyperthreading が
無効に設定された原因だし、当時よりはるかに大きなL1キャッシュを持つ Nehalem
でも状況は変わっていない。
590:MACオタ@続き
10/02/14 04:00:43 Wj71GeXX
- To avoid threads thrashing each other, I wanted to give each thread
their own L0. But, you can't do so, and still keep sharing the
execution units and scheduler - you can't just build a 2X larger array,
or put two arrays side by side, and expect to have the same latency.
Wires. Therefore, I had to replicate the execution units, and enough of
the scheduler so that the "critical loop" of Scheduler->Execution->Data
Cache was all isolated from the other thread/cluster. Hence, the form
of multi-cluster multi-threading you see in Bulldozer.
スラッシングを避けるために、俺はスレッドごとに L0 キャッシュを占有させる
ことを考えた。でもL0独立でALUとスケジューラを共有すると言う構成は無理だ。
単純に2倍のサイズのキャッシュを用意したとしても短いレイテンシを維持できない。
そんな訳で、俺は実行ユニットとスケジューラも独立にした。これで ディスパッチ
→実行→データキャッシュアクセス というクリティカルな部分がスレッドごとに
独立した「クラスタ」ができあがる。。君らが見た Bulldozer の構成図そのものという
ことだね。
591:MACオタ@続き
10/02/14 04:21:49 Wj71GeXX
- True, there are differences, and I am sure more will become evident as
more Bulldozer information becomes public. For example, although I came
up with MCMT to make Willamette-style threading faster, I have always
wanted to put SpMT, Speculative Multithreading, on such a substrate.
SpMT has potential to speed up a single thread of execution, by
splitting it up into separate threads and running the separate threads
on different clusters, whereas Willamette-style hyperthreading, and
Bulldizer-style MCMT (apparently), only speed up workloads that have
existing independent threads.
Bulldozer に関する情報が増えてくれば明らかになるんだろうけど、俺の
MCMT が Bulldozer そのものって訳じゃないだろうね。例えば、俺は
Willamett の Hyperthreading を高速化するに当たって Speculative Multi-
threading (SpMT) の実装が頭にあった。SpMT は複数スレッドを費やして
シングルスレッドアプリを高速化する手法だ。
- If I received arows in my back for MCMT, I received 10 times as many
arrows for SpMT. And yet still I have hope for it. Unfortunately, I am
not currently working on SpMT. Haitham Akkary, the father of DMT,
continues the work.
もし俺が MCMT の実装にかかわっていたら、SpMT を全力で押してたと
思う。今でもその気持ちに変わりは無いけど、今はそういう立場じゃ無い。
DMT [Dynamic Multithrading] の提案者の Haitham Akkary が今でも
研究している様だね。
592:Socket774
10/02/14 04:23:41 /LK7WEU/
intelがhyperthreadingの効率アップのためにそのテクニックを使わなかった理由も興味があるねぇ
593:MACオタ@続き
10/02/14 04:35:13 Wj71GeXX
- Perhaps I should say here that my MCMT had a significant difference from
clustering in, say, the Alpha 21264,
URLリンク(www.hotchips.org)
[中略]
Anyway: if it has an L0 or L1 data cache in the cluster, with or
without the scheduler, it's my MCMT. If no cache in the cluster, not
mine (although I have enumerated many such possibilities).
MCMT は Alpha 21264 のクラスタリングの概念とは大きく違うことは強調して
おきたい。
[中略]
要するに、L0なりL1なりの最上位のデータキャッシュがが独立している
クラスタリングは俺の MCMT アーキテクチャということになる。もちろん
そうじゃない構成のクラスタリングは有り得る。
- Motivated by my work to use MCMT to speed up single threads, I often
propose a shared L2 instruction scheduler, to load balance between the
clusters dynamically. Although I admit that I only really figured out
how to do that properly after I left AMD, and before I joined Intel.
How to do this is part of the Multi-star microarchitecture, M*, that is
my next step beyond MCMT.
俺は MCMT でシングルスレッドを高速化するために頑張った。例えばクラスタ
間のロードバランスのための二次スケジューラなんてのも考えた。でも、結局
そのための「正しい方法」ってヤツを思いついたのは AMD を退社した後、ちょうど
Intel に戻る前くらいだった。それが MCMT を越える新しいアーキテクチャ M*
(Multi-star) さ。
594:MACオタ@続き
10/02/14 04:55:08 Wj71GeXX
- Also, although it is natural to have a single (explicit) thread per
cluster in MCMT, I have also proposed allowing two threads per cluster.
Mainly motivated by SpMT: I could fork to a "runt thread" running in
tghe same cluster, and then migrate the run thread to a different
cluster. Intra-cluster forking is faster than inter-cluster forkng, and
does not disturb the parent thread.
But, if you are not doing SpMT, there is much less motivation for
multiple threads per cluster.
そう言えば、SpMT のためにクラスタ内で更に SMT をやるってのも考えた。
スレッドの分割を同じクラスタ内で走るスレッドにやらせて、実行は別クラスタ
でやるんだ。スレッドさえ分かれてしまえば、別々のクラスタで実行する方が
親スレッドに対する干渉は小さいからね。
いずれにせよ SpMT を採用しないなら、クラスタ内 SMT にそれほど意味はない。
595:MACオタ@続き
10/02/14 04:57:11 Wj71GeXX
- With Willamette as background, I leaned towards a relatively small, L0,
cache in the cluster. Also, such a small L0 can often be pitch-matched
with the cluster execution unit datapath. A big L1, such as Bulldozer
seems to have, nearly always has to lie out of the datapath, and
requires wire turns. Wire turns waste area. I have, from time to time,
proposed putting the alignment muxes and barrel shifters in the wire
turn area. I'm surprised that a large cluster L1 makes sense, but that's
the sort of thing that you can only really tell from layout.
元々 Willamette が頭にあったから、俺はクラスタ内の L0 データキャッシュは
容量が小さいものを考えていた。チップ上のレイアウトで実行ユニットのデータフロー
のサイズに収まるようにL0の容量を決めると良いんだよ。。 Bulldozer の L1 は随分大
きくて配線に無駄な「戻り」部分が必要だと思う。俺は常々配線の戻りのところには
データアライメント用のマルチプレクサとバレルシフタにすれば良いと言ってるん
だけどね。
L1 が大きいからといって良いことは無いと思うんだけど、まぁそれもチップのレイアウト
次第だよね。
596:MACオタ@続き
10/02/14 05:13:23 Wj71GeXX
- Some posters have been surprised by sharing the FP. Of course, AMD's K7
design, with separate clusters for integer and FP, was already half-way
there. They only had to double the integer cluster. It would have been
harder for Intel to go MCMT, since the P6 family had shared integer and
FP. Willamette might have been easier to go MCMT, since it had separate FP.
FPU を共有していることに疑問を持っているヤツもいるよな。もちろん K7 は
[整数パイプと浮動小数点パイプがスケジューラから分離しているという点で]
別々の整数クラスタと浮動小数点クラスタを持っていると言える。後は整数
クラスタをもう一つ追加すれば良いだけの話だよね。
P6は整数パイプと浮動小数点パイプでスケジューラが共通だから MCMT の
実装は難しい。Willamette は浮動小数点パイプラインが分離している分、MCMT
の実装はより楽になっている。
- Anyway... of course, for FP threads you might like to have
thread-private FP. But, in some ways, it is the advent of expensve FP,
like Bulldozer's 2 sets of 128 bit, 4x32 bit, FMAs, that justify integer
MCMT: the FP is so big that the overhead of replicating the integer
cluster, including the OOO logic, is a drop in the bucket.
君らは独立したFPクラスタが必要だって言いたいんだろうけど、Bulldozer の
FPU は128-bit の FMAなんて実行ユニットだけでもでかすぎる。その上、
整数パイプと同じくOOOロジックを備えたスケジューラなんて無理だよ。
597:MACオタ@続き
10/02/14 05:22:11 Wj71GeXX
- You'd like to have per-cluster-thread FP, but such big FP workloads are
often so memory intensive that they thrash the shared-between-clusters
L2 cache: threading may be disabled anyways. As it is, you get good
integer threads via MCMT, and you get 1 integer thread and 1 FP thread.
Two FP threads may have some slowdown, although, again, if memory
intensive they may be blocking on memory, and hence allowing the other
FP thread t use the FP. But two purely computational FP threads will
almost undoubtedly block, unless the schedulers are piss-poor and can't
use all of the FP for a single thread (e.g. by being too small).
じゃあ一つのクラスタの中に FPU も入れろよって言うヤツもいるかもしれない。
でもな、浮動小数点演算ってのはだいたいにおいてメモリの負荷が大きいんだよ。
クラスタで共有している L2 なんて、すぐスラッシングでダメになっちまう。とにかく
二つの整数クラスタでFPUを共有ってのは丁度良いってことになる。
ひとつのFPUを二つのスレッドで共有するっては、ちっとは遅くなるかもしれない
けど、片方のスレッドがメモリで引っかかった時にもう片方が演算が出来るって
意味でうまく動く。ところが独立した二つのFPUなんて、スケジューラがよっぽど
ヘボく無い限りメモリ帯域を喰い合うだけで無意味なのさ。
598:MACオタ@続き
10/02/14 05:41:14 Wj71GeXX
- I don't expect to get any credit for MCMT. In fact, I'm sure I'm going
to get shit for this post. I don't care. I know. The people who were
there, who saw my presentations and read my proposals, know. But, e.g.
Chuck Moore wasn't there at start; he came in later. Even Mike Haertel,
my usual collaborator, wasn't there; he was hired in later, although
before Chuck. Besides, Mike Haertel thinks that MCMT is obvious.
That's cool, although I ask: if MCMT is obvious, then why isn't Intel
doing it? Companies like Intel and AMD need idea generating people like
me about once every 10 years. In between, they don't need new ideas.
They need new incremental improvements of existing ideas.
Anyway... It's cool to see MCMT becoming real. It gives me hope that my
follow-on to MCMT, M* may still, eventually, also become real.
色々書いたけど、俺は MCMT に関する権利を主張しようって訳じゃ無い。
俺は当時誰がAMDで働いていたか知っているし、誰が俺のプレゼンや企画書
を読んでいるか知ってるけど、当時まだ Chuck Moore はいなかったし、俺の
仲間だった Mike Haertel も Chuckよりちょっと前に入社した程度だった。Haertel
は MCMT を買ってくれたけどね。
それにしても俺は思うんだが、 MCMT がうまく機能するとすれば、何故 Intel
は俺の提案を袖にしたんだろうね?結局のところ Intel や AMD みたいな大企業
にとって、新アーキテクチャなんて10年に一度くらいしか必要なくて、既存アーキを
洗練させるのがうまいやり方なんだろうね。
とにかく MCMT が日の目を見たのは良かったと思うよ。願わくば M* も採用される
日が来ればと思うね。
599:MACオタ@続き
10/02/14 06:16:58 Wj71GeXX
- There were several K10s. While I wanted to work on low power when I went
to AMD, I was hired to consult on low power and do high end CPU, since
the low power project was already rolling and did not need a new chef.
The first K10 that I knew at AMD was a low power part. When that was
cancelled I was sent off on my lonesome, then wth Mike Haertel, to work
on a flagship, out-of-order, aggressive processor, while the original
low power team did something else. When that other low-power project was
cancelled, that team came over to the nascent K10 that I was working on.
My K10 was MCMT, plus a few other things. I had actually had to
promise Fred Weber that I would NOT do anything advanced for this K10 -
no SpMT, just MCMT. But when the other guys came on board, I thought
this meant that I could leave the easy stuff for them, while I tried to
figure out how to do SpMT and/or any other way of using MCMT to speed up
single threads.
当時 K10 なるプロジェクトはたくさんあったのさ。そもそも俺がAMDに雇われた時の
仕事は低消費電力プロセッサだったんだけど、これが俺の知る限り最初の「K10」
って名前のプロジェクトだった。
このK10の開発は既に随分進んでいて、俺の仕事は全然なかったんだが、あっさり
キャンセルされて俺は宙ぶらりん状態になった。丁度そのころ Mike Haertel が入社
してきて、一緒にハイエンドの OoOE プロセッサの開発を担当することになった。例の
低消費電力プロセッサのグループは、別のプロジェクトに回され、それとは別の
低消費電力プロジェクトをやっていたチームが我々の K10 の開発を行うことに
なった。この K10 が MCMT の K10 って訳だ。
俺の K10 プロジェクトに関しては、Fred Webner から MCMT の実装だけに専念して
SpMT とか余計なことに手を出さないように約束させられた。しかし (Webner が失脚して)
別の取締役が来たんで、その約束は無かったことにして SpMT を含むあらゆる方法で
MCMT によるシングルスレッドの高速化を実装することにした。
600:MACオタ@続き
10/02/14 06:48:35 Wj71GeXX
- - indeed, the scheduler structure of queues
feeding an RS arose from the debate between OOO (me) and in-order (Sager
and Upton) -
実際、(Willamette 開発時に) スケジューラの構造で OoO派(俺)とインオーダー派
(Seger と Upton)で議論があった。
- Mitch Alsup was K9.
[K9について尋ねられて]Mitch Alsup が K9 をやってたな。
[MACオタ注: Mitch Alsup は Motorola 88Kや Ross HyperSPARC のアーキテクト]
- Some of us have done a lot of work on dynamic predication. (My resume
includes an OOO Itanium, plus I have been working on VLIW and
predication longer than OOO.) But since such work inside companies will
never see the light of day, do not let that hold you back, since you are
not so constrained by NDAs and trade secrets.
俺の経歴にも書いてあるように、OoO の Itanium やプレディケーションについては色々
研究したけど、Intel 社内では日の目を見なかった。俺はNDA とか色々あって無理だが、
お前さんがやるなら頑張れ。
601:MACオタ@ここまで
10/02/14 07:10:42 Wj71GeXX
ALU間の配線レイアウトの話について語っているところも面白かったので
書こうかと思いましたが、長いのでヤメておきました。
ところで、この話に関して AMD のサイトで blog を執筆している John Fruehe 氏
(URLリンク(blogs.amd.com) 参照)が「Andy Glew なんて知らねーし。そんな怪しい
ヤツの言うことより、俺を信じろ」とか書いて失笑をかっていました。
例のアニキと言い、どうして AMD のマーケティングは間抜けなのやら…
URLリンク(www.xtremesystems.org)
------------------------
I have no idea who Andy Glew is, but he left the company several years ago.
------------------------
602:Socket774
10/02/14 07:19:32 D4oXSgCt
ワロスw
603:Socket774
10/02/14 07:38:58 3oTjQGRW
K9で却下された提案をブルで再び使うのか
URLリンク(pc.watch.impress.co.jp)
提案は、CPUをマルチスレッド&マルチクラスタの構成にし、マイクロアーキテクチャの全レベルでマルチレベル化、
さらにさまざまなマルチスレッディングテクニックを実装するというものだったようだ。
例えば、スケジューラやインストラクションウインドウ、ストアバッファ、レジスタファイル、ブランチプレディクタなどをマルチレベルにする。
加えて、投機マルチスレッディング(SpMT:Speculative Multithreading)、非明示的マルチスレッディング(IMT:Implicit Multithreading)、
スキップアヘッドマルチスレッディング(SkMT:Skipahead Multithreading)といった技法を持ち込む。
604:MACオタ>603 さん
10/02/14 08:32:13 Wj71GeXX
>>603
後藤氏を信じるのは自由ですが、Glew 氏によるK9情報は>>600。
605:Socket774
10/02/14 08:39:26 3oTjQGRW
K10って書いてた
>Glew氏は、以前、K10のために提案したものの、AMDに拒否されてしまった技術をリストアップしていた。
>Glew氏が提案したのは、かなり尖ったアーキテクチャだった。
606:MACオタ
10/02/14 12:37:56 Wj71GeXX
ちなみに2ちゃんねる的には Andy Glew 氏のサイトの職務経歴は2005年半ばの
話題でした。
---------------------
132 名前:MACオタ 投稿日:2005/08/08(月) 06:18:21 ID:9pfRTF4F
P6の主要アーキテクトの一人として知られるAndy Glewが昨年AMDを退社した後,Intelに
戻ってるとのことす。
URLリンク(www.geocities.com)
---------------------
607:580
10/02/14 13:28:59 sxHaLuFq
どうやら>>580の解釈であってるようでした
608:Socket774
10/02/14 16:04:06 JviKC0SN
>>593
M*ってのが気になる
なんか書いてないの?
609:MACオタ>608 さん
10/02/14 21:57:01 Wj71GeXX
>>608
ご当人のブログで発表資料等が紹介されています。
URLリンク(andyglew.blogspot.com)
610:Socket774
10/02/15 10:07:43 Dg+O6xA1
Andy Glewのスライドのほう、新風やハイパースカラじゃないか…
611:Socket774
10/02/15 17:30:09 6N+k5INy
SIMDを使ったプログラムを書いているのだけど、マンデンブロ集合以外に、
プログラミングコストに比較して満足感があるものってなにかないかな。
ゲームは、キャラクターつくったりドット絵かくの大変なのでパス。
612:Socket774
10/02/15 17:31:08 6N+k5INy
つかいま一番つかってみたいのはG4/G5のAltiVecなんですけどね。
613:,,・´∀`・,,)っ-○○○
10/02/15 22:38:10 imhVWoSl
別に大したことないぞあれ
614:Socket774
10/02/17 23:12:59 jIvzAyKW
俺はMVI,MAX,VIS辺りかな…
615:MACオタ
10/02/23 00:33:21 6aN/dP7E
IntelのサイトにTukiwilaのTDPが書いてます。
URLリンク(www.intel.com)
-9350/1.73GHz (4-core): 185W
-9340/1.60GHz (4-core): 185W
-9339/1.46GHz (4-core): 155W
-9320/1.33GHz (4-core):; 155W
-9310/1.60GHz (2-core): 130W
流石に20億トランジスタは伊達じゃありませんな。
これと比較すると8-core, 4GHzでチップあたり200Wと言われる POWER7 は低消費
電力と言えるのかも…
616:Socket774
10/02/23 09:02:25 TpvPnKnq
ネタの古さと程度の低さにビックリ
617:Socket774
10/02/23 16:28:23 ie/mu8Le
最後の行を言いたかっただけでしょw
618:,,・´∀`・,,)っ-○○○
10/02/24 16:11:08 QutNOdX2
describe(笑)
ますます描「画」と遠くなったぞ
619:Socket774
10/02/26 20:04:46 oGRP4Zxp
ね…描画
620:MACオタ
10/02/28 11:29:22 TTBuX29w
まずは古めのニュースをまとめておきます。
まず、POWER7の製造状況に関するIBM Power Systemsのゼネラルマネージャ、
Ross Mauri のコメント
URLリンク(www.itjungle.com)
--------------------
"The yields are good on the Power7 chips," Mauri said to me ahead of his
presentation. "And if you are hearing rumors to the contrary, call me up and
I am happy to deny them," he added with a smile.
--------------------
それから、日立と仏Bull SAのPOWER7搭載機の発表。
両者ともPower 75xのOEMの様です。
日立: URLリンク(www.hitachi.co.jp)
URLリンク(www.hitachi.co.jp)
Bull SA: URLリンク(www.wcm.bull.com)
621:Socket774
10/02/28 12:33:35 fQ/ywCDH
IBMオタさんだあ
622:MACオタ
10/02/28 13:04:07 TTBuX29w
円周率計算でIntel i7 PCで世界記録を樹立した Fabrice Bellard 氏が件の
実行コード "tpi" を公開しています。Linux版とWindows版。
URLリンク(bellard.org)
手近で見つかった結果はこんな感じ。
128Mi (134,217,728)桁, 8-Thread
・Barcelona Opteron/2.3GHz./8-core: 125.018 sec.
・Shanghai Opteron/2.7GHz/8-core: 91.986 sec.
・Harpertown Xeon/2.5GHz/8-core: 89.859 sec.
・Nehalem Xeon/2.66GHz/4-core: 65.080 sec.
マルチスレッドとSSE3に対応した最新の円周率計算コードですので、今後のベンチマークは
この辺に移行すべきかと思うのですが…
623:MACオタ@補足
10/02/28 13:05:28 TTBuX29w
上記の結果は全てLinux版によるものでした。
624:Socket774
10/02/28 13:06:52 IOPfYmwP
AMDで遅いものなんてアム虫がブーブー言うだけだろ
625:Socket774
10/02/28 13:40:08 IOPfYmwP
ちなみに i5 670で2thread
tpi.exe -T 2 -o pi.txt 128M
Using 3.67GiB of RAM
Computation to 128000000 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=53.1MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
545M 545M 0 0 completed 100.0% 0
time = 63.601 s
Compute P, Q
362M 545M 0 0 completed
time = 0.836 s
Division
599M 599M 0 0 completed
time = 5.646 s
Sqrt
528M 599M 0 0 completed
time = 3.793 s
Final multiplication
925M 925M 0 0 completed
time = 2.353 s
Total time (binary result) = 76.247 s
Base conversion
523M 925M 0 0 completed
time = 13.922 s
Total time (base 10 result) = 90.170 s
Writing result to 'pi.txt'
626:MACオタ>625 さん
10/02/28 13:51:20 TTBuX29w
>>625
参考までに>>622の結果は"128M"じゃなくて"128Mi"の結果です。
627:Socket774
10/02/28 14:03:24 IOPfYmwP
あまり変わらんな
tpi.exe -T 2 -o pi.txt 128Mi
Using 3.67GiB of RAM
Computation to 134217728 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=55.7MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
571M 571M 0 0 completed 100.0% 0
time = 66.222 s
Compute P, Q
377M 571M 0 0 completed
time = 0.874 s
Division
623M 623M 0 0 completed
time = 6.115 s
Sqrt
547M 623M 0 0 completed
time = 4.134 s
Final multiplication
966M 966M 0 0 completed
time = 2.699 s
Total time (binary result) = 80.044 s
Base conversion
549M 966M 0 0 completed
time = 14.836 s
Total time (base 10 result) = 94.879 s
Writing result to 'pi.txt'
628:Socket774
10/02/28 14:23:38 7SwDPgiv
マルチスッドレに対応してるわりには遅い
629:MACオタ>628 さん
10/02/28 14:28:21 TTBuX29w
>>628
タスクマネージャで負荷変動でも眺めていれば理由は自明ですよ。
630:MACオタ
10/02/28 16:06:38 TTBuX29w
>>403でも紹介した中国語版Power.orgにおいてある資料ですが、"64-bit Multi-
threaded"の次世代組込コアについて言及がありました。
URLリンク(www.cn.power.org)
(P.6参照)
今見ると、これが PowerPC A2 コアであることは明らかなのですが、当該スライドの
タイトルが"Power Architecture Cores Available for Licensing"とあるように、A2コア
を外部にライセンスする気満々なのは明らかです。
で、Sequoia 用コアについて再度考え直してみると、>>396, >>403, >>561あたりで書い
たようにPPC 470系であろうと予測している訳ですが、
URLリンク(newsline.llnl.gov)
- 1.6 PetaBytes of memory
- 98,304 Nodes
ということで、プロセッサカードあたりのメモリは明らかに16GBを想定していることが判
ります。Blue Gene/P からはプロセッサカード内でのSMP動作モードが追加されていま
すので、16GBのメモリを使用するのに32-bitコアのままで問題無いのであろうかという
疑問が出てきます。
PPC470自体がサポートする物理メモリは、ちょうど上のプレゼンに書いてあって、4TB
とのこと。
---------------------
- Real memory support up to 4 terrabytes
---------------------
16コアで16GBを共有するのですから、プロセスあたり4GBの制限があっても何とかなる
のかもしれませんが、PC的な64-bit SMP のようにノード内の全メモリをスレッド間で共有
するようなコードは使えません。
どうせ Blue Gene で動かす以上、PCクラスタからのベタ移植なんて考えないのかもしれ
ませんが、64-bitの A2 コアを選択する可能性も出てきた…ということで。
631:MACオタ
10/02/28 17:07:37 TTBuX29w
ECのスーパーコンピュータ共同利用プロジェクト PRACE が2009年の技術報告書
を公開しています。
URLリンク(www.prace-project.eu)
この報告書から>>336で述べた QPACE について、目に付いた話題を。
2009年下期のGreen500の上位を独占した QPACE の試作機 eQPACE ですが、
開発目標は下記のように設定されている (P.13)
- QPACE アーキテクチャの QCD 計算以外の分野への応用
- トーラスネットワーク用 FPGA の他分野応用のための改良
- 上記の目的のためのQPACEネットワーク用 MPI ライブラリ等、ソフトウェアの開発
汎用HPCコード応用のため、FPGAインタコネクトは、ハード/ソフト両面から、現在も
開発中 (P.63-66)
現状のインタコネクト性能 (P108, 表24)
・QPACE MPI Latency: 4.7us, BW: 845MB/s
・Altix XE (IB QDR) MPI Lantecy: 1.7us, BW: 2500MB/s
・Altix ICE (4x IB) MPI Latency: 1.9us, BW: 1800MB/s
2009年下期のTop500の登録ではeQPACEの実行効率は77.2%とあまり良好とは言えま
せんが、今後もう少し向上は期待できるのかもしれません。
632:MACオタ>624 さん
10/02/28 17:24:40 TTBuX29w
>>624
-----------------
AMDで遅いものなんてアム虫がブーブー言うだけだろ
-----------------
ちょっとπスレッドを見てきましたけど、もうAMDで速いコードなんて無くなったみたいですよ。
URLリンク(h2np.net)
633:Socket774
10/02/28 17:33:05 IOPfYmwP
蟲にはそれがわからんとです
634:Socket774
10/02/28 19:47:53 7eumbHoc
業界が汎用に走り過ぎている希ガス
とんがったアーキテクチャで差別化しないと共食いになりそう…
635:Socket774
10/02/28 20:19:48 j/skOWaY
>>634
あなたの住んでる世界にはASIC市場がないんですか?
636:MACオタ
10/02/28 20:54:04 TTBuX29w
>>622で紹介したTachusPIはWindows版でもコマンドコンソールが必要なので、
バッチファイルを書いてみました。
Bellard氏のサイトからダウンロードして解凍したフォルダに、以下のテキスト
ファイルを "tpi.dat"という名前で保存して、ダブルクリックすると計算できます。
なお、Windows版は64-bit Windows必須。
@ECHO OFF
SET /P NTHREAD="スレッド数: "
SET /P NDIGIT="計算桁数 (例: 1M): "
.\tpi -T %NTHREAD% %NDIGIT%
SET /P ENDOK="終了"
637:Socket774
10/02/28 21:23:30 +dcUonSP
>>622
πってCPU内蔵キャッシュの性能テストだよな。
638:Socket774
10/02/28 21:25:28 YmPAfr1t
完全に同意
639:Socket774
10/02/28 21:37:57 IOPfYmwP
amdの報告はまだ?
640:Socket774
10/02/28 22:34:13 7SwDPgiv
MACオタのレスくらい読めって
ちゃんと書いてあるよ
641:Socket774
10/02/28 22:54:29 IOPfYmwP
linuxだろ
642:Socket774
10/03/02 23:44:13 N2L1uw05
あげ
643:MACオタ
10/03/04 21:03:08 bi/m7VuB
POWER7とTukwilaのSPEC CPU2006の結果がSPECのサイトで公開されています。
どちらもRateのみ。POWER7の値は既にIBMのサイトで公開済みですが、個別の
ベンチマーク結果を確認したい方はどうぞ。
CINT2006_rate
・POWER7 on AIX
3.3GHz/32-core URLリンク(www.spec.org)
3.55GHz/32-core URLリンク(www.spec.org)
3.1GHz/64-core URLリンク(www.spec.org)
3.5GHz/48-core URLリンク(www.spec.org)
3.86GHz/16-core URLリンク(www.spec.org)
3.86GHz/64-core URLリンク(www.spec.org)
4.14GHz/32-core URLリンク(www.spec.org)
・POWER7 on Linux
3.3GHz/32-core URLリンク(www.spec.org)
3.55GHz/32-core URLリンク(www.spec.org)
・Tukwila on HP-UX
1.73GHz/8-core URLリンク(www.spec.org)
644:MACオタ@続き
10/03/04 21:06:42 bi/m7VuB
CINT2006_rate
・POWER7 on AIX
3.3GHz/32-core URLリンク(www.spec.org)
3.55GHz/32-core URLリンク(www.spec.org)
3.1GHz/64-core URLリンク(www.spec.org)
3.5GHz/48-core URLリンク(www.spec.org)
3.86GHz/16-core URLリンク(www.spec.org)
3.86GHz/64-core URLリンク(www.spec.org)
4.14GHz/32-core URLリンク(www.spec.org)
・POWER7 on Linux
3.3GHz/32-core URLリンク(www.spec.org)
3.55GHz/32-core URLリンク(www.spec.org)
・Tukwila on HP-UX
1.73GHz/8-core URLリンク(www.spec.org)
645:Socket774
10/03/04 21:19:14 SoPZxcZc
Tukwila死亡
646:MACオタ@続き
10/03/04 21:38:24 bi/m7VuB
色々な基準で他のアーキテクチャと比較してみると、こんな感じ
■ 2-socket
processor core CINT(base/peak) CFP(base/peak)
POWER7/3.86GHz 16 586 / 652 531 / 586
Nehalem/3.33GHz 8 255 / 274 204 / 211
Istanbul/2.80GHz 12 168 / 215 133 / 148
Niagara2/1.58GHz 16 171 / 183 124 / 133
Tukwila/1.73GHz 8 128 / 134 132 / 136
■16-core
processor CINT(base/peak) CFP(base/peak)
POWER7/3.86GHz 586 / 652 531 / 586
POWER6/5.0GHz 466 / 542 465 / 544
Nehalem/2.93GHz 466 / 499 361 / 372
POWER6/3.60GHz 289 / 363 226 / 263
Shanghai/3.1GHz 232 / 274 203 / 228
Dunnington/2.4GHz 204 / 221 120 / 128
647:Socket774
10/03/04 21:45:55 qysoWJlI
POWER7はパッケージにもソケットにも馬鹿みたいに金かけてるから参考にならねえ
プロセッサモジュールの価格も数倍違うだろどうせ
648:レトリック君
10/03/04 22:15:08 afk/VI64
いやそれは正しい方向なんだよ。
上に上にと逃げて、高く売らなきゃ生き残れない。
立場的に。
649:Socket774
10/03/05 01:44:31 RvfR0pQp
power4のMCMは家が建つくらいだったが
650:Socket774
10/03/05 13:38:20 kx6mSf6e
>>649
不意を突かれたw
651:Socket774
10/03/06 11:32:31 Ea/vz0ED
>>646
POWER6って性能悪かったんだな…
652:レトリック君
10/03/07 00:50:05 lr+sNJma
>>649
売値はな。
製造原価は…
653:Socket774
10/03/07 10:54:21 Kg4/tQIn
レトリック君ってIBMの人だったのか
654:MACオタ
10/03/08 01:49:41 /G1wwpzL
先週IBMがチップ間光インタコネクトに利用可能なアバランシェ光検出素子を
発表しました。
IBM Researchにまとめた情報が出ていたので、URLを書いておきます。
URLリンク(domino.research.ibm.com)
IBMによると、今これでダイ上に検出素子、光変調器、光スイッチ、光バッファを集積する
ことが可能になり、光インタコネクトを実装する基礎技術は一通り揃ったとのこと。
655:Socket774
10/03/09 00:29:29 VgdHrP1y
>>41
ゴーストバスターズもPS3リードだけど、超絶劣化したね。
656:Socket774
10/03/09 02:00:08 7vXMo2ih
MACオタが後藤をネタに語る悪寒
657:Socket774
10/03/09 03:12:42 qIkLB7Ou
なんでMIPSて落ち目になったの?
658:Socket774
10/03/09 12:07:17 JLHxoplb
WSがPCに喰われほぼ消滅→組み込みに活路を見いだす→ARMとの競争に負ける
というのが消費者側からの見方だが、どうなんかね。
659:Socket774
10/03/09 17:03:13 HQi3QE5m
捲土重来を狙ってるみたいだが。
Androidでビジネス拡大を狙うミップスの新戦略
URLリンク(monoist.atmarkit.co.jp)
660:Socket774
10/03/10 13:51:56 IQPA8ybZ
POWER7Macを発売してください>MACオタさん
MACオタならできる
661:Socket774
10/03/10 17:57:11 4a0mAjv3
MACオタ「俺にだって、、できないことくらい、、、ある・・・・」
662:Socket774
10/03/10 23:49:13 gDim2SPA
実際にMIPSがARMに比べて組込向けで劣ってたところって何なんだろうね。
SoC向けのIP展開の遣り方や価格がダメダメだったのかね?
それともPCと対抗するのに力を入れてる間に、ARMが組み込み向けのシェアを
占拠してしまって、出遅れたのが致命傷だったって事なのかな?
663:Socket774
10/03/11 00:17:19 7PFYjvS2
>>662
高性能に傾斜しすぎていた傾向はあるのでは無いかな。
SHが16bit化コードで先行して、ARMがthumbで続き、MIPS16とかはあまりやる気が…
求められているのは高性能ではなく、ほどほどの性能とローコストだから。
ま、今でもだけど。
なのでARM主流がなかなかARM7TDMIからCortexに移らないww
664:Socket774
10/03/11 13:15:51 MjsrZS4R
そしてなぜダメだったのかとか議論にもの登らず消えていくSuperH。
665:Socket774
10/03/11 19:12:25 M1Aywpxl
MIPSは1995年頃に内紛があったような気がした
R10000はスペックの割に異様に遅かった(速くない)のが印象に残っている。クロックも上がらなかったし
ARMはIPを積極的に売ったので勝ったというのが定評だと思う。
MIPSは命令セットだけ買えるので、独自コアや独自拡張が欲しい人が使っていたかな
ゲーム機とかネットワークプロセッサとか
666:Socket774
10/03/11 19:27:01 M1Aywpxl
MIPSの内紛はクボタがらみだったと思うが輪をかけて自信なし
個人的な好みで言うと、MIPSは割り込みの扱いが面倒だし、SHはディスプレースメントが短くて不便
667:Socket774
10/03/11 20:18:21 KeqIbbWN
すーぱーえっち
668:Socket774
10/03/13 18:43:26 MIRMiKRQ
みだらなぷっしー
669:Socket774
10/03/14 09:04:14 5Ch/VAb8
2000年からのXeonのCPUコア数の
変化が解るグラフってどこかにありませんか?
670:Socket774
10/03/17 00:09:23 IV5d0fQd
■福田昭のセミコン業界最前線■
2009年はどんな年だったのか
URLリンク(pc.watch.impress.co.jp)
671:Socket774
10/03/17 21:42:36 rnoPU6n6
ロースペの性能比較が面白すぎて困る
672:Socket774
10/03/18 08:52:19 CMwPYB3D
[GDC 2010]Larrabee計画の延期が影を落とす,Intelの“グラフィックス最適化”セッション
URLリンク(www.4gamer.net)
> しかし蓋を開けてみれば,その内容は「デュアルコアCore i7・i5・i3プロセッサに搭載された
>『Intel HD Graphics』と,同グラフィックス機能に向けた最適化の話題のみ」という,お寒い内容。
>ただでさえ閑散としたセッション会場を,早々に立ち去る参加者も目立ち,聴講者は筆者を含めて数える程度だった。
673:Socket774
10/03/18 10:21:18 t92ebmtx
URLリンク(www.4gamer.net)
[GDC 2010]Larrabee計画の延期が影を落とす,Intelの“グラフィックス最適化”セッション
674:Socket774
10/03/19 02:53:13 mPCuMPHr
Cellといいララビーといい
シンプルコアレンダリングの何が障害なんだろうな
675:Socket774
10/03/19 23:20:55 J0fmKyKv
>>674
構造がシンプルでも、求められる出力は従来と変わらないんだから、別の何処かが複雑化するだけじゃね?
おまけに新しい構造だからゼロスタートで頑張れとか言われたら、誰も近寄りたくないんじゃないかな。
一方、従来型で構造が複雑なのはプロセスの進化で相殺できるし、使う側もノウハウ流用できる。
676:Socket774
10/03/20 05:29:38 76reHPwT
Larrabeeは多少性能に難があっても製品として出しちゃえば良かったんだよ、否が応でも対応アプリが出てくるだろ
第一期製品で完全版を目指しすぎインテル
677:Socket774
10/03/20 05:37:38 sbh4BvJ2
Mercedみたいになったと思うぞ
678:MACオタ
10/03/20 09:19:51 2FaaqQLO
Intelと富士通がWestmereのSPEC2006を登録しています。
URLリンク(www.spec.org)
この話題を語る前に少しばかりおさらいを。
最近のIntelコンパイラは"Auto Parallel"オプションによってCINT/CFPの結果でも
単純なコア当たりの性能が判りにくくなっています。
それでも"base"の結果のみAuto Parallelが無効にされている結果を見つけたという
話がRWT掲示板に投稿されていました。
URLリンク(www.realworldtech.com)
このCore i3-540搭載機のBullの登録(並列化OFF)と富士通の登録(並列化ON)を比較して
みましょう。
■Core i3-540のCINT2006_base & CFP2006_base
CINT_base CFP_base
並列化無 25.6 27.5
並列化有 26.2 29.3
参考:
Bull CINT2006 URLリンク(www.spec.org)
最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -opt-prefetch
富士通 CINT2006 URLリンク(www.spec.org)
最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -parallel -par-runtime-control -opt-prefetch
Bull CFP2006 URLリンク(www.spec.org)
最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -opt-prefetch
富士通 CFP2006 URLリンク(www.spec.org)
最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -parallel -opt-prefetch
679:MACオタ@続き
10/03/20 10:03:24 2FaaqQLO
CINT/CFP を構成する個別ベンチマークの結果を比較すると、更に興味深い結果が
見て取れます。
■自動並列化の効果
CINT (全12ベンチマーク)
- 462.libquantum: +50.4%
- その他: -3.2~0%
CFP (全17ベンチマーク)
- 436.cactusADM: +85.7%
- 434.zeusmp: +16.5%
- 410.bwaves: +9.9%
- 482.sphinx3: +9.1%
- 456.GeemsFDTD: +6.6%
- 481.wrf: +3.1%
- 470.lbm: +2.4%
- その他: -2.9~+1%
つまりCINTで並列化が寄与するベンチはたった一つ。CFPでも顕著に効果があるモノは
5つ程度ということです。
コア単体の性能比較を行いたい場合は、これら並列化の効果が大きなサブベンチマークを
除いた幾何平均を求めればOKということでもあります。先のCore i3-540の結果をこの方式で
計算してみると次のようになりますが、自動並列化の効果がキャンセルできてることが判ります。
■Core i3-540の修正CINT2006_base & 修正CFP2006_baseの比較
CINTは 462 を除く。
CFPは 410, 434, 436, 459, 481, 482 を除く。
CINT_base(Mod) CFP_base(Mod)
並列化無 22.3 26.3
並列化有 22.1 26.2
680:MACオタ@ここまで
10/03/20 11:01:14 2FaaqQLO
ここから本題です。Intelと富士通が登録したWestmere-EPの結果を同クロックの
Nehalemと比較してみましょう。
■ i7-980X vs i7-975 on Windows
CINT_base CINT_base(Mod) CFP_base CFP_base(Mod)
i7-980X/3.33GHz 34.8 28.4 36.9 30.0
i7-975/3.33GHz 31.6 26.5 32.9 27.1
つまりシングルコア性能で見てもCINTで+7%,, CFPで+11%程度の性能向上があります。
ただし、この比較、980Xは64bit Win7 + icc11.1, 975は32bit Vista + icc11.1なので
その点は考慮する必要もあるかもしれません。
■ Xeon X5680 vs Xeon W5590 on 64-bit Linux
CINT_base CINT_base(Mod) CFP_base CFP_base(Mod)
i7-980X/3.33GHz 39.0 30.2 44.8 33.4
i7-975/3.33GHz 34.2 27.8 40.4 32.0
こちらは両方とも64-bitコードということで、より信頼が置けます。
int でのコア当たりの性能向上は 8.5%, fp では 4.2%ということになります。
まあ Tick-Tock での "Tock" での性能向上としては、こんなモノでしょうか?
681:MACオタ@参考資料
10/03/20 11:35:40 2FaaqQLO
ソースのリンクを書いておきます。
■Core i7-980X on Win7 64-bit
CINT2006: URLリンク(www.spec.org)
CFP2006: URLリンク(www.spec.org)
■Core i7-975 on Vista 32-bit
CINT2006: URLリンク(www.spec.org)
CFP2006: URLリンク(www.spec.org)
■Xeon X5680 on SuSE 10 x86_64
CINT2006: URLリンク(www.spec.org)
CFP2006: URLリンク(www.spec.org)
■Xeon W5590 on SuSE 10 x86_64
CINT2006: URLリンク(www.spec.org)
CFP2006: URLリンク(www.spec.org)
682:Socket774
10/03/20 11:52:00 /cHpY9+M
Modの方は参考にはなるだろうけど
「コア当たりの性能向上」って言い切っちゃうのはどうなの?
683:MACオタ>682 さん
10/03/20 12:11:34 2FaaqQLO
>>682
どの辺が疑わしいと思いますか?
ちなみにSPECの登録データによると、ターボブーストのリミット値は3.6GHzで同じとのこと。
684:,,・´∀`・,,)っ-○○○
10/03/20 13:13:28 lZIalqH7
そもそもWestmereはコアレベルで見るとAES/CLMUL命令の有無を除けばNehalemの単純シュリンクなんで
そんなもんでしょう。
IACAのDLLがNehalem用とWestmere用で全く同じサイズだった時点で素性はわかったようなもの
685:Socket774
10/03/20 18:00:42 GAgr2qiY
Macオタさんと団子さんが引っ付いたw
686:Socket774
10/03/20 20:00:43 vV2SC1Bl
うほっ
687:Socket774
10/03/20 20:54:20 akBc5CBs
TBの上限が同じならL3$が増えた以外にエンハンスあるっけ?ブーストしやすいくらいか?
688:,,・´∀`・,,)っ-○○○
10/03/20 22:29:25 lZIalqH7
AES/CLMULの利用で高速化出来るコードってどれくらいあるのかしら
689:,,・´∀`・,,)っ-○○○
10/03/20 22:51:13 lZIalqH7
URLリンク(www.freeweb.hu)
この辺見るに本当にNehalemと同じだな
L3は確かに容量1.5倍だがレイテンシは14clk→17clkと増大してるし
一概に性能向上に寄与してるとは言い難い気が。
>>687が正解じゃない?
シュリンクでコア当たりの消費電力が落ちてる分TDP枠に余裕ができてるはず
690:Socket774
10/03/20 23:53:20 VN9Nq9cJ
>>683
省略した項目が「コアあたりの性能向上」を反映してる可能性はないの?
691:Socket774
10/03/21 11:15:12 MZqFJVal
LSDが増えるって話はどうなったんだ?
692:MACオタ
10/03/21 12:00:10 tQ2m2qMB
>>684 団子 さん
-------------------
IACAのDLLがNehalem用とWestmere用で全く同じサイズだった時点で素性は
わかったようなもの
------------------
「そんなもの」で頭から決め付けては面白くもなんとも無い訳で、L3の変更やらメモリバッファの増量等の影響がどのように現れるかを問題にしているという
ことになります。命令仕様の改善とマイクロアーキテクチャの改善は区別して考えるべきかと。
URLリンク(www.realworldtech.com)
>>690
上に書いた話とは逆に、Nehalem -> Westmere ではそれほど劇的な変更があったわけでは
ありませんから、個別ベンチマークごとに劇的な性能差が出るとも思えません。
特殊なアクセラレータ命令を使用する場合は話が別ですが、それはまた別の話かと。
693:,,・´∀`・,,)っ-○○○
10/03/21 12:25:23 NRePceAu
だからレイテンシ・スループット一通りデータ取れてるだろ。
データを見る限りでは劇的に変わったものはない
Merom->Penrynでスループットが劇的に改善された命令はあるが
Westmereの特性はNehalemの単純なシュリンクそのものだ
AES/CLMULのために演算ユニットを拡張したと言う情報も特にないし、
むしろAES-NI/CLMULはNehalemに元々実装されていた(が無効にされていた)可能性すらある
> 「そんなもの」で頭から決め付けては面白くもなんとも無い訳で
へえ、Intelはおまいさんを面白がらせるために存在してるのか
見上げたもんだなあ
694:Socket774
10/03/21 12:37:35 CmAgKTjb
人間性が表れる2レスだなw
695:Socket774
10/03/21 13:43:43 PgI8z6kb
ああ、なんか落ち着く
696:Socket774
10/03/21 15:14:11 mhJ301ub
>むしろAES-NI/CLMULはNehalemに元々実装されていた(が無効にされていた)可能性すらある
HTT隠してたオレゴンの事だから、これは可能性でかいよね
隠し玉と呼ぶにはインパクト弱いけど暗号関係のスピードアップは目を見張るものがある
697:Socket774
10/03/21 15:38:05 RsOxVsOx
「鶏冠にきてけんか腰な物言いしてる方が負けだわ!」
ララァは賢いなぁw
698:MACオタ>696 さん
10/03/21 16:57:45 tQ2m2qMB
>>696
------------------
HTT隠してたオレゴンの事だから、これは可能性でかいよね
------------------
物事の前後関係を理解されていない様に思います。
WillametteでHTTが無効にされていた理由は、開発者当人が語っている通り(>>587-600参照)。一方団子さんが書いているように、AES-NI/CLMULに関してハードウェア的な強化は無さそうです。
推理小説じゃ無いんですから、『動機があるから怪しい』という論法は違うかと。
699:MACオタ
10/03/21 17:15:54 tQ2m2qMB
今回やってみた Westmere vs. Nehalem の比較に関する、個人的なまとめです。
1. Intelはマルチコア化でコア性能を犠牲にするつもりは無さそう。
AMD が Istanbul で 4 → 6 へのコア増強と引き換えにクロックを下げたのとは対照的です。
2. L3レイテンシの低下はL3容量その他の改善によりカバーされている。
3. 次世代以降の性能向上の鍵はダイスタッキング等によるメモリ帯域の改善になる可能性が大きい
今回の比較でもCINTに比べてCFPの改善が小さいという結果になりましたが、これはCFP2006が結果に対するメモリ帯域の依存性が大きいという特性によるものです。
マルチコア化に伴って『コア当たり』のメモリ帯域はますます逼迫する方向に向かうため、メモリ帯域の分野でのブレークスルーがますます重要になりそうです。
700:Socket774
10/03/21 17:38:47 iJ9hNA/p
CellGPUぜひ見たかったw
701:Socket774
10/03/21 17:41:36 zgBIADX0
>>700
どうぞ
URLリンク(journal.mycom.co.jp)
702:Socket774
10/03/21 19:16:49 NqPTbfLG
>>699
コンパイルオプションの違い(-m32と-m64など)がけっこう効いてそうな気がするなぁ
703:MACオタ>702 さん
10/03/21 20:06:52 hb18Li8q
>>702
X5680とW5590の比較は、どちらも -m64 です。(>>681 参照)
704:MACオタ@補足
10/03/21 20:20:37 hb18Li8q
よく読みなおして、>>703は間違っているかもしれませんね。
x86_64 Linux 上の ICC は、-m32 のオプションを明示的につけない限り 64-bit コードでコンパイルします。
W5590でのコンパイルオプションは、
--------------------
C benchmarks: icc
C++ benchmarks: icpc
--------------------
とあるので、64-bit と決め込んでいましたが、"Bortability Flags"の項目を見ると
--------------------
400.perlbench: -DSPEC_CPU_LINUX_IA32
462.libquantum: -DSPEC_CPU_LINUX
483.xalancbmk: -DSPEC_CPU_LINUX
--------------------
とあるので、32-bit 用の互換オプションがつけてあります。
つまり、64-bit Linuxでわざわざ 32-bit 版 ICC でコンパイルしたということですか…
705:MACオタ
10/03/21 21:14:07 hb18Li8q
CINT2006_base での 32-bit コードと 64-bit コードを比較してみました。
>>680と比べることが可能なW5590のデータはありませんでしたが、X5570だといくつか比較が存在します。
・32-bit: URLリンク(www.spec.org)
・64-bit: URLリンク(www.spec.org)
■32-bit ICC on x86_64 Linux の Xeon X5570 CINT2006_base
(Modは462.libquantum を除いた幾何平均)
CINT_base CINT_base(Mod)
64-bit 34.5 27.3
32-bit 32.0 26.1
今回比較に用いたMod指数はちょうど64-bit版が1.5倍ほど有利になる 462.libquantum を除いているため、差が小さくなります。
例によって個別のベンチマークで 32-bit と 64-bit の得失を比較するすると、こうなります。
- 456.hmmer: 約2倍 64-bit 版有利
- 462.libquantum: 49% 64-bit 版有利
- 401.bzip2: 10% 64-bit 版有利
- 473.aster: 10% 64-bit 版有利
- 429.mcf: 16% 32-bit 版有利
- 403.gcc: 11% 32-bit 版有利
- 471.omnetpp: 8% 32-bit 版有利
- 464.h264ref: 7% 32-bit 版有利
32/64で差が大きい 456.hmmer も除外した新指数で幾何平均を求めると、上記の結果は次のようになります。
■32-bit ICC on x86_64 Linux の Xeon X5570 CINT2006_base
(Modは462.libquantum と 456.hmmer を除いた幾何平均)
CINT_base CINT_base(Mod)
64-bit 34.5 26.0
32-bit 32.0 26.4
706:MACオタ@続き
10/03/21 21:19:42 hb18Li8q
>>705で述べた、462.libquantum と 456.hmmer を除いた改変版 CINT2006_base を用いて Westmere と Nehalem を比較してみましょう。
■ Xeon X5680 vs Xeon W5590 on 64-bit Linux
(Modは462.libquantum と 456.hmmer を除いた幾何平均)
CINT_base CINT_base(Mod)
X5680/3.33GHz 39.0 28.7
W5590/3.33GHz 34.2 28.2
それでも約2%の性能向上ということになります。
コア性能は犠牲にしていないという結論は変わらないと思いますがいかがでしょうか?
707:,,・´∀`・,,)っ-○○○
10/03/22 04:25:28 oQigsKs+
そもそもキャッシュの容量(エントリ数)増やせば必然的にヒットレイテンシは増大するもんなんだが
低下ってなんだ低下って
そのL3自体1コアあたり2MBだし実際のワークロード考えればスレッド当たりのL3容量は決して増えてないしな
ヒットレイテンシの特性見ても8MBが12MBに増えたところで大きくは変わらんでしょう
シュリンクによる消費電力低下とTurbo Boostで説明できてしまうな
708:Socket774
10/03/22 09:20:02 6u2oaeOj
柄の悪い方が出て来た
709:Socket774
10/03/22 11:18:14 J9zaGnO2
Cellの基礎技術開発は着々と進んでいるね。
PS3では爆熱をいとわない開発陣と組んだから、高性能だが爆熱の熱処理のため
に高価になって出足くじいたが、PS4では200Wからスタートせずに済みそうだ。
Cellへの東芝の貢献は非常に大きいね。
低電圧LSIを実現するSRAM回路技術の開発
32nmで試作、0.7V動作の不良率1/10000
URLリンク(www.semicon.toshiba.co.jp)
710:Socket774
10/03/22 12:05:17 RwX/2B1W
アーキテクチャにはもう飽きてくちゃった
711:Socket774
10/03/22 12:49:57 mDKCd74y
>>674
ハードが楽した分、ソフト側が割喰うという構造を何とかしない限り
普及しない。
CELLコンパイラの顛末なんてその好例だろう。
712:,,・´∀`・,,)っ-○○○
10/03/22 12:52:45 oQigsKs+
スカラロード・ストア命令さえあれば多少使い勝手はマシになる
713:Socket774
10/03/23 15:05:11 lIIkywfm
>>711
小規模のアプリなら特に問題は無さそうだけどな。
ハードを絞り出すような開発なら何だろうとカスタマイズのスキルは要るだろう。
今時のコピペPには無理な話なだけで。
714:Socket774
10/03/23 21:09:32 85lM8si1
>>713
わかったからお前が手本見せろ
715:,,・´∀`・,,)っ-○○○
10/03/24 00:45:21 CSoVWjfI
SIMD厨の俺ですらあれはかったるい
716:Socket774
10/03/24 19:31:05 Uyef6FHP
それは1クロックに命をかけた男達の物語である…
717:Socket774
10/03/24 20:36:57 GVNDVloH
もう伸びしろのないCPUなんか語ったって仕方ないだろ
GPUについて語れ!にスレタイ変更すれば?
718:Socket774
10/03/24 20:47:29 kSW2qE5Q
だってGPUの完成形はlarrabeeだもの
719:MACオタ
10/03/25 03:13:07 su5o4Ss9
TheRegisterのMorgan記者がIBM純正のCELL Blade QSシリーズについて書いてます。
URLリンク(www.theregister.co.uk)
QS21は今年の6/25で受注終了、次世代機QS2Zは昨年報じられたように開発中止という話なのですが、最後をこのようにまとめています。
---------------------
The reason why the QS22's days are numbered is simple. IBM, say sources
familiar with the company's plans, is to add specialty processing capabilities
like those embodied in the SPEs in the Cell chip to the future Power chips
beyond the current Power7 generation. Perhaps starting with Power7+ and
definitely in full bloom with the Power8 generation.
---------------------
CELL/B.E.としての開発を止めた理由は、SPEがPOWER8のアーキテクチャに取り込まれるから…という話。
もっとも、IBMはPOWER5の頃から『アクセラレータを搭載する』と言い続けていますが、実際に登場した実装は Altivec, DFP, VSX のように、単なる演算ユニットが増えていくだけでした。
今回も今までと同様に、宣伝文句のみで終わるのか?本当に CELL/B.E .の様ななヘテロコアを投入するのかは注目かもしれません。
VSXが既にSPU ISAの改良版としての要素を取り込んでいますし、今更、Sonyや東芝も権利を持つSPEを使ってまでヘテロコアやコプロ的なアクセラレータに手を出すというのは眉唾なのですが…
720:Socket774
10/03/25 10:35:41 Z9LKG++e
命令を取り込むだけでしょ?
まさかローカルストアを持つコプロを取り込んだりはしないだろうし。
721:Socket774
10/03/25 13:49:49 IUfpmytz
ローカルストアが最大の肝なのに
722:Socket774
10/03/25 17:07:21 Ya0WTCv/
32nm版のCellもないのかな?
723:Socket774
10/03/25 18:18:29 R93NR76S
それとこれとは別
724:Socket774
10/03/25 20:28:11 gOPi5wvK
つかPOWERにSPEが付いたらそれCellやん
725:Socket774
10/03/25 22:33:54 Aqr9RnII
完全体の?
726:Socket774
10/03/25 22:38:58 bonIn+xi
Cellみたいな共同開発って権利関係はどうなってんの?
727:Socket774
10/03/25 23:48:50 wC+TcV9l
>>724
たしかに
728:Socket774
10/03/26 06:44:17 JtrMw9Au
共同開発元のライバルの案件すらPPE流用しちゃう権利ゴロのIBMさんだから
自社案件にSPE流用することなんて問題にならんだろう
729:Socket774
10/03/26 11:32:06 QUNgcQXQ
なんかデジャブかと思ったらアナハイムだった。
730:Socket774
10/03/26 16:37:15 JJrWFIys
SCEや東芝の権利が入っていようが、POWERに採用したら
金払わないといけないとかそういうのはないから、
大した問題にはならないだろうな。
731:MACオタ
10/03/27 16:48:32 N3xCMfP5
安藤氏の今日の更新は色々と突っ込みどころが多いですね。
URLリンク(www.geocities.jp)
--------------------
1.NVIDIAがFermiベースのGTX480,470を発表
--------------------
流石に真っ当な仕事をしているヒトがネットばかり見ているという訳でも無いでしょうから『情弱』呼ばわりするつもりもありませんが、ルーマーサイトに属する Semiaccurate よりは Anandtech のレビュー位は読んで欲しいような気もします。
GPGPU性能も扱っているという点では、御本人の専門分野にも重なるかと思うのですけれど…
URLリンク(www.anandtech.com)
---------------------
このQS21はTop500 2位のRoadrunnerに使用されているもので,まだ,3年やそこらは
使うでしょうから,その間に必要となる保守部品はストックしておくのでしょうね。
---------------------
PowerXCell 8iを使ったCELL BladeはBladeCenter QS22の方だったりします。
URLリンク(www.top500.org)
732:Socket774
10/03/27 16:55:15 DXYWK1Ye
なんだ結局Cellは止めちゃうのか
733:Socket774
10/03/27 17:01:17 qGrVqydH
> 安藤氏の今日の更新は色々と突っ込みどころが多いですね。
そう思うなら本人にメールしてあげなよ
きっと喜ぶと思うよ
退職して暇してるかもしれないし
734:Socket774
10/03/27 17:05:26 qGrVqydH
>>732
まあ、クターがいなくなっちゃったしね
735:Socket774
10/03/27 17:07:36 0tVzBGoR
QS21に使われているCellって90nm版だけ?
736:Socket774
10/03/27 17:45:28 SNFwEVpK
>GPGPU性能も扱っているという点では、御本人の専門分野にも重なるかと思うのですけれど…
退職して唯のライターになったからかんけーないとか
737:Socket774
10/03/27 17:56:13 SNFwEVpK
URLリンク(images.anandtech.com)
URLリンク(images.anandtech.com)
というかこの辺はアーキテクチャどうこうよりも
比較対象が遅すぎるだけジャン
285比じゃ物量並では?
738:Socket774
10/03/27 19:22:07 lAQzL8NX
しかしPower8がSPEとのヘテロコアとか面白いな
739:Socket774
10/03/27 19:40:37 xrqHB3PX
>>732
5年前とは状況がまるで違うからな。
前提が崩れたら予定を変えるのは当然。
740:,,・´∀`・,,)っ-○○○
10/03/27 23:28:52 pJg4SW1L
SONYが家電のIntelになるとか息巻いてた頃の話だからな
741:MACオタ>団子 さん
10/03/28 10:22:38 Xy1m3rTn
>>740
団子さんの方は Anand の GPGPU の結果を見て、ちっとはやる気はでましたか?
URLリンク(www.anandtech.com)
742:,,・´∀`・,,)っ-○○○
10/03/28 11:11:23 nvnx7jQ0
得意なのだけ引っ張ってきた感が否めないがそれ以上に前世代が酷すぎた
743:Socket774
10/03/28 11:13:30 hxCdHi1o
比較対象の他社もね
744:,,・´∀`・,,)っ-○○○
10/03/28 11:13:49 nvnx7jQ0
CPUとの比較がない時点で×だな
ちなみにN-QueenはCell SPEより半速のAtomの方が速かった
745:,,・´∀`・,,)っ-○○○
10/03/28 11:14:56 nvnx7jQ0
URLリンク(dango.chu.jp)
746:,,・´∀`・,,)っ-○○○
10/03/28 11:32:41 nvnx7jQ0
N-Queenは分岐粒度が問われるのでSIMDの並列度が高いのよりも
独立動作するスカラプロセッサ大量のほうが速いよ。
実際問題FermiはGT200に引き続きSIMDをラップしただけのエセスカラからは脱却してないようだから
単純に命令フロントエンドの増分しか性能上がっていない。
予想だと
SCC>>Larrabee>>Fermi
747:Socket774
10/03/28 11:38:26 HabHO05I
だらだらつまんねえレスしてないで、string libraryでも書きなおしたらどうだ?
748:,,・´∀`・,,)っ-○○○
10/03/28 11:42:40 nvnx7jQ0
無駄w
749:Socket774
10/03/28 12:02:02 hxCdHi1o
>>745
なんかルパンが出てくるんだが
750:,,・´∀`・,,)っ-○○○
10/03/28 12:19:30 nvnx7jQ0
イベント終了っぽいから消しといた
751:Socket774
10/03/28 19:36:51 gbVvaAPa
ちゃんとベクトル化したか?
探索問題のベクトル化については昔から研究があるぞ
752:Socket774
10/03/28 19:38:04 gbVvaAPa
京大津田研あたりが日本では有名
753:,,・´∀`・,,)っ-○○○
10/03/28 19:44:49 nvnx7jQ0
どのみちビットボード使うのが速い
754:Socket774
10/03/28 22:31:39 LY1KKagf
海外BBSでもPower8がSPEとのヘテロみたいに書かれてるけど本当にそうなん?
単にSSEみたいに各コアに簡略化されて搭載されるんじゃないの?
755:Socket774
10/03/29 00:40:55 r88MONsI
オタさんも書いてるけど、VSXが拡張されるだけだと思う
756:Socket774
10/04/01 13:15:18 mJxKklpu
まあ、出て見ないとわからないな
VSXが拡張されてるだけなら現状でもそうなってるわけだし意味わからなくなるw
757:MACオタ
10/04/01 18:25:23 Xb5zlDzT
Magny-Cours, Nehalem-EX と新製品の発表でSPEC2006の登録も面白いことになっていますが、今回は>>678-681と>>704-706に続いて Westmere vs. Nehalem の比較です。
あれから、同じ4-coreでの Westmere と Nehalem の結果も登録されました。前回の考察がどの程度正しかったのでしょうか。
比較対象は次の二つです。
・Westmere Xeon E5630/2.53GHz
CINT: URLリンク(www.spec.org)
CFP: URLリンク(www.spec.org)
・Nehalem Xeon E5540/2.53GHz
CINT: URLリンク(www.spec.org)
CFP: URLリンク(www.spec.org)
OSおよびコンパイラは同じ条件で64-bit環境になります。
OS: SuSE Linux Enterprise Server 11 (x86_64), Kernel 2.6.27.19-5-default
Compiler: icc/ifort Version 11.1 Build 20091130
Base Pointe: 64-bit
では結果を見てみましょう。Mod版は>>679の基準で、次の基準で計算しています。
CINTは 462 を除く。
CFPは 410, 434, 436, 459, 481, 482 を除く。
■ Westmere vs. Nehalem (4-core, Linux, 64-bit)
CINT_base CINT_base(Mod) CFP_base CFP_base(Mod)
E5630/2.53GHz 30.7 24.0 35.6 34.0
E5540/2.53GHz 29.8 23.5 26.6 25.3
+3.2% +1.9% +4.6% +2.7%
コア増加分を抜きにしても2-5%程度の性能向上を果たしています。注目は、シングルスレッド性能のみを評価したMod版での比較より並列化の効果が加味されている公式版の指数の方が差が大きくなっていることで、WestmereとIntelの
最新コンパイラは並列コードへのチューニングが進んでいることが示されているのでしょう。
758:MACオタ
10/04/01 21:10:20 Xb5zlDzT
Magny-Cours と Nehalem-EX の方ですが、HP (Magny-Cours), Bull SA, Dell (Nehalem-EX) が rate の結果を登録しています。
Magny-Cours の登録全て2-socket/24-core, Nehalem-EX の方は全て4-socket 構成ということで直接の比較は難しいのですが、同クラスの構成と比較してみた結果を示します。
■各種マルチコア・サーバープロセッサの CINT2006_rate
base peak
POWER7/3.86GHz/2-socket/16-core/4-SMT 586 652
Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT 466 502
Westmere-EP/3.33GHz/2-socket/12-core/2-SMT 355 378
Shanghai/2.6GHz/4-socket/24-core/noSMT 313 400
Magny-Cours/2.3GHz/2-socket/24-core/noSMT 309 398
Westmere-EP/3.47GHz/2-socket/8-core/2-SMT 286 302
■各種マルチコア・サーバープロセッサの CFP2006_rate
base peak
POWER7/3.86GHz/2-socket/16-core/4-SMT 531 586
Magny-Cours/2.3GHz/2-socket/24-core/noSMT 290 318
Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT 272 280
Shanghai/2.6GHz/4-socket/24-core/noSMT 251 276
Westmere-EP/3.33GHz/2-socket/12-core/2-SMT 248 257
Westmere-EP/3.47GHz/2-socket/8-core/2-SMT 214 222
出揃ってみると、圧勝ですね。POWER7
物量主義だけでなんとかなるのは、CFP2006_rate だけというのも良く判ります。
759:MACオタ@補足
10/04/01 21:21:10 Xb5zlDzT
登録データのリンクです。
- POWER7/3.86GHz/2-socket/16-core/4-SMT
CINT_rate: URLリンク(www.spec.org)
CFP_rate: URLリンク(www.spec.org)
- Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT
CINT_rate: URLリンク(www.spec.org)
CFP_rate: URLリンク(www.spec.org)
- Magny-Cours/2.3GHz/2-socket/24-core/noSMT
CINT_rate: URLリンク(www.spec.org)
CFP_rate: URLリンク(www.spec.org)
- Westmere-EP/3.33GHz/2-socket/12-core/2-SMT
CINT_rate: URLリンク(www.spec.org)
CFP_rate: URLリンク(www.spec.org)
- Westmere-EP/3.47GHz/2-socket/8-core/2-SMT
CINT_rate: URLリンク(www.spec.org)
CFP_rate: URLリンク(www.spec.org)
- Shanghai/2.6GHz/4-socket/24-core/noSMT
CINT_rate: URLリンク(www.spec.org)
CFP_rate: URLリンク(www.spec.org)
760:MACオタ@訂正
10/04/01 21:33:34 Xb5zlDzT
>>758はCFP2006_rateの方に間違いがありました。
誤) Nehalem-EX/1.87GHz/4-socket/24-core/2-SMT 272 280
正) Nehalem-EX/1.87GHz/4-socket/16-core/2-SMT 272 280
要するに4-core の E7520 のデータということです。
>>758-759の Nehalem-EX は 1.83GHzのモデルで揃えたつもりでしたが、CINTは6-coreで2.53GHzまでブーストがかかるL7545の結果。CFPは4-coreでターボブースト無しのE7530の結果ということで混じってます。
761:Socket774
10/04/02 03:41:51 q2NHfUh6
POWER7の爆熱振りを見ると,どうしてもあれがARMと張り合うような組み込み向けプロセサには見えない。
762:Socket774
10/04/02 04:20:05 Zj71dDLH
>>761
763:Socket774
10/04/02 14:15:25 02Isnjd/
>>761
POWERとPowerPCは別物だしARMともターゲットが違う
最近はCortex-A8/9などでPPCの領域にも手を伸ばしつつあるが
764:Socket774
10/04/02 16:03:26 IfvCAZdp
>>755
単体では今もVSXとSPUと同じようなもんでしょ
各コアに点在して実装してるからトランジスタ辺りの演算性能が稼げないだけで