CPUアーキテクチャについて語れ 16at JISAKU
CPUアーキテクチャについて語れ 16 - 暇つぶし2ch409:MACオタ
10/01/24 18:04:32 7sUNozEW
>>396, >>403 で紹介した PPC476FP に関して GCC ML に情報が出ているようです。
URLリンク(gcc.gnu.org)
 - 推測通り FPU は APU インターフェース接続で、FPU 無しの PPC476 もありえる。
 - 命令レイテンシ
  単純整数演算(加減算、論理演算、等): 1
  複雑整数演算(整数乗算、SPRアクセス、等): 4
  整数除算: 11, non-pipelined
  ロード/ストア: 4 (アップデート付きアドレシングのペナルティなし)
  浮動小数点演算: 6
  浮動小数点除算: 19 (単精度), 33 (倍精度), 共に non-pipelined

ところで>>403 で書いたこれですが、大きな勘違いで PPE と違って 32bit コアのPPC47x
では無理でした。
  -----------------
  次世代 CELL/B.E. があるとすれば、制御用 POWER ISA コアも PPC470 系列の設計になる
  のではないでしょうか。
  -----------------

410:Socket774
10/01/24 18:24:07 WHluXdx0
>>409
ブルドーザの目指してるところってこれじゃないのか

411:MACオタ
10/01/24 18:58:23 oeZiwZQt
それでは 64-bit 組込コアのロードマップはどうなっているかというと、"PowerPC A2"
という情報が世間では飛び交っているようです。
これもちゃんと根拠があったようで、GCC に設定が追加されていました。
URLリンク(gcc.gnu.org)
 - こちらはちゃんと PPC64。
 - 組込向けコアなのは間違いないらしく、APU 接続演算リソースの定義がある。
 - in-order コアの様に見える
 - 乗除算専用パイプラインがあるらしい (DSP?)
 - MT は止めた?
 - 命令レイテンシ
  整数乗算: 1 (32bit), 6 (64bit)
  整数除算: 32 (32bit), 65 (64bit), 共に non-pipelined
  ロード: 5 (整数), 6 (fp)
  ストア: 1 (整数), 2 (fp)
  浮動小数点演算: 6
  浮動小数点比較: 5
  浮動小数点除算: 59 (単精度), 72 (倍精度), non-pipelined
  平方根: 65 (単精度), 69 (倍精度), non-pipelined

PPE直系の設計の様に見えます。文中に"SPE"なる記述も…


412:Socket774
10/01/24 19:04:30 kTtH3DnY
>>411
次のCELLにはこれが付くのか

413:MACオタ@訂正
10/01/24 19:26:58 oeZiwZQt
>>411 はちょっと訂正。
  ------------------
   - MT は止めた?
  ------------------
a2.md に記されたレイテンシ記述と、rs6000.c に記されたものが、ほぼ
2:1 の比率になっているようですから、2-way FGMT で間違い無さそうです。

414:MACオタ>412 さん
10/01/24 21:06:48 oeZiwZQt
>>412
  ----------------
  次のCELLにはこれが付くのか
  ----------------
むしろ次期 XCPU かと。

参考までに PPU の記述と比較してみました。
URLリンク(gcc.gnu.org)
a2.md の中で演算リソースの割付が"nothing"のモノは、枠組だけ用意して
数値は適当な値を入れてあるだけっぽいので、もっともらしい値だけ比較します。
 64bit整数乗算: 9 cycles (PPU) -> 6 cycles (A2)
 32bit整数除算: 32 cycles (PPU) -> 32 cycles (A2)
 64bit整数除算: 64 cycles (PPU) -> 65 cycles (A2)
 浮動小数点演算: 10 cycles (PPU) -> 6 cycles (A2)
 浮動小数点ロード: 7 cycles (PPU) -> 6 cycles (A2)
 浮動小数点ストア: 13 cycles (PPU) -> 2 cycles (A2)
 浮動小数点比較: 6 cycles (PPU) -> 5 cycles (A2)
 単精度fp除算: 74 cycles (PPU) -> 59 cycles (A2)
 倍精度fp除算: 74 cycles (PPU) -> 72 cycles (A2)
 単精度fp平方根: 84 cycles (PPU) -> 65 cycles (A2)
 倍精度fp平方根: 84 cycles (PPU) -> 69 cycles (A2)

・整数DSP用のパイプラインが新設されて、一般の処理を行う一般整数パイプラインの負荷が
 軽くなった
・全体にパイプラインが短くなった
というのが改善点なのでしょうか?

415:MACオタ@補足
10/01/24 21:14:11 oeZiwZQt
>>411 でキャッシュに関する記述を書き忘れたので、追記しておきます。
 - 64-byte キャッシュライン
 - 16KB L1
 - 2MB L2
 - 16本の自動プリフェッチストリーム

キャッシュラインのサイズを半分にして、多少は利用率を上げた一方で、L1 は PPU より半減
ですか…

416:MACオタ
10/01/24 21:40:25 oeZiwZQt
こちらも昨年秋のニュースですが、AMCC の Titan コアを搭載した製品が発表されています。
Titan の発表ってもう2年以上前だったりするのですが…
スレリンク(jisaku板:392番)
URLリンク(pc.watch.impress.co.jp)
AMCC のリリースはこちら。
URLリンク(investor.appliedmicro.com)
  -----------------------
  The APM 83290 includes a processor subsystem that integrates two Titan cores
  based on Power Architecture technology, delivering frequencies of 1.5 GHz per core.
  The Titan core is a superscalar, dual-issue, out-of-order core designed to achieve
  industry leading single thread performance on a per clock basis. Along with high
  performance, innovative circuit design techniques enable the APM 83290 to deliver
  speeds of 1.5 GHz in 90nm bulk CMOS while comparable designs require 45nm SOI
  process technology to achieve similar operating speeds.
  -----------------------
今となってはあらゆる点で PPC476 に劣る訳ですが、リリースにあるように 90nm バルクプロセス
で同レベルのクロックを実現しているのは立派と言えるのかも。
量産は今年Q1なので、476より早く登場するのも確かです。

417:Socket774
10/01/24 21:47:06 kTtH3DnY
>>414
なぜXCPU、CELLとは考えないの?

418:MACオタ>417 さん
10/01/24 21:54:55 oeZiwZQt
>>417
PPUの開発リソースをMSに横流しされた恨みをそう簡単に忘れるとも思えませんが…

419:Socket774
10/01/24 22:00:13 kTtH3DnY
>>418
それが根拠なの、根拠が弱いと思う

420:MACオタ>419 さん
10/01/24 22:08:46 oeZiwZQt
>>419
  --------------
  根拠が弱いと思う
  --------------
では言い換えましょう。チップ開発能力が殆ど無いMSのために、半導体開発の研究所を
持つSONYが開発費を共同で負担してあげる必要があるでしょうか?

421:MACオタ@補足
10/01/24 22:20:51 oeZiwZQt
>>419
真偽はともかく、こういう報道もありました。
URLリンク(pc.watch.impress.co.jp)
  --------------------
  ちなみに、Cell B.E.の開発をSCE(ソニー)、IBM、東芝の3社のエンジニアで行なった
  米オースティンのSTI Design Centerには、現在、SCEのアーキテクトチームはほと
  んど残っていないと言われる。
  --------------------
現時点で未発表の"A2"ですから、昨年初頭の段階はちょうどアーキテクチャ設計の最中
だった筈。その時点でSCEの技術者が手を引いていたすれば…

422:Socket774
10/01/24 22:40:27 kTtH3DnY
>>420
前提がMSありきで、共同開発orリークというのがおかしい
>>421
今回のはpower関連だからとも取れる

423:MACオタ>422 さん
10/01/24 23:06:10 oeZiwZQt
>>422
IBMは商売に関しては悪の権化のような会社です。客から開発費をふんだくった上、
開発した製品の販売権も手に入れるという所業を繰り返しています。

今回話題にしている PPE, PPC476 も全て例外ではありません。
 ・PPE: SONYの資金で開発 -> MSに派生製品をライセンス
 ・PPC476: LSI Corp. の資金で開発 (>>396参照) -> コアはIBMブランドで販売
URLリンク(www-01.ibm.com)

さて、A2の開発費を出した客は誰でしょうか?誰が A2 を必要としているかで判るかと。

424:MACオタ@続き
10/01/24 23:36:36 oeZiwZQt
ちょっと CELL/B.E. 開発の現状を整理してみましょう。

龍芯3号と同じ Hot Chips 20 で東芝は SpursEngine を発表しています。資料はこちら。
URLリンク(www.hotchips.org)
p.17を見れば判りますが、SPEは単にバルクSiで製造しているだけでなく、完全にレイアウト
設計をやり直しています。SpursEngine が PPE を持たないのも周知の通りです。

一方で IBM が HPC 向けに設計した PowerXCell のレイアウトはこんな具合。
URLリンク(www.power.org) (P.18参照)
倍精度ユニットは正に『ポン付け』としか言い様がありません。最新の CELL/B.E. のユーザー
ズマニュアルを読めば書いてますが、PowerXCellで新たにサポートされたDDRメモリの
インターフェースも、XDRメモリコントローラの先にコンバータが『ポン付け』…

IBMの設計がダメとは言いませんが、地道な設計の最適化を行うような人的リソースが
無いのは明らかです。そんなIBMに改良設計を頼むような顧客って誰でしょうか?

425:MACオタ@続き
10/01/25 00:01:16 EtwJE1f0
もう少し大胆に予測してみましょう。

まず、PPC476。 2-issue の PPC440 シリーズから一気に 5-issue OoOE に高性能化を
図りました。共同開発した LSI Corp. はネットワークプロセッサへの応用を考えているでしょう
が、これって仕様としては明らかに PPC750 (PowerPC G3) シリーズの後継に当たります。
おそらく IBM が狙う顧客は任天堂でしょう。
APU インターフェースには小変更した VSX ユニットを搭載して、従来の倍精度FPUレジスタ
応用の単精度2並列SIMD命令をサポートすると共に、Altivec でSIMD幅2倍の性能向上も
図るものと思われます。

PPC-A2については、SONYとMS以外にはさっぱり売れなかったPPEをあえて改良したという
ことは、どちらかの会社が開発を依頼したことが間違いありません。しかし、それに留まらず
IBMの狙いは両方に売って大儲けすることです。
>>424 に書いたように、より開発依頼をする動機があるのはMS。しかし舶来信仰の日本企業
も引き続きパートナーシップを継続しようとする可能性はあります。

ここで注目すべきは、CELL開発中止のリーク。
URLリンク(www.itmedia.co.jp)
これもIBMのいつものやり方で、過去にはAppleのIntel移行の際にもPowerPCの極秘ロード
マップが半ば意図的にIBMのホームページに置いてあったことがありました。
メディアを利用したFUDはIBMのいつもの手口です。CELLがネタになっていることから、ター
ゲットはSONYでしょう。SONYは疑惑の2社のうち、積極的じゃ無い方ということになります。
従って A2 の顧客は MS でしょう。
SONYがIBMのFUDに掛かったか、否か、は現段階では不明ですが PS4 が一番先行不明
ということになりそうですね。

当たるか外れるかは数年後のお楽しみ。

426:Socket774
10/01/25 00:19:36 X8K8/API
ポン付けワロタw 正しくモジュール志向な設計方法取ってんなw

427:Socket774
10/01/25 00:23:39 7c1nIx4k
なんかSONY信者さんが狂ってますね

半導体開発の研究所を持つSONYさんがなぜIBMに開発を委託してるんでしょ?
単にMSと同じでCPUのような大規模プロセッサの開発能力がないからでしょ?

428:MACオタ>427 さん
10/01/25 00:27:37 EtwJE1f0
>>427
  ------------------
  CPUのような大規模プロセッサの開発能力がないからでしょ?
  ------------------
外人様に開発していただいたプロセッサを、最適化しつつシュリンクする術に長けている
ことはPS2用チップで証明済みかと?

429:Socket774
10/01/25 00:28:40 7c1nIx4k
>>428
うん だから開発する能力はないんでしょ?

430:Socket774
10/01/25 00:47:13 D0vEs2EC
MSはAMDに依頼する可能性も高いから
どうなるかはわからんな。CPUもGPUも
同一会社開発、製造の方が何かと楽で安心だろうし。

431:Socket774
10/01/25 00:48:15 uD0VHped
これでSONY信者と読み取ってしまう思考能力はある意味跳躍してるな。

つかSONYはPPE'なりA2なり使うしかないじゃん。
x86プロセッサーをSPEの頭になんか無理なんだし。

432:Socket774
10/01/25 01:02:39 oS0z0R8a
>>425
IBMによるFUDか…
後藤氏が最近になって拡張版CellをPS4に載せる計画が白紙になったと言ってたが…時期的に合致するのかな

433:Socket774
10/01/25 01:05:03 cfEItLPZ
枝葉末節に噛み付いてでもソニーを貶めたくてしょうがないんだろうなw

>>425
2010年にPowerXCell 32ivってロードマップはまだ現存してそうなの?
全然出てきそうな気配がないけど。

434:MACオタ>433 さん
10/01/25 01:13:48 EtwJE1f0
>>433
  ----------------
  2010年にPowerXCell 32ivってロードマップはまだ現存してそうなの?
  ----------------
もう今年は2010年ですから消えたのでは?
ただし、"A2"により PPE' 相当のコアが現存したことが確認された訳です。

435:Socket774
10/01/25 01:15:33 gNrlrMWP
コンソールの世代間の性能差となるとやっぱ一桁くらいは欲しいから、
まだちょっと早いんじゃないかなあ。

436:MACオタ>435 さん
10/01/25 01:18:52 EtwJE1f0
>>435
次世代 CELL 用に A2 造ったけど、SONY が手を引いちゃったのでコア仕様だけ
公開して客待ちという可能性も無いとは言えませんか…

437:Socket774
10/01/25 01:26:11 gNrlrMWP
まあチップじゃなくてコアだからあってもいいのかもね。
32SPEのチップとか言う話だと今年大量に使われることはまずないけど。

438:Socket774
10/01/25 01:43:52 eHzXwpwP
そういやPS2のEEってかなり速いらしいね
ゲーム使用に限定するなら世代の違うPPEと比べても遜色ない性能だとか

439:Socket774
10/01/25 09:41:10 xp4UgILQ
ゲーム用CPUは暫し休憩だよ。
MSは現行チップを45nmに移行させ、かつ、省電力にしないと次の6 or 8コアに
取り組めない。SCEはチップ面積的に45nm世代は無理。いずれも32nm世代以降
だが、両社爆熱での品質不良や高価格でWiiに完敗した経験から、32nm世代で
は無理せず、その次の22nm移行前後位しか次のゲーム機は出しづらい。
しかし、CPU設計のコア部分はもう大幅変更する力は両社とも残っていない
から、現行コアの改良だけなら急いで研究開発してその技術を他社に横流し
されたら涙目だし。
ゲーム機の三国志状態は続くし、ソフトメーカーのマルチ化は続くから、
移植の容易さを確保する必要があるので、極端に変わるとは思えないしね。

440:Socket774
10/01/25 20:46:09 vjDAiAJY
ゲーム機自体は、携帯機が主戦場になっちゃってるからねぇ…。

省電力コアとか機能の取捨選択という部分では面白いし
組み込み系チップのハイパフォーマンス化を先導するのだけど
スパコンとかそういうレベルの話では無いからね。

441:Socket774
10/01/25 21:30:04 968avAjx
それにしても、22nmとそれ以降って、まともに微細化がすすむのかねえ。
EUVになるのかEBになるのか。いずれにしてもすごいコストだ。
ゲーム用ならスループットの高いEUVが必要だろう。
代わりの3DLSIのロードマップもあっちこっちで出ているが、こないだの学会じゃ大手はみんな及び腰。
2015年に密結合の3DLSIとか書かれているが、3年5年遅れても驚かんぞ。

442:Socket774
10/01/25 21:38:26 kt559r2q
台湾が新しいリソグラフィ技術を考案しましたよ
URLリンク(journal.mycom.co.jp)

とは言えこういうのがすぐに物になるとも思えんが

443:Socket774
10/01/25 21:51:41 968avAjx
>442
これはただのEBの変種だからな。
EBの最大の問題はスループット。
この問題を解決する方法は、マルチビームとか昔から研究されているが
まともな形になったものはまだない。

少量な試作に使うくらいなら何とかならんこともないだろうが。

444:Socket774
10/01/25 22:16:56 kt559r2q
ま、確かに
現行の方式と比べて二桁ほど足りないんだっけか
装置価格との兼ね合いもあるけどまだ話にならんね

445:MACオタ
10/01/25 23:11:41 JoSA0K5J
どうやら PPC A2 は思ったより大物な気がしてきました。
命令セットの一覧が Binutils ML に投稿されています。
URLリンク(sourceware.org)
POWER5までの 64bit POWER サーバーの命令の全てと、POWER7 命令の一部を
サポートする上、多くの新命令が追加されています。
  ----------------------
  * ppc-opc.c (powerpc_opcodes): Add eratilx, eratsx, eratsx.,
  eratre, wchkall, eratwe, ldawx., mdfcrx., mfdcr. mtdcrx., icswx,
  icswx., mtdcr., dci, wclrone, wclrall, wclr, erativax, tlbsrx.,
  ici mnemonics. Update other mnemonics where required.
  [略]
  + { "ppca2", (PPC_OPCODE_PPC | PPC_OPCODE_CLASSIC | PPC_OPCODE_ISEL
  + | PPC_OPCODE_POWER4 | PPC_OPCODE_POWER5 | PPC_OPCODE_CACHELCK
  + | PPC_OPCODE_64 | PPC_OPCODE_PPCA2),
  + 0 },
  [略]
  +{"bpermd", X(31,252), X_MASK, POWER7|PPCA2, PPCNONE, {RA, RS, RB}},
  -----------------------
といった感じ。同時に、Freescale e500 の命令の多くもサポートしているようです。
例えば、こんな風。
  -----------------------
  +{"dcbtstep", XRT(31,255,0), X_MASK, E500MC|PPCA2, PPCNONE, {RT, RA, RB}},
  -----------------------
仕様はてんこ盛りな訳ですが用途は何なんでしょう…というか、結局これが今年のISSCCで
発表される"A Wire-Speed Power Processor" (>>312参照)なのでは?

446:MACオタ@補足
10/01/25 23:32:49 JoSA0K5J
自分のカキコミを読み直して、単なる腐れルーマーの類だと思っていた
『PS4にPOWER7が搭載される』というネタの大元は、IBMが"A2"コアを
SONYに売り込んだという話が元になっているのではなかろうかという
気がしてきました。
URLリンク(gaming.hexus.net)
ちなみに binutils のリポジトリを掘っていくと、"e500mc64" なる名前が登場します。
URLリンク(sourceware.org)
  ----------------------
  { "e500mc64", (PPC_OPCODE_PPC | PPC_OPCODE_BOOKE | PPC_OPCODE_ISEL
   | PPC_OPCODE_PMR | PPC_OPCODE_CACHELCK | PPC_OPCODE_RFMCI
   | PPC_OPCODE_64 | PPC_OPCODE_POWER5 | PPC_OPCODE_POWER6
   | PPC_OPCODE_POWER7),
   0 },
  ----------------------
どう見ても、Freescale QorIQ の 64bit 版な訳ですが、POWER7 命令もサポートしているよう
に見えます。
果たしてサマセット研時代のようなPOWER陣営大連合が果たされるのかどうか…

447:Socket774
10/01/25 23:49:24 XnEjUZhf
PPC A2のお披露目に期待age

448:MACオタ
10/01/26 00:17:14 hWVdbD19
POWER7ですが、ISSCCでの論文発表と同時に製品も発表されると言うことになりそうで。
URLリンク(www.itjungle.com)
  ------------------------
  Power your planet.

  In February, IBM will introduce the next generation Power Systems--the first of a
  family of systems and storage designed to meet the demands of a smarter planet.
  From the chip and virtualization capabilities all the way through to the operating
  system, middleware and energy management, Power Systems from IBM are integrated
  to help support the complex workloads and dynamic computing models of a new
  kind of world.
  Power Systems--the future of Unix servers. They're coming. Smarter systems for a
  Smarter Planet.

  ibm.com/poweryourplanet
  ------------------------
ソースは Wallstreet Journal に掲載された新聞広告だそうですが、確かに…
URLリンク(www-03.ibm.com)


449:Socket774
10/01/26 02:05:17 2Kcd+3ZS
MACオタさん洞察すばらしいですね。
某社ではこのA2のことで話題が持ちきりでしたw

450:Socket774
10/01/26 12:16:06 OKvycky1
各地でMACオタさんの株が上昇しています↑

451:MACオタ
10/01/26 21:39:51 bF9XPRSO
PPC A2 が ISSCC で発表される "Wire-Speed Power Processor" だとすると、
アブストラクトには、こうあります。
URLリンク(submissions.miracd.com)
  --------------------
  A 64-thread simultaneous multi-threaded processor uses architecture
  and implementation techniques to achieve high throughput at low power.
  Included are static VDD scaling, multi-voltage design,
  clock gating, multiple VT devices, dynamic thermal control,
  eDRAM and low-voltage circuit design. Power is reduced by >50% in a
  428mm2 chip. Worst-case power is 65W at 2.0GHz, 0.85V.
  --------------------
PPUより大規模そうな仕様にしては、16-core のチップ全体で 65W@2GHzは
現実的な数字に見えます。
それでも 4 Flops/Cycle 程度の APU を搭載したとして、2GHz でおよそ 2GFlops/W。
チップ単体でこれでは、システム全体で3GFlops/W を狙うと言われる Sequoia 用の
プロセッサでは無さそうに見えますが、さて。

452:MACオタ@補足
10/01/26 21:47:59 bF9XPRSO
A2 = Wire-Speed Power 説ですが、RealWorldTech 掲示板で Wes Felter 氏が思わせぶり
なカキコミをしていますね。
URLリンク(www.realworldtech.com)
  ------------------------
  >Is there any primary source about the A2, or hard evidence of it at all, besides
  >this file in GCC?

  Be patient. (But not too patient.)
  ------------------------
ちなみに Felter 氏はこんなヒト。
URLリンク(felter.org)

453:MACオタ
10/01/26 22:03:10 bF9XPRSO
Freescale の 64bit Book-E プロセッサ, e500mc64 の方ですが、GCC の
リポジトリに Machine Description が置いてありました。
URLリンク(gcc.gnu.org)
  -----------------
  ;; e500mc64 64-bit SU(2), LSU, FPU, BPU
  ;; Max issue 3 insns/clock cycle (includes 1 branch)
  -----------------
パイプライン構造、レイテンシ共に e500mc (QorIQ) と変わらない様ですから、
上限 2GHz 程度の普通の上位組込コアの様です。
Freescale は e500 コアで Altivec をサポートするつもりは無い様ですから、興味深い
応用は無さそうですね。


454:Socket774
10/01/26 22:17:50 rUrHKrVa
>>453
XBOX用って言っていたのは何だったのか?勘違い?

455:Socket774
10/01/26 22:40:35 z9y0xD40
やっぱりIBMオタに改名するベキダ

456:MACオタ>454 さん
10/01/26 22:40:38 bF9XPRSO
>>454
  -----------------
  XBOX用って言っていたのは何だったのか?勘違い?
  -----------------
命令セットの増強を見ると、単純な PPU/PX 改良版では無かったようです。

もっともBMが客も決まっていないプロセッサを開発する訳がありませんから、A2 に関
しては XCPU 後継として使われる可能性があります。しかし、その場合は VMX128 後継
となる APU を別途開発する必要がありますから、もう少し先の話では?

実現するとすればバリア同期やコア単位の電力管理に役に立つ "Wait" カテゴリの命令
が大きく増強されているようですから、8コア以上のマルチコアとして実装されそうですね。

457:Socket774
10/01/26 22:44:56 rUrHKrVa
>>456
先走っての勘違いって事か
先走りすぎだなMACオタ

458:MACオタ
10/01/26 22:48:24 bF9XPRSO
新聞報道されていた京速の機密文書が公開されたようです。
URLリンク(www.mext.go.jp)
作業部会での悲惨な評価はp.13からの資料にあります。
  -------------------
  ・ スカラ部による性能目標達成のためには、ベクトルは完成が遅れてもやむを得ない。
  ・ 現状では、世界一奪取に対する貢献度が見えない。
  ・ 統合アプリはない、統合Linpack はやらない、ということなので、ベクトル部を継続する意義
   はほとんど無い。
  ・ ベクトルで3ペタ達成可能であるならば、作る意味はある。3ペタが達成されないならば意義
   は低い。
  ・ メモリーのクロックが遅くなったベクトル計算機では、既存プロクラムの継続利用以外のメリ
   ットが無くなりつつあり、1ノード毎にばらばらに使うのでなければ、システム構成として見
   直すべき時期に来ている。
  ・ 現在のベクトル部詳細設計では、メモリバンド幅・演算速度比がベクトル計算機として
   効率的に動作するには小さすぎる。また、電力が世界の状況と比較して過大である。し
   たがって、製作を行うことには、地球シミュレータ以来のソフトウェア資産を継承する
   以外の意義は少なく、仮に中止したとしてもその影響は限定的である。
  -------------------
NECって自主的撤退と言うよりは、切られたのでは?

459:Socket774
10/01/27 10:17:34 GBdUBjOh
携帯型コンピュータのプロセッサ、「2013年にはARMがx86を超える」
URLリンク(www.eetimes.jp)

460:Socket774
10/01/27 12:51:54 inAvk0vH
2004年にはItaniumがx86を超える(キリッ

461:Socket774
10/01/27 21:27:00 GJygqFJt
すでに8086くらいは超えてるな

462:レトリック君
10/01/28 02:06:01 vLn9Fpin
>>461
志村ーッ、2004だってばw

463:Socket774
10/01/28 07:59:29 cxikDypa
Apple A4のベースになってるARMって何なのか分かる人いる?
資料が見つからない…

464:Socket774
10/01/28 21:11:18 pv6sxUZX
なんで、出来合いのチップを調達せずに、わざわざ自前で用意しようと思ったんだろうな?


465:Socket774
10/01/29 00:36:19 eRQ+cH87
>>464
appleだからだろ。
68kMAC時代から命令セットに手を入れる会社だし。

466:Socket774
10/01/29 00:40:03 oTd58LGM
3G → 90nm / ARM11 412MHz / PowerVR MBX-Lite
3G S → 65nm / ARM Cortex A8 600MHz / PowerVR SGX
どちらも既存のものをベースにちょいカスタムしたSamsung製SoCを採用。

自前でもなんでもなく順当にiPadもこの系統だと思うが。
IPは他社のものだからどうしようもないけど、SoC設計をApple買い取ったってことなのかもね。

467:Socket774
10/01/29 01:48:49 peOYWx6c
A1→68k
A2→PowerPC
A3→x86(-64)
A4→ARM

A3はいつまで続くのかなぁーっと

468:MACオタ>467 さん
10/01/29 01:54:39 nDBbxlWP
>>467
Apple ][ が抜けているのは、ちょっと歴史認識が間違っている気が…

469:MACオタ
10/01/29 02:00:17 nDBbxlWP
TomsHardware の SpursEngine レビュー。
URLリンク(www.tomshardware.com)
複数のIntel/AMDのホストプロセッサでの比較を行っていますが、
 - 消費電力据置きで、エンコード時間は半分以下で済む。
 - 画質はソフトウェアエンコーディングに匹敵
 - アドオンカードにしては値段も安い
ということで、好意的なレビュー結果でした。

470:MACオタ
10/01/29 02:18:23 nDBbxlWP
TheRegs の ISSCC プレビューですが、Morgan 記者は "Wire-Speed Power" を
試作品と見ている様で…
URLリンク(www.theregister.co.uk)
  --------------------
  IBM's chip designers will be showing off another experimental Power7 derivative,
  an unnamed 2.3 GHz "wire-speed Power processor" that sports 16 cores and 64 threads.
  --------------------

471:MACオタ
10/01/29 03:07:17 nDBbxlWP
理研とNVIDIAが主催した"Accelerated Computing"研究会で、
URLリンク(reg-nvidia.jp)
牧野教授が次世代GRAPE-DR の開発状況を語ったようです。
URLリンク(www.artcompsci.org) (P.56)
  ------------------------
  GRAPEs with eASIC
   ・Completed an experimental design of a
    programmable processor for quadruple-precision
    arithmetic. 6PEs in nominal 2.5Mgates.
   ・Started designing low-accuracy GRAPE hardware
    with 7.4Mgates chip.

   Summary of planned specs:
   ・around 8-bit relative precision
   ・support for quadrupole moment in hardware
   ・100-200 pipelines, 300MHz, 2-4Tflops/chip
   ・small power consumption: single PCIe card can
    house 4 chips (10 Tflops, 50W in total)
  ------------------------
300MHz の HPC 向けプロセッサとはあまりに貧乏路線過ぎる気もしますが、電力効率
勝負になっている現在のトレンドには合致しているのかもしれません。
でも電力管理に(設計)リソースを振り向けられなくて、それほど効率も上がらないかも…

472:Socket774
10/01/29 22:29:01 48LxObXC
>>470
おいらも最初はIBM版Niagaraかと思ってたんだけど
オタさんがいろいろ書くもんだから分かんなくなっちゃった

473:Socket774
10/01/30 01:36:00 OCKk1ry5
armがmsと共通規格策定できれば凄いことになりそう

2年後くらいかな

1年後のandroid共通規格でもいいけど

474:Socket774
10/01/30 01:46:27 NWfoSSfy
PPC "A2" の開発に LSI が参加していることについて MAC ヲタが>>425で↓と書いているが
> 共同開発した LSI Corp. はネットワークプロセッサへの応用を考えているでしょう

個人的にはネットワークプロセッサーよりも IO プロセッサーへの応用を期待してみる.
intel は IOP がディスコンしまくりだし,AMCC は 3ware を手放したみたいだが
マルチコアにスケールしやすいプロセッサーはIOプロセッサーとしてどうなのだろう?
# RAIDだとパリティ演算とかマルチコアで性能出し易そうに思えるのだが…触ったこと無いから解らん…

LSI のネットワークプロセッサーはハイエンドではない ARM だし,どうなのかね?


475:MACオタ>474 さん
10/01/30 03:26:18 9on66SoV
>>474
  ------------------
  > 共同開発した LSI Corp. はネットワークプロセッサへの応用を考えている
  ------------------
カキコミが分散して誤解させてしまったことは申し訳ありませんが、それA2じゃなくて
PPC476の話です(>>396参照)。

476:MACオタ
10/01/30 20:37:12 9on66SoV
安藤氏の今日の更新ですが、
URLリンク(www.geocities.jp)
  ----------------
  今の計画では,富士通は当初計画通り2012年3月末に10PFlopsを作り,
  NECのベクトル部が無くなったのに,予算は変わらないというのは理解
  できません。
  ----------------
マスメディアでの記事まで含めて、散々事業仕分けを批判した挙句に
他人事のようにこれは無いのではないでしょうか?
文責とかそういうものって、いったい何所に…

477:Socket774
10/01/30 21:52:39 HaYdkyQt
翻って事業仕分けはスバラシイとか言い始めたわけじゃないんだから別に矛盾して無いでしょ。
事業仕分けに批判的な人でも京速計算機に問題が無いなんて考えてる人はほぼ皆無だと思う。
オタさんはこの問題に関して「スパコン利権vs事業仕分け」みたいな二極思考のようだけど。

478:Socket774
10/01/30 21:54:18 uVHFvPal
馬鹿だから仕方ない

479:MACオタ>477 さん
10/01/30 22:28:24 9on66SoV
>>477
  -------------
  翻って事業仕分けはスバラシイとか言い始めたわけじゃない
  -------------
いわゆる『文系』の世界と違って、自説の前提が間違っていることが明らか
になった場合は、そういう主張を行っても我々の世界では非難はされません。
むしろ過去の自説に偏執するほうが馬鹿にされます。

過去の安藤氏の主張に関しては、例えばこの記事を通読下さい。
URLリンク(journal.mycom.co.jp)
仕分け側の金田教授や、計画見直し論に京速サイドに立って批判を加えて
いるのが判るかと思います。

480:Socket774
10/01/30 22:36:38 CUQsMXOS
命令キューとリオーダバッファの区別のついていないMACオタが何を言うか(笑)

481:MACオタ
10/01/30 22:38:16 9on66SoV
ちと話は変わりますが、>>336で紹介した CELL を採用した欧州のスーパー
コンピュータQPACEの開発スケジュールが最後のリンクにあります。
もう一度貼り直しておきますが、
URLリンク(www.desy.de) (P.32)
  ----------------
  ・ 01/08   Official Project Start
  [中略]
  ・ 08/09   Deployment of 4 racks at JSC and
          4 racks at U Wuppertal complete
  -----------------
TOP500でのお披露目まで入れても、余裕で2年以下ですね。
汎用プロセッサを選択するだけでも、これだけの開発速度を実現できるという
のは、頭においておいて良いかと思うのですが…

482:Socket774
10/01/30 22:53:09 3GfdHy0C
>>479
>仕分け側の金田教授や、計画見直し論に京速サイドに立って批判を加えて
いるのが判るかと思います。

そういうのが二極思考だと言っているんです。
京速サイド、事業仕分けサイドどっちの味方とかそういう視点でしか見ていない。

>今の計画では,富士通は当初計画通り2012年3月末に10PFlopsを作り,
NECのベクトル部が無くなったのに,予算は変わらないというのは理解
できません。

この主張に矛盾するような箇所は見つけられませんでした。

483:Socket774
10/01/30 22:54:38 3CnLW1tD
>>482
馬の耳に念仏だよ

484:MACオタ>482 さん
10/01/30 23:06:20 9on66SoV
>>482
  -------------------
  そういうのが二極思考だと言っているんです。
  -------------------
当該記事から安藤氏独自の『極』なる提案を読み取ることができると主張
されるのでしたら、その内容をお書き下さい。

485:Socket774
10/01/30 23:12:07 e4DD98L0
きもい

486:Socket774
10/01/30 23:14:29 OCNUFsQC
落ち着け

487:Socket774
10/01/30 23:21:33 3GfdHy0C
>>484
いいえそういった主張はしません。
ただ単に安藤氏は様々な状況を総合的に判断して京速は推進すべしとの結論なのでしょう。

488:MACオタ
10/01/30 23:37:18 9on66SoV
Power.org が Power ISA 2.06 (サーバー仕様) の特徴について白書を公開しています。
ISA 2.06 Server Environment というのは POWER7 のための規格のようなモノですから、
POWER7 の改良点そのものかと。
URLリンク(www.power.org)
 ・ VSX (Vector-Scalar Extension)
 ・ Processor Compatibility Register
  ISA 2.05用の仮想マシンとISA 2.06用の仮想マシンの切替に役に立つそうで。
 ・ Authority Mask Override Register と User Authority Mask Override Register
 ・ 複数ページサイズの同時サポート
 ・ DCBT/DCBTST 命令によるプリフェッチの拡張
  昔から使われているテクニックですが、より現代的な仕様を追加しました。
  - Transient (一時的使用) 指定
  - Stride-N プリフェッチ: 疎行列アクセス用
 ・ メモリアクセス順序の強制
  PowerPC ISA は『緩い』メモリオーダリングを持つ命令セットですが、SPARCやx86の
  エミュレーション用にこの機能が役に立つそうで。
 ・ DFP (Decimal Floating Point)

489:Socket774
10/01/30 23:40:51 r1JjubY8
オタさんファビョっちゃった

490:Socket774
10/01/31 09:40:25 MzIQbD9D
一瞬POWER7版PowerPCかと思ったw

491:Socket774
10/01/31 15:13:46 vqFsqtRV
MACオタの口から文系批判が出るとは思わんかったw

492:MACオタ>491 さん
10/01/31 18:21:54 1yjeuoJz
>>491
特に批判しているつもりはありませんよ。昔、かの世界は伝統芸能の様に
説が『存在する』ということに意味があるので、現実世界の動向にかかわらず
間違いを認めると変節漢として非難されると聞いたのですが…

493:Socket774
10/01/31 19:29:47 KIDcoz5Q
認めなきゃ!間違いを!<オタへ

494:Socket774
10/01/31 20:30:57 dFNPGiKm
>いわゆる『文系』の世界と違って、自説の前提が間違っていることが明らか
>になった場合は、そういう主張を行っても我々の世界では非難はされません。
>むしろ過去の自説に偏執するほうが馬鹿にされます。

ゲハ厨風情が「我々の世界」とか言い出すようになってるとはワナビー病も根が深い

495:MACオタ>494 さん
10/01/31 21:56:21 1yjeuoJz
>>494
特に自慢になるような話でもありませんが、ゲハ板より私の方が古いんですよ。
古いカキコミを検索してみると、この位は辿れますね…
URLリンク(mimizun.com)
  -------------------
  6 名前:MACオタ :1999/11/25(木) 07:48
   ドルさん,解説どうも。
   サポートをMac OS 8以上に限定すれば,httpはiCabの様にHTTP Access
   機能をAppleScriptで呼び出すだけで使えるす。遅いけど。
   どなたかREALBasicあたりで頑張ってみてわいかがすかね?
  -------------------

496:Socket774
10/01/31 22:57:36 5I7EitZN
「> ゲハ板より私の方が古い」ことがどう>>494 と繋がるのかさっぱり分からん。
いきなり自分語りしだして何考えてるんだコイツ。

497:Socket774
10/01/31 23:06:30 KIDcoz5Q
しーっ、見ちゃいけません

498:MACオタ@補足
10/01/31 23:19:26 1yjeuoJz
ふと懐かしくなって自作板の過去ログを探していましたが、最古のスレッドも
残っているのですね。
URLリンク(mentai.2ch.net)
私の最初のカキコミはこれっぽいです。
URLリンク(mentai.2ch.net)
  -------------------
  10 名前: MACオタ  投稿日: 1999/12/20(月) 21:57
   登録シールを見ると92年8月から使ってるApple Keyboard II (US)。
   当然キートップの刻印はほとんど消えてるす。
  -------------------

499:Socket774
10/01/31 23:21:42 QXjkP70+
反転、MACオタさんの株が下落しています↓

500:Socket774
10/02/01 00:03:41 lABIHalb
こんなMACオタには減滅した・・・かまってちゃん全開でひくわ

501:Socket774
10/02/01 00:38:24 GL9NK3t1
団子が消えてオタが残った

502:Socket774
10/02/01 00:45:16 EAq6juci
MOTO製G5の話題あたりから懐メロ入って来たとかw

503:Socket774
10/02/01 01:25:25 AdGDJaT5
>>476辺りでバランスを崩し始め、復旧を試みるもそのまま負のスパイラルへ
FYIや情報交換ではなく自我を保つために書き込みするタイプがたびたび陥る罠です

504:MACオタ
10/02/01 19:14:44 rktrAdlu
>>393 で言及されている龍芯3号の論文見つけました。
URLリンク(ams.ict.ac.cn)

それから>>392でこういうニュースがありましたが、
  ----------------
   ・今年中にPOWERサーバーはPOWER7世代に更新される
  ----------------
IBMが POWER7 搭載ブレードサーバー (POWER6 搭載の JS23/JS43 の後継機)の研修会
を3月に予定しているとのこと。
URLリンク(www.redbooks.ibm.com)
Q2あたりに製品がでるのでしょうか?

505:MACオタ@訂正
10/02/01 19:52:28 rktrAdlu
上のIBMのリンクって研修会の案内じゃなくて、該当機種の Redbook の編集バイト
の募集ですね…

506:MACオタ
10/02/02 06:46:33 kko00L6f
2/8のISSCCのプロセッサセッションでのPOWER7講演(>>312参照)と共に、製品発表も行われるようです。
URLリンク(www.theregister.co.uk)
  -------------------------
  It looks like IBM's initial Power7-based servers are going to be launched in
  New York on February 8. Big Blue sent out the invitations today.
  -------------------------

507:,,・´∀`・,,)っ-○○○
10/02/02 23:45:50 hSNfD5Gf
2chより面白いサイトがあってね

508:Socket774
10/02/02 23:48:42 M5C9MwaG
もう団子食べ飽きた、イラネ

509:MACオタ
10/02/03 07:31:58 ZkoxHoCc
なんと2/8にはTukwilaも発表になるんだとか。
URLリンク(www.theregister.co.uk)
  --------------------
  High-end server chip rivals Intel and IBM have picked the same day
  - next Monday, February 8 - to launch their respective quad-core
  "Tukwila" Itanium and eight-core Power7 processors.
  --------------------
すでに顧客には出荷が始まっているとのことで、Intel の新製品発表の通例
として、搭載製品も同時に公開されるのでしょう。

510:MACオタ@補足
10/02/03 07:37:08 ZkoxHoCc
参考までに一昨年の Hot Chips 20 で発表された Tukwila のプレゼン資料を
貼っておきます。
URLリンク(www.hotchips.org)
ここからメモリコントローラの変更が行われたことは発表されている訳ですが…

511:Socket774
10/02/05 23:38:44 rCFtQ7wC
ARM系で一本
Cortex A、R、Mそれぞれに後継のロードマップとな
ARM Preps 2-GHz, Multicore Chips for Smartphones
URLリンク(www.pcmag.com)

Cortex-Aに関して言えば、今後は鯖にも使われていくんだろうけど、
そうなると気になるメモリの心許なさ
アドレス空間拡張の予定はあるんじゃろうか…

512:,,・´∀`・,,)っ-○○○
10/02/06 09:31:36 kCi1iHQ2
サーバねぇ

513:Socket774
10/02/06 11:12:35 RJeUKv3j
組み込み向けサーバとかあんの?

514:Socket774
10/02/06 14:22:15 wMU/6bmO
ARMとか鯖にならんかと妄想したこともあるが、
よくよく考えると棲み分けできる場所が無い。
高性能なヤツは何個CPU積んでも無理っぽいし、
中小企業のちっさいヤツはどうせWindowsだしAtomで十分だし。

515:,,・´∀`・,,)っ-○○○
10/02/06 16:14:37 kCi1iHQ2
ARMは割と好きだけど流石に・・・ねぇ


516:Socket774
10/02/06 19:20:49 Z9531TMX
団子ちゃんは無理せず今までのようにARM(笑)って言ってればいいと思うよ。
その方が自然です。

これまでもARMをサーバに出来ないかって話は結構出てたんだけどね。
URLリンク(www.eetimes.com)
とりあえず、PASemiとCiscoはアップを始めたっぽい。

517:Socket774
10/02/06 19:58:52 BuPM/VMm
Atomがあんだけ安く出ちゃうと、ARMの出番は無いな。

Intelが殿様商売でボッタクリCPUのみ売ってた頃ならともかく。

518:Socket774
10/02/06 20:32:36 G3uW7np+
その意味ではVIAに頑張ってもらわんと。

519:Socket774
10/02/06 21:25:20 wMU/6bmO
ARMが鯖になれるならSuperHもなんとか頼む!

520:Socket774
10/02/07 01:01:13 jJFaYBvK
>>516
PASemiってPowerPCやってたんじゃなかったっけ?

521:Socket774
10/02/07 01:47:01 k9sZKN6T
>>520
Apple傘下でARM作らされてるよ。

522:Socket774
10/02/07 09:36:30 jJFaYBvK
うん、それは知ってる

523:Socket774
10/02/07 14:00:41 in1+Ru8i
いよいよx86が終わると思うと胸が熱くなるな

524:Socket774
10/02/07 16:40:59 Mxq+/byn
10年後もx86が残っているに1票

525:Socket774
10/02/07 18:34:16 n9EWu0KM
MSが他のプロセッサへの移行を本格的に始めたらx86も終わりそうな
気がするけど、MS自身がハードウェアの商売でも始めない限り、Winを
別の環境に移行させる意味はないからな。

526:MACオタ
10/02/08 01:01:12 kCnuu4MY
>>396 で紹介した LSI Corp がIP売りするPPC476FPコアについて、
LSIのサイトに資料がありました。
URLリンク(www.lsi.com)
将来的には TSMC の 28nm プロセスでも製造可能にして、1.6-1.8GHz で動作予定
とのこと。
アプリケーションの例として、同時発表した eDRAM を混載したブロック図も掲載され
ています。

527:MACオタ@補足
10/02/08 01:02:08 kCnuu4MY
上記の話題の日本語記事も紹介しておきます。
URLリンク(techon.nikkeibp.co.jp)


528:MACオタ>520-522 さん
10/02/08 07:51:38 kCnuu4MY
>>520-522
少なからぬ旧 P.A Semi の社員が Apple を退社済みとのこと。
Ahlee Vance 氏の記事なので信用できると思いますよ。
URLリンク(www.nytimes.com)
  ------------------------
  Some of the chip engineers Apple gained in its purchase of PA Semi appear
  to have already left the company. According to partial records on the job
  networking site LinkedIn, at least half a dozen former PA Semi engineers
  have left Apple and turned up at a start-up called Agnilux, based in San
  Jose. The company was co-founded by one of PA’s leading system architects,
  Mark Hayter.

  Neither Mr. Hayter nor other onetime PA workers who left Apple for Agnilux were
  willing to discuss either company’s plans. According to two people with knowledge
  of the two companies, who were unwilling to be named because the matter is delicate,
  some PA engineers left Apple a few months after the acquisition because they
  were given grants of Apple stock at an unattractive price.
  ------------------------

529:Socket774
10/02/08 10:48:31 8s5N9LAv
URLリンク(www.yusuke-ohara.com)
>iPadにP.A.Semiの技術が...という論調を目にするけれど、私が知る限りにおいてP.A.Semiの部隊は四散してしまった筈。

530:MACオタ
10/02/08 20:33:19 i2j+4fL+
ISSCCを前に、色々情報が出てきています。
まず、発表を目前に控えたPOWER7搭載サーバーの話題。
URLリンク(www.theregister.co.uk)
URLリンク(www.theregister.co.uk)
 - Power 750 (Power 550 後継)
 - Power 755 (HPC向け)
 - Power 770, 780
 - 3 GHz, 3.3 GHz, 3.5 GHz, 3.55 GHz, 3.8 GHz, and 4.1 GHz。最高 4.5GHz?
 - 4.1GHz は Power 780 の "TurboCore" モード (4-coreのみ有効でOC)

531:MACオタ
10/02/08 20:54:57 i2j+4fL+
RealWorldTech の David Kanter 氏が掲示板に POWER7 講演の詳細を投稿していました。
URLリンク(www.realworldtech.com)
 - L1D のレイテンシは 2-cycle (POWER6は4-cycle)
 - L1のSRAMセルは、0.426um^2。6T構造
 - "Fast Local L3" の load-to-use レイテンシは 25-cycle。SRAM を採用した場合より
  3-cycle 程度のペナルティはある。(>>316参照)
 - L3 の動作クロックはコアの1/2
 - L2のレイテンシは 8~9-cylcle
 - L3 全体のレイテンシは 75-cycle 程度
 - 2つの整数および4つ?の浮動小数点パイプラインごとに独立したレジスタファイルを持つ

532:MACオタ@訂正
10/02/08 21:00:49 i2j+4fL+
上の話ですが、講演はまだ始まっていないので、予稿集の情報だと思われます。

533:Socket774
10/02/08 21:25:01 fymYUEha
Fast Local L3、コヒーレンシ取らない占有領域として使うんですかLSみたいに

534:MACオタ>533 さん
10/02/08 21:31:26 i2j+4fL+
>>533
>>316のプレゼン資料を見れば判りますが、コヒーレンシは維持されます。
  ---------------------
  - Automatically clones shared data to multiple private regions.
  ---------------------

535:Socket774
10/02/08 21:46:24 fymYUEha
Power7の最大の売りは何ですか?

536:MACオタ
10/02/08 22:00:58 i2j+4fL+
先週のニュースらしいですが、POWER7で浮かれるIBMの East Fishkill 工場で
飲料水に大量の鉛が含まれていることがバレたそうで…
URLリンク(www.poughkeepsiejournal.com)
  ----------------------
  WICCOPEE ― Too-high levels of lead have been found in drinking water at
  IBM Corp.’s East Fishkill complex, prompting the company to provide alternate
  sources of water.
  ----------------------
流石、工場労働者なんて人とも思わない守銭奴IBMらしい所業ですね。

537:Socket774
10/02/08 22:17:56 fymYUEha
>>536
Power7の最大の売りは何か答えてよ?

538:MACオタ>537 さん
10/02/08 22:25:42 i2j+4fL+
>>537
  -----------------
  Power7の最大の売りは何か答えてよ?
  -----------------
そういうことはIBMの営業に電話すれば良いのでは?

539:Socket774
10/02/08 22:28:01 fymYUEha
>>538
さんざんコピペしてるくせに、答えられないのかよ

540:MACオタ
10/02/08 22:39:52 i2j+4fL+
POWER7のベンチマーク結果も出てきました。
まずは SAP SD (Standard) URLリンク(www.sap.com)
 - SPARC64 VII/2.88GHz (32-chip/128-core): 17,430 [users]
 - POWER7/3.55GHz (4-chip/32-core): 15,600 [users]
 - POWER6/4.2GHz (16-chip/32-core): 14,432 [users]
 - Itanium2/1.6GHz (32-chip/64-core): 12,500 [users]
 - Tigerton Xeon/2.93GHz (16-chip/64-core): 10,600 [users]
 - Istanbul Opteron/2.6GHz (8-chip/48-core): 10,000 [users]

541:Socket774
10/02/08 23:37:37 zSjOHSur
性能ぶっ千切りだな

542:Socket774
10/02/08 23:46:50 h/Ciw5Ft
お値段の方もブッチギリです

543:MACオタ
10/02/09 05:41:31 wiDvnLYd
IBMのプレスリリース来ました。>>535さんご希望の『売り文句』も書いてありますよ。
URLリンク(www-03.ibm.com)
FUDの元祖IBMとは思えないほど発表から販売開始までの時間は短く、一部機種は
2月半ばに販売するとのこと。
 - Power 750 Express, Power 755: 2/19
 - Power 770, Power 780: 3/16
 
ベンチマークをまとめたSystems Performance Report はこちら。
URLリンク(www-03.ibm.com)
SPEC2006_rate, SPECjbb, 前述の SAP SD 2-Tiers, Oracle eBS Benchmark,
LINPACK HPC, STREAM, NAMD, SPEC OMP2001 の結果があります。

544:MACオタ
10/02/09 06:16:24 wiDvnLYd
IntelのTukwila発表も来ました。Itenium 9300シリーズとのこと。
URLリンク(www.intel.com)
  ----------------
  The Intel Itanium processor 9300 series ranges in price from $946 to $3,838 in
  quantities of 1,000. OEM systems are expected to ship within 90 days.
  ----------------
搭載製品の同時発表とはいかなかったようで…
なお、製品ラインは下記の通り。
URLリンク(download.intel.com)
 9350: 4-core, 1.73GHz, 24MB L3
 9340: 4-core, 1.60GHz, 20MB L3
 9330: 4-core, 1.46GHz, 20MB L3
 9320: 4-core, 1.33GHz, 16MB L3
 9310: 2-core, 1.60GHz, 10MB L3

その他、注目点はこんなものでしょうか?
 - 既報通り、Neahlem-EPとはプラットフォーム共通化が図られているとのこと。
  "share several platform ingredients, including the Intel(R) QuickPath Interconnect,
  the Intel Scalable Memory Interconnect, the Intel(R) 7500 Scalable Memory Buffer
  (to take advantage of industry standard DDR3 memory), and I/O hub (Intel(R)
  7500 chipset). "
 - "Foxton" Technology はNehalenと共通のブランド"Intel Turbo Boost Technology"
  になった模様。

545:Socket774
10/02/09 06:23:21 7vLXVre+
>Intel 7500 Scalable Memory Buffer
ここだけ興味がある
他はもうガイシュツネタばっかだろ

546:Socket774
10/02/09 17:22:43 oVTzk6E5
URLリンク(pc.watch.impress.co.jp)

547:MACオタ
10/02/09 23:02:45 wiDvnLYd
当然のごとく今日も色々。
まず国内でのPOWER7搭載サーバーの発表。
URLリンク(www-06.ibm.com)
URLリンク(enterprise.watch.impress.co.jp)
個人的な注目はパッケージの写真です。
URLリンク(enterprise.watch.impress.co.jp)
今回発表されたミッドレンジサーバーに搭載されているのは、この中で「セラミック・
モジュール」のチップと思われます。真ん中の「オーガニック・モジュール」(要するに
プラスチックパッケージ)のチップはBladeCenter等に使用される筈です。
BladeCenter や IntelliStation POWER がどういった価格帯で登場するかが楽しみかと。

電力効率のスライドも、サーバー製品の消費電力が公開されたという点で興味深いかと
思われます。
URLリンク(enterprise.watch.impress.co.jp)

ちなみに POWER System サーバー (旧 pSeries) で用いられる性能指標 rPerf の
解説はこちら。
URLリンク(www-03.ibm.com)


548:MACオタ
10/02/09 23:11:42 wiDvnLYd
"Wire-Speed POWER" (>>318-329 参照)講演のレポートが EETimesに来てます。
URLリンク(www.eetimes.com)
用途に関しては、色々含みを込めているよう感があります。
  --------------------
  "It's not a network processor or a server processor but a middle ground, a blurring
  of the two worlds," Johnson said.
  The chips will be used in a range of standalone systems and PCI Express adapter
  cards in servers. It is mainly designed for use in IBM's own systems, however the
  company is willing to sell it on a merchant basis as well.
  --------------------
正直、『サーバープロセッサと(組込向け)ネットワークプロセッサの中間的存在』って
デスクトッププロセッサのことでは? かつての PowerPC G3/G4 の様な。
含みを持たせていると言えば、記事の最後がこう締めくくられています。
  --------------------
  Johnson was chief architect of IBM's Power4 processor. He also designed IBM's
  portion of the processor in the Microsoft Xbox 3609 [MACオタ注: Xbox 360の誤植
  でしょう] videogame console.
  --------------------
単に PX/PPE と同じグループが開発したと言いたいのかどうか…

549:MACオタ@続き
10/02/09 23:27:33 wiDvnLYd
話の順序が逆になりましたが、記事中に含まれる新情報は下記の通り。
 - 64-bit
 - 16-core, 1.43B Transistors, 428mm^2 (POWER7は 1.2B Transistors, 567mm^2)
 - 65W @ 16-core/2.3GHz, 20W @ 4-core/1.4GHz
 - 16-core 版は 8MB 内蔵キャッシュサポート
 - 10G Ethernet 4ポート内蔵
 - XML, 正規表現処理, 暗号化アクセラレータ搭載
 - グルーレスでSMP可能
 - プロセッサ製品としてを外販予定
 - 開発期間は5年
 - Linux ハイパーバイザをサポート
 - (製品版の?)テープアウトは一週間前。ファーストシリコンは2週間以内に
  (既に製作済みの)搭載システムでテスト予定。
 - ここでの議論と同様に、アナリストも用途に疑問を呈している。
  ----------------
  "That's a huge chip, bigger than most of the PC and server processor Intel
  makes and probably twice the size of many network processors out there,
  so cost-wise it will be tough for them to be competitive," Gwennap said.
  ----------------


550:Socket774
10/02/09 23:27:49 sBXrnP6s
> デスクトッププロセッサのことでは?

ないない

551:Socket774
10/02/09 23:34:24 775lAe+4
> 『サーバープロセッサと(組込向け)ネットワークプロセッサの中間的存在』

こう↑言われると
旧P.A. SemiのPWRficientを連想してしまったんだが…
# あるいは,SunのNiagaraに近いかな?


552:Socket774
10/02/09 23:46:42 3UG+NB9t
Azulみたいなアクセラレータ的に使えそうだな

553:Socket774
10/02/10 00:29:16 gZDUJ9IR
MSと協議して、WindowsにPowerチップを対応してもらうようにすべきだな。

Xbox360にWindows派生のゲームOSが載っているから、
Windows for Power PCをつくるのも難しい話ではない。

554:Socket774
10/02/10 00:33:23 ubNaBToy
日本勢がんがれ
URLリンク(journal.mycom.co.jp)

555:Socket774
10/02/10 02:28:12 wB5XLdWt
以前発表されたRP2の改良型っぽいな。

556:Socket774
10/02/10 09:27:48 JuDALow/
>>553
おっと、NT4をディスるのはそこまでだ。

557:Socket774
10/02/10 14:08:32 wB5XLdWt
一応2000のRCまでAlpha版はあったんだよな。

558:Socket774
10/02/10 17:19:52 gZDUJ9IR
URLリンク(twitter.com)
東京の公共の場所では関西弁は法律で禁止すべきである。関西人はまともな世界では不良外国人。


559:MACオタ
10/02/10 20:51:21 ioIW7ln4
"Wire-Speed Power Processor" = PowerPC A2 の確定情報来ました。
正確には SOC 製品である Wire-Speed Power Processor の汎用プロセッサコアが
PPC A2 ということになります。
URLリンク(www.theregister.co.uk)
  ------------------
  The processor's A2 cores are small, 64-bit PowerPC cores based on IBM's
  embedded architecture - "a little bit different from our server architecture,"
  said Johnson. Full vitualization and hypervisor support is also included, along
  with some new instructions that allow for low-latency interaction with the
  processors' accelerators.
  ------------------
その他、新情報は次の通り。
 - 2.3GHz は電力効率が良い周波数というだけで、3GHz でも動作する。
 - アクティブなコア数で消費電力は 20-65Wの範囲で変化する。平均的には 55W 程度。

560:MACオタ
10/02/10 21:01:09 ioIW7ln4
ところで前述の Wes Felter 氏 (>>452 参照)、ArsTechnica 掲示板でも A2 コアに
関して思わせぶりな投稿をしています。
URLリンク(episteme.arstechnica.com)
  --------------------------
  Originally posted by BadAndy:
    Whatever it is, not hard to see cross-over from this thing into next-generation
    game-console tech

  Because games loooove low per-thread performance.
  --------------------------
上に書いた3GHzで動作するという話も含めて、PX/PPE と A2 の関係は『何か』ありそうな
感じです。

561:MACオタ
10/02/10 21:45:05 ioIW7ln4
Sequoia (=Blue Gene/Q)の情報が少しだけ。
URLリンク(www.er.doe.gov)
P.13 にアルゴンヌ国立研究所の ALCF-2 の後継機 "Mira" について次のような
記述があります。
  -----------------
  Mira Blue Gene/Q System
  ・10 Pflop/speak
  ・~800K cores, 16 per chip
  ・~70PB disk, ~470 GB/sI/O bandwidth
  ・Power efficient, water cooled
  -----------------
Sequoia のプロセッサに関しては 8-core説と16-core 説がありましたが、16-core で
確定ですね。
SIMDユニットも、3.2GHz/倍精度2並列説と1.6GHz/倍精度4並列 (or 倍精度2並列 x 2)説
がありましたが、16コアともなると1.6GHzで間違いないのではないでしょうか。
PPC470系コアと VSX x 2の"Double Hummer"後継 APU の可能性が高くなったかと。

562:Socket774
10/02/11 11:50:02 8a7XpUlw
PS4のCPUは普通のマルチコアCPUのプランが浮上してるってことだけど
"A2"を使ったマルチコアなのかな?

去年夏頃にIBMが"A2"を提案
    ↓
強い関心を持つが態度をはっきりさせないSCE
    ↓
痺れを切らすIBM、自社販売に旨味がない32ivを開発中止と意図的にリーク
    ↓
返事を迫られるSCE ←いまここ

563:Socket774
10/02/11 14:43:51 /EY2WhMq
SPE2の試作が行われたのは去年で
しかもFPGAベースのシミュレータを作成したのはSCEIらしいから
依頼してるにしてもPPE部分だけじゃないかね

564:MACオタ
10/02/11 14:58:28 GsEjP4NF
日経BPのISSCCレポートに"Wire-Speed Power"の追加情報がありました。
プロセッサコアのL2キャッシュがeDRAMなんだとか。
URLリンク(techon.nikkeibp.co.jp)
  ---------------------
  Wire-Speed Power Processorでは,8MバイトのL2キャッシュに混載DRAMを
  それぞれ使った。

  混載DRAMのセル寸法は,0.067μm2である。Intel社のWestmereのL3キャッシュ
  のSRAMのセル寸法は 32nm世代でも0.171μm2であることからも,面積密度が
  非常に高いことが分かる。Wire-Speed Power Processorの発表では,SRAMに
  比べて面積で2倍,消費電力で5倍以上よいと述べた。
  ---------------------

565:MACオタ>563 さん
10/02/11 15:00:28 GsEjP4NF
>>563
面白そうな話なので、ソースがあるならよろしくお願いします。

566:Socket774
10/02/11 15:27:55 Q6+4pX7+
性能とか信頼性はどうなんだろうね<eDRAM

567:MACオタ
10/02/11 15:35:35 GsEjP4NF
スーパーコンピューティングの話題を少しだけ。
Anton というMD専用計算機があります。SC09でゴードンベル特別賞を取ったとのこと。
URLリンク(journal.mycom.co.jp)
概要は牧野教授のサイトのこちら。
URLリンク(www.artcompsci.org)

技術的な話題は別にして、開発プロジェクトとして興味深い点がいくつか。
 ・私企業が開発している。
  MYCOMの記事にはこうあります。
  ---------------------
  D.E Shaw研究所はAntonと呼ぶ分子動力学(Molecular Dynamics:MD)計算専用
  のスパコンを開発し、その最初のシステムでのシミュレーション結果を発表した。
  [中略]
  D.E.Shaw氏が創立したD.E.Shaw & Coは運用資産2.5兆円の世界最大規模の
  ヘッジファンドであるが、現在は、Shaw氏はヘッジファンドの日常のマネジメントに
  は携わらず、 D.E.Shaw Researchのチーフサイエンティストとして、MDのアルゴリ
  ズムやAntonシステムの開発を行っているという。そして、同研究所の運用費用は
  Shaw氏のポケットマネーで賄われていると言われている。
  ---------------------

 ・ハードウェア自体は…
  一昨年の Hot Chips 20 でも講演が行われています。プレゼンはこちら。
  URLリンク(www.hotchips.org)
  P.30 に演算コアとなる ASIC の写真があります。
  チップに記された製造国は… MBxxxというチップ名ですから京速のあの会社でしょうか。
  

568:Socket774
10/02/11 15:36:18 7fcMxBTe
>>565
ソースは後藤氏のこの記事でしょ。
URLリンク(pc.watch.impress.co.jp)


>>562
SCEがPS3との互換性を完全に捨ててでも普通のマルチコアCPUを選択しようと
考えているならPOWERを選ぶ必然性自体がないからなぁ。


他の選択肢も余りないかも知れないけど。

569:Socket774
10/02/11 15:55:58 mozDik8n
>>567
ESですね。
PKGが白色で見慣れないなあ。材料がPEEKとかかな?


570:Socket774
10/02/11 15:57:35 mozDik8n
と思ったら後ろのページにセラミックって書いてた。。。
普通か。

571:Socket774
10/02/11 16:14:58 Q6+4pX7+
>>567
> チップに記された製造国は… MBxxxというチップ名ですから京速のあの会社でしょうか。

p.32に "90 NM CMOS .implemented in Fujitsu CS100HP Process" って書いてあるよ

572:MACオタ
10/02/11 16:33:03 GsEjP4NF
>>571 さん
見逃してました… 間違っていた訳でもないので勘弁してください。

教訓としては、こういうことかと。
 ・欠けているのは予算では無く、知恵ではなかろうか?
 ・本当に必要なモノなら、投資を集められるのではなかろうか?
 ・本当に必要で、投資を集めるほど信用されていなくても、自前でできることは
  あるのではなかろうか?
 ・最先端プロセスでプロセッサごと開発しなくても、目的には適うのではあるまいか?
等々

お金の話をすれば、東大一校で集めた個人寄付金は2008年度で50億円近くとのこと。
URLリンク(utf.u-tokyo.ac.jp)
個人寄付金って大半は医学部でしょうか… ガン治療とか看板にすればなんとかなる?

573:レトリック君
10/02/11 18:21:41 eco9lAS2
MBっちゃあ、8bitの時代からFがchip名に付けてたぜ。
MB6809とか。
NならμPDか。

574:Socket774
10/02/12 00:51:05 s3jTWByn
URLリンク(pc.watch.impress.co.jp)

575:Socket774
10/02/12 00:57:18 Cz04gznl
>しかし一方で回路ブロックの設計を根本から改良する機会を失ってはいないだろうか。
>回路ブロックを統合する段階で設計の手直しが発生し、貴重な時間を失ってはいないだろうか。
>あるいは設計内容が陳腐化しているのに気付かず、再利用し続けてはいないだろうか。

何様気取りなんだ、福田

576:Socket774
10/02/12 04:39:24 S8jVMyOY
おれも思った.
本業の人たちが既に検討済みなんだろうとは想像しないのかね?
# その上で,最も「早い・安い・旨い」のが現状なんだろうけど

そもそも某 i や別の某 I 等の少数以外は自社fabすら無くて
TSMCやUMCで製造してるのに独自設計してメリットあるのかね?

個人的には,せっかく動いてる(≒枯れてる,実績ある)ものを
金かけて壊そうとしている中二病患者を見ている気分なんだけど


577:Socket774
10/02/12 06:20:33 8l2ZpoUw
そりゃ本業も検討済みだろ
本業であってもそれが正しいか正しくなかったかは結果論でしか語れんが

578:Socket774
10/02/12 06:28:32 1pmLcTi0
例えば、既存のIPの組み合わせて設計すると、既存IP部の消費電力
はだいたい決まってるのでシステム全体の消費電力の削減にあれ
これ頭を悩ますことになる。
既存のIPを使わずを新規設計した場合、効率を重視した設計をする
ことにより、その部分の消費電力を元から削減出来たりするるので
システム全体の消費電力を削減しやすい。
今回の講演は新規設計のメリットを考えさせられるほど優れた成果だった。

ということでしょ?

579:Socket774
10/02/12 13:45:54 7SFXIriB
必要ならするし不要ならしない
判断ミスはあっても検討しない奴なんてネット番長にしかいない

580:Socket774
10/02/12 21:15:31 uiERv3a6
URLリンク(techon.nikkeibp.co.jp)
> SOIプロセスの採用によって,通常のしきい値電圧のNMOSトランジスタを電源スイッチに使えた。

SOIだとNMOSをスイッチに使えるのはなんで?

NMOSがスイッチってことは仮想VssをVdd電圧まで
釣ることになるんだろうけど、通常のCMOSと違って
ソース・ドレインからサブストレートへのリークが少ない
からってことなのかな?

581:Socket774
10/02/12 23:20:12 QtndgfLN
NEC to show quad-core Cortex-A9 processor
URLリンク(www.eetimes.com)

ARMのクアッドコアだって

582:Socket774
10/02/12 23:54:38 5KVBDrlY
NEC?
なにそれうまいの?

583:レトリック君
10/02/13 00:31:45 Tqp83x79
IPによる設計には色々と光トカゲがある
なまじっかブラックボックス化しようとして中の情報を十分出さないと全体の設計や検証に差し支える。
中の仕様や動作を知らずに全体を作ったり検証できるわけがない。
かといって中の情報を詳しく出していたらな何のためだったのか分からなくなる。
しかも綺麗な理想論を言う人は少なくないので中と外の設計担当間で情報の疎通が…
実際には結構大変でそ

584:Socket774
10/02/13 18:39:03 PHIWper2
光トカゲの鳴き声↓

585:MACオタ
10/02/13 19:20:22 QBVVRxhO
PPC746FP を共同開発した LSI Corp. が自社でネットワークプロセッサ "Axxia"
をリリースしました。
URLリンク(www.lsi.com)
  -------------------
  Axxia Communication Processors are capable of managing huge volumes of
  wireless traffic with low latency and no load on the CPU complex. The first
  member of the Axxia Communication Processor family, the ACP3448 processor,
  features four powerful PowerPC^(TM) 476FP processor cores with a large 512KB
  L2 cache per core, 4 MB of system cache, integrated DDRIII memory controllers,
  and a wide array of intelligent offload engines, including industry-proven packet
  classification, traffic management, security processing and deep packet inspection.
  The on-chip processing elements are tied together using the new LSI Virtual
  Pipeline technology.
  -------------------
製品ページはこちら。(PDF資料へのリンク有)
URLリンク(www.lsi.com)
 ・4-core, up to 1.8GHz
 ・512KB L2
 ・4MB eDRAM システムキャッシュ (アクセラレータを含むSoC全体で共有)
 ・Dual DDR3 メモリコントローラ
 ・各種アクセラレータ (パケット処理、セキュリティ、正規表現)
 ・45nm, SOI
リリースによると
  --------------------
  The first members of the Axxia family, designed to deliver 20 Gbps performance
  for today’s wireless infrastructure requirements, will be available in February of 2010.
  --------------------
最初の製品は今月にも販売開始ということと、上記の製造プロセスから IBM で製造するものと
思われます。


586:MACオタ
10/02/13 19:29:13 QBVVRxhO
既に Freescale を分社している以上、もはやどうでも良い話なのですが、
栄光の Motorola が更に2分割されるんだとか。
URLリンク(mediacenter.motorola.com)
  -----------------------
  SCHAUMBURG, Ill., February 11, 2010 -- Motorola, Inc. (NYSE: MOT) today
  announced the Company is targeting the first quarter of 2011 for its planned
  separation. Motorola intends to separate into two independent, publicly traded
  companies. One will include the Company’s Mobile Devices and Home businesses,
  and the other will include its Enterprise Mobility Solutions and Networks businesses.
  -----------------------

587:MACオタ
10/02/14 03:24:04 Wj71GeXX
AMDネタの上、11月の Financial Analyst Day の頃の話題なのですが、
プロセッサ・アーキテクチャ的には面白い話題なのでここで取り上げて
おきます。
ネタは当時の comp.arch での "bulldozer details + bobcat"というスレッド
なのですが、業界の人気者 Andy Glew が登場して色々語っています。
URLリンク(groups.google.com)
Glew の投稿だけでも拾い読みすると面白いかと。とりあえずここではかい
つまんで興味深いところだけ抽出しておきます。

- AMD's Bulldozer is an MCMT (MultiCluster MultiThreaded)
 microarchitecture. That's my baby!
 Bulldozer は俺の考えた MCMT (MultiCluster-MultiThread) アーキテクチャの
 実装。

- The only bad thing is that some guys I know at AMD say that Bulldozer is
 not really all that great a product, but is shipping just because AMD
 needs a model refresh. "Sometimes you just gotta ship what you got."
 でもなぁ… AMDのツレが言うにはAMDは製品サイクルに切迫して製品化
 してくるらしいんだよな。「何でもいいから今出来てるのを出さなきゃいけない
 時もあるんだよ」って。

588:MACオタ@続き
10/02/14 03:37:20 Wj71GeXX
- came up with MCMT in 1996-2000 while at the University of Wisconsin.
 It became public via presentations.
  I brought MCMT back to Intel in 2000, and to AMD in 2002.
  I was beginning to despair of MCMT ever seeing the light of day. I
 thought that when I left AMD in 2004, the MCMT ideas may have left with
 me.
 元々MCMTはウィスコンシン大にいた1996-2000頃に考えていたんだ。
 で、Intelに2000年に戻ったときに提案し、2002年に移ったときにも宣伝
 しまくったんだ。でも中々日の目を見なくてAMDを離れた2004年には
 すっかりあきらめてたんだよ。

- Of course, AMD has undoubtedly changed and evolved MCMT in many ways
 since I first proposed it to them. For example, I called the set of an
 integer scheduler, integer execution units, and an L1 data cache a
 "cluster", and the whole thing, consisting of shared front end, shared
 FP, and 2 or more clusters, a processor core. Apparently AMD is calling
 my clusters their cores, and my core their cluster. It has been
 suggested that this change of terminology is motivated by marketing, so
 that they can say they have twice as many cores.
 もちろんAMDは俺のMCMTのコンセプトにに色々手を入れてる。例えばオリジナル
 のアイデアでは整数スケジューラ・整数ユニット・L1キャッシュをセットで「クラスタ」
 とよび、2組以上のクラスタと共有デコーダ、共有FPUで「コア」を構成するという
 ものだった。ところがAMDは俺の「クラスタ」をコアと命名し、「コア」の方をクラスタ
 と呼んでる。マーケティングのためにコアが2倍あるように見せかけたいのが丸判り
 だよね。

589:MACオタ@続き
10/02/14 03:59:15 Wj71GeXX
- My original motivation for MCMT was to work around some of the
 limitations of Hyperthreading on Willamette. E.g. Willamette had a very
 small L0 data cache, 4K in some of the internal proposals, although it
 shipped at 8K. Two threads sharing such a tiny L0 data cache thrash.
 Indeed, this is one of the reasons why hyperthreading is disabled on
 many systems, including many current Nhm based machines with much larger
 closest-in caches.

 元々 MCMT のアイデアは Willamett で Hyperthreading の性能が上がらない
 問題を解決するためのものなんだ。知ってのとおり Willamett の L0 [データ]
 キャッシュのサイズはメチャ小さい。初期の設計では 4KB だったし、出荷された
 バージョンでは増えたとは言え 8KB だ。
 このちっぽけなデータキャッシュを2つのスレッドで共有するとキャッシュスラッシ
 ングが多発する。結局のところ、これが多くのシステムで Hyperthreading が
 無効に設定された原因だし、当時よりはるかに大きなL1キャッシュを持つ Nehalem
 でも状況は変わっていない。

590:MACオタ@続き
10/02/14 04:00:43 Wj71GeXX
- To avoid threads thrashing each other, I wanted to give each thread
 their own L0. But, you can't do so, and still keep sharing the
 execution units and scheduler - you can't just build a 2X larger array,
 or put two arrays side by side, and expect to have the same latency.
 Wires. Therefore, I had to replicate the execution units, and enough of
 the scheduler so that the "critical loop" of Scheduler->Execution->Data
 Cache was all isolated from the other thread/cluster. Hence, the form
 of multi-cluster multi-threading you see in Bulldozer.

 スラッシングを避けるために、俺はスレッドごとに L0 キャッシュを占有させる
 ことを考えた。でもL0独立でALUとスケジューラを共有すると言う構成は無理だ。
 単純に2倍のサイズのキャッシュを用意したとしても短いレイテンシを維持できない。
 そんな訳で、俺は実行ユニットとスケジューラも独立にした。これで ディスパッチ
 →実行→データキャッシュアクセス というクリティカルな部分がスレッドごとに
 独立した「クラスタ」ができあがる。。君らが見た Bulldozer の構成図そのものという
 ことだね。

591:MACオタ@続き
10/02/14 04:21:49 Wj71GeXX
- True, there are differences, and I am sure more will become evident as
 more Bulldozer information becomes public. For example, although I came
 up with MCMT to make Willamette-style threading faster, I have always
 wanted to put SpMT, Speculative Multithreading, on such a substrate.
 SpMT has potential to speed up a single thread of execution, by
 splitting it up into separate threads and running the separate threads
 on different clusters, whereas Willamette-style hyperthreading, and
 Bulldizer-style MCMT (apparently), only speed up workloads that have
 existing independent threads.

  Bulldozer に関する情報が増えてくれば明らかになるんだろうけど、俺の
 MCMT が Bulldozer そのものって訳じゃないだろうね。例えば、俺は
 Willamett の Hyperthreading を高速化するに当たって Speculative Multi-
 threading (SpMT) の実装が頭にあった。SpMT は複数スレッドを費やして
 シングルスレッドアプリを高速化する手法だ。

- If I received arows in my back for MCMT, I received 10 times as many
 arrows for SpMT. And yet still I have hope for it. Unfortunately, I am
 not currently working on SpMT. Haitham Akkary, the father of DMT,
 continues the work.

 もし俺が MCMT の実装にかかわっていたら、SpMT を全力で押してたと
 思う。今でもその気持ちに変わりは無いけど、今はそういう立場じゃ無い。
 DMT [Dynamic Multithrading] の提案者の Haitham Akkary が今でも
 研究している様だね。

592:Socket774
10/02/14 04:23:41 /LK7WEU/
intelがhyperthreadingの効率アップのためにそのテクニックを使わなかった理由も興味があるねぇ

593:MACオタ@続き
10/02/14 04:35:13 Wj71GeXX
- Perhaps I should say here that my MCMT had a significant difference from
 clustering in, say, the Alpha 21264,
 URLリンク(www.hotchips.org)
 [中略]
 Anyway: if it has an L0 or L1 data cache in the cluster, with or
 without the scheduler, it's my MCMT. If no cache in the cluster, not
 mine (although I have enumerated many such possibilities).

 MCMT は Alpha 21264 のクラスタリングの概念とは大きく違うことは強調して
 おきたい。
 [中略]
 要するに、L0なりL1なりの最上位のデータキャッシュがが独立している
 クラスタリングは俺の MCMT アーキテクチャということになる。もちろん
 そうじゃない構成のクラスタリングは有り得る。

- Motivated by my work to use MCMT to speed up single threads, I often
 propose a shared L2 instruction scheduler, to load balance between the
 clusters dynamically. Although I admit that I only really figured out
 how to do that properly after I left AMD, and before I joined Intel.
 How to do this is part of the Multi-star microarchitecture, M*, that is
 my next step beyond MCMT.

 俺は MCMT でシングルスレッドを高速化するために頑張った。例えばクラスタ
 間のロードバランスのための二次スケジューラなんてのも考えた。でも、結局
 そのための「正しい方法」ってヤツを思いついたのは AMD を退社した後、ちょうど
 Intel に戻る前くらいだった。それが MCMT を越える新しいアーキテクチャ M*
 (Multi-star) さ。

594:MACオタ@続き
10/02/14 04:55:08 Wj71GeXX
- Also, although it is natural to have a single (explicit) thread per
 cluster in MCMT, I have also proposed allowing two threads per cluster.
  Mainly motivated by SpMT: I could fork to a "runt thread" running in
 tghe same cluster, and then migrate the run thread to a different
 cluster. Intra-cluster forking is faster than inter-cluster forkng, and
 does not disturb the parent thread.
But, if you are not doing SpMT, there is much less motivation for
 multiple threads per cluster.

  そう言えば、SpMT のためにクラスタ内で更に SMT をやるってのも考えた。
 スレッドの分割を同じクラスタ内で走るスレッドにやらせて、実行は別クラスタ
 でやるんだ。スレッドさえ分かれてしまえば、別々のクラスタで実行する方が
 親スレッドに対する干渉は小さいからね。
  いずれにせよ SpMT を採用しないなら、クラスタ内 SMT にそれほど意味はない。

595:MACオタ@続き
10/02/14 04:57:11 Wj71GeXX
- With Willamette as background, I leaned towards a relatively small, L0,
 cache in the cluster. Also, such a small L0 can often be pitch-matched
 with the cluster execution unit datapath. A big L1, such as Bulldozer
 seems to have, nearly always has to lie out of the datapath, and
 requires wire turns. Wire turns waste area. I have, from time to time,
 proposed putting the alignment muxes and barrel shifters in the wire
 turn area. I'm surprised that a large cluster L1 makes sense, but that's
 the sort of thing that you can only really tell from layout.

 元々 Willamette が頭にあったから、俺はクラスタ内の L0 データキャッシュは
 容量が小さいものを考えていた。チップ上のレイアウトで実行ユニットのデータフロー
 のサイズに収まるようにL0の容量を決めると良いんだよ。。 Bulldozer の L1 は随分大
 きくて配線に無駄な「戻り」部分が必要だと思う。俺は常々配線の戻りのところには
 データアライメント用のマルチプレクサとバレルシフタにすれば良いと言ってるん
 だけどね。
 L1 が大きいからといって良いことは無いと思うんだけど、まぁそれもチップのレイアウト
 次第だよね。

596:MACオタ@続き
10/02/14 05:13:23 Wj71GeXX
- Some posters have been surprised by sharing the FP. Of course, AMD's K7
 design, with separate clusters for integer and FP, was already half-way
 there. They only had to double the integer cluster. It would have been
 harder for Intel to go MCMT, since the P6 family had shared integer and
 FP. Willamette might have been easier to go MCMT, since it had separate FP.

 FPU を共有していることに疑問を持っているヤツもいるよな。もちろん K7 は
 [整数パイプと浮動小数点パイプがスケジューラから分離しているという点で]
 別々の整数クラスタと浮動小数点クラスタを持っていると言える。後は整数
 クラスタをもう一つ追加すれば良いだけの話だよね。
 P6は整数パイプと浮動小数点パイプでスケジューラが共通だから MCMT の
 実装は難しい。Willamette は浮動小数点パイプラインが分離している分、MCMT
 の実装はより楽になっている。

- Anyway... of course, for FP threads you might like to have
 thread-private FP. But, in some ways, it is the advent of expensve FP,
 like Bulldozer's 2 sets of 128 bit, 4x32 bit, FMAs, that justify integer
 MCMT: the FP is so big that the overhead of replicating the integer
 cluster, including the OOO logic, is a drop in the bucket.

 君らは独立したFPクラスタが必要だって言いたいんだろうけど、Bulldozer の
 FPU は128-bit の FMAなんて実行ユニットだけでもでかすぎる。その上、
 整数パイプと同じくOOOロジックを備えたスケジューラなんて無理だよ。

597:MACオタ@続き
10/02/14 05:22:11 Wj71GeXX
- You'd like to have per-cluster-thread FP, but such big FP workloads are
 often so memory intensive that they thrash the shared-between-clusters
 L2 cache: threading may be disabled anyways. As it is, you get good
 integer threads via MCMT, and you get 1 integer thread and 1 FP thread.
  Two FP threads may have some slowdown, although, again, if memory
 intensive they may be blocking on memory, and hence allowing the other
 FP thread t use the FP. But two purely computational FP threads will
 almost undoubtedly block, unless the schedulers are piss-poor and can't
 use all of the FP for a single thread (e.g. by being too small).

 じゃあ一つのクラスタの中に FPU も入れろよって言うヤツもいるかもしれない。
 でもな、浮動小数点演算ってのはだいたいにおいてメモリの負荷が大きいんだよ。
 クラスタで共有している L2 なんて、すぐスラッシングでダメになっちまう。とにかく
 二つの整数クラスタでFPUを共有ってのは丁度良いってことになる。
  ひとつのFPUを二つのスレッドで共有するっては、ちっとは遅くなるかもしれない
 けど、片方のスレッドがメモリで引っかかった時にもう片方が演算が出来るって
 意味でうまく動く。ところが独立した二つのFPUなんて、スケジューラがよっぽど
 ヘボく無い限りメモリ帯域を喰い合うだけで無意味なのさ。

598:MACオタ@続き
10/02/14 05:41:14 Wj71GeXX
- I don't expect to get any credit for MCMT. In fact, I'm sure I'm going
 to get shit for this post. I don't care. I know. The people who were
 there, who saw my presentations and read my proposals, know. But, e.g.
 Chuck Moore wasn't there at start; he came in later. Even Mike Haertel,
 my usual collaborator, wasn't there; he was hired in later, although
 before Chuck. Besides, Mike Haertel thinks that MCMT is obvious.
 That's cool, although I ask: if MCMT is obvious, then why isn't Intel
 doing it? Companies like Intel and AMD need idea generating people like
 me about once every 10 years. In between, they don't need new ideas.
 They need new incremental improvements of existing ideas.

 Anyway... It's cool to see MCMT becoming real. It gives me hope that my
 follow-on to MCMT, M* may still, eventually, also become real.

 色々書いたけど、俺は MCMT に関する権利を主張しようって訳じゃ無い。
 俺は当時誰がAMDで働いていたか知っているし、誰が俺のプレゼンや企画書
 を読んでいるか知ってるけど、当時まだ Chuck Moore はいなかったし、俺の
 仲間だった Mike Haertel も Chuckよりちょっと前に入社した程度だった。Haertel
 は MCMT を買ってくれたけどね。
  それにしても俺は思うんだが、 MCMT がうまく機能するとすれば、何故 Intel
 は俺の提案を袖にしたんだろうね?結局のところ Intel や AMD みたいな大企業
 にとって、新アーキテクチャなんて10年に一度くらいしか必要なくて、既存アーキを
 洗練させるのがうまいやり方なんだろうね。

 とにかく MCMT が日の目を見たのは良かったと思うよ。願わくば M* も採用される
 日が来ればと思うね。

599:MACオタ@続き
10/02/14 06:16:58 Wj71GeXX
- There were several K10s. While I wanted to work on low power when I went
 to AMD, I was hired to consult on low power and do high end CPU, since
 the low power project was already rolling and did not need a new chef.
 The first K10 that I knew at AMD was a low power part. When that was
 cancelled I was sent off on my lonesome, then wth Mike Haertel, to work
 on a flagship, out-of-order, aggressive processor, while the original
 low power team did something else. When that other low-power project was
 cancelled, that team came over to the nascent K10 that I was working on.
  My K10 was MCMT, plus a few other things. I had actually had to
 promise Fred Weber that I would NOT do anything advanced for this K10 -
 no SpMT, just MCMT. But when the other guys came on board, I thought
 this meant that I could leave the easy stuff for them, while I tried to
 figure out how to do SpMT and/or any other way of using MCMT to speed up
 single threads.

  当時 K10 なるプロジェクトはたくさんあったのさ。そもそも俺がAMDに雇われた時の
 仕事は低消費電力プロセッサだったんだけど、これが俺の知る限り最初の「K10」
 って名前のプロジェクトだった。
 このK10の開発は既に随分進んでいて、俺の仕事は全然なかったんだが、あっさり
 キャンセルされて俺は宙ぶらりん状態になった。丁度そのころ Mike Haertel が入社
 してきて、一緒にハイエンドの OoOE プロセッサの開発を担当することになった。例の
 低消費電力プロセッサのグループは、別のプロジェクトに回され、それとは別の
 低消費電力プロジェクトをやっていたチームが我々の K10 の開発を行うことに
 なった。この K10 が MCMT の K10 って訳だ。
  俺の K10 プロジェクトに関しては、Fred Webner から MCMT の実装だけに専念して
  SpMT とか余計なことに手を出さないように約束させられた。しかし (Webner が失脚して)
 別の取締役が来たんで、その約束は無かったことにして SpMT を含むあらゆる方法で
 MCMT によるシングルスレッドの高速化を実装することにした。

600:MACオタ@続き
10/02/14 06:48:35 Wj71GeXX
- - indeed, the scheduler structure of queues
 feeding an RS arose from the debate between OOO (me) and in-order (Sager
 and Upton) -

 実際、(Willamette 開発時に) スケジューラの構造で OoO派(俺)とインオーダー派
 (Seger と Upton)で議論があった。
 
- Mitch Alsup was K9.

 [K9について尋ねられて]Mitch Alsup が K9 をやってたな。
 [MACオタ注: Mitch Alsup は Motorola 88Kや Ross HyperSPARC のアーキテクト]
 
- Some of us have done a lot of work on dynamic predication. (My resume
 includes an OOO Itanium, plus I have been working on VLIW and
 predication longer than OOO.) But since such work inside companies will
 never see the light of day, do not let that hold you back, since you are
 not so constrained by NDAs and trade secrets.

 俺の経歴にも書いてあるように、OoO の Itanium やプレディケーションについては色々
 研究したけど、Intel 社内では日の目を見なかった。俺はNDA とか色々あって無理だが、
 お前さんがやるなら頑張れ。

601:MACオタ@ここまで
10/02/14 07:10:42 Wj71GeXX
ALU間の配線レイアウトの話について語っているところも面白かったので
書こうかと思いましたが、長いのでヤメておきました。

ところで、この話に関して AMD のサイトで blog を執筆している John Fruehe 氏
(URLリンク(blogs.amd.com) 参照)が「Andy Glew なんて知らねーし。そんな怪しい
ヤツの言うことより、俺を信じろ」とか書いて失笑をかっていました。
例のアニキと言い、どうして AMD のマーケティングは間抜けなのやら…
URLリンク(www.xtremesystems.org)
  ------------------------
  I have no idea who Andy Glew is, but he left the company several years ago.
  ------------------------



602:Socket774
10/02/14 07:19:32 D4oXSgCt
ワロスw

603:Socket774
10/02/14 07:38:58 3oTjQGRW
K9で却下された提案をブルで再び使うのか
URLリンク(pc.watch.impress.co.jp)

提案は、CPUをマルチスレッド&マルチクラスタの構成にし、マイクロアーキテクチャの全レベルでマルチレベル化、
さらにさまざまなマルチスレッディングテクニックを実装するというものだったようだ。
例えば、スケジューラやインストラクションウインドウ、ストアバッファ、レジスタファイル、ブランチプレディクタなどをマルチレベルにする。
加えて、投機マルチスレッディング(SpMT:Speculative Multithreading)、非明示的マルチスレッディング(IMT:Implicit Multithreading)、
スキップアヘッドマルチスレッディング(SkMT:Skipahead Multithreading)といった技法を持ち込む。

604:MACオタ>603 さん
10/02/14 08:32:13 Wj71GeXX
>>603
後藤氏を信じるのは自由ですが、Glew 氏によるK9情報は>>600

605:Socket774
10/02/14 08:39:26 3oTjQGRW
K10って書いてた
>Glew氏は、以前、K10のために提案したものの、AMDに拒否されてしまった技術をリストアップしていた。
>Glew氏が提案したのは、かなり尖ったアーキテクチャだった。

606:MACオタ
10/02/14 12:37:56 Wj71GeXX
ちなみに2ちゃんねる的には Andy Glew 氏のサイトの職務経歴は2005年半ばの
話題でした。
  ---------------------
  132 名前:MACオタ 投稿日:2005/08/08(月) 06:18:21 ID:9pfRTF4F
    P6の主要アーキテクトの一人として知られるAndy Glewが昨年AMDを退社した後,Intelに
    戻ってるとのことす。
    URLリンク(www.geocities.com)
  ---------------------

607:580
10/02/14 13:28:59 sxHaLuFq
どうやら>>580の解釈であってるようでした

608:Socket774
10/02/14 16:04:06 JviKC0SN
>>593
M*ってのが気になる
なんか書いてないの?

609:MACオタ>608 さん
10/02/14 21:57:01 Wj71GeXX
>>608
ご当人のブログで発表資料等が紹介されています。
URLリンク(andyglew.blogspot.com)

610:Socket774
10/02/15 10:07:43 Dg+O6xA1
Andy Glewのスライドのほう、新風やハイパースカラじゃないか…

611:Socket774
10/02/15 17:30:09 6N+k5INy
SIMDを使ったプログラムを書いているのだけど、マンデンブロ集合以外に、
プログラミングコストに比較して満足感があるものってなにかないかな。

ゲームは、キャラクターつくったりドット絵かくの大変なのでパス。

612:Socket774
10/02/15 17:31:08 6N+k5INy
つかいま一番つかってみたいのはG4/G5のAltiVecなんですけどね。

613:,,・´∀`・,,)っ-○○○
10/02/15 22:38:10 imhVWoSl
別に大したことないぞあれ


614:Socket774
10/02/17 23:12:59 jIvzAyKW
俺はMVI,MAX,VIS辺りかな…

615:MACオタ
10/02/23 00:33:21 6aN/dP7E
IntelのサイトにTukiwilaのTDPが書いてます。
URLリンク(www.intel.com)
 -9350/1.73GHz (4-core): 185W
 -9340/1.60GHz (4-core): 185W
 -9339/1.46GHz (4-core): 155W
 -9320/1.33GHz (4-core):; 155W
 -9310/1.60GHz (2-core): 130W
流石に20億トランジスタは伊達じゃありませんな。
これと比較すると8-core, 4GHzでチップあたり200Wと言われる POWER7 は低消費
電力と言えるのかも…


616:Socket774
10/02/23 09:02:25 TpvPnKnq
ネタの古さと程度の低さにビックリ

617:Socket774
10/02/23 16:28:23 ie/mu8Le
最後の行を言いたかっただけでしょw

618:,,・´∀`・,,)っ-○○○
10/02/24 16:11:08 QutNOdX2
describe(笑)

ますます描「画」と遠くなったぞ

619:Socket774
10/02/26 20:04:46 oGRP4Zxp
ね…描画

620:MACオタ
10/02/28 11:29:22 TTBuX29w
まずは古めのニュースをまとめておきます。
まず、POWER7の製造状況に関するIBM Power Systemsのゼネラルマネージャ、
Ross Mauri のコメント
URLリンク(www.itjungle.com)
  --------------------
  "The yields are good on the Power7 chips," Mauri said to me ahead of his
  presentation. "And if you are hearing rumors to the contrary, call me up and
  I am happy to deny them," he added with a smile.
  --------------------
それから、日立と仏Bull SAのPOWER7搭載機の発表。
両者ともPower 75xのOEMの様です。
日立: URLリンク(www.hitachi.co.jp)
   URLリンク(www.hitachi.co.jp)
Bull SA: URLリンク(www.wcm.bull.com)

621:Socket774
10/02/28 12:33:35 fQ/ywCDH
IBMオタさんだあ

622:MACオタ
10/02/28 13:04:07 TTBuX29w
円周率計算でIntel i7 PCで世界記録を樹立した Fabrice Bellard 氏が件の
実行コード "tpi" を公開しています。Linux版とWindows版。
URLリンク(bellard.org)
手近で見つかった結果はこんな感じ。
 128Mi (134,217,728)桁, 8-Thread
 ・Barcelona Opteron/2.3GHz./8-core: 125.018 sec.
 ・Shanghai Opteron/2.7GHz/8-core: 91.986 sec.
 ・Harpertown Xeon/2.5GHz/8-core: 89.859 sec.
 ・Nehalem Xeon/2.66GHz/4-core: 65.080 sec.

マルチスレッドとSSE3に対応した最新の円周率計算コードですので、今後のベンチマークは
この辺に移行すべきかと思うのですが…

623:MACオタ@補足
10/02/28 13:05:28 TTBuX29w
上記の結果は全てLinux版によるものでした。

624:Socket774
10/02/28 13:06:52 IOPfYmwP
AMDで遅いものなんてアム虫がブーブー言うだけだろ

625:Socket774
10/02/28 13:40:08 IOPfYmwP
ちなみに i5 670で2thread

tpi.exe -T 2 -o pi.txt 128M
Using 3.67GiB of RAM
Computation to 128000000 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=53.1MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
545M 545M 0 0 completed 100.0% 0
time = 63.601 s
Compute P, Q
362M 545M 0 0 completed
time = 0.836 s
Division
599M 599M 0 0 completed
time = 5.646 s
Sqrt
528M 599M 0 0 completed
time = 3.793 s
Final multiplication
925M 925M 0 0 completed
time = 2.353 s
Total time (binary result) = 76.247 s
Base conversion
523M 925M 0 0 completed
time = 13.922 s
Total time (base 10 result) = 90.170 s
Writing result to 'pi.txt'

626:MACオタ>625 さん
10/02/28 13:51:20 TTBuX29w
>>625
参考までに>>622の結果は"128M"じゃなくて"128Mi"の結果です。

627:Socket774
10/02/28 14:03:24 IOPfYmwP
あまり変わらんな
tpi.exe -T 2 -o pi.txt 128Mi

Using 3.67GiB of RAM
Computation to 134217728 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=55.7MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
571M 571M 0 0 completed 100.0% 0
time = 66.222 s
Compute P, Q
377M 571M 0 0 completed
time = 0.874 s
Division
623M 623M 0 0 completed
time = 6.115 s
Sqrt
547M 623M 0 0 completed
time = 4.134 s
Final multiplication
966M 966M 0 0 completed
time = 2.699 s
Total time (binary result) = 80.044 s
Base conversion
549M 966M 0 0 completed
time = 14.836 s
Total time (base 10 result) = 94.879 s
Writing result to 'pi.txt'

628:Socket774
10/02/28 14:23:38 7SwDPgiv
マルチスッドレに対応してるわりには遅い

629:MACオタ>628 さん
10/02/28 14:28:21 TTBuX29w
>>628
タスクマネージャで負荷変動でも眺めていれば理由は自明ですよ。

630:MACオタ
10/02/28 16:06:38 TTBuX29w
>>403でも紹介した中国語版Power.orgにおいてある資料ですが、"64-bit Multi-
threaded"の次世代組込コアについて言及がありました。
URLリンク(www.cn.power.org)
(P.6参照)
今見ると、これが PowerPC A2 コアであることは明らかなのですが、当該スライドの
タイトルが"Power Architecture Cores Available for Licensing"とあるように、A2コア
を外部にライセンスする気満々なのは明らかです。

で、Sequoia 用コアについて再度考え直してみると、>>396, >>403, >>561あたりで書い
たようにPPC 470系であろうと予測している訳ですが、
URLリンク(newsline.llnl.gov)
 - 1.6 PetaBytes of memory
 - 98,304 Nodes
ということで、プロセッサカードあたりのメモリは明らかに16GBを想定していることが判
ります。Blue Gene/P からはプロセッサカード内でのSMP動作モードが追加されていま
すので、16GBのメモリを使用するのに32-bitコアのままで問題無いのであろうかという
疑問が出てきます。

PPC470自体がサポートする物理メモリは、ちょうど上のプレゼンに書いてあって、4TB
とのこと。
  ---------------------
  - Real memory support up to 4 terrabytes
  ---------------------
16コアで16GBを共有するのですから、プロセスあたり4GBの制限があっても何とかなる
のかもしれませんが、PC的な64-bit SMP のようにノード内の全メモリをスレッド間で共有
するようなコードは使えません。

どうせ Blue Gene で動かす以上、PCクラスタからのベタ移植なんて考えないのかもしれ
ませんが、64-bitの A2 コアを選択する可能性も出てきた…ということで。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch