CPUアーキテクチャについて語れ 16at JISAKU
CPUアーキテクチャについて語れ 16 - 暇つぶし2ch461:Socket774
10/01/27 21:27:00 GJygqFJt
すでに8086くらいは超えてるな

462:レトリック君
10/01/28 02:06:01 vLn9Fpin
>>461
志村ーッ、2004だってばw

463:Socket774
10/01/28 07:59:29 cxikDypa
Apple A4のベースになってるARMって何なのか分かる人いる?
資料が見つからない…

464:Socket774
10/01/28 21:11:18 pv6sxUZX
なんで、出来合いのチップを調達せずに、わざわざ自前で用意しようと思ったんだろうな?


465:Socket774
10/01/29 00:36:19 eRQ+cH87
>>464
appleだからだろ。
68kMAC時代から命令セットに手を入れる会社だし。

466:Socket774
10/01/29 00:40:03 oTd58LGM
3G → 90nm / ARM11 412MHz / PowerVR MBX-Lite
3G S → 65nm / ARM Cortex A8 600MHz / PowerVR SGX
どちらも既存のものをベースにちょいカスタムしたSamsung製SoCを採用。

自前でもなんでもなく順当にiPadもこの系統だと思うが。
IPは他社のものだからどうしようもないけど、SoC設計をApple買い取ったってことなのかもね。

467:Socket774
10/01/29 01:48:49 peOYWx6c
A1→68k
A2→PowerPC
A3→x86(-64)
A4→ARM

A3はいつまで続くのかなぁーっと

468:MACオタ>467 さん
10/01/29 01:54:39 nDBbxlWP
>>467
Apple ][ が抜けているのは、ちょっと歴史認識が間違っている気が…

469:MACオタ
10/01/29 02:00:17 nDBbxlWP
TomsHardware の SpursEngine レビュー。
URLリンク(www.tomshardware.com)
複数のIntel/AMDのホストプロセッサでの比較を行っていますが、
 - 消費電力据置きで、エンコード時間は半分以下で済む。
 - 画質はソフトウェアエンコーディングに匹敵
 - アドオンカードにしては値段も安い
ということで、好意的なレビュー結果でした。

470:MACオタ
10/01/29 02:18:23 nDBbxlWP
TheRegs の ISSCC プレビューですが、Morgan 記者は "Wire-Speed Power" を
試作品と見ている様で…
URLリンク(www.theregister.co.uk)
  --------------------
  IBM's chip designers will be showing off another experimental Power7 derivative,
  an unnamed 2.3 GHz "wire-speed Power processor" that sports 16 cores and 64 threads.
  --------------------

471:MACオタ
10/01/29 03:07:17 nDBbxlWP
理研とNVIDIAが主催した"Accelerated Computing"研究会で、
URLリンク(reg-nvidia.jp)
牧野教授が次世代GRAPE-DR の開発状況を語ったようです。
URLリンク(www.artcompsci.org) (P.56)
  ------------------------
  GRAPEs with eASIC
   ・Completed an experimental design of a
    programmable processor for quadruple-precision
    arithmetic. 6PEs in nominal 2.5Mgates.
   ・Started designing low-accuracy GRAPE hardware
    with 7.4Mgates chip.

   Summary of planned specs:
   ・around 8-bit relative precision
   ・support for quadrupole moment in hardware
   ・100-200 pipelines, 300MHz, 2-4Tflops/chip
   ・small power consumption: single PCIe card can
    house 4 chips (10 Tflops, 50W in total)
  ------------------------
300MHz の HPC 向けプロセッサとはあまりに貧乏路線過ぎる気もしますが、電力効率
勝負になっている現在のトレンドには合致しているのかもしれません。
でも電力管理に(設計)リソースを振り向けられなくて、それほど効率も上がらないかも…

472:Socket774
10/01/29 22:29:01 48LxObXC
>>470
おいらも最初はIBM版Niagaraかと思ってたんだけど
オタさんがいろいろ書くもんだから分かんなくなっちゃった

473:Socket774
10/01/30 01:36:00 OCKk1ry5
armがmsと共通規格策定できれば凄いことになりそう

2年後くらいかな

1年後のandroid共通規格でもいいけど

474:Socket774
10/01/30 01:46:27 NWfoSSfy
PPC "A2" の開発に LSI が参加していることについて MAC ヲタが>>425で↓と書いているが
> 共同開発した LSI Corp. はネットワークプロセッサへの応用を考えているでしょう

個人的にはネットワークプロセッサーよりも IO プロセッサーへの応用を期待してみる.
intel は IOP がディスコンしまくりだし,AMCC は 3ware を手放したみたいだが
マルチコアにスケールしやすいプロセッサーはIOプロセッサーとしてどうなのだろう?
# RAIDだとパリティ演算とかマルチコアで性能出し易そうに思えるのだが…触ったこと無いから解らん…

LSI のネットワークプロセッサーはハイエンドではない ARM だし,どうなのかね?


475:MACオタ>474 さん
10/01/30 03:26:18 9on66SoV
>>474
  ------------------
  > 共同開発した LSI Corp. はネットワークプロセッサへの応用を考えている
  ------------------
カキコミが分散して誤解させてしまったことは申し訳ありませんが、それA2じゃなくて
PPC476の話です(>>396参照)。

476:MACオタ
10/01/30 20:37:12 9on66SoV
安藤氏の今日の更新ですが、
URLリンク(www.geocities.jp)
  ----------------
  今の計画では,富士通は当初計画通り2012年3月末に10PFlopsを作り,
  NECのベクトル部が無くなったのに,予算は変わらないというのは理解
  できません。
  ----------------
マスメディアでの記事まで含めて、散々事業仕分けを批判した挙句に
他人事のようにこれは無いのではないでしょうか?
文責とかそういうものって、いったい何所に…

477:Socket774
10/01/30 21:52:39 HaYdkyQt
翻って事業仕分けはスバラシイとか言い始めたわけじゃないんだから別に矛盾して無いでしょ。
事業仕分けに批判的な人でも京速計算機に問題が無いなんて考えてる人はほぼ皆無だと思う。
オタさんはこの問題に関して「スパコン利権vs事業仕分け」みたいな二極思考のようだけど。

478:Socket774
10/01/30 21:54:18 uVHFvPal
馬鹿だから仕方ない

479:MACオタ>477 さん
10/01/30 22:28:24 9on66SoV
>>477
  -------------
  翻って事業仕分けはスバラシイとか言い始めたわけじゃない
  -------------
いわゆる『文系』の世界と違って、自説の前提が間違っていることが明らか
になった場合は、そういう主張を行っても我々の世界では非難はされません。
むしろ過去の自説に偏執するほうが馬鹿にされます。

過去の安藤氏の主張に関しては、例えばこの記事を通読下さい。
URLリンク(journal.mycom.co.jp)
仕分け側の金田教授や、計画見直し論に京速サイドに立って批判を加えて
いるのが判るかと思います。

480:Socket774
10/01/30 22:36:38 CUQsMXOS
命令キューとリオーダバッファの区別のついていないMACオタが何を言うか(笑)

481:MACオタ
10/01/30 22:38:16 9on66SoV
ちと話は変わりますが、>>336で紹介した CELL を採用した欧州のスーパー
コンピュータQPACEの開発スケジュールが最後のリンクにあります。
もう一度貼り直しておきますが、
URLリンク(www.desy.de) (P.32)
  ----------------
  ・ 01/08   Official Project Start
  [中略]
  ・ 08/09   Deployment of 4 racks at JSC and
          4 racks at U Wuppertal complete
  -----------------
TOP500でのお披露目まで入れても、余裕で2年以下ですね。
汎用プロセッサを選択するだけでも、これだけの開発速度を実現できるという
のは、頭においておいて良いかと思うのですが…

482:Socket774
10/01/30 22:53:09 3GfdHy0C
>>479
>仕分け側の金田教授や、計画見直し論に京速サイドに立って批判を加えて
いるのが判るかと思います。

そういうのが二極思考だと言っているんです。
京速サイド、事業仕分けサイドどっちの味方とかそういう視点でしか見ていない。

>今の計画では,富士通は当初計画通り2012年3月末に10PFlopsを作り,
NECのベクトル部が無くなったのに,予算は変わらないというのは理解
できません。

この主張に矛盾するような箇所は見つけられませんでした。

483:Socket774
10/01/30 22:54:38 3CnLW1tD
>>482
馬の耳に念仏だよ

484:MACオタ>482 さん
10/01/30 23:06:20 9on66SoV
>>482
  -------------------
  そういうのが二極思考だと言っているんです。
  -------------------
当該記事から安藤氏独自の『極』なる提案を読み取ることができると主張
されるのでしたら、その内容をお書き下さい。

485:Socket774
10/01/30 23:12:07 e4DD98L0
きもい

486:Socket774
10/01/30 23:14:29 OCNUFsQC
落ち着け

487:Socket774
10/01/30 23:21:33 3GfdHy0C
>>484
いいえそういった主張はしません。
ただ単に安藤氏は様々な状況を総合的に判断して京速は推進すべしとの結論なのでしょう。

488:MACオタ
10/01/30 23:37:18 9on66SoV
Power.org が Power ISA 2.06 (サーバー仕様) の特徴について白書を公開しています。
ISA 2.06 Server Environment というのは POWER7 のための規格のようなモノですから、
POWER7 の改良点そのものかと。
URLリンク(www.power.org)
 ・ VSX (Vector-Scalar Extension)
 ・ Processor Compatibility Register
  ISA 2.05用の仮想マシンとISA 2.06用の仮想マシンの切替に役に立つそうで。
 ・ Authority Mask Override Register と User Authority Mask Override Register
 ・ 複数ページサイズの同時サポート
 ・ DCBT/DCBTST 命令によるプリフェッチの拡張
  昔から使われているテクニックですが、より現代的な仕様を追加しました。
  - Transient (一時的使用) 指定
  - Stride-N プリフェッチ: 疎行列アクセス用
 ・ メモリアクセス順序の強制
  PowerPC ISA は『緩い』メモリオーダリングを持つ命令セットですが、SPARCやx86の
  エミュレーション用にこの機能が役に立つそうで。
 ・ DFP (Decimal Floating Point)

489:Socket774
10/01/30 23:40:51 r1JjubY8
オタさんファビョっちゃった

490:Socket774
10/01/31 09:40:25 MzIQbD9D
一瞬POWER7版PowerPCかと思ったw

491:Socket774
10/01/31 15:13:46 vqFsqtRV
MACオタの口から文系批判が出るとは思わんかったw

492:MACオタ>491 さん
10/01/31 18:21:54 1yjeuoJz
>>491
特に批判しているつもりはありませんよ。昔、かの世界は伝統芸能の様に
説が『存在する』ということに意味があるので、現実世界の動向にかかわらず
間違いを認めると変節漢として非難されると聞いたのですが…

493:Socket774
10/01/31 19:29:47 KIDcoz5Q
認めなきゃ!間違いを!<オタへ

494:Socket774
10/01/31 20:30:57 dFNPGiKm
>いわゆる『文系』の世界と違って、自説の前提が間違っていることが明らか
>になった場合は、そういう主張を行っても我々の世界では非難はされません。
>むしろ過去の自説に偏執するほうが馬鹿にされます。

ゲハ厨風情が「我々の世界」とか言い出すようになってるとはワナビー病も根が深い

495:MACオタ>494 さん
10/01/31 21:56:21 1yjeuoJz
>>494
特に自慢になるような話でもありませんが、ゲハ板より私の方が古いんですよ。
古いカキコミを検索してみると、この位は辿れますね…
URLリンク(mimizun.com)
  -------------------
  6 名前:MACオタ :1999/11/25(木) 07:48
   ドルさん,解説どうも。
   サポートをMac OS 8以上に限定すれば,httpはiCabの様にHTTP Access
   機能をAppleScriptで呼び出すだけで使えるす。遅いけど。
   どなたかREALBasicあたりで頑張ってみてわいかがすかね?
  -------------------

496:Socket774
10/01/31 22:57:36 5I7EitZN
「> ゲハ板より私の方が古い」ことがどう>>494 と繋がるのかさっぱり分からん。
いきなり自分語りしだして何考えてるんだコイツ。

497:Socket774
10/01/31 23:06:30 KIDcoz5Q
しーっ、見ちゃいけません

498:MACオタ@補足
10/01/31 23:19:26 1yjeuoJz
ふと懐かしくなって自作板の過去ログを探していましたが、最古のスレッドも
残っているのですね。
URLリンク(mentai.2ch.net)
私の最初のカキコミはこれっぽいです。
URLリンク(mentai.2ch.net)
  -------------------
  10 名前: MACオタ  投稿日: 1999/12/20(月) 21:57
   登録シールを見ると92年8月から使ってるApple Keyboard II (US)。
   当然キートップの刻印はほとんど消えてるす。
  -------------------

499:Socket774
10/01/31 23:21:42 QXjkP70+
反転、MACオタさんの株が下落しています↓

500:Socket774
10/02/01 00:03:41 lABIHalb
こんなMACオタには減滅した・・・かまってちゃん全開でひくわ

501:Socket774
10/02/01 00:38:24 GL9NK3t1
団子が消えてオタが残った

502:Socket774
10/02/01 00:45:16 EAq6juci
MOTO製G5の話題あたりから懐メロ入って来たとかw

503:Socket774
10/02/01 01:25:25 AdGDJaT5
>>476辺りでバランスを崩し始め、復旧を試みるもそのまま負のスパイラルへ
FYIや情報交換ではなく自我を保つために書き込みするタイプがたびたび陥る罠です

504:MACオタ
10/02/01 19:14:44 rktrAdlu
>>393 で言及されている龍芯3号の論文見つけました。
URLリンク(ams.ict.ac.cn)

それから>>392でこういうニュースがありましたが、
  ----------------
   ・今年中にPOWERサーバーはPOWER7世代に更新される
  ----------------
IBMが POWER7 搭載ブレードサーバー (POWER6 搭載の JS23/JS43 の後継機)の研修会
を3月に予定しているとのこと。
URLリンク(www.redbooks.ibm.com)
Q2あたりに製品がでるのでしょうか?

505:MACオタ@訂正
10/02/01 19:52:28 rktrAdlu
上のIBMのリンクって研修会の案内じゃなくて、該当機種の Redbook の編集バイト
の募集ですね…

506:MACオタ
10/02/02 06:46:33 kko00L6f
2/8のISSCCのプロセッサセッションでのPOWER7講演(>>312参照)と共に、製品発表も行われるようです。
URLリンク(www.theregister.co.uk)
  -------------------------
  It looks like IBM's initial Power7-based servers are going to be launched in
  New York on February 8. Big Blue sent out the invitations today.
  -------------------------

507:,,・´∀`・,,)っ-○○○
10/02/02 23:45:50 hSNfD5Gf
2chより面白いサイトがあってね

508:Socket774
10/02/02 23:48:42 M5C9MwaG
もう団子食べ飽きた、イラネ

509:MACオタ
10/02/03 07:31:58 ZkoxHoCc
なんと2/8にはTukwilaも発表になるんだとか。
URLリンク(www.theregister.co.uk)
  --------------------
  High-end server chip rivals Intel and IBM have picked the same day
  - next Monday, February 8 - to launch their respective quad-core
  "Tukwila" Itanium and eight-core Power7 processors.
  --------------------
すでに顧客には出荷が始まっているとのことで、Intel の新製品発表の通例
として、搭載製品も同時に公開されるのでしょう。

510:MACオタ@補足
10/02/03 07:37:08 ZkoxHoCc
参考までに一昨年の Hot Chips 20 で発表された Tukwila のプレゼン資料を
貼っておきます。
URLリンク(www.hotchips.org)
ここからメモリコントローラの変更が行われたことは発表されている訳ですが…

511:Socket774
10/02/05 23:38:44 rCFtQ7wC
ARM系で一本
Cortex A、R、Mそれぞれに後継のロードマップとな
ARM Preps 2-GHz, Multicore Chips for Smartphones
URLリンク(www.pcmag.com)

Cortex-Aに関して言えば、今後は鯖にも使われていくんだろうけど、
そうなると気になるメモリの心許なさ
アドレス空間拡張の予定はあるんじゃろうか…

512:,,・´∀`・,,)っ-○○○
10/02/06 09:31:36 kCi1iHQ2
サーバねぇ

513:Socket774
10/02/06 11:12:35 RJeUKv3j
組み込み向けサーバとかあんの?

514:Socket774
10/02/06 14:22:15 wMU/6bmO
ARMとか鯖にならんかと妄想したこともあるが、
よくよく考えると棲み分けできる場所が無い。
高性能なヤツは何個CPU積んでも無理っぽいし、
中小企業のちっさいヤツはどうせWindowsだしAtomで十分だし。

515:,,・´∀`・,,)っ-○○○
10/02/06 16:14:37 kCi1iHQ2
ARMは割と好きだけど流石に・・・ねぇ


516:Socket774
10/02/06 19:20:49 Z9531TMX
団子ちゃんは無理せず今までのようにARM(笑)って言ってればいいと思うよ。
その方が自然です。

これまでもARMをサーバに出来ないかって話は結構出てたんだけどね。
URLリンク(www.eetimes.com)
とりあえず、PASemiとCiscoはアップを始めたっぽい。

517:Socket774
10/02/06 19:58:52 BuPM/VMm
Atomがあんだけ安く出ちゃうと、ARMの出番は無いな。

Intelが殿様商売でボッタクリCPUのみ売ってた頃ならともかく。

518:Socket774
10/02/06 20:32:36 G3uW7np+
その意味ではVIAに頑張ってもらわんと。

519:Socket774
10/02/06 21:25:20 wMU/6bmO
ARMが鯖になれるならSuperHもなんとか頼む!

520:Socket774
10/02/07 01:01:13 jJFaYBvK
>>516
PASemiってPowerPCやってたんじゃなかったっけ?

521:Socket774
10/02/07 01:47:01 k9sZKN6T
>>520
Apple傘下でARM作らされてるよ。

522:Socket774
10/02/07 09:36:30 jJFaYBvK
うん、それは知ってる

523:Socket774
10/02/07 14:00:41 in1+Ru8i
いよいよx86が終わると思うと胸が熱くなるな

524:Socket774
10/02/07 16:40:59 Mxq+/byn
10年後もx86が残っているに1票

525:Socket774
10/02/07 18:34:16 n9EWu0KM
MSが他のプロセッサへの移行を本格的に始めたらx86も終わりそうな
気がするけど、MS自身がハードウェアの商売でも始めない限り、Winを
別の環境に移行させる意味はないからな。

526:MACオタ
10/02/08 01:01:12 kCnuu4MY
>>396 で紹介した LSI Corp がIP売りするPPC476FPコアについて、
LSIのサイトに資料がありました。
URLリンク(www.lsi.com)
将来的には TSMC の 28nm プロセスでも製造可能にして、1.6-1.8GHz で動作予定
とのこと。
アプリケーションの例として、同時発表した eDRAM を混載したブロック図も掲載され
ています。

527:MACオタ@補足
10/02/08 01:02:08 kCnuu4MY
上記の話題の日本語記事も紹介しておきます。
URLリンク(techon.nikkeibp.co.jp)


528:MACオタ>520-522 さん
10/02/08 07:51:38 kCnuu4MY
>>520-522
少なからぬ旧 P.A Semi の社員が Apple を退社済みとのこと。
Ahlee Vance 氏の記事なので信用できると思いますよ。
URLリンク(www.nytimes.com)
  ------------------------
  Some of the chip engineers Apple gained in its purchase of PA Semi appear
  to have already left the company. According to partial records on the job
  networking site LinkedIn, at least half a dozen former PA Semi engineers
  have left Apple and turned up at a start-up called Agnilux, based in San
  Jose. The company was co-founded by one of PA’s leading system architects,
  Mark Hayter.

  Neither Mr. Hayter nor other onetime PA workers who left Apple for Agnilux were
  willing to discuss either company’s plans. According to two people with knowledge
  of the two companies, who were unwilling to be named because the matter is delicate,
  some PA engineers left Apple a few months after the acquisition because they
  were given grants of Apple stock at an unattractive price.
  ------------------------

529:Socket774
10/02/08 10:48:31 8s5N9LAv
URLリンク(www.yusuke-ohara.com)
>iPadにP.A.Semiの技術が...という論調を目にするけれど、私が知る限りにおいてP.A.Semiの部隊は四散してしまった筈。

530:MACオタ
10/02/08 20:33:19 i2j+4fL+
ISSCCを前に、色々情報が出てきています。
まず、発表を目前に控えたPOWER7搭載サーバーの話題。
URLリンク(www.theregister.co.uk)
URLリンク(www.theregister.co.uk)
 - Power 750 (Power 550 後継)
 - Power 755 (HPC向け)
 - Power 770, 780
 - 3 GHz, 3.3 GHz, 3.5 GHz, 3.55 GHz, 3.8 GHz, and 4.1 GHz。最高 4.5GHz?
 - 4.1GHz は Power 780 の "TurboCore" モード (4-coreのみ有効でOC)

531:MACオタ
10/02/08 20:54:57 i2j+4fL+
RealWorldTech の David Kanter 氏が掲示板に POWER7 講演の詳細を投稿していました。
URLリンク(www.realworldtech.com)
 - L1D のレイテンシは 2-cycle (POWER6は4-cycle)
 - L1のSRAMセルは、0.426um^2。6T構造
 - "Fast Local L3" の load-to-use レイテンシは 25-cycle。SRAM を採用した場合より
  3-cycle 程度のペナルティはある。(>>316参照)
 - L3 の動作クロックはコアの1/2
 - L2のレイテンシは 8~9-cylcle
 - L3 全体のレイテンシは 75-cycle 程度
 - 2つの整数および4つ?の浮動小数点パイプラインごとに独立したレジスタファイルを持つ

532:MACオタ@訂正
10/02/08 21:00:49 i2j+4fL+
上の話ですが、講演はまだ始まっていないので、予稿集の情報だと思われます。

533:Socket774
10/02/08 21:25:01 fymYUEha
Fast Local L3、コヒーレンシ取らない占有領域として使うんですかLSみたいに

534:MACオタ>533 さん
10/02/08 21:31:26 i2j+4fL+
>>533
>>316のプレゼン資料を見れば判りますが、コヒーレンシは維持されます。
  ---------------------
  - Automatically clones shared data to multiple private regions.
  ---------------------

535:Socket774
10/02/08 21:46:24 fymYUEha
Power7の最大の売りは何ですか?

536:MACオタ
10/02/08 22:00:58 i2j+4fL+
先週のニュースらしいですが、POWER7で浮かれるIBMの East Fishkill 工場で
飲料水に大量の鉛が含まれていることがバレたそうで…
URLリンク(www.poughkeepsiejournal.com)
  ----------------------
  WICCOPEE ― Too-high levels of lead have been found in drinking water at
  IBM Corp.’s East Fishkill complex, prompting the company to provide alternate
  sources of water.
  ----------------------
流石、工場労働者なんて人とも思わない守銭奴IBMらしい所業ですね。

537:Socket774
10/02/08 22:17:56 fymYUEha
>>536
Power7の最大の売りは何か答えてよ?

538:MACオタ>537 さん
10/02/08 22:25:42 i2j+4fL+
>>537
  -----------------
  Power7の最大の売りは何か答えてよ?
  -----------------
そういうことはIBMの営業に電話すれば良いのでは?

539:Socket774
10/02/08 22:28:01 fymYUEha
>>538
さんざんコピペしてるくせに、答えられないのかよ

540:MACオタ
10/02/08 22:39:52 i2j+4fL+
POWER7のベンチマーク結果も出てきました。
まずは SAP SD (Standard) URLリンク(www.sap.com)
 - SPARC64 VII/2.88GHz (32-chip/128-core): 17,430 [users]
 - POWER7/3.55GHz (4-chip/32-core): 15,600 [users]
 - POWER6/4.2GHz (16-chip/32-core): 14,432 [users]
 - Itanium2/1.6GHz (32-chip/64-core): 12,500 [users]
 - Tigerton Xeon/2.93GHz (16-chip/64-core): 10,600 [users]
 - Istanbul Opteron/2.6GHz (8-chip/48-core): 10,000 [users]

541:Socket774
10/02/08 23:37:37 zSjOHSur
性能ぶっ千切りだな

542:Socket774
10/02/08 23:46:50 h/Ciw5Ft
お値段の方もブッチギリです

543:MACオタ
10/02/09 05:41:31 wiDvnLYd
IBMのプレスリリース来ました。>>535さんご希望の『売り文句』も書いてありますよ。
URLリンク(www-03.ibm.com)
FUDの元祖IBMとは思えないほど発表から販売開始までの時間は短く、一部機種は
2月半ばに販売するとのこと。
 - Power 750 Express, Power 755: 2/19
 - Power 770, Power 780: 3/16
 
ベンチマークをまとめたSystems Performance Report はこちら。
URLリンク(www-03.ibm.com)
SPEC2006_rate, SPECjbb, 前述の SAP SD 2-Tiers, Oracle eBS Benchmark,
LINPACK HPC, STREAM, NAMD, SPEC OMP2001 の結果があります。

544:MACオタ
10/02/09 06:16:24 wiDvnLYd
IntelのTukwila発表も来ました。Itenium 9300シリーズとのこと。
URLリンク(www.intel.com)
  ----------------
  The Intel Itanium processor 9300 series ranges in price from $946 to $3,838 in
  quantities of 1,000. OEM systems are expected to ship within 90 days.
  ----------------
搭載製品の同時発表とはいかなかったようで…
なお、製品ラインは下記の通り。
URLリンク(download.intel.com)
 9350: 4-core, 1.73GHz, 24MB L3
 9340: 4-core, 1.60GHz, 20MB L3
 9330: 4-core, 1.46GHz, 20MB L3
 9320: 4-core, 1.33GHz, 16MB L3
 9310: 2-core, 1.60GHz, 10MB L3

その他、注目点はこんなものでしょうか?
 - 既報通り、Neahlem-EPとはプラットフォーム共通化が図られているとのこと。
  "share several platform ingredients, including the Intel(R) QuickPath Interconnect,
  the Intel Scalable Memory Interconnect, the Intel(R) 7500 Scalable Memory Buffer
  (to take advantage of industry standard DDR3 memory), and I/O hub (Intel(R)
  7500 chipset). "
 - "Foxton" Technology はNehalenと共通のブランド"Intel Turbo Boost Technology"
  になった模様。

545:Socket774
10/02/09 06:23:21 7vLXVre+
>Intel 7500 Scalable Memory Buffer
ここだけ興味がある
他はもうガイシュツネタばっかだろ

546:Socket774
10/02/09 17:22:43 oVTzk6E5
URLリンク(pc.watch.impress.co.jp)

547:MACオタ
10/02/09 23:02:45 wiDvnLYd
当然のごとく今日も色々。
まず国内でのPOWER7搭載サーバーの発表。
URLリンク(www-06.ibm.com)
URLリンク(enterprise.watch.impress.co.jp)
個人的な注目はパッケージの写真です。
URLリンク(enterprise.watch.impress.co.jp)
今回発表されたミッドレンジサーバーに搭載されているのは、この中で「セラミック・
モジュール」のチップと思われます。真ん中の「オーガニック・モジュール」(要するに
プラスチックパッケージ)のチップはBladeCenter等に使用される筈です。
BladeCenter や IntelliStation POWER がどういった価格帯で登場するかが楽しみかと。

電力効率のスライドも、サーバー製品の消費電力が公開されたという点で興味深いかと
思われます。
URLリンク(enterprise.watch.impress.co.jp)

ちなみに POWER System サーバー (旧 pSeries) で用いられる性能指標 rPerf の
解説はこちら。
URLリンク(www-03.ibm.com)


548:MACオタ
10/02/09 23:11:42 wiDvnLYd
"Wire-Speed POWER" (>>318-329 参照)講演のレポートが EETimesに来てます。
URLリンク(www.eetimes.com)
用途に関しては、色々含みを込めているよう感があります。
  --------------------
  "It's not a network processor or a server processor but a middle ground, a blurring
  of the two worlds," Johnson said.
  The chips will be used in a range of standalone systems and PCI Express adapter
  cards in servers. It is mainly designed for use in IBM's own systems, however the
  company is willing to sell it on a merchant basis as well.
  --------------------
正直、『サーバープロセッサと(組込向け)ネットワークプロセッサの中間的存在』って
デスクトッププロセッサのことでは? かつての PowerPC G3/G4 の様な。
含みを持たせていると言えば、記事の最後がこう締めくくられています。
  --------------------
  Johnson was chief architect of IBM's Power4 processor. He also designed IBM's
  portion of the processor in the Microsoft Xbox 3609 [MACオタ注: Xbox 360の誤植
  でしょう] videogame console.
  --------------------
単に PX/PPE と同じグループが開発したと言いたいのかどうか…

549:MACオタ@続き
10/02/09 23:27:33 wiDvnLYd
話の順序が逆になりましたが、記事中に含まれる新情報は下記の通り。
 - 64-bit
 - 16-core, 1.43B Transistors, 428mm^2 (POWER7は 1.2B Transistors, 567mm^2)
 - 65W @ 16-core/2.3GHz, 20W @ 4-core/1.4GHz
 - 16-core 版は 8MB 内蔵キャッシュサポート
 - 10G Ethernet 4ポート内蔵
 - XML, 正規表現処理, 暗号化アクセラレータ搭載
 - グルーレスでSMP可能
 - プロセッサ製品としてを外販予定
 - 開発期間は5年
 - Linux ハイパーバイザをサポート
 - (製品版の?)テープアウトは一週間前。ファーストシリコンは2週間以内に
  (既に製作済みの)搭載システムでテスト予定。
 - ここでの議論と同様に、アナリストも用途に疑問を呈している。
  ----------------
  "That's a huge chip, bigger than most of the PC and server processor Intel
  makes and probably twice the size of many network processors out there,
  so cost-wise it will be tough for them to be competitive," Gwennap said.
  ----------------


550:Socket774
10/02/09 23:27:49 sBXrnP6s
> デスクトッププロセッサのことでは?

ないない

551:Socket774
10/02/09 23:34:24 775lAe+4
> 『サーバープロセッサと(組込向け)ネットワークプロセッサの中間的存在』

こう↑言われると
旧P.A. SemiのPWRficientを連想してしまったんだが…
# あるいは,SunのNiagaraに近いかな?


552:Socket774
10/02/09 23:46:42 3UG+NB9t
Azulみたいなアクセラレータ的に使えそうだな

553:Socket774
10/02/10 00:29:16 gZDUJ9IR
MSと協議して、WindowsにPowerチップを対応してもらうようにすべきだな。

Xbox360にWindows派生のゲームOSが載っているから、
Windows for Power PCをつくるのも難しい話ではない。

554:Socket774
10/02/10 00:33:23 ubNaBToy
日本勢がんがれ
URLリンク(journal.mycom.co.jp)

555:Socket774
10/02/10 02:28:12 wB5XLdWt
以前発表されたRP2の改良型っぽいな。

556:Socket774
10/02/10 09:27:48 JuDALow/
>>553
おっと、NT4をディスるのはそこまでだ。

557:Socket774
10/02/10 14:08:32 wB5XLdWt
一応2000のRCまでAlpha版はあったんだよな。

558:Socket774
10/02/10 17:19:52 gZDUJ9IR
URLリンク(twitter.com)
東京の公共の場所では関西弁は法律で禁止すべきである。関西人はまともな世界では不良外国人。


559:MACオタ
10/02/10 20:51:21 ioIW7ln4
"Wire-Speed Power Processor" = PowerPC A2 の確定情報来ました。
正確には SOC 製品である Wire-Speed Power Processor の汎用プロセッサコアが
PPC A2 ということになります。
URLリンク(www.theregister.co.uk)
  ------------------
  The processor's A2 cores are small, 64-bit PowerPC cores based on IBM's
  embedded architecture - "a little bit different from our server architecture,"
  said Johnson. Full vitualization and hypervisor support is also included, along
  with some new instructions that allow for low-latency interaction with the
  processors' accelerators.
  ------------------
その他、新情報は次の通り。
 - 2.3GHz は電力効率が良い周波数というだけで、3GHz でも動作する。
 - アクティブなコア数で消費電力は 20-65Wの範囲で変化する。平均的には 55W 程度。

560:MACオタ
10/02/10 21:01:09 ioIW7ln4
ところで前述の Wes Felter 氏 (>>452 参照)、ArsTechnica 掲示板でも A2 コアに
関して思わせぶりな投稿をしています。
URLリンク(episteme.arstechnica.com)
  --------------------------
  Originally posted by BadAndy:
    Whatever it is, not hard to see cross-over from this thing into next-generation
    game-console tech

  Because games loooove low per-thread performance.
  --------------------------
上に書いた3GHzで動作するという話も含めて、PX/PPE と A2 の関係は『何か』ありそうな
感じです。

561:MACオタ
10/02/10 21:45:05 ioIW7ln4
Sequoia (=Blue Gene/Q)の情報が少しだけ。
URLリンク(www.er.doe.gov)
P.13 にアルゴンヌ国立研究所の ALCF-2 の後継機 "Mira" について次のような
記述があります。
  -----------------
  Mira Blue Gene/Q System
  ・10 Pflop/speak
  ・~800K cores, 16 per chip
  ・~70PB disk, ~470 GB/sI/O bandwidth
  ・Power efficient, water cooled
  -----------------
Sequoia のプロセッサに関しては 8-core説と16-core 説がありましたが、16-core で
確定ですね。
SIMDユニットも、3.2GHz/倍精度2並列説と1.6GHz/倍精度4並列 (or 倍精度2並列 x 2)説
がありましたが、16コアともなると1.6GHzで間違いないのではないでしょうか。
PPC470系コアと VSX x 2の"Double Hummer"後継 APU の可能性が高くなったかと。

562:Socket774
10/02/11 11:50:02 8a7XpUlw
PS4のCPUは普通のマルチコアCPUのプランが浮上してるってことだけど
"A2"を使ったマルチコアなのかな?

去年夏頃にIBMが"A2"を提案
    ↓
強い関心を持つが態度をはっきりさせないSCE
    ↓
痺れを切らすIBM、自社販売に旨味がない32ivを開発中止と意図的にリーク
    ↓
返事を迫られるSCE ←いまここ

563:Socket774
10/02/11 14:43:51 /EY2WhMq
SPE2の試作が行われたのは去年で
しかもFPGAベースのシミュレータを作成したのはSCEIらしいから
依頼してるにしてもPPE部分だけじゃないかね

564:MACオタ
10/02/11 14:58:28 GsEjP4NF
日経BPのISSCCレポートに"Wire-Speed Power"の追加情報がありました。
プロセッサコアのL2キャッシュがeDRAMなんだとか。
URLリンク(techon.nikkeibp.co.jp)
  ---------------------
  Wire-Speed Power Processorでは,8MバイトのL2キャッシュに混載DRAMを
  それぞれ使った。

  混載DRAMのセル寸法は,0.067μm2である。Intel社のWestmereのL3キャッシュ
  のSRAMのセル寸法は 32nm世代でも0.171μm2であることからも,面積密度が
  非常に高いことが分かる。Wire-Speed Power Processorの発表では,SRAMに
  比べて面積で2倍,消費電力で5倍以上よいと述べた。
  ---------------------

565:MACオタ>563 さん
10/02/11 15:00:28 GsEjP4NF
>>563
面白そうな話なので、ソースがあるならよろしくお願いします。

566:Socket774
10/02/11 15:27:55 Q6+4pX7+
性能とか信頼性はどうなんだろうね<eDRAM

567:MACオタ
10/02/11 15:35:35 GsEjP4NF
スーパーコンピューティングの話題を少しだけ。
Anton というMD専用計算機があります。SC09でゴードンベル特別賞を取ったとのこと。
URLリンク(journal.mycom.co.jp)
概要は牧野教授のサイトのこちら。
URLリンク(www.artcompsci.org)

技術的な話題は別にして、開発プロジェクトとして興味深い点がいくつか。
 ・私企業が開発している。
  MYCOMの記事にはこうあります。
  ---------------------
  D.E Shaw研究所はAntonと呼ぶ分子動力学(Molecular Dynamics:MD)計算専用
  のスパコンを開発し、その最初のシステムでのシミュレーション結果を発表した。
  [中略]
  D.E.Shaw氏が創立したD.E.Shaw & Coは運用資産2.5兆円の世界最大規模の
  ヘッジファンドであるが、現在は、Shaw氏はヘッジファンドの日常のマネジメントに
  は携わらず、 D.E.Shaw Researchのチーフサイエンティストとして、MDのアルゴリ
  ズムやAntonシステムの開発を行っているという。そして、同研究所の運用費用は
  Shaw氏のポケットマネーで賄われていると言われている。
  ---------------------

 ・ハードウェア自体は…
  一昨年の Hot Chips 20 でも講演が行われています。プレゼンはこちら。
  URLリンク(www.hotchips.org)
  P.30 に演算コアとなる ASIC の写真があります。
  チップに記された製造国は… MBxxxというチップ名ですから京速のあの会社でしょうか。
  

568:Socket774
10/02/11 15:36:18 7fcMxBTe
>>565
ソースは後藤氏のこの記事でしょ。
URLリンク(pc.watch.impress.co.jp)


>>562
SCEがPS3との互換性を完全に捨ててでも普通のマルチコアCPUを選択しようと
考えているならPOWERを選ぶ必然性自体がないからなぁ。


他の選択肢も余りないかも知れないけど。

569:Socket774
10/02/11 15:55:58 mozDik8n
>>567
ESですね。
PKGが白色で見慣れないなあ。材料がPEEKとかかな?


570:Socket774
10/02/11 15:57:35 mozDik8n
と思ったら後ろのページにセラミックって書いてた。。。
普通か。

571:Socket774
10/02/11 16:14:58 Q6+4pX7+
>>567
> チップに記された製造国は… MBxxxというチップ名ですから京速のあの会社でしょうか。

p.32に "90 NM CMOS .implemented in Fujitsu CS100HP Process" って書いてあるよ

572:MACオタ
10/02/11 16:33:03 GsEjP4NF
>>571 さん
見逃してました… 間違っていた訳でもないので勘弁してください。

教訓としては、こういうことかと。
 ・欠けているのは予算では無く、知恵ではなかろうか?
 ・本当に必要なモノなら、投資を集められるのではなかろうか?
 ・本当に必要で、投資を集めるほど信用されていなくても、自前でできることは
  あるのではなかろうか?
 ・最先端プロセスでプロセッサごと開発しなくても、目的には適うのではあるまいか?
等々

お金の話をすれば、東大一校で集めた個人寄付金は2008年度で50億円近くとのこと。
URLリンク(utf.u-tokyo.ac.jp)
個人寄付金って大半は医学部でしょうか… ガン治療とか看板にすればなんとかなる?

573:レトリック君
10/02/11 18:21:41 eco9lAS2
MBっちゃあ、8bitの時代からFがchip名に付けてたぜ。
MB6809とか。
NならμPDか。

574:Socket774
10/02/12 00:51:05 s3jTWByn
URLリンク(pc.watch.impress.co.jp)

575:Socket774
10/02/12 00:57:18 Cz04gznl
>しかし一方で回路ブロックの設計を根本から改良する機会を失ってはいないだろうか。
>回路ブロックを統合する段階で設計の手直しが発生し、貴重な時間を失ってはいないだろうか。
>あるいは設計内容が陳腐化しているのに気付かず、再利用し続けてはいないだろうか。

何様気取りなんだ、福田

576:Socket774
10/02/12 04:39:24 S8jVMyOY
おれも思った.
本業の人たちが既に検討済みなんだろうとは想像しないのかね?
# その上で,最も「早い・安い・旨い」のが現状なんだろうけど

そもそも某 i や別の某 I 等の少数以外は自社fabすら無くて
TSMCやUMCで製造してるのに独自設計してメリットあるのかね?

個人的には,せっかく動いてる(≒枯れてる,実績ある)ものを
金かけて壊そうとしている中二病患者を見ている気分なんだけど


577:Socket774
10/02/12 06:20:33 8l2ZpoUw
そりゃ本業も検討済みだろ
本業であってもそれが正しいか正しくなかったかは結果論でしか語れんが

578:Socket774
10/02/12 06:28:32 1pmLcTi0
例えば、既存のIPの組み合わせて設計すると、既存IP部の消費電力
はだいたい決まってるのでシステム全体の消費電力の削減にあれ
これ頭を悩ますことになる。
既存のIPを使わずを新規設計した場合、効率を重視した設計をする
ことにより、その部分の消費電力を元から削減出来たりするるので
システム全体の消費電力を削減しやすい。
今回の講演は新規設計のメリットを考えさせられるほど優れた成果だった。

ということでしょ?

579:Socket774
10/02/12 13:45:54 7SFXIriB
必要ならするし不要ならしない
判断ミスはあっても検討しない奴なんてネット番長にしかいない

580:Socket774
10/02/12 21:15:31 uiERv3a6
URLリンク(techon.nikkeibp.co.jp)
> SOIプロセスの採用によって,通常のしきい値電圧のNMOSトランジスタを電源スイッチに使えた。

SOIだとNMOSをスイッチに使えるのはなんで?

NMOSがスイッチってことは仮想VssをVdd電圧まで
釣ることになるんだろうけど、通常のCMOSと違って
ソース・ドレインからサブストレートへのリークが少ない
からってことなのかな?

581:Socket774
10/02/12 23:20:12 QtndgfLN
NEC to show quad-core Cortex-A9 processor
URLリンク(www.eetimes.com)

ARMのクアッドコアだって

582:Socket774
10/02/12 23:54:38 5KVBDrlY
NEC?
なにそれうまいの?

583:レトリック君
10/02/13 00:31:45 Tqp83x79
IPによる設計には色々と光トカゲがある
なまじっかブラックボックス化しようとして中の情報を十分出さないと全体の設計や検証に差し支える。
中の仕様や動作を知らずに全体を作ったり検証できるわけがない。
かといって中の情報を詳しく出していたらな何のためだったのか分からなくなる。
しかも綺麗な理想論を言う人は少なくないので中と外の設計担当間で情報の疎通が…
実際には結構大変でそ

584:Socket774
10/02/13 18:39:03 PHIWper2
光トカゲの鳴き声↓

585:MACオタ
10/02/13 19:20:22 QBVVRxhO
PPC746FP を共同開発した LSI Corp. が自社でネットワークプロセッサ "Axxia"
をリリースしました。
URLリンク(www.lsi.com)
  -------------------
  Axxia Communication Processors are capable of managing huge volumes of
  wireless traffic with low latency and no load on the CPU complex. The first
  member of the Axxia Communication Processor family, the ACP3448 processor,
  features four powerful PowerPC^(TM) 476FP processor cores with a large 512KB
  L2 cache per core, 4 MB of system cache, integrated DDRIII memory controllers,
  and a wide array of intelligent offload engines, including industry-proven packet
  classification, traffic management, security processing and deep packet inspection.
  The on-chip processing elements are tied together using the new LSI Virtual
  Pipeline technology.
  -------------------
製品ページはこちら。(PDF資料へのリンク有)
URLリンク(www.lsi.com)
 ・4-core, up to 1.8GHz
 ・512KB L2
 ・4MB eDRAM システムキャッシュ (アクセラレータを含むSoC全体で共有)
 ・Dual DDR3 メモリコントローラ
 ・各種アクセラレータ (パケット処理、セキュリティ、正規表現)
 ・45nm, SOI
リリースによると
  --------------------
  The first members of the Axxia family, designed to deliver 20 Gbps performance
  for today’s wireless infrastructure requirements, will be available in February of 2010.
  --------------------
最初の製品は今月にも販売開始ということと、上記の製造プロセスから IBM で製造するものと
思われます。


586:MACオタ
10/02/13 19:29:13 QBVVRxhO
既に Freescale を分社している以上、もはやどうでも良い話なのですが、
栄光の Motorola が更に2分割されるんだとか。
URLリンク(mediacenter.motorola.com)
  -----------------------
  SCHAUMBURG, Ill., February 11, 2010 -- Motorola, Inc. (NYSE: MOT) today
  announced the Company is targeting the first quarter of 2011 for its planned
  separation. Motorola intends to separate into two independent, publicly traded
  companies. One will include the Company’s Mobile Devices and Home businesses,
  and the other will include its Enterprise Mobility Solutions and Networks businesses.
  -----------------------

587:MACオタ
10/02/14 03:24:04 Wj71GeXX
AMDネタの上、11月の Financial Analyst Day の頃の話題なのですが、
プロセッサ・アーキテクチャ的には面白い話題なのでここで取り上げて
おきます。
ネタは当時の comp.arch での "bulldozer details + bobcat"というスレッド
なのですが、業界の人気者 Andy Glew が登場して色々語っています。
URLリンク(groups.google.com)
Glew の投稿だけでも拾い読みすると面白いかと。とりあえずここではかい
つまんで興味深いところだけ抽出しておきます。

- AMD's Bulldozer is an MCMT (MultiCluster MultiThreaded)
 microarchitecture. That's my baby!
 Bulldozer は俺の考えた MCMT (MultiCluster-MultiThread) アーキテクチャの
 実装。

- The only bad thing is that some guys I know at AMD say that Bulldozer is
 not really all that great a product, but is shipping just because AMD
 needs a model refresh. "Sometimes you just gotta ship what you got."
 でもなぁ… AMDのツレが言うにはAMDは製品サイクルに切迫して製品化
 してくるらしいんだよな。「何でもいいから今出来てるのを出さなきゃいけない
 時もあるんだよ」って。

588:MACオタ@続き
10/02/14 03:37:20 Wj71GeXX
- came up with MCMT in 1996-2000 while at the University of Wisconsin.
 It became public via presentations.
  I brought MCMT back to Intel in 2000, and to AMD in 2002.
  I was beginning to despair of MCMT ever seeing the light of day. I
 thought that when I left AMD in 2004, the MCMT ideas may have left with
 me.
 元々MCMTはウィスコンシン大にいた1996-2000頃に考えていたんだ。
 で、Intelに2000年に戻ったときに提案し、2002年に移ったときにも宣伝
 しまくったんだ。でも中々日の目を見なくてAMDを離れた2004年には
 すっかりあきらめてたんだよ。

- Of course, AMD has undoubtedly changed and evolved MCMT in many ways
 since I first proposed it to them. For example, I called the set of an
 integer scheduler, integer execution units, and an L1 data cache a
 "cluster", and the whole thing, consisting of shared front end, shared
 FP, and 2 or more clusters, a processor core. Apparently AMD is calling
 my clusters their cores, and my core their cluster. It has been
 suggested that this change of terminology is motivated by marketing, so
 that they can say they have twice as many cores.
 もちろんAMDは俺のMCMTのコンセプトにに色々手を入れてる。例えばオリジナル
 のアイデアでは整数スケジューラ・整数ユニット・L1キャッシュをセットで「クラスタ」
 とよび、2組以上のクラスタと共有デコーダ、共有FPUで「コア」を構成するという
 ものだった。ところがAMDは俺の「クラスタ」をコアと命名し、「コア」の方をクラスタ
 と呼んでる。マーケティングのためにコアが2倍あるように見せかけたいのが丸判り
 だよね。

589:MACオタ@続き
10/02/14 03:59:15 Wj71GeXX
- My original motivation for MCMT was to work around some of the
 limitations of Hyperthreading on Willamette. E.g. Willamette had a very
 small L0 data cache, 4K in some of the internal proposals, although it
 shipped at 8K. Two threads sharing such a tiny L0 data cache thrash.
 Indeed, this is one of the reasons why hyperthreading is disabled on
 many systems, including many current Nhm based machines with much larger
 closest-in caches.

 元々 MCMT のアイデアは Willamett で Hyperthreading の性能が上がらない
 問題を解決するためのものなんだ。知ってのとおり Willamett の L0 [データ]
 キャッシュのサイズはメチャ小さい。初期の設計では 4KB だったし、出荷された
 バージョンでは増えたとは言え 8KB だ。
 このちっぽけなデータキャッシュを2つのスレッドで共有するとキャッシュスラッシ
 ングが多発する。結局のところ、これが多くのシステムで Hyperthreading が
 無効に設定された原因だし、当時よりはるかに大きなL1キャッシュを持つ Nehalem
 でも状況は変わっていない。

590:MACオタ@続き
10/02/14 04:00:43 Wj71GeXX
- To avoid threads thrashing each other, I wanted to give each thread
 their own L0. But, you can't do so, and still keep sharing the
 execution units and scheduler - you can't just build a 2X larger array,
 or put two arrays side by side, and expect to have the same latency.
 Wires. Therefore, I had to replicate the execution units, and enough of
 the scheduler so that the "critical loop" of Scheduler->Execution->Data
 Cache was all isolated from the other thread/cluster. Hence, the form
 of multi-cluster multi-threading you see in Bulldozer.

 スラッシングを避けるために、俺はスレッドごとに L0 キャッシュを占有させる
 ことを考えた。でもL0独立でALUとスケジューラを共有すると言う構成は無理だ。
 単純に2倍のサイズのキャッシュを用意したとしても短いレイテンシを維持できない。
 そんな訳で、俺は実行ユニットとスケジューラも独立にした。これで ディスパッチ
 →実行→データキャッシュアクセス というクリティカルな部分がスレッドごとに
 独立した「クラスタ」ができあがる。。君らが見た Bulldozer の構成図そのものという
 ことだね。

591:MACオタ@続き
10/02/14 04:21:49 Wj71GeXX
- True, there are differences, and I am sure more will become evident as
 more Bulldozer information becomes public. For example, although I came
 up with MCMT to make Willamette-style threading faster, I have always
 wanted to put SpMT, Speculative Multithreading, on such a substrate.
 SpMT has potential to speed up a single thread of execution, by
 splitting it up into separate threads and running the separate threads
 on different clusters, whereas Willamette-style hyperthreading, and
 Bulldizer-style MCMT (apparently), only speed up workloads that have
 existing independent threads.

  Bulldozer に関する情報が増えてくれば明らかになるんだろうけど、俺の
 MCMT が Bulldozer そのものって訳じゃないだろうね。例えば、俺は
 Willamett の Hyperthreading を高速化するに当たって Speculative Multi-
 threading (SpMT) の実装が頭にあった。SpMT は複数スレッドを費やして
 シングルスレッドアプリを高速化する手法だ。

- If I received arows in my back for MCMT, I received 10 times as many
 arrows for SpMT. And yet still I have hope for it. Unfortunately, I am
 not currently working on SpMT. Haitham Akkary, the father of DMT,
 continues the work.

 もし俺が MCMT の実装にかかわっていたら、SpMT を全力で押してたと
 思う。今でもその気持ちに変わりは無いけど、今はそういう立場じゃ無い。
 DMT [Dynamic Multithrading] の提案者の Haitham Akkary が今でも
 研究している様だね。

592:Socket774
10/02/14 04:23:41 /LK7WEU/
intelがhyperthreadingの効率アップのためにそのテクニックを使わなかった理由も興味があるねぇ

593:MACオタ@続き
10/02/14 04:35:13 Wj71GeXX
- Perhaps I should say here that my MCMT had a significant difference from
 clustering in, say, the Alpha 21264,
 URLリンク(www.hotchips.org)
 [中略]
 Anyway: if it has an L0 or L1 data cache in the cluster, with or
 without the scheduler, it's my MCMT. If no cache in the cluster, not
 mine (although I have enumerated many such possibilities).

 MCMT は Alpha 21264 のクラスタリングの概念とは大きく違うことは強調して
 おきたい。
 [中略]
 要するに、L0なりL1なりの最上位のデータキャッシュがが独立している
 クラスタリングは俺の MCMT アーキテクチャということになる。もちろん
 そうじゃない構成のクラスタリングは有り得る。

- Motivated by my work to use MCMT to speed up single threads, I often
 propose a shared L2 instruction scheduler, to load balance between the
 clusters dynamically. Although I admit that I only really figured out
 how to do that properly after I left AMD, and before I joined Intel.
 How to do this is part of the Multi-star microarchitecture, M*, that is
 my next step beyond MCMT.

 俺は MCMT でシングルスレッドを高速化するために頑張った。例えばクラスタ
 間のロードバランスのための二次スケジューラなんてのも考えた。でも、結局
 そのための「正しい方法」ってヤツを思いついたのは AMD を退社した後、ちょうど
 Intel に戻る前くらいだった。それが MCMT を越える新しいアーキテクチャ M*
 (Multi-star) さ。

594:MACオタ@続き
10/02/14 04:55:08 Wj71GeXX
- Also, although it is natural to have a single (explicit) thread per
 cluster in MCMT, I have also proposed allowing two threads per cluster.
  Mainly motivated by SpMT: I could fork to a "runt thread" running in
 tghe same cluster, and then migrate the run thread to a different
 cluster. Intra-cluster forking is faster than inter-cluster forkng, and
 does not disturb the parent thread.
But, if you are not doing SpMT, there is much less motivation for
 multiple threads per cluster.

  そう言えば、SpMT のためにクラスタ内で更に SMT をやるってのも考えた。
 スレッドの分割を同じクラスタ内で走るスレッドにやらせて、実行は別クラスタ
 でやるんだ。スレッドさえ分かれてしまえば、別々のクラスタで実行する方が
 親スレッドに対する干渉は小さいからね。
  いずれにせよ SpMT を採用しないなら、クラスタ内 SMT にそれほど意味はない。

595:MACオタ@続き
10/02/14 04:57:11 Wj71GeXX
- With Willamette as background, I leaned towards a relatively small, L0,
 cache in the cluster. Also, such a small L0 can often be pitch-matched
 with the cluster execution unit datapath. A big L1, such as Bulldozer
 seems to have, nearly always has to lie out of the datapath, and
 requires wire turns. Wire turns waste area. I have, from time to time,
 proposed putting the alignment muxes and barrel shifters in the wire
 turn area. I'm surprised that a large cluster L1 makes sense, but that's
 the sort of thing that you can only really tell from layout.

 元々 Willamette が頭にあったから、俺はクラスタ内の L0 データキャッシュは
 容量が小さいものを考えていた。チップ上のレイアウトで実行ユニットのデータフロー
 のサイズに収まるようにL0の容量を決めると良いんだよ。。 Bulldozer の L1 は随分大
 きくて配線に無駄な「戻り」部分が必要だと思う。俺は常々配線の戻りのところには
 データアライメント用のマルチプレクサとバレルシフタにすれば良いと言ってるん
 だけどね。
 L1 が大きいからといって良いことは無いと思うんだけど、まぁそれもチップのレイアウト
 次第だよね。

596:MACオタ@続き
10/02/14 05:13:23 Wj71GeXX
- Some posters have been surprised by sharing the FP. Of course, AMD's K7
 design, with separate clusters for integer and FP, was already half-way
 there. They only had to double the integer cluster. It would have been
 harder for Intel to go MCMT, since the P6 family had shared integer and
 FP. Willamette might have been easier to go MCMT, since it had separate FP.

 FPU を共有していることに疑問を持っているヤツもいるよな。もちろん K7 は
 [整数パイプと浮動小数点パイプがスケジューラから分離しているという点で]
 別々の整数クラスタと浮動小数点クラスタを持っていると言える。後は整数
 クラスタをもう一つ追加すれば良いだけの話だよね。
 P6は整数パイプと浮動小数点パイプでスケジューラが共通だから MCMT の
 実装は難しい。Willamette は浮動小数点パイプラインが分離している分、MCMT
 の実装はより楽になっている。

- Anyway... of course, for FP threads you might like to have
 thread-private FP. But, in some ways, it is the advent of expensve FP,
 like Bulldozer's 2 sets of 128 bit, 4x32 bit, FMAs, that justify integer
 MCMT: the FP is so big that the overhead of replicating the integer
 cluster, including the OOO logic, is a drop in the bucket.

 君らは独立したFPクラスタが必要だって言いたいんだろうけど、Bulldozer の
 FPU は128-bit の FMAなんて実行ユニットだけでもでかすぎる。その上、
 整数パイプと同じくOOOロジックを備えたスケジューラなんて無理だよ。

597:MACオタ@続き
10/02/14 05:22:11 Wj71GeXX
- You'd like to have per-cluster-thread FP, but such big FP workloads are
 often so memory intensive that they thrash the shared-between-clusters
 L2 cache: threading may be disabled anyways. As it is, you get good
 integer threads via MCMT, and you get 1 integer thread and 1 FP thread.
  Two FP threads may have some slowdown, although, again, if memory
 intensive they may be blocking on memory, and hence allowing the other
 FP thread t use the FP. But two purely computational FP threads will
 almost undoubtedly block, unless the schedulers are piss-poor and can't
 use all of the FP for a single thread (e.g. by being too small).

 じゃあ一つのクラスタの中に FPU も入れろよって言うヤツもいるかもしれない。
 でもな、浮動小数点演算ってのはだいたいにおいてメモリの負荷が大きいんだよ。
 クラスタで共有している L2 なんて、すぐスラッシングでダメになっちまう。とにかく
 二つの整数クラスタでFPUを共有ってのは丁度良いってことになる。
  ひとつのFPUを二つのスレッドで共有するっては、ちっとは遅くなるかもしれない
 けど、片方のスレッドがメモリで引っかかった時にもう片方が演算が出来るって
 意味でうまく動く。ところが独立した二つのFPUなんて、スケジューラがよっぽど
 ヘボく無い限りメモリ帯域を喰い合うだけで無意味なのさ。

598:MACオタ@続き
10/02/14 05:41:14 Wj71GeXX
- I don't expect to get any credit for MCMT. In fact, I'm sure I'm going
 to get shit for this post. I don't care. I know. The people who were
 there, who saw my presentations and read my proposals, know. But, e.g.
 Chuck Moore wasn't there at start; he came in later. Even Mike Haertel,
 my usual collaborator, wasn't there; he was hired in later, although
 before Chuck. Besides, Mike Haertel thinks that MCMT is obvious.
 That's cool, although I ask: if MCMT is obvious, then why isn't Intel
 doing it? Companies like Intel and AMD need idea generating people like
 me about once every 10 years. In between, they don't need new ideas.
 They need new incremental improvements of existing ideas.

 Anyway... It's cool to see MCMT becoming real. It gives me hope that my
 follow-on to MCMT, M* may still, eventually, also become real.

 色々書いたけど、俺は MCMT に関する権利を主張しようって訳じゃ無い。
 俺は当時誰がAMDで働いていたか知っているし、誰が俺のプレゼンや企画書
 を読んでいるか知ってるけど、当時まだ Chuck Moore はいなかったし、俺の
 仲間だった Mike Haertel も Chuckよりちょっと前に入社した程度だった。Haertel
 は MCMT を買ってくれたけどね。
  それにしても俺は思うんだが、 MCMT がうまく機能するとすれば、何故 Intel
 は俺の提案を袖にしたんだろうね?結局のところ Intel や AMD みたいな大企業
 にとって、新アーキテクチャなんて10年に一度くらいしか必要なくて、既存アーキを
 洗練させるのがうまいやり方なんだろうね。

 とにかく MCMT が日の目を見たのは良かったと思うよ。願わくば M* も採用される
 日が来ればと思うね。

599:MACオタ@続き
10/02/14 06:16:58 Wj71GeXX
- There were several K10s. While I wanted to work on low power when I went
 to AMD, I was hired to consult on low power and do high end CPU, since
 the low power project was already rolling and did not need a new chef.
 The first K10 that I knew at AMD was a low power part. When that was
 cancelled I was sent off on my lonesome, then wth Mike Haertel, to work
 on a flagship, out-of-order, aggressive processor, while the original
 low power team did something else. When that other low-power project was
 cancelled, that team came over to the nascent K10 that I was working on.
  My K10 was MCMT, plus a few other things. I had actually had to
 promise Fred Weber that I would NOT do anything advanced for this K10 -
 no SpMT, just MCMT. But when the other guys came on board, I thought
 this meant that I could leave the easy stuff for them, while I tried to
 figure out how to do SpMT and/or any other way of using MCMT to speed up
 single threads.

  当時 K10 なるプロジェクトはたくさんあったのさ。そもそも俺がAMDに雇われた時の
 仕事は低消費電力プロセッサだったんだけど、これが俺の知る限り最初の「K10」
 って名前のプロジェクトだった。
 このK10の開発は既に随分進んでいて、俺の仕事は全然なかったんだが、あっさり
 キャンセルされて俺は宙ぶらりん状態になった。丁度そのころ Mike Haertel が入社
 してきて、一緒にハイエンドの OoOE プロセッサの開発を担当することになった。例の
 低消費電力プロセッサのグループは、別のプロジェクトに回され、それとは別の
 低消費電力プロジェクトをやっていたチームが我々の K10 の開発を行うことに
 なった。この K10 が MCMT の K10 って訳だ。
  俺の K10 プロジェクトに関しては、Fred Webner から MCMT の実装だけに専念して
  SpMT とか余計なことに手を出さないように約束させられた。しかし (Webner が失脚して)
 別の取締役が来たんで、その約束は無かったことにして SpMT を含むあらゆる方法で
 MCMT によるシングルスレッドの高速化を実装することにした。

600:MACオタ@続き
10/02/14 06:48:35 Wj71GeXX
- - indeed, the scheduler structure of queues
 feeding an RS arose from the debate between OOO (me) and in-order (Sager
 and Upton) -

 実際、(Willamette 開発時に) スケジューラの構造で OoO派(俺)とインオーダー派
 (Seger と Upton)で議論があった。
 
- Mitch Alsup was K9.

 [K9について尋ねられて]Mitch Alsup が K9 をやってたな。
 [MACオタ注: Mitch Alsup は Motorola 88Kや Ross HyperSPARC のアーキテクト]
 
- Some of us have done a lot of work on dynamic predication. (My resume
 includes an OOO Itanium, plus I have been working on VLIW and
 predication longer than OOO.) But since such work inside companies will
 never see the light of day, do not let that hold you back, since you are
 not so constrained by NDAs and trade secrets.

 俺の経歴にも書いてあるように、OoO の Itanium やプレディケーションについては色々
 研究したけど、Intel 社内では日の目を見なかった。俺はNDA とか色々あって無理だが、
 お前さんがやるなら頑張れ。

601:MACオタ@ここまで
10/02/14 07:10:42 Wj71GeXX
ALU間の配線レイアウトの話について語っているところも面白かったので
書こうかと思いましたが、長いのでヤメておきました。

ところで、この話に関して AMD のサイトで blog を執筆している John Fruehe 氏
(URLリンク(blogs.amd.com) 参照)が「Andy Glew なんて知らねーし。そんな怪しい
ヤツの言うことより、俺を信じろ」とか書いて失笑をかっていました。
例のアニキと言い、どうして AMD のマーケティングは間抜けなのやら…
URLリンク(www.xtremesystems.org)
  ------------------------
  I have no idea who Andy Glew is, but he left the company several years ago.
  ------------------------



602:Socket774
10/02/14 07:19:32 D4oXSgCt
ワロスw

603:Socket774
10/02/14 07:38:58 3oTjQGRW
K9で却下された提案をブルで再び使うのか
URLリンク(pc.watch.impress.co.jp)

提案は、CPUをマルチスレッド&マルチクラスタの構成にし、マイクロアーキテクチャの全レベルでマルチレベル化、
さらにさまざまなマルチスレッディングテクニックを実装するというものだったようだ。
例えば、スケジューラやインストラクションウインドウ、ストアバッファ、レジスタファイル、ブランチプレディクタなどをマルチレベルにする。
加えて、投機マルチスレッディング(SpMT:Speculative Multithreading)、非明示的マルチスレッディング(IMT:Implicit Multithreading)、
スキップアヘッドマルチスレッディング(SkMT:Skipahead Multithreading)といった技法を持ち込む。

604:MACオタ>603 さん
10/02/14 08:32:13 Wj71GeXX
>>603
後藤氏を信じるのは自由ですが、Glew 氏によるK9情報は>>600

605:Socket774
10/02/14 08:39:26 3oTjQGRW
K10って書いてた
>Glew氏は、以前、K10のために提案したものの、AMDに拒否されてしまった技術をリストアップしていた。
>Glew氏が提案したのは、かなり尖ったアーキテクチャだった。

606:MACオタ
10/02/14 12:37:56 Wj71GeXX
ちなみに2ちゃんねる的には Andy Glew 氏のサイトの職務経歴は2005年半ばの
話題でした。
  ---------------------
  132 名前:MACオタ 投稿日:2005/08/08(月) 06:18:21 ID:9pfRTF4F
    P6の主要アーキテクトの一人として知られるAndy Glewが昨年AMDを退社した後,Intelに
    戻ってるとのことす。
    URLリンク(www.geocities.com)
  ---------------------

607:580
10/02/14 13:28:59 sxHaLuFq
どうやら>>580の解釈であってるようでした

608:Socket774
10/02/14 16:04:06 JviKC0SN
>>593
M*ってのが気になる
なんか書いてないの?

609:MACオタ>608 さん
10/02/14 21:57:01 Wj71GeXX
>>608
ご当人のブログで発表資料等が紹介されています。
URLリンク(andyglew.blogspot.com)

610:Socket774
10/02/15 10:07:43 Dg+O6xA1
Andy Glewのスライドのほう、新風やハイパースカラじゃないか…

611:Socket774
10/02/15 17:30:09 6N+k5INy
SIMDを使ったプログラムを書いているのだけど、マンデンブロ集合以外に、
プログラミングコストに比較して満足感があるものってなにかないかな。

ゲームは、キャラクターつくったりドット絵かくの大変なのでパス。

612:Socket774
10/02/15 17:31:08 6N+k5INy
つかいま一番つかってみたいのはG4/G5のAltiVecなんですけどね。

613:,,・´∀`・,,)っ-○○○
10/02/15 22:38:10 imhVWoSl
別に大したことないぞあれ


614:Socket774
10/02/17 23:12:59 jIvzAyKW
俺はMVI,MAX,VIS辺りかな…

615:MACオタ
10/02/23 00:33:21 6aN/dP7E
IntelのサイトにTukiwilaのTDPが書いてます。
URLリンク(www.intel.com)
 -9350/1.73GHz (4-core): 185W
 -9340/1.60GHz (4-core): 185W
 -9339/1.46GHz (4-core): 155W
 -9320/1.33GHz (4-core):; 155W
 -9310/1.60GHz (2-core): 130W
流石に20億トランジスタは伊達じゃありませんな。
これと比較すると8-core, 4GHzでチップあたり200Wと言われる POWER7 は低消費
電力と言えるのかも…


616:Socket774
10/02/23 09:02:25 TpvPnKnq
ネタの古さと程度の低さにビックリ

617:Socket774
10/02/23 16:28:23 ie/mu8Le
最後の行を言いたかっただけでしょw

618:,,・´∀`・,,)っ-○○○
10/02/24 16:11:08 QutNOdX2
describe(笑)

ますます描「画」と遠くなったぞ

619:Socket774
10/02/26 20:04:46 oGRP4Zxp
ね…描画

620:MACオタ
10/02/28 11:29:22 TTBuX29w
まずは古めのニュースをまとめておきます。
まず、POWER7の製造状況に関するIBM Power Systemsのゼネラルマネージャ、
Ross Mauri のコメント
URLリンク(www.itjungle.com)
  --------------------
  "The yields are good on the Power7 chips," Mauri said to me ahead of his
  presentation. "And if you are hearing rumors to the contrary, call me up and
  I am happy to deny them," he added with a smile.
  --------------------
それから、日立と仏Bull SAのPOWER7搭載機の発表。
両者ともPower 75xのOEMの様です。
日立: URLリンク(www.hitachi.co.jp)
   URLリンク(www.hitachi.co.jp)
Bull SA: URLリンク(www.wcm.bull.com)

621:Socket774
10/02/28 12:33:35 fQ/ywCDH
IBMオタさんだあ

622:MACオタ
10/02/28 13:04:07 TTBuX29w
円周率計算でIntel i7 PCで世界記録を樹立した Fabrice Bellard 氏が件の
実行コード "tpi" を公開しています。Linux版とWindows版。
URLリンク(bellard.org)
手近で見つかった結果はこんな感じ。
 128Mi (134,217,728)桁, 8-Thread
 ・Barcelona Opteron/2.3GHz./8-core: 125.018 sec.
 ・Shanghai Opteron/2.7GHz/8-core: 91.986 sec.
 ・Harpertown Xeon/2.5GHz/8-core: 89.859 sec.
 ・Nehalem Xeon/2.66GHz/4-core: 65.080 sec.

マルチスレッドとSSE3に対応した最新の円周率計算コードですので、今後のベンチマークは
この辺に移行すべきかと思うのですが…

623:MACオタ@補足
10/02/28 13:05:28 TTBuX29w
上記の結果は全てLinux版によるものでした。

624:Socket774
10/02/28 13:06:52 IOPfYmwP
AMDで遅いものなんてアム虫がブーブー言うだけだろ

625:Socket774
10/02/28 13:40:08 IOPfYmwP
ちなみに i5 670で2thread

tpi.exe -T 2 -o pi.txt 128M
Using 3.67GiB of RAM
Computation to 128000000 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=53.1MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
545M 545M 0 0 completed 100.0% 0
time = 63.601 s
Compute P, Q
362M 545M 0 0 completed
time = 0.836 s
Division
599M 599M 0 0 completed
time = 5.646 s
Sqrt
528M 599M 0 0 completed
time = 3.793 s
Final multiplication
925M 925M 0 0 completed
time = 2.353 s
Total time (binary result) = 76.247 s
Base conversion
523M 925M 0 0 completed
time = 13.922 s
Total time (base 10 result) = 90.170 s
Writing result to 'pi.txt'

626:MACオタ>625 さん
10/02/28 13:51:20 TTBuX29w
>>625
参考までに>>622の結果は"128M"じゃなくて"128Mi"の結果です。

627:Socket774
10/02/28 14:03:24 IOPfYmwP
あまり変わらんな
tpi.exe -T 2 -o pi.txt 128Mi

Using 3.67GiB of RAM
Computation to 134217728 digits, formula=Chudnovsky
Output file=pi.txt, format=txt, binary result size=55.7MB
Binary Splitting
Depth=24, thread_level=1
mem max disk max operation compl lv
571M 571M 0 0 completed 100.0% 0
time = 66.222 s
Compute P, Q
377M 571M 0 0 completed
time = 0.874 s
Division
623M 623M 0 0 completed
time = 6.115 s
Sqrt
547M 623M 0 0 completed
time = 4.134 s
Final multiplication
966M 966M 0 0 completed
time = 2.699 s
Total time (binary result) = 80.044 s
Base conversion
549M 966M 0 0 completed
time = 14.836 s
Total time (base 10 result) = 94.879 s
Writing result to 'pi.txt'

628:Socket774
10/02/28 14:23:38 7SwDPgiv
マルチスッドレに対応してるわりには遅い

629:MACオタ>628 さん
10/02/28 14:28:21 TTBuX29w
>>628
タスクマネージャで負荷変動でも眺めていれば理由は自明ですよ。

630:MACオタ
10/02/28 16:06:38 TTBuX29w
>>403でも紹介した中国語版Power.orgにおいてある資料ですが、"64-bit Multi-
threaded"の次世代組込コアについて言及がありました。
URLリンク(www.cn.power.org)
(P.6参照)
今見ると、これが PowerPC A2 コアであることは明らかなのですが、当該スライドの
タイトルが"Power Architecture Cores Available for Licensing"とあるように、A2コア
を外部にライセンスする気満々なのは明らかです。

で、Sequoia 用コアについて再度考え直してみると、>>396, >>403, >>561あたりで書い
たようにPPC 470系であろうと予測している訳ですが、
URLリンク(newsline.llnl.gov)
 - 1.6 PetaBytes of memory
 - 98,304 Nodes
ということで、プロセッサカードあたりのメモリは明らかに16GBを想定していることが判
ります。Blue Gene/P からはプロセッサカード内でのSMP動作モードが追加されていま
すので、16GBのメモリを使用するのに32-bitコアのままで問題無いのであろうかという
疑問が出てきます。

PPC470自体がサポートする物理メモリは、ちょうど上のプレゼンに書いてあって、4TB
とのこと。
  ---------------------
  - Real memory support up to 4 terrabytes
  ---------------------
16コアで16GBを共有するのですから、プロセスあたり4GBの制限があっても何とかなる
のかもしれませんが、PC的な64-bit SMP のようにノード内の全メモリをスレッド間で共有
するようなコードは使えません。

どうせ Blue Gene で動かす以上、PCクラスタからのベタ移植なんて考えないのかもしれ
ませんが、64-bitの A2 コアを選択する可能性も出てきた…ということで。

631:MACオタ
10/02/28 17:07:37 TTBuX29w
ECのスーパーコンピュータ共同利用プロジェクト PRACE が2009年の技術報告書
を公開しています。
URLリンク(www.prace-project.eu)
この報告書から>>336で述べた QPACE について、目に付いた話題を。

 2009年下期のGreen500の上位を独占した QPACE の試作機 eQPACE ですが、
 開発目標は下記のように設定されている (P.13)
  - QPACE アーキテクチャの QCD 計算以外の分野への応用
  - トーラスネットワーク用 FPGA の他分野応用のための改良
  - 上記の目的のためのQPACEネットワーク用 MPI ライブラリ等、ソフトウェアの開発

 汎用HPCコード応用のため、FPGAインタコネクトは、ハード/ソフト両面から、現在も
 開発中 (P.63-66)

 現状のインタコネクト性能 (P108, 表24)
  ・QPACE         MPI Latency: 4.7us, BW: 845MB/s
  ・Altix XE (IB QDR)  MPI Lantecy: 1.7us, BW: 2500MB/s
  ・Altix ICE (4x IB)   MPI Latency: 1.9us, BW: 1800MB/s

2009年下期のTop500の登録ではeQPACEの実行効率は77.2%とあまり良好とは言えま
せんが、今後もう少し向上は期待できるのかもしれません。

632:MACオタ>624 さん
10/02/28 17:24:40 TTBuX29w
>>624
  -----------------
  AMDで遅いものなんてアム虫がブーブー言うだけだろ
  -----------------
ちょっとπスレッドを見てきましたけど、もうAMDで速いコードなんて無くなったみたいですよ。
URLリンク(h2np.net)

633:Socket774
10/02/28 17:33:05 IOPfYmwP
蟲にはそれがわからんとです

634:Socket774
10/02/28 19:47:53 7eumbHoc
業界が汎用に走り過ぎている希ガス
とんがったアーキテクチャで差別化しないと共食いになりそう…

635:Socket774
10/02/28 20:19:48 j/skOWaY
>>634
あなたの住んでる世界にはASIC市場がないんですか?

636:MACオタ
10/02/28 20:54:04 TTBuX29w
>>622で紹介したTachusPIはWindows版でもコマンドコンソールが必要なので、
バッチファイルを書いてみました。

Bellard氏のサイトからダウンロードして解凍したフォルダに、以下のテキスト
ファイルを "tpi.dat"という名前で保存して、ダブルクリックすると計算できます。
なお、Windows版は64-bit Windows必須。

@ECHO OFF
SET /P NTHREAD="スレッド数: "
SET /P NDIGIT="計算桁数 (例: 1M): "
.\tpi -T %NTHREAD% %NDIGIT%
SET /P ENDOK="終了"

637:Socket774
10/02/28 21:23:30 +dcUonSP
>>622
πってCPU内蔵キャッシュの性能テストだよな。

638:Socket774
10/02/28 21:25:28 YmPAfr1t
完全に同意

639:Socket774
10/02/28 21:37:57 IOPfYmwP
amdの報告はまだ?

640:Socket774
10/02/28 22:34:13 7SwDPgiv
MACオタのレスくらい読めって
ちゃんと書いてあるよ

641:Socket774
10/02/28 22:54:29 IOPfYmwP
linuxだろ

642:Socket774
10/03/02 23:44:13 N2L1uw05
あげ

643:MACオタ
10/03/04 21:03:08 bi/m7VuB
POWER7とTukwilaのSPEC CPU2006の結果がSPECのサイトで公開されています。
どちらもRateのみ。POWER7の値は既にIBMのサイトで公開済みですが、個別の
ベンチマーク結果を確認したい方はどうぞ。
CINT2006_rate
 ・POWER7 on AIX
 3.3GHz/32-core URLリンク(www.spec.org)
 3.55GHz/32-core URLリンク(www.spec.org)
 3.1GHz/64-core URLリンク(www.spec.org)
 3.5GHz/48-core URLリンク(www.spec.org)
 3.86GHz/16-core URLリンク(www.spec.org)
 3.86GHz/64-core URLリンク(www.spec.org)
 4.14GHz/32-core URLリンク(www.spec.org)
 ・POWER7 on Linux
 3.3GHz/32-core URLリンク(www.spec.org)
 3.55GHz/32-core URLリンク(www.spec.org)
 ・Tukwila on HP-UX
 1.73GHz/8-core URLリンク(www.spec.org)

644:MACオタ@続き
10/03/04 21:06:42 bi/m7VuB
CINT2006_rate
 ・POWER7 on AIX
 3.3GHz/32-core URLリンク(www.spec.org)
 3.55GHz/32-core URLリンク(www.spec.org)
 3.1GHz/64-core URLリンク(www.spec.org)
 3.5GHz/48-core URLリンク(www.spec.org)
 3.86GHz/16-core URLリンク(www.spec.org)
 3.86GHz/64-core URLリンク(www.spec.org)
 4.14GHz/32-core URLリンク(www.spec.org)
 ・POWER7 on Linux
 3.3GHz/32-core URLリンク(www.spec.org)
 3.55GHz/32-core URLリンク(www.spec.org)
 ・Tukwila on HP-UX
 1.73GHz/8-core URLリンク(www.spec.org)


645:Socket774
10/03/04 21:19:14 SoPZxcZc
Tukwila死亡

646:MACオタ@続き
10/03/04 21:38:24 bi/m7VuB
色々な基準で他のアーキテクチャと比較してみると、こんな感じ
■ 2-socket
processor       core CINT(base/peak) CFP(base/peak)
 POWER7/3.86GHz  16  586 / 652       531 / 586
 Nehalem/3.33GHz   8  255 / 274       204 / 211
 Istanbul/2.80GHz   12  168 / 215       133 / 148
 Niagara2/1.58GHz  16  171 / 183       124 / 133
 Tukwila/1.73GHz    8  128 / 134       132 / 136

■16-core
processor       CINT(base/peak) CFP(base/peak)
 POWER7/3.86GHz  586 / 652       531 / 586
 POWER6/5.0GHz   466 / 542       465 / 544
 Nehalem/2.93GHz  466 / 499       361 / 372
 POWER6/3.60GHz  289 / 363       226 / 263
 Shanghai/3.1GHz   232 / 274       203 / 228
 Dunnington/2.4GHz  204 / 221       120 / 128


647:Socket774
10/03/04 21:45:55 qysoWJlI
POWER7はパッケージにもソケットにも馬鹿みたいに金かけてるから参考にならねえ
プロセッサモジュールの価格も数倍違うだろどうせ

648:レトリック君
10/03/04 22:15:08 afk/VI64
いやそれは正しい方向なんだよ。
上に上にと逃げて、高く売らなきゃ生き残れない。
立場的に。

649:Socket774
10/03/05 01:44:31 RvfR0pQp
power4のMCMは家が建つくらいだったが

650:Socket774
10/03/05 13:38:20 kx6mSf6e
>>649
不意を突かれたw

651:Socket774
10/03/06 11:32:31 Ea/vz0ED
>>646
POWER6って性能悪かったんだな…

652:レトリック君
10/03/07 00:50:05 lr+sNJma
>>649
売値はな。
製造原価は…

653:Socket774
10/03/07 10:54:21 Kg4/tQIn
レトリック君ってIBMの人だったのか

654:MACオタ
10/03/08 01:49:41 /G1wwpzL
先週IBMがチップ間光インタコネクトに利用可能なアバランシェ光検出素子を
発表しました。
IBM Researchにまとめた情報が出ていたので、URLを書いておきます。
URLリンク(domino.research.ibm.com)
IBMによると、今これでダイ上に検出素子、光変調器、光スイッチ、光バッファを集積する
ことが可能になり、光インタコネクトを実装する基礎技術は一通り揃ったとのこと。

655:Socket774
10/03/09 00:29:29 VgdHrP1y
>>41
ゴーストバスターズもPS3リードだけど、超絶劣化したね。

656:Socket774
10/03/09 02:00:08 7vXMo2ih
MACオタが後藤をネタに語る悪寒

657:Socket774
10/03/09 03:12:42 qIkLB7Ou
なんでMIPSて落ち目になったの?

658:Socket774
10/03/09 12:07:17 JLHxoplb
WSがPCに喰われほぼ消滅→組み込みに活路を見いだす→ARMとの競争に負ける
というのが消費者側からの見方だが、どうなんかね。

659:Socket774
10/03/09 17:03:13 HQi3QE5m
捲土重来を狙ってるみたいだが。

Androidでビジネス拡大を狙うミップスの新戦略
URLリンク(monoist.atmarkit.co.jp)

660:Socket774
10/03/10 13:51:56 IQPA8ybZ
POWER7Macを発売してください>MACオタさん
MACオタならできる

661:Socket774
10/03/10 17:57:11 4a0mAjv3
MACオタ「俺にだって、、できないことくらい、、、ある・・・・」

662:Socket774
10/03/10 23:49:13 gDim2SPA
実際にMIPSがARMに比べて組込向けで劣ってたところって何なんだろうね。

SoC向けのIP展開の遣り方や価格がダメダメだったのかね?

それともPCと対抗するのに力を入れてる間に、ARMが組み込み向けのシェアを
占拠してしまって、出遅れたのが致命傷だったって事なのかな?

663:Socket774
10/03/11 00:17:19 7PFYjvS2
>>662
高性能に傾斜しすぎていた傾向はあるのでは無いかな。
SHが16bit化コードで先行して、ARMがthumbで続き、MIPS16とかはあまりやる気が…

求められているのは高性能ではなく、ほどほどの性能とローコストだから。
ま、今でもだけど。
なのでARM主流がなかなかARM7TDMIからCortexに移らないww

664:Socket774
10/03/11 13:15:51 MjsrZS4R
そしてなぜダメだったのかとか議論にもの登らず消えていくSuperH。

665:Socket774
10/03/11 19:12:25 M1Aywpxl
MIPSは1995年頃に内紛があったような気がした
R10000はスペックの割に異様に遅かった(速くない)のが印象に残っている。クロックも上がらなかったし

ARMはIPを積極的に売ったので勝ったというのが定評だと思う。

MIPSは命令セットだけ買えるので、独自コアや独自拡張が欲しい人が使っていたかな
ゲーム機とかネットワークプロセッサとか

666:Socket774
10/03/11 19:27:01 M1Aywpxl
MIPSの内紛はクボタがらみだったと思うが輪をかけて自信なし

個人的な好みで言うと、MIPSは割り込みの扱いが面倒だし、SHはディスプレースメントが短くて不便

667:Socket774
10/03/11 20:18:21 KeqIbbWN
すーぱーえっち

668:Socket774
10/03/13 18:43:26 MIRMiKRQ
みだらなぷっしー

669:Socket774
10/03/14 09:04:14 5Ch/VAb8
2000年からのXeonのCPUコア数の
変化が解るグラフってどこかにありませんか?

670:Socket774
10/03/17 00:09:23 IV5d0fQd
■福田昭のセミコン業界最前線■
2009年はどんな年だったのか
URLリンク(pc.watch.impress.co.jp)

671:Socket774
10/03/17 21:42:36 rnoPU6n6
ロースペの性能比較が面白すぎて困る

672:Socket774
10/03/18 08:52:19 CMwPYB3D
[GDC 2010]Larrabee計画の延期が影を落とす,Intelの“グラフィックス最適化”セッション
URLリンク(www.4gamer.net)

> しかし蓋を開けてみれば,その内容は「デュアルコアCore i7・i5・i3プロセッサに搭載された
>『Intel HD Graphics』と,同グラフィックス機能に向けた最適化の話題のみ」という,お寒い内容。
>ただでさえ閑散としたセッション会場を,早々に立ち去る参加者も目立ち,聴講者は筆者を含めて数える程度だった。

673:Socket774
10/03/18 10:21:18 t92ebmtx
URLリンク(www.4gamer.net)
[GDC 2010]Larrabee計画の延期が影を落とす,Intelの“グラフィックス最適化”セッション

674:Socket774
10/03/19 02:53:13 mPCuMPHr
Cellといいララビーといい
シンプルコアレンダリングの何が障害なんだろうな

675:Socket774
10/03/19 23:20:55 J0fmKyKv
>>674
構造がシンプルでも、求められる出力は従来と変わらないんだから、別の何処かが複雑化するだけじゃね?
おまけに新しい構造だからゼロスタートで頑張れとか言われたら、誰も近寄りたくないんじゃないかな。

一方、従来型で構造が複雑なのはプロセスの進化で相殺できるし、使う側もノウハウ流用できる。

676:Socket774
10/03/20 05:29:38 76reHPwT
Larrabeeは多少性能に難があっても製品として出しちゃえば良かったんだよ、否が応でも対応アプリが出てくるだろ
第一期製品で完全版を目指しすぎインテル

677:Socket774
10/03/20 05:37:38 sbh4BvJ2
Mercedみたいになったと思うぞ

678:MACオタ
10/03/20 09:19:51 2FaaqQLO
Intelと富士通がWestmereのSPEC2006を登録しています。
URLリンク(www.spec.org)
この話題を語る前に少しばかりおさらいを。

最近のIntelコンパイラは"Auto Parallel"オプションによってCINT/CFPの結果でも
単純なコア当たりの性能が判りにくくなっています。
それでも"base"の結果のみAuto Parallelが無効にされている結果を見つけたという
話がRWT掲示板に投稿されていました。
URLリンク(www.realworldtech.com)
このCore i3-540搭載機のBullの登録(並列化OFF)と富士通の登録(並列化ON)を比較して
みましょう。

■Core i3-540のCINT2006_base & CFP2006_base
        CINT_base  CFP_base
並列化無   25.6      27.5
並列化有   26.2      29.3

参考:
Bull CINT2006 URLリンク(www.spec.org)
  最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -opt-prefetch
富士通 CINT2006 URLリンク(www.spec.org)
  最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -parallel -par-runtime-control -opt-prefetch
Bull CFP2006 URLリンク(www.spec.org)
  最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -opt-prefetch
富士通 CFP2006 URLリンク(www.spec.org)
  最適化: -xSSE4.2 -ipo -O3 -no-prec-div -static -parallel -opt-prefetch

679:MACオタ@続き
10/03/20 10:03:24 2FaaqQLO
CINT/CFP を構成する個別ベンチマークの結果を比較すると、更に興味深い結果が
見て取れます。
■自動並列化の効果
 CINT (全12ベンチマーク)
  - 462.libquantum: +50.4%
  - その他: -3.2~0%
 CFP (全17ベンチマーク)
  - 436.cactusADM: +85.7%
  - 434.zeusmp: +16.5%
  - 410.bwaves: +9.9%
  - 482.sphinx3: +9.1%
  - 456.GeemsFDTD: +6.6%
  - 481.wrf: +3.1%
  - 470.lbm: +2.4%
  - その他: -2.9~+1%

つまりCINTで並列化が寄与するベンチはたった一つ。CFPでも顕著に効果があるモノは
5つ程度ということです。
コア単体の性能比較を行いたい場合は、これら並列化の効果が大きなサブベンチマークを
除いた幾何平均を求めればOKということでもあります。先のCore i3-540の結果をこの方式で
計算してみると次のようになりますが、自動並列化の効果がキャンセルできてることが判ります。

■Core i3-540の修正CINT2006_base & 修正CFP2006_baseの比較
 CINTは 462 を除く。
 CFPは 410, 434, 436, 459, 481, 482 を除く。
        CINT_base(Mod)  CFP_base(Mod)
並列化無     22.3          26.3
並列化有     22.1          26.2


680:MACオタ@ここまで
10/03/20 11:01:14 2FaaqQLO
ここから本題です。Intelと富士通が登録したWestmere-EPの結果を同クロックの
Nehalemと比較してみましょう。

■ i7-980X vs i7-975 on Windows
            CINT_base CINT_base(Mod) CFP_base CFP_base(Mod)
i7-980X/3.33GHz    34.8     28.4        36.9      30.0
i7-975/3.33GHz     31.6     26.5        32.9      27.1

つまりシングルコア性能で見てもCINTで+7%,, CFPで+11%程度の性能向上があります。
ただし、この比較、980Xは64bit Win7 + icc11.1, 975は32bit Vista + icc11.1なので
その点は考慮する必要もあるかもしれません。

■ Xeon X5680 vs Xeon W5590 on 64-bit Linux
            CINT_base CINT_base(Mod) CFP_base CFP_base(Mod)
i7-980X/3.33GHz    39.0     30.2        44.8      33.4
i7-975/3.33GHz     34.2     27.8        40.4      32.0

こちらは両方とも64-bitコードということで、より信頼が置けます。
int でのコア当たりの性能向上は 8.5%, fp では 4.2%ということになります。
まあ Tick-Tock での "Tock" での性能向上としては、こんなモノでしょうか?

681:MACオタ@参考資料
10/03/20 11:35:40 2FaaqQLO
ソースのリンクを書いておきます。
■Core i7-980X on Win7 64-bit
 CINT2006: URLリンク(www.spec.org)
 CFP2006: URLリンク(www.spec.org)
■Core i7-975 on Vista 32-bit
 CINT2006: URLリンク(www.spec.org)
 CFP2006: URLリンク(www.spec.org)
■Xeon X5680 on SuSE 10 x86_64
 CINT2006: URLリンク(www.spec.org)
 CFP2006: URLリンク(www.spec.org)
■Xeon W5590 on SuSE 10 x86_64
 CINT2006: URLリンク(www.spec.org)
 CFP2006: URLリンク(www.spec.org)

682:Socket774
10/03/20 11:52:00 /cHpY9+M
Modの方は参考にはなるだろうけど
「コア当たりの性能向上」って言い切っちゃうのはどうなの?

683:MACオタ>682 さん
10/03/20 12:11:34 2FaaqQLO
>>682
どの辺が疑わしいと思いますか?
ちなみにSPECの登録データによると、ターボブーストのリミット値は3.6GHzで同じとのこと。

684:,,・´∀`・,,)っ-○○○
10/03/20 13:13:28 lZIalqH7
そもそもWestmereはコアレベルで見るとAES/CLMUL命令の有無を除けばNehalemの単純シュリンクなんで
そんなもんでしょう。

IACAのDLLがNehalem用とWestmere用で全く同じサイズだった時点で素性はわかったようなもの

685:Socket774
10/03/20 18:00:42 GAgr2qiY
Macオタさんと団子さんが引っ付いたw

686:Socket774
10/03/20 20:00:43 vV2SC1Bl
うほっ

687:Socket774
10/03/20 20:54:20 akBc5CBs
TBの上限が同じならL3$が増えた以外にエンハンスあるっけ?ブーストしやすいくらいか?

688:,,・´∀`・,,)っ-○○○
10/03/20 22:29:25 lZIalqH7
AES/CLMULの利用で高速化出来るコードってどれくらいあるのかしら

689:,,・´∀`・,,)っ-○○○
10/03/20 22:51:13 lZIalqH7
URLリンク(www.freeweb.hu)
この辺見るに本当にNehalemと同じだな
L3は確かに容量1.5倍だがレイテンシは14clk→17clkと増大してるし
一概に性能向上に寄与してるとは言い難い気が。

>>687が正解じゃない?
シュリンクでコア当たりの消費電力が落ちてる分TDP枠に余裕ができてるはず

690:Socket774
10/03/20 23:53:20 VN9Nq9cJ
>>683
省略した項目が「コアあたりの性能向上」を反映してる可能性はないの?

691:Socket774
10/03/21 11:15:12 MZqFJVal
LSDが増えるって話はどうなったんだ?


692:MACオタ
10/03/21 12:00:10 tQ2m2qMB
>>684 団子 さん
 -------------------
  IACAのDLLがNehalem用とWestmere用で全く同じサイズだった時点で素性は
  わかったようなもの
  ------------------
「そんなもの」で頭から決め付けては面白くもなんとも無い訳で、L3の変更やらメモリバッファの増量等の影響がどのように現れるかを問題にしているという
ことになります。命令仕様の改善とマイクロアーキテクチャの改善は区別して考えるべきかと。
URLリンク(www.realworldtech.com)

>>690
上に書いた話とは逆に、Nehalem -> Westmere ではそれほど劇的な変更があったわけでは
ありませんから、個別ベンチマークごとに劇的な性能差が出るとも思えません。
特殊なアクセラレータ命令を使用する場合は話が別ですが、それはまた別の話かと。

693:,,・´∀`・,,)っ-○○○
10/03/21 12:25:23 NRePceAu
だからレイテンシ・スループット一通りデータ取れてるだろ。
データを見る限りでは劇的に変わったものはない

Merom->Penrynでスループットが劇的に改善された命令はあるが
Westmereの特性はNehalemの単純なシュリンクそのものだ

AES/CLMULのために演算ユニットを拡張したと言う情報も特にないし、
むしろAES-NI/CLMULはNehalemに元々実装されていた(が無効にされていた)可能性すらある


> 「そんなもの」で頭から決め付けては面白くもなんとも無い訳で

へえ、Intelはおまいさんを面白がらせるために存在してるのか
見上げたもんだなあ

694:Socket774
10/03/21 12:37:35 CmAgKTjb
人間性が表れる2レスだなw

695:Socket774
10/03/21 13:43:43 PgI8z6kb
ああ、なんか落ち着く

696:Socket774
10/03/21 15:14:11 mhJ301ub
>むしろAES-NI/CLMULはNehalemに元々実装されていた(が無効にされていた)可能性すらある
HTT隠してたオレゴンの事だから、これは可能性でかいよね
隠し玉と呼ぶにはインパクト弱いけど暗号関係のスピードアップは目を見張るものがある

697:Socket774
10/03/21 15:38:05 RsOxVsOx
「鶏冠にきてけんか腰な物言いしてる方が負けだわ!」

ララァは賢いなぁw

698:MACオタ>696 さん
10/03/21 16:57:45 tQ2m2qMB
>>696
  ------------------
  HTT隠してたオレゴンの事だから、これは可能性でかいよね
  ------------------
物事の前後関係を理解されていない様に思います。
WillametteでHTTが無効にされていた理由は、開発者当人が語っている通り(>>587-600参照)。一方団子さんが書いているように、AES-NI/CLMULに関してハードウェア的な強化は無さそうです。

推理小説じゃ無いんですから、『動機があるから怪しい』という論法は違うかと。

699:MACオタ
10/03/21 17:15:54 tQ2m2qMB
今回やってみた Westmere vs. Nehalem の比較に関する、個人的なまとめです。
1. Intelはマルチコア化でコア性能を犠牲にするつもりは無さそう。
 AMD が Istanbul で 4 → 6 へのコア増強と引き換えにクロックを下げたのとは対照的です。

2. L3レイテンシの低下はL3容量その他の改善によりカバーされている。

3. 次世代以降の性能向上の鍵はダイスタッキング等によるメモリ帯域の改善になる可能性が大きい
 今回の比較でもCINTに比べてCFPの改善が小さいという結果になりましたが、これはCFP2006が結果に対するメモリ帯域の依存性が大きいという特性によるものです。
マルチコア化に伴って『コア当たり』のメモリ帯域はますます逼迫する方向に向かうため、メモリ帯域の分野でのブレークスルーがますます重要になりそうです。

700:Socket774
10/03/21 17:38:47 iJ9hNA/p
CellGPUぜひ見たかったw

701:Socket774
10/03/21 17:41:36 zgBIADX0
>>700
どうぞ
URLリンク(journal.mycom.co.jp)


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch