CPUアーキテクチャについて語れ 14

CPUアーキテクチャについて語れ 14at JISAKU

CPUアーキテクチャについて語れ 14 - 暇つぶし2ch2:Socket774
09/01/04 19:39:20 /8sWMHC8
2

3:Socket774
09/01/04 19:51:27 ygL6yL8M
60FE

4:Socket774
09/01/04 21:06:43 DcUno6Xg
>>1　乙

5:Socket774
09/01/04 21:12:14 ZmUzjcL4
正直、コテ出入り禁止にしてほしい。
ヤツらが居座るようになってからぜんぜん面白い話がでなくなった。

術語の定義の相違やら、データがなければ白黒つかないような事
だとか瑣末な問題で延々とスレを消費するのを見るのはいい加減飽きた。

6:Socket774
09/01/04 21:25:05 Wp0aQnyn
無駄です
あきらめましょう

7:Socket774
09/01/04 21:27:42 M+pbHESG
>>5
自分で話題出せば？
論文流し読みネタなら俺が出してもいいけど

8:Socket774
09/01/04 21:32:32 ZmUzjcL4
ヤツらが絡んでくるのがうっとうしいから嫌だ。

9:Socket774
09/01/04 21:36:19 66KvueeA
>>8
なら君が消えれば良いだけじゃね?

10:MACオタ
09/01/04 21:42:06 3NBBjJhf
前スレで約一名の支持があったので、テンプレ的にプロセッサアーキテクチャ勉強用の
資料を紹介しておきます。
URLﾘﾝｸ(people.engr.ncsu.edu)
html版も含まれているので、議論に紛糾した際にはソースとして貼るのも良いでしょう。

11:Socket774
09/01/04 21:45:12 M+pbHESG
>>10
ではさっそく、団子さんは
URLﾘﾝｸ(people.engr.ncsu.edu)
のReducing Data Dependence Stallsの章を読んでフォワーディングネットワークへの理解を深めましょう

12:MACオタ＞5 さん
09/01/04 21:48:01 3NBBjJhf
>>5
　　----------------
　　ヤツらが居座るようになってからぜんぜん面白い話がでなくなった。
　　----------------
少なくとも私はPart 1からずっといますよ。
URLﾘﾝｸ(cpu.jisakuita.net)
むしろPart. 1の最初がどれだけ糞スレだったかは、この辺だけでも判ると思います。
　　=================
　　2 名前：Socket774 投稿日：04/04/19 16:00 ID:mp08SBe2
　　　　２げっとおおお
　　3 名前：剣山ﾓｶ ◆lfYWD.onQ2 投稿日：04/04/19 16:01 ID:IFIAHoq5
　　　　3
　　4 名前：Socket774 投稿日：04/04/19 16:02 ID:W4UAIL3H
　　　　ヤダ！
　　5 名前：Socket774 投稿日：04/04/19 16:02 ID:xbBch3+r
　　　　PC用CPU作ってる主な半導体メーカ：
　　　　IBM URLﾘﾝｸ(www.ibm.com)
　　　　Intel URLﾘﾝｸ(www.intel.com)
　　　　AMD URLﾘﾝｸ(www.amd.com)
　　　　VIA Technology URLﾘﾝｸ(www.viatech.com)
　　6 名前：Socket774 投稿日：04/04/19 16:04 ID:xbBch3+r
　　　　お前らはこれからRISCかCISC、どちらになると思いますか？
　　　　最近は元気の無いRISC陣ですが、.net frameworkが普及すれば、
　　　　ちょっとしたきっかけで逆転するかもしれませんよ。
　　7 名前：Socket774 投稿日：04/04/19 16:05 ID:mp08SBe2
　　　　むつかしすぎて分かんない・・・orz
　　8 名前：Socket774 投稿日：04/04/19 16:07 ID:xbBch3+r
　　　　お前ら・・・まさかCPUのアーキテクチャも理解しないで、
　　　　HTだのパイプラインだの語っていたわけじゃあるまい？
　　9 名前：うさだ萌へ ◆yGAhoNiShI 投稿日：04/04/19 16:08 ID:v2F/lsw6
　　　　なーんも知らん
　　10 名前：さっきゅん ◆WAHAH0fe4c 投稿日：04/04/19 16:10 ID:PoavHFnz
　　　　禿同
　　=================

13:Socket774
09/01/04 21:50:54 ZmUzjcL4
>>8
言われなくてもそのつもりだ。
たまたま新スレが上がってたのを見たから、思ってる事を書いただけさ。

14:Socket774
09/01/04 21:54:39 M+pbHESG
団子さん、Future Fileについては
URLﾘﾝｸ(people.engr.ncsu.edu)
の4ページめ、Future file (FF)の章を読んでください
ちゃんと理解できればFuture Fileは実レジスタファイルのキャッシュではないことがわかるはずです

>>5さんも、術語の定義の相違だなんて言わずに読んだほうがいいと思います

15:Socket774
09/01/04 22:05:15 tzdFIDeg
>>5
このスレは自作板に押しかけてきたゲハ厨のスレなんだから、認識が間違っている

16:Socket774
09/01/05 00:17:20 LFJ//INV
GPGPUの2009年を占う
URLﾘﾝｸ(pc.watch.impress.co.jp)

17:Socket774
09/01/05 02:40:03 v/SPj/pW
Ｇらぺはウンコ

18:Socket774
09/01/05 05:26:25 dMNItOjW
MACオタ、せっかく前すれで今までのことを語ったんだから、
これからの方針や抱負について語ってほしいな。

19:,,・´∀｀・,,）っ-○◎●
09/01/05 05:44:29 8Yvxj0kl
フィックスターズの課題、30倍余裕で超えたよ
悪い、優勝もらうわこれ。
しかしこの発想は無かった。

20:Socket774
09/01/05 05:54:16 O0ycFbXG
>>19
それもいいけど

URLﾘﾝｸ(people.engr.ncsu.edu)
のReducing Data Dependence Stallsの章を読んでフォワーディングネットワークへの理解を深めましょう

URLﾘﾝｸ(people.engr.ncsu.edu)
の4ページめ、Future file (FF)の章を読んでください
ちゃんと理解できればFuture Fileは実レジスタファイルのキャッシュではないことがわかるはずです

21:,,・´∀｀・,,）っ-○◎●
09/01/05 06:03:33 8Yvxj0kl
レイテンシ＝スループットの負け犬がほえてますな

22:,,・´∀｀・,,）っ-○◎●
09/01/05 06:07:46 8Yvxj0kl
くだらない文献をいちいち読む気ないからそのURLをあぼーんリスト入れておいたよ。
間違ってると思うならそれでいいじゃない。俺は面倒だからいちいち発言を撤回する気は無い。
ごり押しする気も無いがね

23:Socket774
09/01/05 06:14:54 O0ycFbXG
フィックスターズのって賞品あんの？

24:Socket774
09/01/05 06:22:28 O0ycFbXG
Future file (FF)
A future file is “the reverse of” a history buffer.
With a FF, we maintain two register files
. A future (“messy”) register file . imprecise Tomasulo
pipeline is unchanged, future register file updated OOO.
. A separate, architectural register file is updated in order by
a reorder buffer.
The architectural file has in-order results.
The future file has out-of-order results for use as operands.
Operation of FF
Upon dispatch, an instruction is allocated a reorder buffer entry at the
tail of the ROB.
Operands are read from the future file.

25:Socket774
09/01/05 06:23:54 O0ycFbXG
On instruction completion―
？ If an instruction at the head of the ROB completes with no
exception, its ROB entry is simply deleted.
？ 2002 Edward F. Gehringer ECE 463/521 Lecture Notes, Fall 2002 5
Based on notes from Drs. Tom Conte & Eric Rotenberg of NCSU
Figures from CAQA used with permission of Morgan Kaufmann Publishers. ？ 2003 Elsevier Science (USA)
？ If an instruction at the head of the reorder buffer
encounters an exception,
？ instruction issue is halted, and
？ pipelines are flushed.
？ the contents of the architectural register file are copied
into the future file.
When an instruction completes, it will write into both the reorder
buffer and the future file.

26:,,・´∀｀・,,）っ-○◎●
09/01/05 06:25:10 8Yvxj0kl
一般人は42インチテレビ＋PS3＋YDLだったかな。
もしくは15万相当の図書券orAmazonギフト券。
学生なら賞金がもらえる。

参加賞が図書券だったかな。最低10倍速。

もともと求人活動の一環としてやってるから運がよければフィックスターズから「働かないか」とお声がかかる。らしい。
Cellオンリーの会社なんだけどどうやって収益上げてるのか経営実態がハッキリしない。俺はどうかと思うよ。
GPGPUを含めたマルチコア全般を手がける会社ならまだわかるんだが。

27:,,・´∀｀・,,）っ-○◎●
09/01/05 06:26:38 8Yvxj0kl
レス番飛んでるなぁ

28:Socket774
09/01/05 06:28:30 O0ycFbXG
この文献、
Based on notes from Drs. Tom Conte & Eric Rotenberg of NCSU
とあるように
わりと有名人のコンテと、トレースキャッシュの発明で有名なローテンベルグのノートが元なんだけど
それをつまらないと言う団子さんには恐れいるよ

おっと、Rotenbergなんて団子さんに比べりゃ超無名人ですよね

29:Socket774
09/01/05 06:31:58 O0ycFbXG
>>26
ああ、商品もらえるんだ
ぼくも昔パソコン2台もらったことがあるよ

30:,,・´∀｀・,,）っ-○◎●
09/01/05 06:34:42 8Yvxj0kl
また明日おいで。IDあぼーん入れちゃったから

31:Socket774
09/01/05 06:50:43 YbnjOnKE
>>12
糞の観点から言えばPart.1は14スレ中一番の良スレだろが！

32:Socket774
09/01/05 07:13:54 bzPsAJwf
団子は分が悪くなるとあぼーんするから見苦しい
まあ本当はあぼーんしてないって分かってるんだけど

33:MACオタ＞団子さん
09/01/05 07:26:55 CyuUgFnN
>>19
　　--------------------
　　フィックスターズの課題、30倍余裕で超えたよ
　　悪い、優勝もらうわこれ。
　　--------------------
昔のログを思い出して、少しは私の慧眼に感心してくれると嬉しいですね。
ｽﾚﾘﾝｸ(jisaku板:745番)
　　------------------------
　　745 名前：MACオタ＞団子さん投稿日：2006/09/23(土) 17:36:35 ID:eMoSoCrg
　　　　>>743
　　　　>>744さん同様，私も何故団子さんがCELL BEを嫌うのか不思議に思っているす。
　　　　AltiVecも正当に評価してるみたいだし，トリップ解析コードに入れ込んでるヒトだし，
　　　　CELL用のコードが書けるようになるのを楽しみにしてそうなモノすけどね。。。

　　　　まあ評判より現物見てから評価するつもりなのかと，好意的に受け取っておくす。
　　------------------------

34:,,・´∀｀・,,）っ-○◎●
09/01/05 07:50:46 8Yvxj0kl
馬鹿だな相変わらず
某予備校のCMでさ、「学歴なんて関係ない、東大合格してから言ってみたい」って言うじゃん。
知り尽くした上で批判するからこそそこに説得力があるというもの。
技術的に何ができるかを知らずにマンセーするのも批判するのもただの無能のやること。

明示的に最適化してやらないと性能が出ないほどへぼいCPUとコンパイラってことよ。
日記にもつけてるけど、同じことやるならCore 2のほうがコードサイズ１０分の１程度で
数倍速いコードかけますよ。

35:Socket774
09/01/05 07:58:16 AQY9uYlj
>>33
>MACオタ
あのマックではインテルＣＰＵは絶対に採用されないと
断言してえらそうな発言を繰り返していたＭａｃヲタ君か？

36:MACオタ＞団子さん
09/01/05 08:01:19 CyuUgFnN
>>34
　　----------------
　　明示的に最適化してやらないと性能が出ない
　　----------------
しょせん計算機はお馬鹿さんですから、人間が「やり方」を教えてあげなければいけません。

その人間の方が「やり方」を判らない場合はどうしようもない訳ですが、団子さんが明示的
最適化したお手本を作ってあげれば、いずれは機械が自動的に真似してくれるように進歩
する…というのを期待しています。

37:,,・´∀｀・,,）っ-○◎●
09/01/05 08:09:09 8Yvxj0kl
＞いずれは機械が自動的に真似してくれるように進歩

ループアンロールして並列実行する機能なんてIntelはP6時代から実装されてますが。

実際問題あのプログラムってSIMD化とループアンロールくらいしかやることがない。
今回の課題についてはCore 2の数分の1の性能を出すのに数倍の労力を割かないといけない。
それがCellの醜態。

38:MACオタ＞35 さん
09/01/05 08:09:47 CyuUgFnN
>>35
　　---------------
　　マックではインテルＣＰＵは絶対に採用されないと断言
　　---------------
多分それは騙りの人でしょうね。当時書いた投稿は下記の通り。
ｽﾚﾘﾝｸ(mac板:423番)
　　===============
　　423 名前：MACオタ＞402, 404 さん投稿日：2005/06/04(土) 23:48:16 ID:KHY83HKq
　　　　>>402, >>404
　　　　PC業界なんて日銭を必死で稼ぐことだけに汲々としてるヤツらか、IBMのように企業としての利益優先で
　　　　ユーザーなんぞネギしょった鴨くらいにしか考えていない会社ばっかりす。
　　　　その中でAppleわPCを通じて「社会を変えるくらい革新的な何か」を創ろうとする唯一の会社す。

　　　　そのAppleがIntelを今後10年を託する値すると考えているなら、私に文句わ無いす。
　　===============

39:Socket774
09/01/05 08:11:06 ulY6ifWR
>>34は明示的に最適化してやればCore 2より速いって事？
それならそれでおｋな気がするけど

40:MACオタ＞団子さん
09/01/05 08:12:35 CyuUgFnN
>>37
　　---------------
　　実際問題あのプログラムってSIMD化とループアンロールくらいしかやることがない。
　　---------------
じゃ優勝も無理じゃないすか？その割りに、なにか秘策を思いついている風すけど(笑)
>>19
　　===============
　　しかしこの発想は無かった。
　　===============

41:Socket774
09/01/05 08:14:02 O0ycFbXG
>>34
> 某予備校のCMでさ、「学歴なんて関係ない、東大合格してから言ってみたい」って言うじゃん。
おれ東大合格したことあるよ

42:MACオタ＠訂正
09/01/05 08:15:45 CyuUgFnN
>>40は文体を間違えました。下記のように訂正します。
　　------------------
　　じゃ優勝も無理じゃないですか？その割りに、なにか秘策を思いついている風ですけど(笑)
　　------------------
慣れって怖いですね。

43:,,・´∀｀・,,）っ-○◎●
09/01/05 08:18:03 8Yvxj0kl
>>39
いいや、遅いよ。
明示的に最適化してやれば【最適化サボったコードをCore 2で実行した性能】よりは良くなる。
でもCore 2で最適化してやればCellの労力の半分程度でCellの数倍の性能を引き出せる。

CellじゃなくてAltiVecについてだけど、光成氏も仕事でやったことがあって、
「エレガントなわりに遅いやないか」
とか酷評してましたな。

44:,,・´∀｀・,,）っ-○◎●
09/01/05 08:30:05 8Yvxj0kl
>>40
相変わらずお前のCellマンセーはきめーな。
発想の転換さえできればだれがやっても同じところにいきつく。

もっとも性能上クリティカルな問題は、Cellのテクニックじゃなくて発想の問題。
そして、それはCellじゃなくてもどんなCPU向けに書いても適用できる話。
はっきり言って何考えて出題したのかわからんよ。

んで、細かい調整に俺が使ってるのは糞なものを多少に使うためのテクニックであって
「Cellは素晴らしい」という発想に繋がるものではない。
「シャフトの曲がった車で速く走る方法」みたいなもんだから。

45:,,・´∀｀・,,）っ-○◎●
09/01/05 08:33:29 8Yvxj0kl
×多少に使うため
○多少マシに使うため

46:Socket774
09/01/05 08:37:49 XJ5sx4LD
うん、これで優勝できなかったら相当に恥ずかしいなｗ

47:,,・´∀｀・,,）っ-○◎●
09/01/05 08:42:20 8Yvxj0kl
うーん、ろくな人材は集まりそうに無いな
応募数がすくなくて締め切り伸ばしたようだし。

48:Socket774
09/01/05 08:46:22 leJg4rDO
優勝は間違いないと思う
煽りでもなんでもなく

49:,,・´∀｀・,,）っ-○◎●
09/01/05 08:51:23 8Yvxj0kl
上位参加者はループアンロールの匙加減勝負になりそうだから微妙だよ。
ちょっと展開しすぎると256KBの容量制限を超えてしまう。
問題が210KB使用不可っていう罰ゲーム仕様だし。

罰ゲーム王なんて名誉でもなんでもねーわ。
青汁大飲チャンピオンみたいな？

50:Socket774
09/01/05 10:23:02 X2oJEUKF
去年のCell Speed Challenge 2008ってコンテストでは、課題が簡単すぎて全然差がつかないと
2chでも結構いわれてたけど、結果は全然そうじゃなかった。1位がぶっちぎり。

今回はどうだろう。楽しみ。

ループアンロールとかSIMD化は最低ラインだろうな。

団子さんはCellのピーク性能的にはどれくらいまで使えているの？

51:Socket774
09/01/05 11:38:08 cf2/c3cV
少し横に逸れるが、ピーク性能的対比効率の追求は
ソフト、というよりそれに適したループの選別ｗが鍵で主題がすり替わって
庵ロールだのSIMD化だの矮小した問題に落っこちてしまうから下らない

52:,,・´∀｀・,,）っ-○◎●
09/01/05 12:07:39 8Yvxj0kl
＞Cell Speed Challenge 2008
DMAの使い方が左右する奴ね。

今年の奴は自由課題ってのがいみわからんのでそっちは参加申し込んでない

今回のフィックスターズの課題はSPE1個の128本のレジスタとLSだけで完結する
処理だからそんなに差が付かないと思うよ。
ソースファイル1個しか弄っちゃだめだしMTの配列も初期化関数も変更不可能。

CellのCellらしいところを封印された上でやってるからそりゃ性能出るわけないよ
純粋に命令の並べ方で勝負が決まる。

53:Socket774
09/01/05 13:43:49 R1nPOFky
SPEのマネジメントが面倒くさいのにそれしないでいいんだw
俺も参加してみようかな。

54:Socket774
09/01/05 14:16:49 /++AJjYH
Freescale chip aims at 1GHz, sub-$200 Netbook
URLﾘﾝｸ(news.cnet.com)

55:,,・´∀｀・,,）っ-○◎●
09/01/05 18:31:21 8Yvxj0kl
へるみ氏からのあり難いお言葉でも読め

URLﾘﾝｸ(slashdot.jp)

>「とある，Cレベルで最適化済みの(mp3でない)エンコーダを1カ月で2倍速にせよ」というお達しのため，G4なら昔触ったことあります．
>最初の1週間で，PPCのpdf読み，次の1週間でCodeWarriorのasm出力読み，残り2週間でインラインアセンブラ数千行書いて終えました．
>それまでMacに触れたこともなかったので辛かったなあ．
>その時思ったのは，当時のAppleの「Intelより○倍速い」という主張は嘘やん，見た目のエレガントさに比べて遅いやないかと．
>事実Intel Macが出たときのAppleの広告は…．

ちなみにSPEのSIMD駆使したときのクロックあたり性能だけど、ある程度使ってもおおよそG4のAltiVecと同程度なんだよね。
レジスタが多いとは言ってもG4はVSIUでの命令ならレイテンシ1、SPEはレイテンシ2だから
結局レイテンシの隠蔽のためにレジスタ大量消費する羽目になる
あと、汎用レジスタに作用する命令はとAltiVec命令と並列実行できるのに対し、
SPEはメモリアドレスの算出すらSIMDユニットの1エレメントを使って処理される。

っていうか、ある意味G4より糞

56:Socket774
09/01/05 22:54:34 tIwz2Ldf
なんでこの人は「命令」のレイテンシにそこまで重点をいて善し悪しを述べるかね…
よほどin cacheでくりくり回るお目出度いアプリ以外は見たことがなくて、
機械語レベルでの性能の解釈に目が捕らわれがちなんだろうな。
いや、べつに【それほど】悪い意味じゃなくてさｗ

57:Socket774
09/01/06 00:28:15 +7KHbx5b
×アプリ
○プログラム

58:Socket774
09/01/06 00:47:36 vx8n0/zC
内容的にはアプリでいいんじゃない？
application

59:Socket774
09/01/06 02:13:05 G8Q6iVD5
CellのDRAMの扱いは、汎用cpuに比べはるかに面倒だろ。
言及したら余計ダメchipになっちゃうじゃないか。

60:,,・´∀｀・,,）っ-○◎●
09/01/06 07:06:52 Xi3ff82m
それ言っちゃうとG4も足回りの性能が冴えないからな
って言ってもPentium 3と同レベルだから時代考えれば相応の性能だけど

61:Socket774
09/01/07 21:50:26 7QjbFKnC
>>43
わざとだとは分かってるけど、このプログラムSPE1個しか使ってないだろ。
CellではSPE6個使えるんだが？
あとこれは完全にCore 2のL1キャッシュに乗る例だしSPEお得意の浮動小数点演算でもない。
LSも46KBに制限されてる。
ハンデ沢山つけてもらってなお負けるIntel CPUって・・・

62:Socket774
09/01/07 22:20:29 A5WM+zd7
んじゃ、6個つかったら6倍になるの？
単精度浮動小数点だとして。

63:,,・´∀｀・,,）っ-○◎●
09/01/08 20:54:33 Een5kEL3
んとね

> あとこれは完全にCore 2のL1キャッシュに乗る例だし
> SPEお得意の浮動小数点演算でもない。

SPEがいつから浮動小数が得意になったんですか？全然得意でもなんでもないんだけど？

> LSも46KBに制限されてる。

Core 2のL1キャッシュ（32KB）に乗っかる程度の問題だといっておきながらそれが何で問題なんですか？
そもそも数KB程度あれば十分性能出せる程度のアルゴリズムだし
CUDAの小さいメモリですら実装例があるんですぜ。

ちなみにインナーループを完全にアンロールできることを確認してるし
そもそも最適化の障害にならない。

> ハンデ沢山つけてもらってなお負けるIntel CPUって・・・

どこのIntel CPUが負けてるって？

今回の課題じゃないけど、以前計測したSFMTでのベンチ結果ならあるぜ。

45nm Core 2 Duo E8500@ 3.16GHz
32 bit BLOCK:50ms for 100000000 randoms generation

Cell SPE @ 3.2GHz
32 bit BLOCK:194ms for 100000000 randoms generation

よりSIMDに特化した版のMTですら、コアあたりで４倍くらいCore 2のほうが高速。
もうね、負け犬の何とやらですな。
哀れです。

64:,,・´∀｀・,,）っ-○◎●
09/01/08 21:14:28 Een5kEL3
俺に言わせればリミッタの２１０KBって最終的には全然障害にならなかった。
容量が少ないからアンロールできなくてなんていってる奴はそもそもプログラミング向いてない。
そもそもSPEってSIMD型CPUの中では相対的に整数が得意って言われてるくらいなんだぜ

現時点でEvenパイプライン使用率98％超えてるんだぜ？NOPやストールなんてほとんどないんだぜ。
210KBフルに使えるようになったら3倍とか4倍とかに伸びるような魔法なんてどこにもないよ
嘘だと思うならパイプライントレース結果見せてやるよ

逆に封印されてる２１０KBを使ったら如何はやくなるのかベンチマーク結果示してみろよ。
っていうか、このコンテストで優勝してみ？無理だろ？
結局負け犬の遠吠えなんだよ。

あとSIMD向けに実装することは簡単だがマルチコア向けじゃないからスケールメリットがない。

65:Socket774
09/01/08 21:19:12 A7S8YifI
>>63
L1キャッシュに完全に収まるような課題だから元々そういうCPUに有利だと言ってる。
しかもメインメモリへのアクセスなし。計算してすぐ捨てる。
LSも46KBに制限されてるから目一杯LS容量を活かしてアンロールすることもできない。
つまりL1キャッシュとの差が出せないような制限が付けられた課題。
しかも1コアで完結した課題だからCellのスケーラビリティーも活かせない。
何から何までがんじがらめにCellの利点を塞がれた課題。
この課題を設定したフィックスターズは何考えてるんだか？
まるでだんごがフィックスターズに入社して工作活動を行ってるようだぜw

66:,,・´∀｀・,,）っ-○◎●
09/01/08 21:50:12 Een5kEL3
＞LSも46KBに制限されてるから目一杯LS容量を活かしてアンロールすることもできない。
「できる」。

パイプライン使用率98％まで行けるって言ってるだろ。メインループは2000～3000命令程度で済むぞ。
つまりコードサイズにして8KB～12KB程度。全然余裕。
むしろレジスタ本数128本しかないのにそれ以上どんだけ並べるんだよ。っていうかお前どんだけ無能なんだよ。

67:,,・´∀｀・,,）っ-○◎●
09/01/08 21:52:14 Een5kEL3
すまん、そんなに言うなら課題見せてくれないか？
君が学生なら優勝させてやれないこともないぞ？

68:Socket774
09/01/08 21:58:36 A7S8YifI
＞まるでだんごがフィックスターズに入社して工作活動を行ってるようだぜw

これずぼしだろ？

69:,,・´∀｀・,,）っ-○◎●
09/01/08 22:02:16 Een5kEL3
MT19937のテーブル更新処理を完全にアンロールするとしよう。
こういうやつね

y = (mt[kk]&UPPER_MASK)|(mt[kk+1]&LOWER_MASK);
mt[kk] = mt[kk+(M-N)] ^ (y >> 1) ^ mag01[y & 0x1UL];

配列は624要素しかないからSIMDで4要素ずつアンロールするとして、たかだか156回分ならべるだけ。
お前、MT配列の何周分アンロールしようとしてるんだよ。

俺もやってみてから全然余裕なことに気づいた。

70:,,・´∀｀・,,）っ-○◎●
09/01/08 22:09:58 Een5kEL3
>>68
うーん、Cellを貶す人間に居場所のなさそうな会社だよねー

71:,,・´∀｀・,,）っ-○◎●
09/01/08 22:28:04 Een5kEL3
アンロールは性能を限界まで引き出すテクニックではあっても理論ピークを超えるためのものじゃない。
アンロール以前に簡単にリソース枯渇しちゃうから引き伸ばしても無駄
Core 2はSIMD整数演算は3命令＋L/S命令をアウトオブオーダで実行可能だから格が違う。
いくらアンロールしても絶対的にCore 2を超えられるわけがない

ただしここの部分に関してはMUX(spu_sel)が使えるからそれなりの性能は出せる

> y = (mt[kk]&UPPER_MASK)|(mt[kk+1]&LOWER_MASK);
→y = MUX(mt[kk], mt[kk+1], LOWER_MASK);

ここは普通気づく。

問題はむしろTemperingなんだが。ビット論理・シフト演算計10回。
ここはさすがにCore 2の演算ユニットの物量には勝てない。

72:,,・´∀｀・,,）っ-○◎●
09/01/09 00:33:15 8hHbNwdi
具体的な命令はモザイクかけさせて貰ったが俺はこのレベルまでチューンしましたよ。
URLﾘﾝｸ(up2.viploader.net)

ぶっちゃけ43KBで十分足りる。余裕。
足りないって言ってる奴は、仮に256KBフルに使えても、今度は「LSが1Mくらい必要だ」とか
アホな言い訳をするだけだとおもう。

いくらアンロールして埋めても2issueは所詮2issueなの。
4issue＋アウトオブオーダパイプラインのCore MAには逆立ちしても勝てない。

単精度の積和算だって別に速かないよ。
AVXやSSE5で倍精度も含めた積和算サポートした居場所無くなる。
てかGPGPUが台頭してきたあたりで既に立場怪しい。

TSUBAME 1.2にCUDA投入した東工大もCellのこと駄目出ししてるしね。
Cellのアクセラレータボードは個人じゃ手が出ないくらいアホみたいに高い。
PS3買うって？GPUのほうがコストパフォーマンス良いんじゃね？

73:Socket774
09/01/09 01:47:16 9gWHwd2K
まだ起きていたのか、、ｵｼｯｺして寝るように要ったのにさ…
あれﾀﾞﾒこれﾀﾞﾒ、向いてないから、なんて言う話なら
それがCellの限界を示す、それだけの話だろ。
CellはSIMDでVectorか…アホクサ。知性のかけらがあれば見抜けることだろに。

そんなことより、雪になりそうだな…

74:Socket774
09/01/09 01:51:58 9gWHwd2K
最初マンせー、
で騙されたと気が付いたらアンチに変身。
愚かなり

75:,,・´∀｀・,,）っ-○◎●
09/01/09 02:38:19 8hHbNwdi
マンセーなんて最初からしてねーよぼけ

76:,,・´∀｀・,,）っ-○◎●
09/01/09 02:40:32 8hHbNwdi
口先だけで「できる」「できない」って言ってる奴はやら（れ）ないことに言い訳してるだけだよ。
本質的に無能なんだ。
やって初めてわかること。

77:,,・´∀｀・,,）っ-○◎●
09/01/09 03:31:05 8hHbNwdi
文章の読解力のないｳﾞｧｶが勘違いしてるだけ。
俺は

・「SIMD化すればSPEはCore 2より速い」
→正しくは「Core 2（のスカラで実行したとき）よりは速い」
SSE2を使えば特に明示的なアンロールなんてしなくとも十分SPEより速いです。

Core 2のSSE整数性能＞SPEのSIMD性能＞＞Core 2でSSE使わない時の整数性能
＞＞（想像を絶する壁）＞＞SPEでベクトル化しないときの整数性能

・「210KBが使えないのはハンデだ！」
→アンロールは魔法じゃありません
SMTで性能２倍にならないのと同じです。

むしろ見た目制限があるように見える中で何とかするのが今回の「課題」なんだろ。
実際ほとんど不自由すること無いんだけど。
0.1％単位かそれ未満の最適化が勝敗を分けそうだから面白いね

まあ「ゆとりにはプログラム組めないから糞」って考え方もあるな
性能低いなら低いなりの価格なら文句は出ないんだが、PS3じゃない普通の
アクセラレータカードが1機80万とかの次元だから、擁護しようがない

78:Socket774
09/01/09 07:06:29 1uBtpKSl
団子さん、調子が良さそうなので、SPEのフォワーディングネットワークについても教えを乞いたいな

前スレ
883 名前： ,,・´∀｀・,,）っ-●◎○ [sage] 投稿日： 2009/01/04(日) 00:36:55 ID:Rl/DixMx
>>880
IntelのそれとRISCのそれでは、実装方法も抱える問題も別だから単純にイコールでは結べないよ。
ただx86においてはFuture Fileを用いた予約機構がフォワーディングネットワークに相当する
ショートカット機構と考えて差し支えないと思う

79:,,・´∀｀・,,）っ-○◎●
09/01/09 07:12:36 8hHbNwdi
＞SPEのフォワーディングネットワーク
頭おかしいんじゃないのアンタｗｗｗｗｗ
設計思想考えてみろよ

80:MACオタ＞団子さん
09/01/09 08:03:41 +EqY0v2v
>>64
　　----------------
　　容量が少ないからアンロールできなくてなんていってる奴はそもそもプログラミング向いてない。
　　----------------
過去の自分をそんなに責めなくても良いですよ。
　　----------------
　　49 名前：,,・´∀｀・,,）っ-○◎● 投稿日：2009/01/05(月) 08:51:23 ID:8Yvxj0kl
　　　　上位参加者はループアンロールの匙加減勝負になりそうだから微妙だよ。
　　　　ちょっと展開しすぎると256KBの容量制限を超えてしまう。
　　　　問題が210KB使用不可っていう罰ゲーム仕様だし。
　　　　
　　　　罰ゲーム王なんて名誉でもなんでもねーわ。
　　　　青汁大飲チャンピオンみたいな？
　　----------------

81:Socket774
09/01/09 08:22:47 1uBtpKSl
>>79
> 頭おかしいんじゃないのアンタｗｗｗｗｗ
> 設計思想考えてみろよ

SPEにも付いてるじゃん、フォワーディングネットワーク

82:,,・´∀｀・,,）っ-○◎●
09/01/09 09:26:53 8hHbNwdi
>>80
コンパイラの指定が変わったんだよ。
ある程度以上アンロールすると性能低下してた。
どっちかというと容量ってよりはコンパイラの特性によるものっぽいが
4.1.1はあるサイズまで達すると最適化を諦めちゃう。
インライン展開を

それをLS容量の問題だと勘違いしたのもまあ事実だけど
objdumpしたら全然そんなことはなかった罠

新たに指定になった4.3はアホみたいにコンパイル時間がかかるが何とかこなしてくれる。
ま、やりもしなきゃわからないんだけどな。

しかしアンロールでCore 2以上の性能が出るなんてどっから出てくる妄想なのかは理解できませんよ。

83:,,・´∀｀・,,）っ-○◎●
09/01/09 09:28:26 8hHbNwdi
もっとも効果の大きい部分に絞ってアンロールしないとコードサイズ限界超えちゃうのはそれはそれで事実だったりする。
あとデータ配列を新たに作ったりする場合は気をつけないとね。

84:Socket774
09/01/09 09:58:45 wHfvU9bD
>>81
便乗して聞くけどソースは？

そもそもCBEは設計思想としてレイテンシを小さくするための機構を省いて
その分レジスタを大量に載せ、インターリーブすることでスループットを稼ぐものだ
整数演算ですら同じレジスタの再利用に2サイクル以上要する。

85:Socket774
09/01/09 11:17:11 1uBtpKSl
>>84
後藤の図
URLﾘﾝｸ(pc.watch.impress.co.jp)

レジスタファイルの上に、Forwarding Macroってのがあるじゃろ

同じく後藤の別の図
URLﾘﾝｸ(pc.watch.impress.co.jp)

Even Pipeの一番右のやつでも、整数演算にFX1とFX2と2ステージ使っているから、当然フォワードして

> 整数演算ですら同じレジスタの再利用に2サイクル以上要する。

この通りになる

パイプラインが長いから、もしフォワードがなければ大変なことだ

86:,,・´∀｀・,,）っ-○◎●
09/01/09 17:07:38 8hHbNwdi
ど～でもい～ですよ♪

ロジックのトランジスタ数が抑えられてるメリットはともかくとして、ワットパフォーマンス的には
クロック半分、パイプライン段数・命令間レイテンシ半分の4issueと、どっちがマシだろうね？

とはいえそのアンロール（笑）だが、現状、8並列くらいにアンロールして並べれば少なくとも
性能限界の7～8割方のスループットは得られるわけだが。
あんましアンロール（笑）しすぎると実質的に1フローあたりで自由に使えるレジスタ数が
減っちゃうって問題があるし。

逆にレジスタ本数は64本に抑えたほうがよかったんじゃないかね。
4オペランドのOpcode空間が3ビット分しかなくて、倍精度に十分なオペランド空間を割り振れなかったらしい。
だからソース破壊操作を行う。
まあ倍精度が遅いPS3用のCellならそれでよかったのかもしれないが
その辺の判断は倍精度強化版Cellの実効性能において僅かながら禍根となってる。アホな命令セットだ。

その点、Intel AVXは倍精度でも完全な4オペランドFMAを・・・・
って思ってたら・・・あれ？
インテルは逝ってる。

87:Socket774
09/01/09 18:13:31 ZWoD04Y9
20Mトランジスタたかだか2WのSPEとCore2ってなんかなあ
比較するならせいぜいSilverthorneじゃないのか？

88:Socket774
09/01/09 23:21:55 l/w2JWGx
Core2のごく一部の回路しか使わないﾌﾟﾛｸﾞﾗﾑの性能を
総Tr数で比較することと同じくらいにそれはナンセンスなことだよね。
目に付きやすい単純で僅かな数値だけで物を見るようになると
知的生命体として失格だって、太宰も書いていたじゃないか。

89:Socket774
09/01/10 03:52:38 CC0Px4ll
ｺﾞﾒ。最近気が立っていて言い過ぎた。
ﾓﾏｴさんも巷では優秀なﾔｼとしてきっと活躍して居るんだろう。
今後とも切磋琢磨しておくんなさい

90:,,・´∀｀・,,）っ-○◎●
09/01/10 04:32:40 m5SO+okF
>>87　むしゃくしゃしたので比較してやった。今は反省していない。

んで、SPEの叩き台はこんなのでいいかな？
URLﾘﾝｸ(d.hatena.ne.jp)
> 結果(-funroll-all-loopsあり)
> 32 bit BLOCK:144ms for 100000000 randoms generation
> 32 bit SEQUE:935ms for 100000000 randoms generation
> 64 bit BLOCK:231ms for 50000000 randoms generation
> 64 bit SEQUE:521ms for 50000000 randoms generation

何も手を入れずにAtom 1.6GHz/Cygwin GCC4.3.2で計測

$ ./test-sse2-M19937.exe -s
32 bit BLOCK:219ms for 100000000 randoms generation
32 bit SEQUE:562ms for 100000000 randoms generation
64 bit BLOCK:203ms for 50000000 randoms generation
64 bit SEQUE:296ms for 50000000 randoms generation

クロック差が2倍もあってこのザマだけどいいの？

91:,,・´∀｀・,,）っ-○◎●
09/01/10 07:20:12 m5SO+okF
＞クロック半分、パイプライン段数・命令間レイテンシ半分の4issueと

こともあろうにクロック半分、パイプライン段数どっこい、命令間レイテンシ半分の2issue
に負けてしまいました。
どうしようもないなSPE

っていうかAtomが神がかりすぎてる。
さすがはPowerPC G4設計したチームといったところ。

92:Socket774
09/01/10 09:17:14 BtEWpYtS
>>91
そうだよな

SPEが遅いのはフォワーディングネットワークがないからだよな

93:Socket774
09/01/10 12:02:42 ccgw1rT9
Nvidia targets $99 netbook with Tegra chips
URLﾘﾝｸ(edge.networkworld.com)

94:Socket774
09/01/10 13:31:28 ezv9IHhE
団子さん、Cell叩くなら徹底的にしないと。
1core、1threadのちっさい計算ベンチで比較にするから
いつまでたっても決定打がでない。

95:Socket774
09/01/10 14:19:12 6FUexnto
そんなことしてたってきりがないぞ（詳細略
時間の無駄だから止めてもっと生産的なｋとをした方が吉だ

96:,,・´∀｀・,,）っ-○◎●
09/01/10 15:03:41 m5SO+okF
0.1％単位でパイプライン詰める作業に入ってるから話しかけんな

97:,,・´∀｀・,,）っ-○◎●
09/01/10 15:19:14 m5SO+okF
まあいいや、相手してやんよ

>>94
あのなー
シングルコアの時点で3倍以上差がついてるのに6コアVS2コアでなら勝てるとでも思ってるのか？

98:,,・´∀｀・,,）っ-○◎●
09/01/10 15:21:40 m5SO+okF
Mersenne Twisterって悲惨なほどスレッド分散処理に向いてないんだわ。

乱数ジェネレータを複数持つとかしないと、MFC DMAのオーバーヘッドで死ぬ。

今回の課題は乱数列の「再現性」が問われるので、不向きなのよ

99:Socket774
09/01/10 19:10:20 ezv9IHhE
最適化で忙しいところ悪いけど
MTとかじゃなくてCellの得意な処理で比較してやればさ、
例えばSPURSのJobモデルで実装されてる処理をも打ち破れば
もうCell完敗でFAじゃん。

100:,,・´∀｀・,,）っ-○◎●
09/01/10 20:25:07 m5SO+okF
だったらお前がやれよ
俺には興味ない

いま実効性能／理論性能＝99.3％

ここまでやる馬鹿もそうそういないか

101:Socket774
09/01/10 20:31:17 BtEWpYtS
いまだにフォワーディングネットワークを理解できていない馬鹿もそうそういません!

102:,,・´∀｀・,,）っ-○◎●
09/01/10 20:52:04 m5SO+okF
レス番飛んでる

99.7

103:Socket774
09/01/10 21:10:19 BtEWpYtS
ダチョウ戦略って言うんだよね、こういうの
頭を砂につっこんで逃げた気でいる

104:,,・´∀｀・,,）っ-○◎●
09/01/10 21:12:34 m5SO+okF
　

105:,,・´∀｀・,,）っ-○◎●
09/01/10 21:13:30 m5SO+okF
レイテンシとスループットの違いもわからない負け犬がいつまでも吠えてるんだな

106:Socket774
09/01/10 22:05:34 u23wNp1o
template化してコンパイル時決定にできるんじゃないかもしかして…

107:,,・´∀｀・,,）っ-○◎●
09/01/10 22:14:13 m5SO+okF
CじゃC++みたいにエレガントにメタプログラミングできないから__inline関数と#defineの嵐

108:,,・´∀｀・,,）っ-○◎●
09/01/10 22:16:08 m5SO+okF
そーいやSFMT＠SSE2のテンプレート化したやつ前に作ったね

109:Socket774
09/01/11 03:00:12 lg5adLJs
>>107
展開をメタプログラミングとか言うなYOﾊｹﾞが

110:Socket774
09/01/11 05:23:54 qWpTWA+9
ここまで歪んだ解釈は初めて目にする。

Intelが半年後とに値下げを繰り返しているのは
第一にAMDが怖いから、恐ろしいから
第二にエラッタだらけのCore2Duo／Quadを投入せざるを得なかったから
以上に尽きる
利益を失うことよりも、たとえ実質1年と少しにせよ最高性能の
CPUメーカたり得なかった事実に恐怖して極度のパニックを起こし、
欠陥満載の製品を漏らしてその尻ぬぐいを続けているからに過ぎない

つまりはIntelは過去も現在も、そしておそらくは社としての存在を
やめることになるであろう将来に至るまで、
自らのプライドのみを眺め評価し、ライバルをたたくことにのみ
注力する、パラノイア企業という自負をただただ継続し、ついに
顧客や業界の発展については思い至ることのないままの
未熟な企業体として醜態を晒し続けるであろうという単純な構図に
ほかならない

本当に技術に優れた企業なら、ベンチマークのみ速くて利用感の不快な欠陥CPUなど垂れ流しはしない

以上の事柄は私がCore2Duo所持し感じたことをありのままに文章化したに過ぎない。
C2Dのもっさりぶりを感知できない白痴連中は一生インテルにお布施でもしてるがいいだろう。

111:,,・´∀｀・,,）っ-○◎●
09/01/11 05:49:52 uJrTAOif
>>109
言うんじゃね？ループアンローリングをテンプレートで実現するのなんて定番じゃないか。
どこでの定番かは知らないが俺はherumi氏の日記をよく読んでるのでありがちな方法だと思ってるが

112:Socket774
09/01/11 06:40:30 e+oFHNuf
プログラムで動く仕組みのほとんどはメタプログラムだよ。
例外を除いてな。
そのぐらい知らない時点で愚か。

113:MACオタ
09/01/11 12:41:23 zIHSxZkM
CELLネタで盛り上がっているところ失礼ですが、ゆでたまご理論の信奉者を見つけたので
ちょっと紹介します(笑)
URLﾘﾝｸ(www.ne.jp)
　　-------------------
　　☆問題の本質はどこがボトルネックになっているか。
　　[中略]
　　Uncoreに比べてCoreが相対的に弱いという状況はHPC用途に比べてPC用途では不利で
　　あろう。なぜならば、HPC用途とは違ってコア性能の不足をコア数やバンド幅でカバーしに
　　くいからだ。 PC用途ではやはりコア性能はイタリア料理でのトマトと同じで、これが強力で
　　ないと根本的な意味での高性能は出しにくいと思われる。 PC用途でのキモはやはりCPU
　　コア単体のシングルスレッド性能が基本だ。
　　-------------------
『ボトルネック』というのは、最も遅い部分で全体の速度が決定されるという話で、「カバーできる」
という概念とは全く異なります。

114:Socket774
09/01/11 12:53:04 G8p1Dc08
カバーできるという言い回しを概念とかって意味不明

115:Socket774
09/01/11 12:59:31 vM8nj3gi
上げ足とりなだけな気が…。「思わずガッツポーズ」はうけたな。

116:Socket774
09/01/11 13:32:24 x41/dxHw
FFTじゃCell圧勝なんじゃないの？
数値計算ではCell優位じゃね

117:Socket774
09/01/11 13:48:13 EMYAVInx
比較のベース(基準)が無いから、こんな変な論争になる
ただ、Cellは、汎用ＣＰＵに比べて、その性能を生かそうと思うなら
間違いなく用途は狭い、普通の用途なら90％以上他のものに劣る
さらに言えば、専門的な用途でもGPGPUとか出て来たのでますます
幅が狭い、まぁーでもCellの改良版とかもあるし、更なる発展形が出れば
ちょっとはいけるかもしれない
ただ、今のＰＳ3とかに積まれてるCellは、全然たいした事無いよ

118:Socket774
09/01/11 13:53:56 x41/dxHw
単精度で数値計算なんてほとんどされないが
PS3はゲーム用だからねえ

119:Socket774
09/01/11 13:59:11 uHNNCsMZ
Larrabeeコアがキャッシュ機構以外はSPEと同じような設計になるそうだが
あれもどういう狙いがあるのかよくわからんな

120:Socket774
09/01/11 14:19:16 K1bNS7KM
>>118
コンピュータビジョン関連のリアルタイム応用には倍精度なんて不要だからある程度需要がある。
とはいってもさすがにCellは面倒だから大抵GeForceでCUDAを使うけどね。

121:,,・´∀｀・,,）っ-○◎●
09/01/11 14:52:59 uJrTAOif
単精度FFTで数値計算性能が決まるならGPGPUはもっと使われてもいいね。
実際問題、東工大がCUDA選んだけども。

最近日本の研究機関から出たCellの論文読むと
比較対象としてCore 2を使ってたりする一方
SSE*ベクトル命令やマルチスレッド化されてないコードと
Cell向けに最適化しまくったコードとを比較してたり、
めちゃくちゃなものが多いです。

122:Socket774
09/01/11 14:59:01 x41/dxHw
数値計算性能は倍精度で見ないと
IBMの強化版のやつ

123:Socket774
09/01/11 15:04:32 woTRGM1U
>>121
東工大のアレってなんか具体的に研究すること決まってるの？
みんなのスパコンとか言ってたから要は学習用のおもちゃなんじゃないの？

124:,,・´∀｀・,,）っ-○◎●
09/01/11 15:04:47 uJrTAOif
アレくそだろ。3オペランドだからデスティネーション値を破壊する。
Odd側で変量0のバイトシフトとかで代用できるけどもレイテンシ4。

125:Socket774
09/01/11 15:04:54 W2xzBm3N
数値計算方がモンテカルロの場合、単精度で充分

126:Socket774
09/01/11 15:05:35 x41/dxHw
いやいやそれはないだろ

127:,,・´∀｀・,,）っ-○◎●
09/01/11 15:06:31 uJrTAOif
>>123
高い玩具だな。国内１～２を争う規模のスパコンだぜ

128:,,・´∀｀・,,）っ-○◎●
09/01/11 15:08:14 uJrTAOif
Cell SPUの倍精度命令Opcodeエンコード仕様見てみろよ。糞だから。
ぶっちゃけレジスタ64本で良かったんじゃないの？

129:Socket774
09/01/11 15:14:35 uHNNCsMZ
ん？あれって強化版と言いながら実は仕様全く同じなん？

130:Socket774
09/01/11 15:22:28 5R58NhBl
>>112
逆だろ。behaviorとstateのメタ記述がprogram

131:,,・´∀｀・,,）っ-○◎●
09/01/11 15:25:09 uJrTAOif
Tesla C1060 コンピューティングプロセッサー
URLﾘﾝｸ(www.nvidia.co.jp)
> シングルプレシジョン・フローティングポイント・パフォーマンス 933 GFlops
> ダブルプレシジョン・フローティングポイント・パフォーマンス 78 GFlops

ELSA nVIDIA Tesla C1060 (ETS1060-C4ER)　
258,000円
URLﾘﾝｸ(www.faith-go.co.jp)

PowerXCell™ 8i GigaAccel 180
URLﾘﾝｸ(www.fixstars.com)
> 単精度180GFLOPS、倍精度90GFLOPS
> GigaAccel 180 単体価格 * 880,000円（税込：924,000円）

>>129
倍精度演算ハードウェアを搭載してを倍精度命令をハードワイヤードで
実行するようになったことを除けば、PS3のとそんなに仕様変わらない

性能的にはクアッドコアXeon×2で追いつける程度だし、ボードの価格考えるとメリット皆無だね。

132:Socket774
09/01/11 15:26:13 5R58NhBl
>>127
Linpacか何か単純なベンチを全nodeで計ったら
JOB queue groupにnodeをばらしてMPIのお勉強と
レガシーなsimulation programの再発明だろｊｋ

133:Socket774
09/01/11 15:27:58 uHNNCsMZ
>>131
なるほど、やっぱり仕様は違うのか
ボードの価格差は確かにそうだけど、
電力消費あたりの性能だとGPGPUやXeonの物より良かった筈だから
流石にメリット皆無という事はないと思うよ

134:Socket774
09/01/11 15:34:57 ll1Tr1Va
Teslaの場合は従来のシステムを比較相手にできるからそれ自体は十分ぼったくりでも価格破壊に見せ掛けられたけど
LarrabeeとかはTeslaを相手に価格設定しなくちゃいけないわけで、来年一気に市場全体でデフレを引き起こしそうな

それとも「Teslaとは違うのだよ、Teslaとは」ってことで高値安定しちゃうのかしら

135:,,・´∀｀・,,）っ-○◎●
09/01/11 15:39:03 uJrTAOif
Larrabeeの最初のバージョンはECCメモリをサポートしないらしいので当分はHPCには不向きなヨカーン
何れにせよ価格破壊路線だと思う。

136:Socket774
09/01/11 16:01:31 SeBUCGu3
団子さん、Larrabeeにはフォワーディングネットワークはあるんですか？

137:,,・´∀｀・,,）っ-○◎●
09/01/11 16:10:15 uJrTAOif
今日もあぼーんフィルタが「レイテンシ＝スループット」君に反応した

138:MACオタ＞118 さん
09/01/11 16:25:51 zIHSxZkM
>>118
　　---------------
　　単精度で数値計算なんてほとんどされないが
　　---------------
単精度の利用で性能が2倍になる可能性は、CELL/B.E.に限らずあらゆるSIMD ISA, GPGPUで
共通です。このため、計算機科学の分野では最終精度を維持しつつ単精度演算を利用する手法
は注目されています。
URLﾘﾝｸ(www.hpcwire.com)

139:Socket774
09/01/11 16:34:38 bv0m7Y8d
>>121
それらって誰か一人Cellの関係者が混じってない？
俺も比較対象・比較元両方でがちがちに最適化してるのは見たことないかも。

140:,,・´∀｀・,,）っ-○◎●
09/01/11 16:38:44 uJrTAOif
URLﾘﾝｸ(www.hpcc.jp)

これは九工大のレポートだけどCore 2はSSE不使用。
そりゃそうだ、SSE使ったらCore 2が圧勝しちゃうから

141:,,・´∀｀・,,）っ-○◎●
09/01/11 16:43:58 uJrTAOif
> Core 2 Duo でSFMT を実行する際は，SIMD演算を用いなかった．

> Cell B.E. 3.2GHz (PPE+6SPE)
> Core 2 Duo 2.66GHz (use 1-core)

酷い比較条件だろ？

142:MACオタ＞団子さん
09/01/11 16:59:29 zIHSxZkM
>>140
あなたの基準では、これが
>>121
　　----------------------
　　最近日本の研究機関から出たCellの論文
　　----------------------
なんですか？せめて査読付の文献を探してもらわないと(笑)

143:,,・´∀｀・,,）っ-○◎●
09/01/11 17:14:15 uJrTAOif
早速レス番飛んでる。

144:Socket774
09/01/11 17:42:19 E4ZYXBtL
>>138
> 単精度の利用で性能が2倍になる可能性は、CELL/B.E.に限らずあらゆるSIMD ISA, GPGPUで
> 共通です。

「あらゆる」って…いい加減なこと書くなYO
そう言うpoorなhardもあるけれどもさぁ…
何なんだろこの人、見たこともないくせに

145:,,・´∀｀・,,）っ-○◎●
09/01/11 17:44:44 uJrTAOif
机上論とハッタリとコピペが生き甲斐の人間に突っ込んでやるなよ

146:MACオタ＞144 さん
09/01/11 17:45:14 zIHSxZkM
>>144
　　--------------
　　いい加減なこと書くなYO
　　--------------
そう思うなら反証をどうぞ(笑)

147:Socket774
09/01/11 17:47:47 YrVb9Ruu
ﾊﾞｶじゃねーのｗ
ググレカス　Power FMA throuput single double
そして上から目を通せ

148:Socket774
09/01/11 17:51:31 SeBUCGu3
>>147
こんなん出ましたけど

もしかして: Power FM throughput single double
検索結果

1.
CPUアーキテクチャについて語れ Part.13
683 ：Socket774：2008/12/18(木) 00:05:13 ID:ry2mAMrj: AlphaとPOWERとx86は好きでPAとARMは微妙でMIPSとSPARCと68kの ... load throughputと倍精度FMA演算throughput がバランス良く稼働できたこと・FMA命令がタイミング良く決まる ...
pc11.2ch.net/test/read.cgi/jisaku/1223189876/655-755 - 43k - キャッシュ - 関連ページ

149:Socket774
09/01/11 17:52:58 Ztarkj6V
>>140
査読云々はおいといて、
自分らの調査結果をよく見せようと
ミスリーディングしてる感じだね

150:Socket774
09/01/11 17:53:26 bv0m7Y8d
>>140-141
せめて2コアは使えよw　でも協賛企業見て納得した。
政治的背景なしにこんな比較持ってったら髪の毛全部毟られるわ。

151:MACオタ＠補足
09/01/11 18:00:08 zIHSxZkM
>>146
>>138のリンク先の記述だけでも下記のようにリストアップされています。
　　-----------------
　　These include the AMD Opteron, the Intel Pentium, the IBM PowerPC, and the Cray X1.
　　-----------------
GPGPUに関しては次の通り。
　・AMD URLﾘﾝｸ(pc.watch.impress.co.jp)
　　-----------------
　　単精度浮動小数点で1TFLOPS以上、倍精度浮動小数点で200GFLOPS超
　　-----------------
　・NVIDIA URLﾘﾝｸ(www.nvidia.co.jp)
　　-----------------
　　Each Tesla C1060 GPU delivers 933 GFlops Single Precision and 78 GFlops Double Precision performance
　　-----------------

152:MACオタ＞147 さん
09/01/11 18:07:38 zIHSxZkM
>>147
　　-------------
　　Power FMA throuput single double
　　-------------
POWER ISAのSIMDであるAltivecは現在、倍精度浮動小数点はサポートしてませんよ(笑)
URLﾘﾝｸ(www.chip1stop.com)
　　=============
　　AltiVec 128-bit SIMDテクノロジの概要
　　[中略]
　　データ・タイプとして8、16、32整数、単精度浮動小数点をサポートし、音声、映像の処理
　　のほか、グラフィックスやゲームの処理の高速化を実現します。
　　=============

153:Socket774
09/01/11 18:25:57 SeBUCGu3
Cell Challenge 2009の課題はレーベンシュタイン距離か
意地悪だなw

154:Socket774
09/01/11 21:20:19 k1C+wZRt
PhenomII 6Gオーバー達成

例のOCイベント、6.2GHz越えて世界記録更新したようですね
URLﾘﾝｸ(valid.canardpc.com)

ただ、その後フィンランドの人に6.4GHz叩き出されて抜かれた模様ｗ
URLﾘﾝｸ(www.ripping.org)

155:Socket774
09/01/12 08:15:01 OOymoByr
PhenomⅡのOC常用耐性は今のところ3.6GHz付近の模様
それ以上だとPrime完走せず
ｽﾚﾘﾝｸ(jisaku板)

156:Socket774
09/01/12 10:30:10 VkwTK3wf
>>140
ハンデ付の比較なんてしてどうすんのかねえｗｗｗ

157:,,・´∀｀・,,）っ-○◎●
09/01/12 10:38:56 nJjDJ95S
「42.195kmを自転車リレーで6人がかりで完走」みたいな？
あるいは逆？
強歩でマイルリレー、みたいな。

158:Socket774
09/01/12 15:12:28 r1vp00bY
SPEにはフォワーディングネットワークがついていないから、公平な比較だよ

159:,,・´∀｀・,,）っ-○◎○
09/01/12 16:53:42 nJjDJ95S
へえ、付いてないんだ。博学だね

160:Socket774
09/01/12 17:25:34 r1vp00bY
>>159
お、SPEにフォワーディングネットワークが付いていると認めるようになったか
まことに結構

79 名前： ,,・´∀｀・,,）っ-○◎● [sage] 投稿日： 2009/01/09(金) 07:12:36 ID:8hHbNwdi
＞SPEのフォワーディングネットワーク
頭おかしいんじゃないのアンタｗｗｗｗｗ
設計思想考えてみろよ

161:,,・´∀｀・,,）っ-○◎●
09/01/12 17:33:35 nJjDJ95S
一人乗り突っ込み乙。空回りってむなしいね、レイテンシ＝スループットの負け犬くん。

162:Socket774
09/01/12 17:35:56 yuknvaY/
>>161
実際付いてるの？付いてないの？

163:Socket774
09/01/12 17:51:13 C3LaUhrI
そもそもフォワーディングネットワークってなに？

164:,,・´∀｀・,,）っ-○◎●
09/01/12 18:04:49 nJjDJ95S
>>162
答えはこれでいいかな？

Scientific Computing Kernels on the Cell Processor
Samuel Williams, John Shalf, Leonid Oliker, Shoaib Kamil, Parry Husbands, and KatherineYelick
International Journal of Parallel Programming (c)2007

URLﾘﾝｸ(bebop.cs.berkeley.edu)

> Cell has a 7 cycle in-order execution pipeline and forwarding network

実際問題Intelは"operand forwarding"って表現をしてる（実はIBMも）
"operand buffering"とか"operand bypassing"っていう学者さんもいる。
"forwarding network"っていわゆるTCP/IPのアレのほうが一般的で
CPUアーキのそれは画一的な呼び方がないのが現実。

実装方法も全然別物だからな。
わかりやすい例を出すと、x86は演算対象がレジスタだけじゃない。

------------------------------------------------------------

で、実際の実装の話。ちょっと実機でベンチマークしてみたんだけど

stqd $10, 32($sp)
lqd $11, 32($sp)
stqd $12, 32($sp)
lqd $13, 32($sp)

こんなコード。ちょっとこれは俺もびっくりしたんだけど
勘違いでなければLocal Storageに対するストアフォワーディングが利いてるかもしれない。

165:Socket774
09/01/12 18:17:01 6OQWxeGn
ようするにそれは塩味なのか？しょうゆ味なのか？

166:,,・´∀｀・,,）っ-○◎●
09/01/12 18:24:26 nJjDJ95S
味噌バターかもな。北海道的な意味で。

167:Socket774
09/01/12 18:32:21 6OQWxeGn
うまそうだ

168:Socket774
09/01/12 18:38:26 r1vp00bY
>>164
まあ、SPEにフォワーディングネットワークがあることを認めたのは大きな前進なのでいいのだが

> 実装方法も全然別物だからな。
> わかりやすい例を出すと、x86は演算対象がレジスタだけじゃない。

まだこんなことを言っているから、理解できたというわけではなさそうだけど(笑)

フォワーディングネットワークは、機能ユニットの出力から入力へ繋ぐネットワークのこと
ただのクロスバーだから、どのプロセッサでも実装は基本的に同じだよ

169:Socket774
09/01/12 18:40:15 6OQWxeGn
つまり焼き加減を聞かれたら、
とりあえず「ミディアムで」といっておけば
大きな失敗はないということだな。

170:,,・´∀｀・,,）っ-○◎●
09/01/12 18:42:19 nJjDJ95S
イエス、ウェルダン

171:,,・´∀｀・,,）っ-○◎●
09/01/12 18:43:10 nJjDJ95S
レイテンシ＝スループットがまた知ったかで発狂中

172:Socket774
09/01/12 18:44:05 r1vp00bY
きょうはあぼーん設定にしないんだね

173:Socket774
09/01/12 18:45:18 6OQWxeGn
言っとくがおれは食いしん坊じゃないからな。
焼肉を食べるときは米じゃなくてサンチュで食うくらいの変態紳士だ。

174:,,・´∀｀・,,）っ-○◎●
09/01/12 18:45:53 nJjDJ95S
はいはい、SIMD整数＝浮動小数でレイテンシ＝スループットな人の解説は大変ためになります。

175:ばび
09/01/12 23:17:42 8+92fxTB
C=A+B（AとBを加算しCに代入する）という演算を、コンピュータで実行することを考える。

1.加算命令に対し、オペランドが2個しか許されていないアーキテクチャ
2.加算命令に対し、オペランドが1個しか許されていないアーキテクチャ
3.加算命令に対し、オペランドが0個の(つまり1個も許されていない)アーキテクチャ

ではそれぞれどのように加算C=A+Bを実行するか、1-3のそれぞれの実行手順を述べよ。

わかる人いますか？

176:ばび
09/01/12 23:19:28 8+92fxTB
C=A+B（AとBを加算しCに代入する）という演算を、コンピュータで実行することを考える。

1.加算命令に対し、オペランドが2個しか許されていないアーキテクチャ
2.加算命令に対し、オペランドが1個しか許されていないアーキテクチャ
3.加算命令に対し、オペランドが0個の(つまり1個も許されていない)アーキテクチャ

ではそれぞれどのように加算C=A+Bを実行するか、1-3のそれぞれの実行手順を述べよ。

わかる人いますか？

177:Socket774
09/01/12 23:40:45 xL0yF7dn
中学の宿題か？

178:,,・´∀｀・,,）っ-○◎●
09/01/13 08:07:28 Jh6NLUDX
1. 今のIA32アーキテクチャとかARMのthumb命令みたいなのがそうですね。
一般的な2オペランド方式では次のようになります。
・AをCにコピー
・CにBを加算

2. 一般にアキュムレータマシン。
・アキュムレータにAをロード
・Bを加算
・アキュムレータからCにストア

3. いわゆるスタックマシン。i8087とかJavaVMが代表例。
加算命令がスタックの先頭の値と2番目の値を加算し先頭に結果を先頭に上書きすると仮定する。

・スタックにAをプッシュ
・スタックにBをプッシュ
・加算
・ポップしCにコピー
・ポップ（読み捨て）

ちょうどいい解説がある。3のスタックマシンはJavaVMの資料でも読んでおくといい
URLﾘﾝｸ(kescriv.kj.yamagata-u.ac.jp)

179:Socket774
09/01/13 08:18:22 O6JL4vY7
>>177
> 中学の宿題か？
少なくとも俺の知っている中学校では出題されない問題だ
高専or専門学校の情報処理系初等レベルの問題だよ

180:Socket774
09/01/13 08:44:20 pi57qdRr
団子さん、中学の宿題を間違えないでください…

181:,,・´∀｀・,,）っ-○◎●
09/01/13 09:03:40 Jh6NLUDX
スタックマシンの挙動はちょっと俺も自信ない

182:Socket774
09/01/13 11:16:15 pi57qdRr
load A
load B
add
store C

183:,,・´∀｀・,,）っ-○◎●
09/01/13 11:32:23 Jh6NLUDX
なにその情けない擬似コードは

184:,,・´∀｀・,,）っ-○◎●
09/01/13 11:37:09 Jh6NLUDX
一般的にスタックマシンって加算するとスタックポインタが一つ減るんだっけな。忘れてた。

185:Socket774
09/01/13 11:45:40 pi57qdRr
>>184
今はじめて知ったんだろ？
一度覚えて忘れたんならもっと馬鹿だぞ？

186:,,・´∀｀・,,）っ-○◎●
09/01/13 11:48:13 Jh6NLUDX
8087をアセンブラで書いたことないからね。
所詮MMX/SSE以降に囓ったゆとり世代ってことよ。

187:●ﾃﾍ権田●
09/01/13 11:54:07 O6JL4vY7
まぁ、ゆとり世代はゆとり世代の才があるということで・・・・

188:MACオタ
09/01/14 07:16:56 /UukGxgS
P.A.Semiの買収で半ば公然の事実となっていた話ですが、AppleもファブレスCPUベンダの仲間入り
ということになるようです。ソースはDigitimesですが、すぐ記事が有料化されるので引用はThe Register
より。
URLﾘﾝｸ(www.theregister.co.uk)
　　------------------------
　　Rumors that Apple has a scaled-down iPhone dubbed the "iPhone Nano" in the works
　　have lurched forward following a report here that two Taiwanese companies are set
　　to supply chips for the phone.

　　According to DigiTimes, the two purported chip suppliers are the Taiwan Semiconductor
　　Manufacturing Company (TSMC) and United Microelectronics Corporation (UMC).
　　------------------------
DigitimesのApple関係の報道は的中率が低いのですが、iPod nanoは6月以降に登場とのこと。

189:Socket774
09/01/14 08:48:55 wlJvscOa
0オペランドマシンにはキューマシンってのもある
実用化されてないけどな
URLﾘﾝｸ(www.crc.uec.ac.jp)

190:Socket774
09/01/14 10:10:11 DnxTczUe
CPUIDのラッパーって何処かにありますかね？
AMDをIntelにしてみたいわ

191:Socket774
09/01/14 18:34:14 lwd4r2lk
少し前の一時期は投機的マルチスレッディングの名前をよく見かけましたが
最近はさっぱり見かけないですね、どうなったんでしょうか・・・

192:Socket774
09/01/14 20:12:30 23/uSD+6
投機は電力消費をアップするし、金融でも世界的に大失敗したのでRDRAM並に
嫌われてるかと。

それ自体の優秀さや素晴らしさは別にして、ご縁が無くなってしまったという
感じでしょうか。

193:Socket774
09/01/14 20:17:24 dF9rf0RZ
こういうのは、いずれ見直されてまた浮上してくるもんですよ。
この業界、古い技術を捨てちゃあ拾い捨てちゃあ拾いの繰り返しです。

194:Socket774
09/01/15 10:08:52 nq3JoXmf
マルチコアでは解決できない問題の解決方法としては
投機的マルチスレッディングも有効だとは思うけどね。

195:Socket774
09/01/15 10:23:21 EjuibTwi
フィックスターズのあれ、インラインアセンブラ禁止になったんだ

196:Socket774
09/01/15 15:55:13 4GJ6NE0P
団子イ㌔

197:,,・´∀｀・,,）っ-○◎●
09/01/15 16:00:55 H3MgyReA
逆だ。解禁になった。

そもそもアセンブラなんて元々使ってない。
こちとらコンパイラを飼いならすのは得意でね。

当然アセンブラなしで挑むお

198:Socket774
09/01/15 17:03:25 3/W/M2xv
>>197
CPUを発熱させるためだけ　のソフトを今度作って

199:Socket774
09/01/15 18:45:35 F6aFw68/
内蔵キャッシュへの読み書きだけを繰り返す発熱プログラム、ってのが昔有った覚えが。

200:Socket774
09/01/15 18:57:30 9unu/ml/
量子力学における計算の物理現象としての発熱をも利用すると
理論値にさらに近づけるかもしれない。

201:,,・´∀｀・,,）っ-○◎●
09/01/15 19:16:53 H3MgyReA
なにげにCPUに満遍なく負荷かけるのって実は難しいんだよ
L1にクリーンヒット＝L2が暇になりがち
prefetch*とかmovnt*とか使いまくればALUとメモリ同時に負荷かけるのって可能かもね

202:Socket774
09/01/15 23:25:26 4lL3Oq+l
どうして団子って一つのレスでまとめてかけないの？

203:,,・´∀｀・,,）っ-○◎●
09/01/16 03:15:13 cG/ZDzWO
だんごは和スイーツ（笑）だから

204:Socket774
09/01/16 11:58:35 2IVuCnUE
だんごなら串に刺してまとめろよｗ

205:Socket774
09/01/16 12:11:10 So/op+yX
ダンゴさんは串の使い方が上手だからな

206:Socket774
09/01/16 14:53:53 iNJKhWrI
竿使いはダメなようだがな

207:Socket774
09/01/16 20:36:29 V7mMMKaE
つか、まだ使ったこと無いし

208:,,・´∀｀・,,）っ-○◎●
09/01/17 14:22:20 xXVneMfi
汗ばんだブラ使用禁止

209:Socket774
09/01/17 15:31:55 NwEB/rJG
おいおまいら
今のx86CPUって互換性維持するために拡張しまくったツケで無駄が多すぎるだろ

もうさ過去との互換性を無くした新規設計にして
無駄を一切排除して性能だけを追求したCPU出せよな
古いソフト使いたい奴の為にエミュレーションを支援する機能を付けとけば最強だろ

210:Socket774
09/01/17 15:43:53 gYVvxEZp
Crusoe使い涙目
コードモーフィングって最近聞かないな

211:Socket774
09/01/17 15:45:33 GX8KGX4H
そんなに無駄は無いんじゃ？デコーダにちょっと回路規模が必要なだけでしょ。
PPC使った高性能サーバーも、SPARCも電力食いだし、他がそんな飛び抜けて高性能な訳じゃないよ。

212:Socket774
09/01/17 15:46:07 GX8KGX4H
おおっと、ついPPCなんて言ってしまったPOWERになおしとく!

213:MACオタ＞209 さん
09/01/17 15:46:36 g9YFfwY+
>>209
そんなあなたには「龍芯3号」をお勧めします。
URLﾘﾝｸ(eetimes.jp)
　　--------------------
　　Godson-3は4コア品と8コア品ともに、低リーク電流の65nmプロセス技術で製造し、1GHzの
　　クロック周波数で動作する。リコンフィギュラブル（再構成可能）なCPUコアとL2キャッシュを
　　備えており、分散型のスケーラブルなアーキテクチャを特徴とする。x86対応のバイナリ・
　　トランスレーションやメディア・アクセラレーションに向けた200以上もの追加命令を備える
　　MIPS64コアも搭載している。
　　--------------------

214:Socket774
09/01/17 16:42:51 cYQlThiD
まあ独自なチャイナ製はなかなか世に出回らないからなあ。TD-SCDMAはようやく出回るみたいだが。

でもチャイナ製でも独自規格でもなんでも、欧米に対抗する気概は応援したいが。

215:Socket774
09/01/17 16:44:05 Ru+W9yX1
龍芯って、コアがどっかのCPUの丸パクリじゃなかったっけ？

216:Socket774
09/01/17 16:47:15 GX8KGX4H
日本にもTRONプロセッサなんてもんがあったねぇ。
スーパー301条がなければ今頃は…やっぱ駄目だったかもね（爆）

個人的に坂本っちゃんは嫌いｗ

217:Socket774
09/01/17 17:10:11 CldkwIVq
日立・・・

218:Socket774
09/01/17 17:15:43 GX8KGX4H
日立って68000のセカンドソースと、Z80の拡張品とかつくってたけど、独自アーキテクチャーなんかあったの？

あーH8とかSHとかあったな。H8はレジスタ構成とか68000のパクリっぽいけどｗ

219:Socket774
09/01/17 17:47:36 pEZQ2Gw5
>>209
つi860 IA-64itanium
これらは過去のしがらみを絶つために作られたが、失敗intelはx86を続ける
ことにした。

>>215 Mipsのパクリ
URLﾘﾝｸ(pc.watch.impress.co.jp)
ところでこの記事の下で紹介されてるロシア製E2Kは言われてるほどの
性能が出たのかな?

>>216
TRONチップはCISCだったが、P6のようにCISC⇒RISCへの命令変換実行を備える
ようになれば今でも通用したかも。

220:Socket774
09/01/17 18:31:49 GX8KGX4H
暇なのでCISC、RISC論争を蒸し返してみるｗ

CISC、RISC、VILWと色々あるけど、
どの方式も結局コンパイラが抽出した以上の命令数しか実行できない訳で、
命令の並びだけ考えるなら、命令の伝送フォーマットがCISCはトリッキー、
RISCは垂直、VLIWは水平ってだけで、大筋あまり違わないのでは無いか?

速度の差はどこで出るかというと、時間あたりの命令／データ供給量&実行量に縛られるような気がする。

221:Socket774
09/01/17 18:43:22 o8X+iDH2
?
ILPを分けるとすればインオーダかアウトオブオーダかVLIWかじゃないのか

222:Socket774
09/01/17 18:49:33 GX8KGX4H
そもそも言葉の扱いもなんか変だ。
CISCってのはRISCが出てきたときに、RISC以外って意味でつけた言葉らしい。
もしそうだとするとCISCの特徴的な定義は歴史を使ってしかできないと思うんだけど。

RISCって言葉の定義も色々な情報が錯綜してる。
うちが初めてRISCって言葉を聞いたのはPC-98x1VXとかを使ってる頃で、
縮小命令だけじゃなくてパイプラインとかハードワイヤードロジックとか
ハードウエア的な高速化のテクニックも合わせて紹介されていた。

でも、よく考えると
パイプラインやハードワイヤードロジックは縮小命令じゃなくても使える技術だし
それをもってRISCとするのはなんかおかしいと思う。

思うにBerkeley RISCの信者がRISCの定義を広範囲に適応させすぎているような気がするのだけどどうよ。

223:Socket774
09/01/17 18:51:52 GX8KGX4H
>>221
命令の供給においてはどうよ？

224:Socket774
09/01/17 19:20:50 pEZQ2Gw5
命令を縮小することで構成を簡素し、スーパースケーラ/パイプライン/大容量キャッシャ
など高速化のための機構を搭載することができたのが初期のSPARCやMIPSじゃなかった
か?
x86はプロセス技術をriscより進歩させ大量のトランジスタ素子を詰め込むことに
よりスーパースケーラ　パイプライン等の高速化機構を搭載できるようになった。
それにアウトofオーダーを取り込むにはrisc命令が必要だったと聞いた。

225:Socket774
09/01/17 19:21:22 GX8KGX4H
>>221
アウトオーブオーダーはどのCISC、RISC、VLIWのいずれでもやろうと思えば実装できちゃうし、
コンパイラと命令セットの因果関係が薄れてしまうので、
プロセッサーはインオーダーかVLIWを想定して欲しい。

226:Socket774
09/01/17 19:27:31 GX8KGX4H
>>224
私も初期のMIPSやSPARCはそうだったと思う。
古い半導体技術や、限られた回路規模の中で、
高速なCPUな作るために、
パイプライン/スーパースケーラ/大容量キャッシュが必要で、
それにフィットするのがRISC ISAだった。

x86は、自社のプロセッサーを高速化していく過程で
386ではキャッシュを、486ではハードワイヤードロジックを
P5ではパイプラインを、P6では内部RISC+スーパスカラを取り入れたと思ってる。

227:,,・´∀｀・,,）っ-○◎●
09/01/17 19:30:59 xXVneMfi
一部の命令をマイクロコードでデコードするなんちゃってRISCは何なのかね。

228:Socket774
09/01/17 19:32:23 GX8KGX4H
x86は内部RISCと呼ばれているけど、
内部VLIWにはできないのだろうか?

内部VLIWと言えばCrusoeやEfficeonだけど、
これらは変換がソフトウエアだったので、速度がでなかった。

でもハードウエアでCISC→VILWへ変換したらそっちのほうが
CISC→RISCより高速な気がする。

229:MACオタ＞団子さん
09/01/17 19:32:51 g9YFfwY+
>>227
　　-----------------
　　一部の命令をマイクロコードでデコードするなんちゃってRISC
　　-----------------
デコード後の命令もISAに定義された命令なのですが、何か問題があるのでしょうかね？

230:Socket774
09/01/17 19:34:13 GX8KGX4H
>>227
マイクロコードでRISCを作っちゃいけないのかな?
そんなプロセッサーだってやれば、作れてしまうわけで、
マイクロコードはCISCかRISCかに関係ないと思うのだけど、どうよ。

231:,,・´∀｀・,,）っ-○◎●
09/01/17 19:38:54 xXVneMfi
CISCはRISCに対する造語なわけだけど
その当時はマイクロコードはCISCの特徴と言われてたんだよ。

ARMみたいな【拡大】命令セットをRISCの代表格かのごとく言うPattersonも
たいがいだけど。

232:Socket774
09/01/17 19:42:48 GX8KGX4H
>>231
歴史的な経緯はそうかもしれないけど、
だからってマイクロコード=CISCってのをいつまでも唱えているのも良くないんじゃない?
RISCだってマイクロコードで実行できるんだし。マイクロコードは万能チューリングマシンだよ。

233:,,・´∀｀・,,）っ-○◎●
09/01/17 19:45:10 xXVneMfi
>>229
早速馬鹿が食いついた
相手にしてやるか

単精度用ハードまでしかないCellのPPEみたいな実装では倍精度命令を実行するには、
いくつかの命令に分解して実行するわけだけど、マイクロ命令の中間実行結果は
普通の命令を普通に使ってたら使えない裏レジスタに格納されるんだろ？
それが、外部命令と同一っていえるのか？

それとも、表に見えてるレジスタを使うけどどっかのメモリにpush/popしてるのか？
だとしたらそれが「パイプラインストール」する理由の説明になっちゃうがな。

234:Socket774
09/01/17 19:48:47 GX8KGX4H
どうしてCPUの内部が外部と一緒でないといけないの?
プログラマから見える実行モデルが同一に見えれば同じように扱えるじゃん。

235:Socket774
09/01/17 19:50:04 +2usPOXd
まーVLIWの教義には並列性の抽出はコンパイラで事前にやっちゃうから
OoOをハードウェア実装しなくてよくて軽いってのもあったはずなんだけどね

現実にはきびしーItaniumもやっぱりOoO積もうかどうしよっか考えてるらしい

236:MACオタ＞団子さん
09/01/17 19:50:18 g9YFfwY+
>>233
　　----------------
　　マイクロ命令の中間実行結果は普通の命令を普通に使ってたら使えない裏レジスタに
　　格納されるんだろ？
　　----------------
妄想以外のソースをお願いします(笑)

237:,,・´∀｀・,,）っ-○◎●
09/01/17 19:52:06 xXVneMfi
もういいよ。馬鹿はやっぱり馬鹿だった。
シャドウレジスタがあるのは常識なのに。

238:,,・´∀｀・,,）っ-○◎●
09/01/17 19:55:47 xXVneMfi
一応聞いておくか
PS3のPPE/SPEの倍精度積和命令はいずれもマイクロコード実装だけど
何の命令に分解されますか？

外部命令と同一とか馬鹿丸出しだろ

239:Socket774
09/01/17 19:55:51 GX8KGX4H
>>235
VLIWの極意は並列性を予めコンパイラ側で抽出しておいて、
デコーダーは無くても良いってのがあるけど、
実際には命令の後方互換性を考えないとならないので、
デコーダーが必要になってるってのはあるね。

あとNOPで実行ユニットが埋まらない場合は、
やっぱりCPUのほうで命令最適化したくなっちゃうのかも。

240:MACオタ＞235 さん
09/01/17 19:57:12 g9YFfwY+
>>235
　　-------------------
　　ItaniumもやっぱりOoO積もうかどうしよっか考えてるらし
　　-------------------
この研究のことなら、プロセッサの開発期間が数年に及ぶことを考慮しても古いアイデアと化してる
と思いますよ。
URLﾘﾝｸ(download.intel.com)

241:Socket774
09/01/17 19:58:41 GX8KGX4H
おおっと、間違えてるｗ

命令で実行ユニットが埋まらない場合にはだｗ>>239

242:MACオタ＞団子さん
09/01/17 20:00:14 g9YFfwY+
>>238
　　---------------
　　PS3のPPE/SPEの倍精度積和命令はいずれもマイクロコード実装だけど
　　何の命令に分解されますか？
　　---------------
どうやら団子さんの頭の中ではパイプライン化されていない命令は、全てマイクロコード実装という
ことになっているようですね。
多くのプロセッサで浮動小数点除算はパイプライン化されていませんが、全てマイクロコード実装だと
思いますか？

243:,,・´∀｀・,,）っ-○◎●
09/01/17 20:01:24 xXVneMfi
「マイクロコード」って明言してるのにソースも読めないんだな。

244:Socket774
09/01/17 20:06:57 Ru+W9yX1
マイクロコードって焼き加減はウェルダンで良いの？

245:,,・´∀｀・,,）っ-○◎●
09/01/17 20:08:29 xXVneMfi
URLﾘﾝｸ(www.ibm.com)
> PPEのマイクロコード化されたオペコードは以下のものを含みます:
>
> * CRレコーディング命令 (Rc=1)
> * シフト量をレジスタで指定されるようなシフトおよびローテート命令 (即値で指定されるのとは対照的に)
> * 符号拡張ロード/ストア命令、異種ロード/ストア命令、ストリングロード/ストア命令
> * 32byte境界を跨いだデータキャッシュアクセスや倍精度浮動少数の奇数ワード境界へのロード/ストアを含むミスアラインアクセス

実測した限りではこれだけじゃない。
ロード・ストアアドレスの補正って如何考えても一時保存用のレジスタが何個か必要なんだけど
裏レジスタ使わずにどうやって実現するの？

246:Socket774
09/01/17 20:08:58 GX8KGX4H
さて、命令についてもっと考えてみると

CPUへ供給される命令は命令デコーダーで分解されて、
最終的にはMOSトランジスターの制御線に接続されるわけだけど、

原始的なVLIWの場合は、命令1ビットが1ゲートに対応すればデコーダはいらない。
その分ビット数は膨大になるからLong Instruction Wordなわけ。

CISCやRISCの場合には、命令はデコードされて、
やっぱり最終的には制御線の情報になる。

ただこのデコードは色々な方式を選べて、
CISCでもRISCでもマイクロコードを使えるし、ハードワイヤードロジックにもできる。
マイクロコードは、各制御線への情報をある一定のビット数まとめた物ね。

そうするとRISCかCISCかってデコーダーの前だけの話しじゃない?

247:Socket774
09/01/17 20:10:18 +03iLcMQ
>>235
一応Poulsonではそうなるって話だな
URLﾘﾝｸ(japan.cnet.com)
どうせ製品が出てくるのは2012年とかだろうからどうでもいいけどｗ

248:Socket774
09/01/17 20:11:43 GX8KGX4H
正直、いま議論されているように
命令が制御情報に変換された後に、どのようにCPU内部で処理されるかは、
CPUの実装に依存するので、それこそCISCもRISCも分けられないと思うんだけど。
だって、そんなの設計者の心一つでどうにでもなっちゃうじゃない。

249:Socket774
09/01/17 20:16:19 +PaBnC+B
昔の言葉を引きずっているだけだろ。
よく言われるように明確な境界は薄れつつある。

250:Socket774
09/01/17 20:20:06 GX8KGX4H
>>249
うん。
だから、今時CISCとRISCで争うそうなんて過去の亡霊に取り憑かれた議論はやめようよ!
っていう事を訴えたかったのでした。

#もっとプロセッサーを高速化するための本質的な議論をするべき!

251:Socket774
09/01/17 20:23:23 JEn455N5
とはいえ歴史的にはRISCは大発見だったのは事実
マイクロコードを直接実行する機械はそれ以前からもあったのだが

252:Socket774
09/01/17 20:25:58 GX8KGX4H
マイクロコードも、時分割実行される垂直型と、同時実行される水平型があるよね。
まぁ、たてに積んで時間をかけるか、横にのばして１度にやるか程度の違いだけど。

253:Socket774
09/01/17 20:28:10 GX8KGX4H
Seymour Roger Crayはやっぱり天才だ!
と言ってみるテストｗ

#Berkeley RISC信者的踏み絵!(とか言ってみる(何

254:Socket774
09/01/17 20:44:25 GX8KGX4H
>>251
251さんがRISCの発見を何年としたいのか知らないけど、
それ以前にあったマイクロコード直接実行マシンって具体的に何か教えて頂ければ幸いです。

255:Socket774
09/01/17 20:47:12 GX8KGX4H
もし水平型マイクロコード実行マシンだったら、
VLIWマシンがかなり昔(?)からあった事になるのでちょっとした発見かもｗ

EDVACとかはどんな命令だったのかな、日本語の文献が欲しい!

256:Socket774
09/01/17 21:04:55 JEn455N5
マイクロコードを持つリソースのないミニコンを除外すると
敢えてマイクロコードを持たなかったのはCDC6600など
水平型マイクロコード実行マシンなら、Floating Point Systemsなど(1970年代後半)

257:Socket774
09/01/17 21:06:55 JEn455N5
演算器を並列に動かすというアイデアは自明なので、
ENIACや解析機関からありました

258:Socket774
09/01/17 21:18:46 GX8KGX4H
>>256
おおおーっ。
CDC6600やFloating Point Systemsは良く文献に出てくるマシンですね。
CDC6600はCrayが設計した最初のマシンなので興味ありまくりです。元祖RISC!
あの、ちょー丸いブラウン管コンソールをどう使うのかも知りたいｗ

>>257
なるほどー。解析機関の時代からあったとはー。
たしかに設計してると自然に思いつきますもんね。

259:Socket774
09/01/17 22:12:28 Va8f8W7r
発見と言うよりも、高級言語の普及に伴う高機能化にそった盲信・盲点を
定量的に否定し「逆」に振る事によってより速くした
だから非常にエキセントリックな印象を世間に与え強く印象付けた。

260:Socket774
09/01/17 22:15:10 Va8f8W7r
まぁでも801がstart pointだったんだろうな、
そして801は当初色々あるｱｲﾃﾞｱの内の突拍子もないone of thenと
多くの人が思い込んでいた。それをひっくり返したｗ

261:Socket774
09/01/17 22:15:49 GxjIQowz
いや、発見でいいんだよ
オリジナルの論文読んでみな

262:Socket774
09/01/17 22:27:42 GX8KGX4H
>>261
それは論文に「発見」という単語が使われているという意味ですか?

263:MACオタ＞団子さん
09/01/17 22:32:46 rdp4y8zz
>>245
例に挙げられた命令に『倍精度積和命令』は含まれていませんよ。
日本語のソースなのに何か違うモノが見えているのですか？
>>238
　　-----------------
　　PS3のPPE/SPEの倍精度積和命令はいずれもマイクロコード実装だけど
　　-----------------

264:Socket774
09/01/17 23:01:27 MlBzxCQR
>>226
という事はプロセスのシュリンクが原子の壁に阻まれ始めた今こそ、RISC復活の期待が出来るって事か。

265:Socket774
09/01/17 23:08:35 GX8KGX4H
>>264
シリコンはまだ壁には当たってないよーな気がする。
シリコン以外の材料が見つからない内は原子1個になるまで、電極材料を変えつつ微細化していくんじゃないかな。
プロセスの開発はものすごーくお金掛かって難しいけど、それは昔から言われてきた事だし。
Mooreのおっちゃんもあと10年くらいはなんとかと言ってたので2018年ぐらいまではｗ
ま、先の事は分からないけどねｗ

プロセッサの規模が、著しい問題に発展しない限りは縮小命令の復活は無いというのが個人的な予想。
規模以外にハンデ無いし。

266:Socket774
09/01/17 23:15:08 GX8KGX4H
あといまのx86の最高性能のチップと同じくらいの性能を実現しようとすると、
演算器とかゲートを高速で駆動しなければならないのは、命令セットとは関係ない話しなので、
性能を求めるならばそんなに消費電力に違いが出ないと思うよ。

実際GPUはx86じゃないけど、ブン回せばあっちっちでしょ。

267:,,・´∀｀・,,）っ-○◎●
09/01/17 23:46:03 xXVneMfi
>>263
んで、マイクロコードによって内部命令が外部命令と同一のソースは？脳内CPUの話なんて聞いて無いぜ？負け犬くんよ。

268:,,・´∀｀・,,）っ-○◎●
09/01/17 23:50:51 xXVneMfi
俺が提示した奴は、あくまで拡張版Cellでも直ってない例だから代表例として挙げてあるんだろ。
「倍精度演算命令がマイクロコードで実装されているわけではない」という珍説の裏付けではない。

269:Socket774
09/01/18 00:00:18 JEn455N5
一般論だが、団子のあげた例はステートマシンでも実装はできるよ
どうも君たち決めつけが好きなようだ

270:,,・´∀｀・,,）っ-○◎●
09/01/18 00:00:35 xXVneMfi
んで分解されたオペレーションはどこのレジスタ使って処理するんですか？
ミスアラインロード／ストアに対する補正処理なんて、テンポラリレジスタを使って処理される典型例じゃないか。
テンポラリ用のレジスタがISAから見えるの？汎用レジスタの中身破壊するの？馬鹿なの？死ぬの？

271:,,・´∀｀・,,）っ-○◎●
09/01/18 00:01:37 fYhGXf2B
すまん言い過ぎた

272:,,・´∀｀・,,）っ-○◎●
09/01/18 00:13:29 fYhGXf2B
ちなみにP6以降のx86アーキテクチャはロード・ストアを分解して処理されるから
汎用レジスタではなくテンポラリ用途に割り当てられてる物理レジスタが大量に存在してるわけで。

Intelは、haddpsとかdppsなんかがそうだけどマイクロコードを使ったSSE命令を新設してる。
内部的にはシャッフル命令とか加算とかの組み合わせやってるだけなんだけどね。
x86においてマイクロコードはハードウェア負担の大きいレガシー命令の動作を実現するための
互換性確保の方法だけでなく、複数命令の組み合わせでやると論理レジスタを食ってしまう
ような処理を、見た目上のレジスタの消費を節約して実現する方法でもあるのだ。
あと命令サイズの節約という意味合いもある。

273:Socket774
09/01/18 00:27:24 mupgZAUx
>>272
x86はISA上に定義されているレジスタ数が少ないので、
たくさんの内部レジスタを用意してハザードを解消しているって事でいいのかな。
（すくなくとも今までの自分の理解はそう。）

なかなか工夫してマイクロコード使ってるってるんですね。>内部

ところで、haddpsとかdppsがマクロコードを使ったSSEになってるっていうのは、
最近の最適化ガイドを見ると書いてあったりするのでしょうか？

もし書いてなければクロック数を測って予想するって方法もあるけど、
この場合だと本当かどうか分からないし。

あるいみプロセッサーのアーキテクトじゃないと見えない構造とかもあるとおもうのですが、
その辺はどう判断されていますかー?

274:Socket774
09/01/18 00:33:14 mupgZAUx
あーでも、（垂直型)マイクロコード本来の目的は限られたハードウエア資源を
有効に使うことだったから、普通なのかも(爆)>有効利用

275:Socket774
09/01/18 00:48:56 /nQvWRCA
マイクロコードの利点は
・使いやすISA
・ISAの互換性
・性能向上(メインメモリのかわりにマイクロコードROMからのフェッチ)

8080のようなCPUでも、内部レジスタは沢山あるよ

276:Socket774
09/01/18 00:51:23 4/tK7yya
それﾁｮｯﾄ意味違わない？ｗ

277:,,・´∀｀・,,）っ-○◎●
09/01/18 00:51:49 fYhGXf2B
基本的には計測。
スループットサイクルが複数かかる命令の大半は、内部マイクロオペレーションも複数かけてる。
一部、マイクロコードじゃなしに純粋にマルチサイクルかかるループで実現されてる機能もあるけど（例：浮動小数除算等）。

Pentium 4は内部3オペランドだったから、マイクロコードで提供された新命令は、無理に同等機能を
ソフトレベルでの命令の組み合わせで実現するよりも速かった。
3オペランドならレジスタ間ムーブ命令が省略できるわけだからね。

278:Socket774
09/01/18 00:58:00 mupgZAUx
8080のようなCPUでも、内部レジスタは沢山あるですか! それは初耳れす!!!
でも、回路見た分けじゃないし、あるかもですねー。

ところで、80x86/80x87 ファミリーハンドブック
ISBN4-87408-588-1に、ちょっとページを今見つけられないのですが、
8086も2段のパイプライン処理が行われているってサラっと書いてあって、
最初読んだ時、「ええっ！？」と思ったのですけど、
これの詳細についてご存じの方はいませんか?

279:Socket774
09/01/18 00:59:54 mupgZAUx
ごめんなさい、署名がちょっと間違ってました
80x86/80x87 ファミリーテクニカルハンドブック
Robert L.Hummel著です。

280:Socket774
09/01/18 01:02:41 mupgZAUx
あぁページを見つけました39ページです。
BIUと実行ユニットを分けたとあります。

8086もパイプライン処理入ってると分類に入れても良いのでしょうか?

281:Socket774
09/01/18 01:08:47 mupgZAUx
そういえばZ80のALUは4bit+4bitと聞いておりますが、
回路的にはこの4bit+4bitの部分は内部接続的に直接ユーザーに見えていたんですか?
ユーザー(プログラマ)に見せるレジスタは結果だけかな（謎）

#すいませんちょっとお酒入って止まらなくなってます。

282:Socket774
09/01/18 01:09:08 +pWB7Ltu
こらまた古い本持ち出したなｗ古本屋街の方から来た方ですか？
冗談さておきﾊﾟｲﾌﾟﾗｲﾝはもっと前のCPU、6502などにもとっくに入っていた。

283:Socket774
09/01/18 01:10:07 mupgZAUx
あーでもレジスタ=演算器がじゃ無いから、>>281は違うですね。(あほ
限りなく近い位置にあるという可能性は高いですけど。

284:Socket774
09/01/18 01:11:54 +pWB7Ltu
>>281
cycleが長目かな？という以外見えなかっただろうよ
というか、もう覚えていない。
6309の8X8=16bitは何となく記憶にあるようなないような、ﾓﾚも酔っぱらったｗ

285:Socket774
09/01/18 01:12:49 mupgZAUx
>>282
いえ、昔からコンピューターに興味があったので、
まだ本が出てたぶん1年以内に買っていると思います。（とﾈﾀにﾏｼﾞﾚｽ

おおー、6502あたりからパイプラインってあるんですねー。それは初耳だー。
じゃあ、8086/8088にパイプラインがあっても何も不思議じゃ無いですね。

286:Socket774
09/01/18 01:15:03 +pWB7Ltu
>>285
あーそうなんだ、25年くらい前にASCIIから出ていたハンドブックシリーズとは別物ね
こらまたとんだ失礼をば

287:Socket774
09/01/18 01:15:28 /nQvWRCA
6502にパイプラインはないよ
アドレス計算の下位8ビットからのキャリーをないものとして投機的にメモリアクセスするのを
当時の雑誌アスキーが間違えたというのが真相

288:Socket774
09/01/18 01:16:54 +pWB7Ltu
ｳｸﾞﾚｶｽ大明神は何でもお見通しよｗ
ほーれ、お布施を弾んでおくんなさいましｗ
URLﾘﾝｸ(www.google.co.jp)

289:Socket774
09/01/18 01:18:29 /nQvWRCA
だからそれは全部アスキーの間違いが大元なんだって

290:Socket774
09/01/18 01:18:51 mupgZAUx
>>284
HalfCarry Flagとかあるあたりはなんとなくそうかなと、
自分でも感じた事があるんですけど、HalfCarryって
6800にも6809にもあるので、あるのが普通なのかとか思ったりもしました。
6800や6809の演算器はどんな構成になっているんでしょうね（謎）

6309なんてのもあったんですね。それは自分は知りません（；；

291:Socket774
09/01/18 01:19:51 +pWB7Ltu
>>287
それﾏｼﾞ？そしたらﾓﾚは30年間騙されていたわけだｗ
こりゃ参ったｗ
いやでもたしかnopがなくなるとかfetchとdecodeが重なっていると聞くがな
ｱﾚもｶﾞｾか…
そのとき実は歴史が動いていなかったって訳か

292:Socket774
09/01/18 01:19:53 mupgZAUx
>>286
本の出版社は技術評論社になってます。

293:Socket774
09/01/18 01:21:04 +pWB7Ltu
>>292
それ別の本の希ガス

294:Socket774
09/01/18 01:23:50 mupgZAUx
本の説明によるとフェッチと実行を同時に行うのでパイプラインという事らしいです。
プリフェッチできればパイプラインなのかと、謎は深まるばかりです。

295:Socket774
09/01/18 01:29:20 /nQvWRCA
6502は2相クロックで動いています
ある程度の重畳処理は8080もやっているので、6502の特徴というほどでもないです

296:Socket774
09/01/18 01:32:44 +pWB7Ltu
Half carryが何だったのか思い出せなくてｽｯｷﾘししなかったのでググッテ見たら
09のManualって、いまはWEBで見られるのね…
高い金払って買ったのがいまとなっては懐かしす
MC6809-MC6809E 8-Bit Microprocessor Programming Manual [M6809PM/AD] (c) Motorola Inc., 1981
URLﾘﾝｸ(www.maddes.net)
読んで記憶が蘇った。DCB8bit加算のcarryだったってこと

297:Socket774
09/01/18 01:33:09 /nQvWRCA
ハーフキャリーというのはDAA命令で必要になるものなので、Core2にも残ってると思う

298:Socket774
09/01/18 01:36:56 mupgZAUx
>>295
6502は2相クロックなんですかー。
8080みたいに外部からφ1とφ2を供給するタイプなのかな。

Z80は単相クロックだったけど、その昔
「Z80は単相クロックだYo!」って先生に自慢げに言ったら
「内部で位相ずれたクロック作ってるに決まってるだろゴラァ」と言われたのを思い出します。
まぁ、確かに位相ずれたクロックあるとプロセッサの設計圧倒的に楽ですけどｗ

299:Socket774
09/01/18 01:39:33 d682ZNqY
pll

300:Socket774
09/01/18 01:40:01 mupgZAUx
>>297
でもユーザにわざわざ見せる必要ってあるのでしょうか?
DAA命令が使えれば良いような気も。

301:Socket774
09/01/18 01:42:44 mupgZAUx
>>299
PLLはVCO+位相比較機+分周機ですけど、
当時のプロセッサ内にアナログ回路も同居できたのでしょうか?

阿保なのでゲート遅延による位相作成とか安易に考えてしまいます。
ただこの方法だと、クロックに対して動作範囲が狭まりそうですけど。

302:Socket774
09/01/18 01:45:33 /nQvWRCA
>>300
ユーザーからは直接操作できない
フラグレジスタ経由で見えるだけ

303:Socket774
09/01/18 01:58:02 mupgZAUx
>>297
Core2のAFフラグって、EAXの下位4bitの為だけにあると思うとめっさ贅沢ですねｗ

304:Socket774
09/01/18 01:59:18 SFEIiJh4
>>300
ﾏﾙﾁ絡むのDCB加算の繰り上げに必用では？

305:Socket774
09/01/18 02:01:33 mupgZAUx
>>304
DCBってBCDって事でいいですか?(///

306:Socket774
09/01/18 02:04:06 SFEIiJh4
>>305
yes, Binary Coded Decimal

307:Socket774
09/01/18 02:09:52 mupgZAUx
>>304-305
はい。BCD演算するにはあると便利なフラグだと思うのですが、
計算はすぐライブラリという人様に書いて頂いたアンチョコに頼るヘタレだったので、
Z80あたりだと、jp命令にHフラグを見て分岐するのがあったかなーと考えると
自分は使ったことが無いよーな気がします（恥）

308:Socket774
09/01/18 02:16:42 mupgZAUx
まとまりのない話しになってしまいましたー。
そろそろ寝ます。おつきあい頂いた皆様ありがとうございましたm(__)m

309:,,・´∀｀・,,）っ-○◎●
09/01/18 10:52:54 fYhGXf2B
> DAA
64ビットに引き継がれなかったレガシー命令ですね。
MMX/SSE使って一桁に1～2バイトでも割り当てたほうが性能出るもんよ
Larrabeeあたりで別の命令が割り当てられてるかもしれないよ。

310:Socket774
09/01/18 11:14:36 w0dAa3Mr
現行のintel x86の命令セットのうち、
ICC,GCCが使わない命令ってどれくらいあるんだろう。

311:,,・´∀｀・,,）っ-○◎●
09/01/18 11:29:13 fYhGXf2B
add [mem], reg
みたいなの全般あんまり見ないね。
LOCKプリフィクス付きならたまに使われるんだろうけど。

312:MACオタ
09/01/18 14:53:25 cuUYwD3x
ドイツのUnixユーザーグループguugの研究会資料ですが、最新および次世代プロセッサについて
なかなか良くまとまっています。
URLﾘﾝｸ(www.guug.de)
ここ、結構頻繁に同テーマで研究会を開いているので資料的に注目かもしれないですね。

313:MACオタ
09/01/18 14:57:57 cuUYwD3x
同じシリーズの研究会でのPOWERの宣伝プレゼンです。
URLﾘﾝｸ(www.guug.de)
p.12のPOWER6の各種パッケージの比較が興味深いのではないでしょうか。

314:Socket774
09/01/18 15:24:24 PjrPjfNp
ドイツ語じゃね～かｳﾞｫｹ
イッヒリーベディッヒしかわかんね～んだよ

315:Socket774
09/01/18 21:02:00 1NICfD97
>>314
だんけ

316:Socket774
09/01/18 21:23:20 s4yjYojk
びってしぇ～ん

317:Socket774
09/01/18 21:25:11 a+rg8Y9e
バームクーヘン

318:Socket774
09/01/18 22:15:15 PjrPjfNp
マノデピエドラ

319:,,・´∀｀・,,）っ-○◎●
09/01/18 22:18:34 fYhGXf2B
ﾉﾀﾝﾍﾟ　ﾃﾗｷﾓｽ

320:Socket774
09/01/18 22:24:10 GRIOyawU
フルヘッヘンド

321:Socket774
09/01/18 22:30:15 a+rg8Y9e
なるほどこれはうずたかい。

322:Socket774
09/01/18 22:35:52 wiaL1wN9
CPUの能力が2倍になると、使用率はどのように変化しますか？
半分になるのですか？　それとも0になるのですか？
半分になるような気もするし、10％能力アップで10％低下...と
減らしていくと0になるような気もします。

というのも、現在HT Pen4 531(3GHz)を使用しているのですが
E8400が2万円もしないという事実に衝撃を受け、
買い替えを検討しているからです。E8400の方が3倍以上速いと聞きました。
HT Pen4 531でCPU使用率80％の場合、E8400に買い換えたら
使用率がどのように変化するのは知りたいわけです。

もちろん、現実論としてCPUだけ変更するわけにはいかないので、
あくまでも単純にCPUを比較して考えた場合の話です。
教えてください。

あくまでも単純に考えた場合の話です。教えてください。

323:Socket774
09/01/18 23:40:59 KOjfPMtZ
単純に考えるなら能力なんて曖昧なものを２倍なんて具体的にあげないでください

324:Socket774
09/01/19 00:42:31 3WPi/uGV
単純にというのは、もし2倍差のCPUがあったとしたら...
というように考えて　という意味です。
Pen4 531とE8400はあくまでも実例として出しただけで、
この質問とはなんの関係もありません。

325:Socket774
09/01/19 05:48:23 XYoP20rU
>>323
突っ込む所はそこなのかｗ

326:Socket774
09/01/19 06:17:15 0flmS/c6
>>322,324
CPUの能力をどう定義するかに依存します。
使用率も何の使用率を測るかに依存します。

仮にCPUの周波数を能力に割り当てて、
使用率を演算器を利用するかどうかに割り当てるならば、
周波数を上げても、演算器を利用している数は変わりません。

仮にCPUに内包される演算器数を能力に割り当てれば、
演算器数を2倍にしても、それらを利用する様にプログラムを変えなければ、
演算器の利用率は50%に留まります。

CPUの能力と言っても、それは様々なパラメーター、
の集合体なので、一口には言えません。
2倍と言うならば何がどう2倍なのかという厳密な話しをしなければなりません。

327:Socket774
09/01/19 14:29:46 vLfylc0D
コアを2万個くらいつんで、消費電力は1W　　お値段が20円ならサイコー

328:Socket774
09/01/19 19:05:12 +n5R3a8o
ぶっとびCPUとかちょびっツのほうがいいよ

329:Socket774
09/01/20 00:09:26 Nj7Jwtka
>>327
すずめの脳がちょうどそんなくらいじゃね？
もう少し低パワーで低コストかな？

330:Socket774
09/01/20 06:08:23 VwyuwMsx
SH-Navi3
URLﾘﾝｸ(car.watch.impress.co.jp)

331:Socket774
09/01/20 22:09:40 98ctk5OP
>>329
つまり雀をニーモニックで完全制御できる未来がそのうち・・・。

332:Socket774
09/01/20 22:47:30 Nj7Jwtka
>>331
組み込み用途でバスが外に出ていないから
オリジナルなプログラムを実行させるのはちょっと面倒。
メモリ空間が非常に狭いのも欠点。

333:Socket774
09/01/20 23:16:22 98ctk5OP
つまりバスをつければ良いわけですね。

334:Socket774
09/01/21 02:01:30 9b2p14qa
それを俺らのデュアルコア仕様金玉に内蔵すれば・・・

335:Socket774
09/01/21 02:14:12 1vI4Foe7
サイズとか皮が余ってるとかはハードの問題なのでソフトではどうしようもないですよ。

336:Socket774
09/01/23 01:52:56 L93ND5XO

337:Socket774
09/01/23 19:31:32 0Muv4r8S
猫バスならぬ雀バスですね。分かります。

338:Socket774
09/01/27 21:57:00 Wtqw+DZT
　ヾヽヽ
　(,, ・∀・）ﾁｭﾝﾁｭﾝ
　ミ＿ノ
　　″″

339:,,・´∀｀・,,）っ-○◎●
09/01/27 22:01:15 lGkwqIrZ
　　　　●
　　　　◎
　　　　○
　　　　｜
　　　ヾヽヽ
　 (,,・´∀｀・,,）＜だんごやさんだよ
　ミ＿＿＿ノ
　　″　　″

340:Socket774
09/01/27 22:10:18 tjgiU6Ev
メタボ雀

341:Socket774
09/01/27 23:19:34 DKQVMD3Q
ファインディングニモのニモって、ニーモニックだから完全制御って意味だと俺は信じている。

342:MACオタ
09/01/29 19:28:12 AhGqSliq
次世代SPARC Rockはなんとか今年中には登場するとのこと。
URLﾘﾝｸ(www.theregister.co.uk)
　　--------------------
　　Yesterday, however, during a conference call with Wall Street analysts, Sun's president
　　and chief executive officer Jonathan Schwartz made a short and sweet statement intended
　　to quell any worries about Rock.

　　"I think we've said to plan on it for later this year, and we are still on track," Schwartz said.
　　--------------------

343:MACオタ
09/01/29 19:37:59 AhGqSliq
一方こちらはIBMのロードマップ。4coreのPOWER6の登場が迫っているようです。
URLﾘﾝｸ(www.itjungle.com)
　　------------------
　　You can see that Power6 is clearly supposed to be a multicore chip (rather than
　　two cores with Power6) that has higher frequencies than the Power6 and about
　　twice the performance of Power6. The roadmap shows the Power6/Power6+ combo
　　spanning 2007 through 2009, and Power7 not coming until 2010. I have a hard time
　　believing IBM can get clock speeds about 6 GHz. But a four-core, 6 GHz chip should
　　have about twice the bang as a two-core 5 GHz chip.
　　------------------

次ページ