CPUアーキテクチャについて語れ 11

CPUアーキテクチャについて語れ 11at JISAKU

CPUアーキテクチャについて語れ 11 - 暇つぶし2ch2:Socket774
08/07/02 20:58:53 UZs5WgxB
あーいろいろミスってるなｗ
じゃー次スレ>>1用テンプレ貼っとくか
---------以下をコピペ---------------

おいお前らいい加減、無能なAMD房・Intel房・GKに振りまわされず、
エンコ時間がどうとかPIがどうとかPS3がどうとかじゃなく、
CPUコアのアーキテクチャについて語りましょう。

x86/RISC/CISC/スーパースカラ/VLIW/MIMD/SIMD
等について語ってもよし、

フリップフロップ回路が小さいPentium Mマンセー、
CISCなのに内部はRISCなPentium 4マンセー、
x86なのに32/64bitコンパチなOpteronマンセー、
昔々8086の時代は(以下略・・・等もよし。

さあ、不毛な争いを止めてCPUアーキテクチャについて語ろう！

前スレ
CPUアーキテクチャについて語れ 11
ｽﾚﾘﾝｸ(jisaku板:1番)

【過去スレ】
Part 1　ｽﾚﾘﾝｸ(jisaku板)
Part 2　ｽﾚﾘﾝｸ(jisaku板)
Part 3　ｽﾚﾘﾝｸ(jisaku板)
Part 4　ｽﾚﾘﾝｸ(jisaku板)
Part 5　ｽﾚﾘﾝｸ(jisaku板)
Part 6　ｽﾚﾘﾝｸ(jisaku板)
Part 7　ｽﾚﾘﾝｸ(jisaku板)
Part 8　ｽﾚﾘﾝｸ(jisaku板)
Part 9　ｽﾚﾘﾝｸ(jisaku板)
Part10　ｽﾚﾘﾝｸ(jisaku板)　（スレタイは９）

自作板CPU系スレッド現行スレ案内＆過去ログ保存サイト
URLﾘﾝｸ(cpu.jisakuita.net)

3:Socket774
08/07/02 21:02:41 tQAhyygJ
　　　　　　　　　　 |:| 　r─'^`┐r─'^`┐rｰ'^ﾞ┐__ r┐|:|:
　 ,r"´¨｀ﾞ}　　　　..|:| 　{ニﾆ　ｺ　7 /Tコ .7./ｺT '-' l.｣:::|:|:
　{　 { ｀)　｝　 ☆..|:| 　{ o ﾉ二) /./ (`.ｺ .~{ o.ﾉﾆ). :O:::|:|:
　ヾ_`ｰy"　　　　 |:| 　|:| . ,r"´｀ﾞ､...|:|／:|:|::::::|:|::::::|:|::::::|:|:
　　　　｝ﾉ　　　　　|:| 　|:| .{　(´ }　｝:|:|::::::|:|::::::|:|::::::|:|::::::|:|:
☆　　{.(　　　　　　　　　　ヾ_,r",,ﾉ.:::::::::::::::::::::::::::::::::::::::::::::
.　　　　　/ L_　　　　　　　／｛.(~::::::::::::::::ぉ::::::::::::::::::::::::::
..／＼_ / z`__7　　　　　／::::::::)｝::::::::::::::::::終わった:::::::::
⌒⌒^/`ｰ-.{@　　　　／::::<'"'"'ｰz:::::::::::::::なにもかも::::::
　!＼/, -､.F|'　　　／:::::::,;''⌒ヾzﾆ^_, - ､;_;;__;;;:::::,__,:::::::::::
　`ゞ{＿且且､ .／:::::::y‐'‐""}}ヾ〉::||ｧ::::::::::::::《ｪfｭﾋ_>:::::::
　　　　　　　／::::::::::::::｀￣￣￣￣￣￣￣￣´::::::::::::::::::::::

4:Socket774
08/07/02 22:02:16 whmSZDog
>CISCなのに内部はRISC
これってP6以降全部そうなんじゃなかったっけ？

5:Socket774
08/07/03 00:25:00 9td1COHE
全部じゃないだろ。珍しくはないが。

6:Socket774
08/07/03 00:50:20 z+29W1hj
6502最高
ARM至高

7:Socket774
08/07/03 00:52:36 mRGl9dGy
cyrixとかriseはu-ops変換しないで
x86を実行するチップ作ってた
rise mp6とか量産されてないに等しい
出荷量だと思うが

8:Socket774
08/07/03 00:58:24 mRGl9dGy
6502は。。。
なんとパイプライン化されてて
nopならスループット1サイクルで処理できた
遠い親戚にあたる68000とは大違い

9:Socket774
08/07/03 02:06:28 XYrmOjRB
>>8
6502はパイプライン化されてないし、NOPは2サイクルだし、68000とは全く縁はない
6800とはピンコンパチに近い

10:Socket774
08/07/03 02:49:55 XYrmOjRB
6502の高速化のトリックは、
実効アドレス計算の下位8ビットのキャリーを待たずに投機的メモリアクセスをするところ
キャリーがあると1サイクル余分にかかる

どこからパイプライン化説が広まったのかは謎

11:Socket774
08/07/03 10:08:13 NGHeGnXN
Core2はなんでK8/K10とあんなに差がつくのん？

12:Socket774
08/07/03 14:02:50 XYrmOjRB
6502とARMは実際似ているところはほとんど何もないが
雰囲気みたいなものは確かに似ているな

6502 6800
ARM 88000またはMIPS
NOVA PDP11

13:Socket774
08/07/03 14:13:22 POYZJ+H4
松下、実装面積/消費電力を半減したTV向け「UniPhier」LSI
URLﾘﾝｸ(www.watch.impress.co.jp)

14:Socket774
08/07/03 14:59:40 XYrmOjRB
MIPSをアンチARMにした理由は
ストア命令のフォーマットをロード命令に合わせるために、デスティネーションレジスタからストア値を読み出すところだ
実装より審美学を優先しているところが実に非6502的だ

15:8
08/07/03 17:54:56 mRGl9dGy
>>8
リア中学生のとき、今はなき月刊アスキーで見た<6502パイプライン説

6502と68000は何も共通点はないけど
6800繋がりで

16:Socket774
08/07/03 19:36:05 fOZyhwJt
ｽﾚﾘﾝｸ(unix板)l50
UNIX板　SunMicroSystems最大の字余り
このスレでx86vsSparcみたいな議論起きてる。

17:Socket774
08/07/03 22:40:35 9HZwx563
どっかのライターが6502はパイプラインとか雑誌に書いちゃったのが伝説の始まり

18:Socket774
08/07/03 23:16:22 fGp7a8cS
>>16
毎度の事だろ
そのスレはそのスレでほっといておけ

19:Socket774
08/07/04 11:27:26 xGktx3iR
「Super πはCore2のキャッシュに入りきるからCore2でのπ焼きは速い」
ってよく言う人いるけど、本当にそうなんですか？

・Core2でのπ焼きが速い理由はそこなのか？
・入るならキャッシュに丸ごとプログラムを入れるものなのか？

詳しい人お願いします。

20:Socket774
08/07/04 15:47:59 3b/KqcMr
>>19
自分でBIOSからL2キャッシュを部分的に無効にしていって
タイム変化を調べろよ。

21:Socket774
08/07/04 16:11:25 ZP85Acv8
キャッシュ上だけで処理できるならそのほうが圧倒的に速いので
入るんだったら全部入れるようにするのが正義ではある

……他の処理とか抱えてたら配分とかいろいろ面倒になるっぽいけど

22:Socket774
08/07/04 16:14:50 n5/AV4BF
Freescale社の通信向けマルチコアプロセッサ、
ソフトウエア開発の面でマルチコア対応を支援
URLﾘﾝｸ(www.ednjapan.com)

23:Socket774
08/07/05 04:30:54 0gkKZX0K
>>22
…まあBTSとかのリファレンスデザインで、最近はStarCore+MPCよりStarcore+OCTEON or XLRが増えてたからなぁ。P4はちょうどそのあたりを奪還したいのだろうか。

24:Socket774
08/07/06 23:44:25 YZ8KYR/5
>>19
キャッシュに入らないアプリが殆どだからモッサリって噂も（ry

25:ヽ・´∀｀・,,）っ━━━━━━┓
08/07/07 02:17:50 p/5wzp0+
>>16
これか

> 304 名前：名無しさん＠お腹いっぱい。[sage] 投稿日：2008/07/03(木) 17:46:37
> >>284,287
> おまえら、『バカ』、だろ? なんの話してんのかわかってんのか? サル?
> x86 にこびりついてるやつってみんなそんなだと思われるぞ。
>
> で、繰り返すぞ、「技術的に同一条件で作ったら x86 は最低の ISA」。クソ。wwwww

まあ事実だろうね。SPARCアーキもたいがいだけど。

英語みたいな汚い言語が世界標準だったり
プログラミング言語でいえばPerlとかC++も汚いし。
でも、汚くなるほど使われてきたものってのはそれはすなわち実用的ってこと。

26:Socket774
08/07/07 09:34:11 OZS5DqXb
>>25
同一の物量で戦ったら日本軍勝つるみたいなもんか

27:Socket774
08/07/07 17:32:23 T5AMCDLv
同一の物量で日本軍が勝つなんてのも架空戦記だけの話だけどなw

28:Socket774
08/07/07 17:51:06 j99OYzKD
そんなに豊かだったらそもそもあんな時期に宣戦する必要がないな

29:MACオタ
08/07/08 22:00:24 jyYpyOba
VIAと組んでnano対応のチップセットを投入すると言われていたNVIDIAすけど、
Atom向けのチップセットに参入させてもらうことと引き換えに、VIAから手を引くという
話が出てきたす。
ソースわ、Digitimes。
URLﾘﾝｸ(www.digitimes.com)
　　--------------------------
　　Nvidia to possibly abandon VIA for Intel Atom
　　Monica Chen, Taipei; Joseph Tsai, DIGITIMES [Tuesday 8 July 2008]

　　　Although VIA Technologies and Nvidia entered into an alliance to cooperate in the l
　　ow-cost PC and MID markets earlier in the year, according to recent reports, Nvidia has
　　used the alliance as a bargaining chip to negotiate with Intel, demanding Intel allow Nvidia's
　　IGP chipsets to enter the Atom platform ecosystem, according to sources at PC makers.
　　　Nvidia's MCP73 IGP chipset only supports single-channel memory and offers relatively
　　low performance compared to current chipsets from both Nvidia and Intel making it a good
　　fit for the Atom platform.
　　　If Intel agrees to let Nvidia's chipset support the Atom platform, Nvidia will then terminate
　　its alliance with VIA. This could impact Taiwan-based chipset makers VIA and Silicon
　　Integrated System (SiS).
　　　Both VIA and Nvidia have refused to comment regarding the speculation.
　　--------------------------

30:Socket774
08/07/08 23:47:23 f0YHnw99
ロードとストアが非対称なのはARMじゃなくてPAだったわ
ハズカシ

31:Socket774
08/07/09 00:58:18 Jt32Evbc
VIAがNVIDIAを買收するという話はどうなったんだろ。

32:Socket774
08/07/09 16:00:53 5OkA7Foy
NDIVIA

33:ヽ・´∀｀・,,）っ━━━━━━┓
08/07/09 16:40:13 Ey3SP3O1
VIAﾆﾀﾞ

34:Socket774
08/07/09 20:45:34 5OkA7Foy
HPからのスピンオフのRidgeもPyramidもレジスタウィンドウなのに、PAは違うというのも面白い話だな

やっぱり当時でもレジスタウィンドウはだめぽという理解があったんだろうね

組み込みはまだ別として

35:Socket774
08/07/10 20:15:23 4CddEjSN
URLﾘﾝｸ(japan.zdnet.com)

36:Socket774
08/07/11 10:55:42 N4dW4/JG
MIT、低コストを実現する25nm半導体製造技術を開発
URLﾘﾝｸ(www.itmedia.co.jp)

らしいす

37:Socket774
08/07/11 13:53:12 +V+8Jwgk
さっぱり原理がワカラン……
簡単に量産化に対応できたらニコンとかが困るんだろうか

38:Socket774
08/07/11 15:37:01 tMI7903u
2種類のレーザーを用いて位相を調節し干渉によってレジストを反応させるのが干渉リソグラフィ。
今回のはそのレーザーを走査させてパターンを形成する技術じゃないかね。

マスクがいらない分安くはなりそうだ。
EBのレーザー版みたいなものかと。

適当に調べただけだから真に受けるなよ！

39:Socket774
08/07/11 15:40:35 1KHw/NPv
多品種少量生産品ならかなり良さそうだけど、レーザー走査だと製造スピード
の問題が出てきそうな悪寒がするな。

40:MACオタ
08/07/12 12:05:20 KULmXOzq
POWER7に関するThe Registerのスクープす。
URLﾘﾝｸ(www.theregister.co.uk)
　- 8-core
　- Dual Chip Module (DCM) (16-core/socket)
　- 32GFLops/core (256GFlos/chip, 512GFlos/socket)
　- 4GHz @ 45nm process
　- 2010
　- 4-socket in 2U case (64-core/node) = 2TFlos / node
　-
IBMの伝統的な表記でわ、DCMとわプロセッサと外付けL3の2-chipで"デュアルチップ"なので、
若干の誤解が含まれている可能性があるす。
また、32GFlos/coreの内訳を考えると、
　4 [GHz] x 2 [積和] x ( 2 [スカラFPU] + 2 [SIMD並列数] ) = 32 [GFlops]
またわ、
　4 [GHz] x 2 [積和] x 4 [SIMD並列数] = 32 [GFlops]
となるす。
上の構成だと POWER6 + DPサポート版AltiVec、下の構成だと256-bit幅SIMDのヘテロコアという
ことすけど、どちらなんすかね。
ちなみに最近のIBMのプレゼンでわPOWER7のコアの構成わ"Workload Accelerator"とか
"Highly Threaded Cores"と述べられているすから、どちらもあり得そうす。

なお、The RegisterのソースわNCSAが計画中の新スーパーコンピュータ、"Blue Waters"筋とのこと。
ｽﾚﾘﾝｸ(jisaku板:598番)
こちらも思い出して比較してみて欲しいす。
ｽﾚﾘﾝｸ(jisaku板:854番)

41:Socket774
08/07/12 12:11:47 YfAzEh82
下の構成だとヘテロになるのはなんで？

42:MACオタ
08/07/12 12:19:55 KULmXOzq
>>41
POWER7わ汎用プロセッサなので、いきなりスカラFPUが無くなるとも思えないからす。

43:Socket774
08/07/12 12:22:42 YfAzEh82
しかし、4コア飛び越えて8コアか
サイズはどのくらいなんだろ

44:MACオタ＠訂正
08/07/12 12:23:11 KULmXOzq
上の少し訂正す。
　誤) いきなりスカラFPUが無くなる
　正) いきなりスカラFPUや従来型(128-bit幅)AltiVecユニット

45:MACオタ
08/07/12 12:36:18 KULmXOzq
>>43
　　-------------------
　　4コア飛び越えて8コアか
　　-------------------
IBMのロードマップでわ、POWER6+世代でシステムのコア数を2倍にすると言っているすから
4-core又は実装密度倍増わPOWER7より前で登場するす。

サイズに関してわ、POWER6搭載のp575が既に16-socket in 2Uすから、ソケット数で見ると減っているす。
チップわ巨大なのかもしれないす。

46:Socket774
08/07/12 13:11:10 YfAzEh82
>>44
今はFPとVMXは独立して存在してるんだっけ

>>45
6+の存在忘れてたわ

47:MACオタ＞46 さん
08/07/12 13:24:47 KULmXOzq
>>46
　　--------------
　　今はFPとVMXは独立して存在してるんだっけ
　　--------------
ユニットわ独立すけど、issueわ共通す。ただし現行AltiVecわDPをサポートしていないすから、
今までわ関係なかったとも言えるす。

48:MACオタ
08/07/12 13:53:54 KULmXOzq
AppleがP.A. SemiのPWRficientを最低3年わ提供し続けると米国防省に確約したとのことす。
URLﾘﾝｸ(www.my-esm.com)
　　----------------------
　　Apple sent a letter to the DoD saying it will assure production of the 1.8 GHz PWRficient
　　processor for three to five years, said one source who saw the letter but asked not to
　　be named. The letter suggests Apple will explore selling the designs to a third party
　　after that time.
　　----------------------

49:Socket774
08/07/12 14:43:53 hIoELJtQ
SMTを強化するならスカラFPUが4つかもしれんな

50:Socket774
08/07/12 15:57:34 duftXqDO
コスト無視で作製できるのだからPOWERの天下は続きそうだな。

51:MACオタ＞522 さん
08/07/12 16:04:42 KULmXOzq
>>50
自社のブレードサーバーでx86やCELL/B.E.と競合しているすけど。。。
URLﾘﾝｸ(www-03.ibm.com)

52:Socket774
08/07/12 16:57:14 R5JfirV2
DPで32GFLops/coreと書いてあるの？
SPの可能性は？

53:MACオタ＞52 さん
08/07/12 17:02:17 KULmXOzq
>>52
>>40にも書いた通りHPC筋のソースすからDPしか考えていない筈す。

54:Socket774
08/07/12 21:59:49 hIoELJtQ
ところでAltiVecってオペコードに余裕あんの？

55:MACオタ
08/07/14 12:12:13 vGLb+g+F
粘着さんが削除依頼でスレ潰しを図っている模様す。
一旦削除を拒否されてもしつこく依頼しているすね。。。
ｽﾚﾘﾝｸ(saku板:457番)
　　-------------------
　　457 ：451：2008/07/11(金) 22:05:35 HOST:p34137-adsau18honb3-acca.tokyo.ocn.ne.jp
　　 >>452
　　ご返答有り難うございます。
　　再度、訂正の上で依頼します。

　　削除対象アドレス：
　　ｽﾚﾘﾝｸ(jisaku板)

　　削除理由・詳細・その他：
　　５．掲示板・スレッドの趣旨とは違う投稿
　　自作系のCPU(INTEL/AMD/VIA)についてはそれぞれ個別スレがあり、
　　またそれ以外のゲーム機や組込機器向けなどについて、自作板で
　　論ずる必要はありません。
　　PCサロン板が適当だと思われます。
　　-------------------

56:Socket774
08/07/14 12:15:14 tWnShqYY
8か…やっぱり、2のべき乗じゃないと美学（ｒｙ

57:Socket774
08/07/14 16:56:48 a9SP1/NH
いちいちチェックしてるオタがきもいです

58:MACオタ
08/07/14 17:23:18 vGLb+g+F
富士通とSUNがSparc64 VII "Jupiter"搭載サーバーを発表したす。
URLﾘﾝｸ(www.theregister.co.uk)
URLﾘﾝｸ(journal.mycom.co.jp)
　　-------------------
　　SPARC64 VIIは、1CPUあたり4コア・8スレッド、最大動作周波数2.52GHzを
　　実現しており、従来機と比べ1.8倍の性能向上を実現しているほか、1コア
　　あたりの消費電力を従来の「SPARC64 VI」と比べ44%削減している。
　　-------------------
The Register記事の方でわ2.7GHz位まで出そうとのことす。

59:MACオタ＞57 さん
08/07/14 17:28:30 vGLb+g+F
>>57
自治厨とかプロ市民とかの類わ、「権力を笠に着る」術を心得ているすから、
馬鹿にしていると足をすくわれることもあるす。
注意して監視しておいた方が良いすよ。

60:Socket774
08/07/14 18:31:40 ZtXbxx7E
44%削減とはそらまたずいぶん下がったもんだね

61:Socket774
08/07/14 18:37:43 IOr1pdcS
それ数字のマジックに過ぎないっぽ。
1.8倍×(100%-44%)=100.8%
結局殆ど変わってないっス。

62:MACオタ＞61 さん
08/07/14 21:45:24 vGLb+g+F
>>61
その計算ちょっと違って、2-core -> 4-coreで消費電力+32%増なんだと思うす。
　　132 [%] / (4[core]/2[core]) = 66 [%]
ってことで。

63:MACオタ
08/07/14 21:49:40 vGLb+g+F
大原氏がMYCOMでFTF (Freescale Technology Forum) 2008のPowerPC関連の
講演をレポートしてくれているす。
URLﾘﾝｸ(journal.mycom.co.jp)
資料や報道を見てもよく判らなかった新チップ内バス"CoreNet"の詳細
わ、質問してもやっぱり非公開だった模様す。
それから年末までに公開されるPower ISA v2.06を見ると、POWER7に含まれ
る新命令わ判るらしいす。

64:Socket774
08/07/15 01:48:43 1CSAhv0j
100 - 44 = 56 だよ

65:Socket774
08/07/15 12:30:04 7gjjKiiC
ATOM
45cm
25nm
電力

66:Socket774
08/07/15 21:02:07 rYaN31rH
「ゲハじゃすぐdat落ちするから」と自作板にのうのうと押しかけてきた分際で偉そうなゲハ厨↓age

> 59 名前： MACオタ＞57 さん [sage] 投稿日： 2008/07/14(月) 17:28:30 ID:vGLb+g+F
> >>57
> 自治厨とかプロ市民とかの類わ、「権力を笠に着る」術を心得ているすから、
> 馬鹿にしていると足をすくわれることもあるす。
> 注意して監視しておいた方が良いすよ。

67:Socket774
08/07/15 21:55:42 soa11bLR
Atomも省電力ってタテマエの割には電気食うもんな
今の半分くらいと思ってた＞高クロック品

68:MACオタ＞54 さん
08/07/17 18:38:14 tXjIclFY
>>54
6-bitのオペコードで"4"がAltiVecの演算命令す(ロードストア命令わ別扱い)。
ベクトルレジスタの数わ32個(5-bit表現)で、引数の数が異なる"VA", "VC", "VX"の命令フォーマット
それぞれに拡張オペコード領域が定義されているす。
　　・VAフォーマット (4引数またわ3引数+シフト量): 6-bit
　　・VCフォーマット (3引数): 10-bit
　　・VXフォーマット (3引数、2引数+直値, 1引数+直値, etc.): 11-bit
一番スペース的に苦しい"VA"フォーマットでも使用済わ14命令で格調の余地わ十分あるす。

69:Socket774
08/07/18 22:58:58 UXdmnZDz
アレブログ vs マキーノ

やっぱり「適切に設計されたCPU」には、つっこむよなあｗ

70:MACオタ＞69 さん
08/07/19 15:38:49 2eUAebpx
>>69
そのGRAPE-DRの現状に関する、ご当人の弁す。
URLﾘﾝｸ(grape.mtk.nao.ac.jp)
　　-------------------
　　とはいえ、まあ、現時点では GRAPE-DR は1チップで実測性能で DGEMM 世界最高速を実現した
　　わけで、まあ、数千億掛けたという話もある Cell とかに比べてもピーク性能、実効性能、電力当り
　　性能のどれも高い、というところで結構悪くないものができたのではないかと思っています。
　　-------------------

71:Socket774
08/07/20 03:10:29 0cXwcJ5V
DGEMMに必死になり過ぎ。なんかカッコ悪いぞ。
作る目的を間違っとる。

72:MACオタ
08/07/20 14:03:10 buGvsLGs
落穂拾い的ネタすけど、NvidiaがSOI関連企業の団体 "SOI Industry Consortium"に加盟した
とのことす。
URLﾘﾝｸ(www.soiconsortium.org)
　　------------------
　　“NVIDIA is pleased to join the SOI consortium. We are looking forward in participating
　　on the advancement of such an innovative technology and its applications to future
　　products," said John Chen, VP, Technology and Foundry Operations at NVIDIA.
　　------------------
GPUも低消費電力へ向かうということすかね。あるいわ、オンダイ超広帯域メモリとしての
フローティング・ボディ効果を利用したDRAM (Z-RAM等)が目的なのか。。。

73:MACオタ
08/07/20 17:11:57 buGvsLGs
前スレで話題にした次世代CELL B.E.の命令拡張の話題すけど、少々考えてみたす。

周知の通り、SPEの命令セットわ32-bit固定長のRISC命令の中に128個(レジスタ指定に7-bit要)の
レジスタを最大4引数指定するため、命令オペコード拡張の余地が非常に少ないす。命令コードにわ
4-bit, 7-bit, 8-bit, 9-bit, 10-bit, 11-bitの6通りのフォーマットがあるので、それぞれについて、拡張
の余地を調べると、こうなるす。
　　種別　　　　　　　　　命令数　　空き
　　4-bit Op-code　　　　6　　　　　　2
　　7-bit Op-code　　　　3　　　　　　61
　　8-bit Op-code　　　　29　　　　　35
　　9-bit Op-code　　　　17　　　　　111
　　10-bit Op-code　　　　4　　　　　244
　　11-bit Op-code　　　140　　　　　628

74:MACオタ＠続き
08/07/20 17:31:51 buGvsLGs
現ISAとの互換性を保ちつつ、専用命令で『大幅な性能向上』を得るための最も単純な解決策わ
ベクトルレジスタを連結して128個の128-bit幅VRFを256-bit幅 x 64又わ512-bit幅 x 32として
扱うことす。

この結果レジスタ指定に必要な命令フィールドわ、以下のように減少するす。
　　4引数: 28-bit -> 24-bit (256-bit幅), 20-bit (512-bit幅)
　　3引数: 21-bit -> 18-bit (256-bit幅), 15-bit (512-bit幅)
そして4-引数命令を8-bitフォーマット(256-bit幅の場合)又わ11-bitフォーマット(512-bit幅の場合)
に割り当てることが可能になるす。
>>73に書いた通り、8-bit Op-codeも4引数命令を割り当てる程度にわ空いているすから、
このやりかたわ、論理的にわ可能ということす。

的中するかどうかわ、数年後ということで。。。

75:Socket774
08/07/24 17:06:49 DGa4mwDe
URLﾘﾝｸ(pc.watch.impress.co.jp)

76:MACオタ
08/07/24 17:34:39 D02rKv4k
今週結構ニュースわ有るす。まず新しいPowerPCデスクトップ"CherryPal C500"の話題す。
URLﾘﾝｸ(72.51.37.17)
Freescaleの車載向けヘテロ3コアPowerPC MPC5121e/400MHzを搭載して、オンラインストレージ
サービスとセットで販売するという"Cloud Computing"を現実化した製品す。
何故かiTunesが動くという謎の仕様が。。。
　　・Freescale MPC5121e mobileGT (400 MHz)
　　　URLﾘﾝｸ(www.freescale.co.jp)
　　　　603e系 PowerPC e300コア
　　　　32-bit RISC マルチメディアコア (200MHz)
　　　　PowerVR MBX/VGP Liteベースのグラフィックコア
　　・256 MB DDR2 DRAM
　　・4GB NAND Flash SSD
　　・802.11b/g Wi-Fi
　　・USB 2.0 x 2
　　・10/100 Ethernet
　　・VGA DB-15
　　・約300g, 消費電力 2W

77:MACオタ
08/07/24 17:59:23 D02rKv4k
>>40の記事関連でPOWER7の仕様についての予想をITJungleのTimothy Prickett Morgan記者が行っているす。
URLﾘﾝｸ(www.itjungle.com)
　・最近IBMが提示しているロードマップ(URLﾘﾝｸ(www.itjungle.com)) [MACオタ注: 私も数か所で見たす]
　・TheRegのPOWER7記事は、2段階で計画されているBlue Watersの建設を混同している
　・POWER6+はソケットあたり4-core以上。45nmでeDRAM L3も含むMCMか？
　・"Advanced Hybrid Core"とは、オフチップのコプロのことであろう
　・POWER7はPOWER6のL3をオンダイに統合する
　・POWER7の動作クロックは3-4GHzの間と聞いている
　・噂どおりx86とのソケット共通化を行うかもしれない
　・TRIPSのリコンフィギュラブル技術を取り入れるかもしれない
　・8-core版はPOWER7+世代の仕様で、POWER7は4-coreではないだろうか
等々

78:MACオタ
08/07/24 18:07:01 D02rKv4k
上と同じく、HPCWireのMichael Feldman記者の予想す。
URLﾘﾝｸ(www.hpcwire.com)
　・POWER7でクロックがPOWER6/4.7GHzより下がる原因は、10PFlopsに対応するコア・ノード数
　増加によるによる消費電力上昇か？
　・Green500ランキングを見る限りPOWER6コアの電力効率は、Blue Geneの1/4。PowerXCellの1/5。
　・POWER7のTDPは悪くて100W。できれば50Wクラスが望ましい
　・このためコアは小規模化する筈。強化版AltiVecかCELL SPE？

79:Socket774
08/07/25 13:41:18 NDfCJ5IV
Intel EP80579
URLﾘﾝｸ(pc.watch.impress.co.jp)

80:Socket774
08/07/25 23:10:25 ddutFgxX
>>79
TDPが一桁多いな。これではARMの競争相手にはならないな。

81:Socket774
08/07/25 23:18:43 F8SDV9IR
ARMでなく、PPC,MIPS辺りのSoCが相手なんじゃ？
ルータとか向きじゃない？

82:Socket774
08/07/25 23:21:08 l7dGWbgj
＞EP80579はIXP460の、EP80579 with Intel QuickAssist Technologyは
＞IPX465のそれぞれ後継となっていると考えるのが正しいだろう。

83:Socket774
08/07/25 23:53:30 auhZ1+pC
>>81
一番IA-32が有利なのはNASあたりじゃないかな。ユーザアプリが多いし、元々x86ベースのも多い。
ネットワークアプライアンス云々のWhitePaperもあるけど、そっちだと殆どMIPS系に移植されてないのないし。
別にIAアーキテクチャがとか言われても、いまIA32採用してるアプライアンスが切り替えるにはCPUが遅すぎる。
あとアクセラレータの性能が低いよ。性能ではOCTEON+だとCN5200より下クラスなのにTDPだとCN5600やXLR716クラス。バルク暗号化処理だけなら10Gbps超えが普通にあるクラスなのに。

84:,,・´∀｀・,,）っ
08/07/28 21:32:17 VqPYdyBm
>>74
某ドリカスCPUの内積命令ですね
わかります

85:Socket774
08/07/29 03:23:53 jOwui/Lm
>>79
これって90nmなんだっけ？
携帯サイズのUMPCはこれの次世代で作ってくれるの？

86:MACオタ＞団子さん
08/07/29 12:58:16 woyy0V8T
>>84
ベクトル長わ変わっても汎用レジスタとして使用できるすから、アプリケーションを限定した
専用命令とわ、ちょっと違うと思うすけど。。。

87:Socket774
08/07/29 22:14:12 9iDqCrVs
ところで命令セット違うとCPUの回路構成も違うよな？

88:MACオタ
08/07/31 23:50:55 knyhyElr
欧州最大級のスーパーコンピュータMareNostrumやPS3Linux関連の開発で有名なスペインの
Barcelona Supercomputing Center (BSC)が欧州版Roadrunner "MariCel"を発表したす。
URLﾘﾝｸ(www.bsc.es)
URLﾘﾝｸ(www.bsc.es)
URLﾘﾝｸ(www.bsc.es)
Roadrunnerと同じくIBMのCELLブレードQS22のハイブリッドクラスタすけど、制御ノードにPOWER6
ブレードを使う点が異なるす。
今回発表したプロトタイプのノード数を増やしてRoadrunnerと同じく10PFlopsクラスのスーパーコン
ピュータを建設予定とのことす。

89:MACオタ
08/08/01 00:03:53 knyhyElr
Appleのプロセッサネタが2件す。

まずAppleブランドのPWRficientチップの写真す。
URLﾘﾝｸ(digitaldaily.allthingsd.com)
AppleとP.A. SemiがARMライセンスを取得するという噂す。
URLﾘﾝｸ(www.eetimes.com)
　　-------------------------
　　LONDON ― Warren East, chief executive officer of ARM Holdings plc (Cambridge, England),
　　has declined to name the company that has taken a multiyear architecture license for ARM's
　　current and future technologies. But East gave enough clues while speaking to financial analysts
　　on Wednesday (July 30) to show clearly that Apple is a contender.
　　-------------------------
予てからの報道通り、自社の次世代携帯機器向けにARMコアのチップを開発する模様す。

90:Socket774
08/08/01 16:33:04 +aEM98JP
iphoneがPowerになるわけじゃないのか！　絶望した！

91:Socket774
08/08/01 17:05:18 pgEQ3l3D
iPod touchで遊んでたことあるけど、性能が微妙だった。
けっして悪くは無いけれど、かゆい所に手が届かない・・・的な半端さがあった。

92:MACオタ＞90-91 さん
08/08/01 17:37:03 GRi0Viq/
>>90
Newtonを思い出して欲しいすけど、ARMも創成期からAppleと関わりの深い会社なので、
悲観する必要わ無いす。そう言えばデス・スパイラルと言われた時代に手持ちのARM株が
高く売れたお陰で、どれほどAppleわ救われたことか。。。
URLﾘﾝｸ(ja.wikipedia.org)
　　--------------------------
　　アップルとエイコーンは共同でARM開発を開始し、この開発作業を別会社で行うことが決定された。
　　エイコーンでARM関連の研究開発を行っていた部門を基にして ARM（ARM Ltd）が1990年11月に
　　スピンオフされた。エイコーンとアップルはARM社の株をそれぞれ43%ずつ保有し（1996年時点）、
　　VLSIテクノロジーは同社に投資すると同時にARMのライセンスを最初に受けた。
　　--------------------------

93:Socket774
08/08/02 06:37:10 WAPzq96q
511 名前：MACオタ＞505 さん[sage] 投稿日：2008/05/08(木) 22:37:06 ID:UrOM/xel
>>505
新しい目の技術すから、これをトンデモ説とまで言い切る勇気わ無いすけど、CELL PPEやAtomわ
FGMTに分類するのが普通かと思うす。
(略)

903 名前：MACオタ＞896-897 さん[sage] 投稿日：2008/07/19(土) 08:08:55 ID:2eUAebpx
(略)
SMTわAtomでの採用で、『サーバー向け』技術じゃ無いことわ明らかになったと思うすけど。。。
メモリコントローラ内蔵等SoC的要素わ、むしろ組込チップで先行して実装されている技術す。

SMTなのかFGMTなのかどっち？

94:Socket774
08/08/02 16:07:55 fTwD3A01
>>92
Androidとの差別化になると思っていたのでARMな時点で終わってる。
周りがPower版iPhoneを使ってる中、俺だけnVidia＋Androidを使う妄想してたのに。

95:MACオタ
08/08/04 16:54:03 S9uVZvt2
今日わ、山のようにニュースがあるす。まずわIntelがSiggraph前にLarrabeeの説明会を
開いたす。見た範囲で最もよさそうな記事わTGDailyのコレす。
URLﾘﾝｸ(www.tgdaily.com)
　・LarrabeeわPC向けGPUとしてリリース
　・コアわPentiumのショートパイプラン構成を64-bitと4-thread MT拡張。
　・コア数わ8-48でスケーラブル
　・512-bit x 2 (双方向)のリングバス
　・512-bitベクトルユニット (VPU; 16 32-bit ops per clock)

96:MACオタ
08/08/04 16:58:32 S9uVZvt2
一方Nvidiaのチップセットネタに関してわ、絶望的なニュースが来ているす。
URLﾘﾝｸ(www.theinquirer.net)
　　--------------------------
　　Nvidia is desperately trying to deny it, but don't believe the
　　spin, the division is deader than an Nvidia mobile GPU.
　　--------------------------
モバイル向けGPUの不良問題も相当深刻な模様す。
URLﾘﾝｸ(www.theinquirer.net)
　　--------------------------
　　Using the high number of eight per cent and the low number of
　　$150 million, we can figure out that the the total cost of a
　　recall, again with NV paying only half, is around (100/8)*$150
　　million = $1.875 billion. Nvidia only has about $1.6 billion in
　　the bank, so this could put a crimp on the decoration at the
　　company non-denominational winter festivities party that does not
　　endorse or disclaim any particular faith, religion, or point of
　　view.
　　--------------------------
倒産の危機す。

97:MACオタ
08/08/04 17:13:42 S9uVZvt2
Larrabeeについてすけど、じっくり読むならExtremeTechのこちらの記事が良いす。
URLﾘﾝｸ(www.extremetech.com)
　- 固定機能について
　　------------------
　　Larrabee, by contrast, only performs a single piece of the
　　graphics pipeline in a fixed function unit—the texture
　　sampling/filtering. This texture sampler operates on unaligned
　　2x2 blocks of texels and provides all the usual texture
　　operations like data fetching, decompression, anisotropic
　　filtering, and so on. It supports virtual address translation,
　　and communicates with the rest of Larrabee (the cores) by writing
　　to the cores' L2 cache.
　　------------------

98:MACオタ＠続き
08/08/04 17:14:51 S9uVZvt2
　- Pentium 改良型 x86コアについて
　　------------------
　　The cores are dual issue, and the two instructions issued per
　　clock cycle can be two scalar instructions, one scalar and one
　　vector instruction or two vector instructions.
　　[中略]
　　Each core has an L1 cache consisting of 32KB of instruction cache
　　and 32KB of data cache, along with 256KB of L2 cache. The L2
　　cache of these cores, the fixed function texture units, the
　　memory controllers, and the system interface are all linked
　　together by a 1024-bit ring bus architecture (512 bits in each
　　direction).
　　------------------

99:MACオタ＠続き
08/08/04 17:17:13 S9uVZvt2
　- ベクトルユニットについて
　　------------------
　　The vector unit is particularly interesting. It is what Intel
　　calls "vector complete," meaning that you don't have to fill it
　　all up with one 16-part execution kernel. Rather, you can issue
　　up to 16 individual and separate execution kernels, one per
　　vector unit lane, which should help to more fully utilize all the
　　processing power of these cores. The vector units support
　　scatter/gather, and can use mask registers as a form of
　　data-parallel flow control. Fused multiply/add for up to three
　　arguments is supported, and the units operate on 32-bit integer,
　　32-bit floating point, and 64-bit floating point data.
　　------------------

100:MACオタ＠続き
08/08/04 17:25:23 S9uVZvt2
　- マルチコア対応レンダリングパイプラインについて
　　--------------------
　　PowerVR's claim to fame back then was what they called Tile Based
　　Rendering—some call it Chunking, Intel calls it Binned Rendering.
　　The full frame is broken into hundreds of square tiles, usually
　　16x16, 32x32, 64x64, or 128x128 pixels in size. The primitives
　　for each tile are processed, and their depth values sorted and
　　stored into a "Bin Set" in off-chip memory (or in other
　　architectures, a special tile buffer).
　　--------------------
　- GPGPU応用について
　　--------------------
　　By incorporating fully cache-coherent x86 cores with virtual
　　memory, page swapping, and so on, Intel expects programming
　　Larrabee to perform tasks other than 3D graphics to be much
　　easier than on competing GPUs. You can just write native C or C++
　　code and run it directly on Larrabee, which Intel calls Larrabee
　　native mode.
　　--------------------
　　CUDAもOpenCLも不要なのが売りす。x86コアなので当然IEEE数値データフォーマット
　　わ共通に使えるとのこと。

101:MACオタ＠ここまで
08/08/04 17:29:43 S9uVZvt2
Larrabeeのリリースわ2009-2010とのことすけど、2008年中にもサンプルわ配布されるとのことす。
URLﾘﾝｸ(www.eweek.com)
　　----------------------------
　　The first of the Larrabee chips, which are destined for the
　　high-end PCs that use discrete graphics cards, will not arrive
　　until 2009 or 2010, although Intel is expected to release samples
　　starting in late 2008.
　　----------------------------
来年初頭にわ、評価も聞こえてくる筈ということで。

102:Socket774
08/08/04 17:37:35 yQvLNjma
無駄にぺたぺた貼るな、URLと自分のコメントだけでいいよ

103:MACオタ＞102 さん
08/08/04 17:46:38 S9uVZvt2
>>102
　　--------------------
　　無駄にぺたぺた貼るな、
　　--------------------
既に読んで判っていると思うすけど、元記事5ページの大作なんすけど。。。

104:Socket774
08/08/04 17:52:45 hj8A+h94
だからこそだろ

105:MACオタ
08/08/04 18:35:29 S9uVZvt2
Anandわ随分Intelに優遇されていると見えるす。たっぷり資料をもらって書いた大長編の
プレビュー記事わ、こちらす。
URLﾘﾝｸ(www.anandtech.com)
でも新味があるのわ、パイプラインステージ数について直接コメント貰ったところ位す
かね。。。5段のオリジナルPentium程じゃ無いけれど、16段のSilverthorneよりはるかに
「短い」とか。
　　------------------------
　　Larrabee on the other hand is more Pentium-like to begin with;
　　Intel states that Larrabee's execution pipeline is "short" and
　　followed up with us by saying that it's closer to the 5-stage
　　pipeline of the original Pentium than the 16-stage pipeline of
　　Atom.
　　------------------------

106:Socket774
08/08/04 20:13:17 DlnZKmji
[PATCH] Add initial POWER7 support
URLﾘﾝｸ(sourceware.org)

[PATCH-ppc 0/5] Add feature description for new VSX register set
URLﾘﾝｸ(sourceware.org)

107:MACオタ＞106 さん
08/08/04 20:24:40 S9uVZvt2
>>106
これわスゴいすね。
つまりVSXという128bit x 64のレジスタをサポートする新しい命令セットを定義して、
　PPC ISA: FPRを64個に拡張
　AltiVec: VSXレジスタの上32個を流用
ということすか。

108:Socket774
08/08/04 23:13:30 yQvLNjma
>>103
>>106を見習え

109:MACオタ＞103 さん
08/08/04 23:16:30 T1kV/8Us
>>108
この辺のスレッドをお勧めするす。黙々と貼るだけの場所で、ここより居心地が良いと思うす(笑)
ｽﾚﾘﾝｸ(hard板)
ｽﾚﾘﾝｸ(mac板)

私わ真っ平御免すね。。。

110:Socket774
08/08/04 23:24:43 yQvLNjma
じゃ"------------------------"やめろ
というかお前が消えればおｋ

111:Socket774
08/08/05 01:30:23 plkcL4Pr
>>110
mjsnyksg

112:MACオタ
08/08/05 05:35:34 B3/DXLLw
POWER7ネタがもう一件。
TheRegisterのPOWER7スクープ (URLﾘﾝｸ(www.theregister.co.uk))
8-coreという点だけわ、確認が取れたす。ソースわITJungleのRoss Mauriインタビューす。
URLﾘﾝｸ(www.itjungle.com)
　　-------------------------
　　TPM: We're not worried about Power7, but we all want to known its shape and feeds and speeds.
　　　　　I am just curious because I love the technology inside chips. Can you at least confirm that
　　　　　Power7 is an eight-core chip that the chatter is going on about?

　　RM: [Laughter] Yes.

　　TPM: Yes, you can confirm, or yes, it is an eight-core chip?

　　RM: Yes, I can confirm that. But I am not going to get into the frequency and the pipeline depth
　　　　　and size of cache and some really cool other stuff that we are doing. And the reason I am
　　　　　not going to do that is because I don't want to give our competitors a head's up. We're doing
　　　　　really cool stuff in Power7, and there will be a time to talk about that.
　　-------------------------
Morgan記者に感謝するす。

113:Socket774
08/08/05 06:08:54 GNW/7r4Q
うざい

114:Socket774
08/08/05 08:10:52 284bqsv7
>>99
用語の解説がなんにもないのではっきりしたことは言えないが、ベクトルユニットはわりと特色があるっぽいな

後藤ちんのポンチ絵を見る限りでは、L1からベクトルレジスタへのパスがないし

115:MACオタ＞114 さん
08/08/05 08:26:49 6fM3PztO
>>114
VPUの模式図なら、Anandtechのが良いす。
URLﾘﾝｸ(www.anandtech.com)

116:Socket774
08/08/05 08:27:34 284bqsv7
Vector completeというのはこれだけ読むとアレか、九大ハイパースカラというやつかね

117:Socket774
08/08/05 08:38:08 9t/oqG3j
Power(笑)
ゲーム機用か
IBM製の鯖なんか要らんわ

118:MACオタ
08/08/05 08:45:32 6fM3PztO
有難いことにIntelがSiggraphのLarrabee論文をアップしてくれているす。
URLﾘﾝｸ(softwarecommunity.intel.com)

119:Socket774
08/08/05 11:36:17 284bqsv7
>>115
ご丁寧に二箇所とも間違えとるw

諸元を見てびっくりするんだろうけど、なんか保守的でガックリきた

120:Socket774
08/08/05 12:38:06 ZBPD8B9E
マイクロソフトが何を血迷ったのか、XPより重いOS（VISTA）で３D画面表示
だけ重い「MACモドキなGUI」を出したので、インテル入ってるが、超巨大な
2キャッシュ（４M・６M）が無いと、動作速度が遅くなる欠陥品を世に出した。

VISTAは、XPと違い、いつも３Dカードが動作しているので、その
消費電力は馬鹿にならない。エコとは、逆のOSである。

無意味なことにCPUを食うというのはおかしい！と思う今日このごろ。

121:Socket774
08/08/05 14:24:51 WcFs3GI+
>>120
意味不明　日本語勉強し直せ

適当に流し読みして、MSがCompiz並に派手な3Dデスクトップ for Vistaを出したのかと
wktkしてしまったではないか！どうしてくれる

122:Socket774
08/08/05 14:58:26 ZBPD8B9E
XPでは、プログラムをロードした後「230MB」であったので「512MB」あれば、
動作可能であり、１GBあれば快適であった。

しかし、VISTAでは、プログラムをロードした後「800MB」であったので、
「１GB」あれば動作可能であり「２G」ないと動作が重い感じがする。

つまり、VISTAにしたことにより、メモリの増設は必要になり資源の無駄
と思った今日このごろ。

123:Socket774
08/08/05 19:03:05 6q0/W1mw
まあメモリがあったらあったで
SuperFetchとかいうアホ機能がディスク中の実行ファイルを片っ端から
無駄にメモリにロードする時間が長くなるんだがな

124:Socket774
08/08/05 19:58:55 eyRT4/70
OS重くしないとCPU売れないよ　 by intel

125:Socket774
08/08/05 21:12:48 vCPUvola

IDに　CPU　が出たので記念パピコ
　

126:Socket774
08/08/05 21:14:34 ZBPD8B9E
WIN９５より前の使えないOS

>Windows3.1では、プログラムをロードした後「4MB」であったので「8MB」あれば、
>動作可能であり、16MBあれば快適であった。

WIN９８系から、NT系になり堅牢な設計と格段に進化
>しかし、XPでは、プログラムをロードした後「230MB」であったので、
>「512MB」あれば動作可能であり「1G」ないと動作が重い感じがする。

XPと同じ基本設計
>しかし、VISTAでは、プログラムをロードした後「800MB」であったので、
>「１GB」あれば動作可能であり「２G」ないと動作が重い感じがする。

さほど意味の無いことにマシンパワーを食うというのは如何なものかと思います。

127:Socket774
08/08/06 00:24:18 Kd/lFEY/
>>120
MAＣオタ共々巣に帰れ

128:Socket774
08/08/06 00:47:23 1TXTACEx
ゲハ厨はしつこいのだけが取り柄ですから無理ですね。

129:MACオタ
08/08/06 23:05:39 oIFkVwAh
Larrabeeすけど、牧野教授がこんなこと書いているす。
URLﾘﾝｸ(grape.mtk.nao.ac.jp)
　　-------------------
　　16-way SIMD で512 bit-wide なレジスタファイルにするならやはりポート数は減らすわけで、falu は
　　FMAにして 1R1W とかかなあ？ 16-wide で vector permute 命令なんてやってられないわけで。
　　-------------------
思うにLarrabeeわ8-bitや16-bit整数を強制的に符号拡張してレジスタにロードする機構が備わっている
("Numeric Convert"ユニット)すから、vector permuteの粒度わ常に32-bitす。8-bit x 16をサポートする
permuteユニットと32-bit x 16をサポートするpermuteユニットって、それほど規模わ変わらないんじゃ
無いすかね？

130:MACオタ
08/08/07 00:08:26 SJ4Kf0pq
>>129
引き続きLarrabeeの話すけど、>>118の論文を読んでゆっくり考えてみたす。
結局Larrabeeわ、CELL/BEとNiagaraを詳細に研究して良いとこ取りを狙ったモノに見えるす。
ただ結果として仕様を盛りこみ過ぎているような感じが拭えないす。設計上の妥協って各コアの
クロックが比較的低い(論文中の例で1GHz)ところ位じゃないすか？

何となく、下記のような展開が裏にあるような気がしてきたすけど、どうなんすかね。。。

　　　良いとこ取りの全部入りで設計
　-> 結果的に消費電力大、スケーラビリティの限界も常識的範囲
　-> GPUだと競合他社も爆熱だし、典型的にTLPが保障された計算対象だな。
　-> じゃGPUで売り出そう

131:Socket774
08/08/07 00:18:56 kmIk49YR
>>129
Larabeeのベクトルレジスタファイルは4R1Wの5ポートに見えるし、
上のどれかの資料に3ソースオペランド命令だと書いてあったので、
FALUはFMAだと思う

permuteユニットは配線の都合上、8bit->32bit単純に規模は4倍というわけにはいかない

ひょっとしたら上の二つは倍クロックで動かす、なんてこともありうるかもしれない

132:MACオタ
08/08/07 00:30:05 SJ4Kf0pq
一方CELL/BEで経験を積んだIBMの方わ。。。というと>>106のVSXレジスタの仕様わ、明らかに
CELL SPEの統合レジスタを取り入れたモノす。
タイミングが最も重要なユニットを上手にケチることで、性能と低消費電力を両立させる模様す。
FPとベクトルのアーキテクチャレジスタを一気に2倍の64個にした。。。というのもCELL/BE、POWER6
とインオーダー型高性能プロセッサを設計した経験が生かされている模様す。

流石にCELL SPEと違って整数レジスタまで統合しなかったのも、何らかの反省が含まれているすかね。

133:Socket774
08/08/07 00:30:23 hBhYko4P
昔の後藤記事でCPU以上の高クロックになるとか書いてあったけど
実際は1GHz程度なの？

134:MACオタ＞131 さん
08/08/07 00:34:45 SJ4Kf0pq
>>131
　　--------------------
　　permuteユニットは配線の都合上、8bit->32bit単純に規模は4倍というわけにはいかない
　　--------------------
512-bit幅のレジスタを8bit x 64としてvector permuteするのに比べると、桁違いに単純にわ
なる。。。というだけの話す。
初代AltiVec搭載のPowerPC 7400わ220nmプロセスで登場したことを考えると、特に大きな
問題わ無いように見えるす。

135:MACオタ＞133 さん
08/08/07 00:36:19 SJ4Kf0pq
>>133
1GHzが本当かどうかわ別にして、ショートパイプラインを謳っているすから、クロックが高くないのわ
確定す。

136:Socket774
08/08/07 01:45:09 kmIk49YR
>>134
permuteユニットはクロスバースイッチみたいなものだと思っておけばいい

8bit x 64のpermuteと、32bit x 16のpermuteでは、
どちらにしても512bit x 512bitのスイッチが必要で、配線もあわせるとかなりでかい

スイッチの制御は6bitのデコーダー64個と、4bitのデコーダー16個の違いしかない

けっきょく規模は、8bit x 16 <<< 32bit x 16 < 8bit x 64といったところ

137:MACオタ＞136 さん
08/08/07 01:55:39 SJ4Kf0pq
>>136
指数的なレベルで計算間違っていると思うすけど。。。

138:Socket774
08/08/07 01:58:39 kmIk49YR
>>137
どこが？

139:Socket774
08/08/07 16:20:26 dMP8f1Ty
>>136はちょっと微妙かなぁ。6bitの制御シグナルを64セット供給する
のって結構大変だと思うぞ。

「512bit x 512bit」は配線についてのみ言えば正しいが、配線ネックだろ
うから、まあ、いいか。

140:Socket774
08/08/07 17:04:28 kmIk49YR
>>139
> >>136はちょっと微妙かなぁ。6bitの制御シグナルを64セット供給する
> のって結構大変だと思うぞ。

わしもそう思う

> 「512bit x 512bit」は配線についてのみ言えば正しいが、配線ネックだろ
> うから、まあ、いいか。

permuteユニットの場合は8bitや32bit単位のスイッチングをすればいいわけだけど、
ロジック自体はたぶんデータ1bitと制御1bitのANDを取っているだけだから、
規模ではあまり考えなくていいんじゃないかと思う

おおむね、8bit x 64と32bit x 16のpermuteユニットは、規模では2～4倍くらいの違いじゃないかと思う

141:MACオタ＞136 さん
08/08/07 22:02:25 SJ4Kf0pq
>>138
　　-------
　　どこが？
　　-------
x 512っていうのわ、各ビットの転送先が512通りあるから成り立つ話す。
permuteユニットの場合、16-way SIMDなら各ビットの転送先わ16通りしか無い(MSBなら各データの
MSBに向けてしかコピーされない)ことに注意すべきす。

もちろんpermuteユニットの回路規模の話わ>>139さんが書いているように配線がネックす。

142:Socket774
08/08/07 22:11:05 kmIk49YR
>>141
ああ、いちゃもんつけるだけつけといて、後で他人の褌でなんとやらというやつか

それよりも重大な抜け落ちがあるんだけど気付かなかったようだね

143:MACオタ＞142 さん
08/08/07 22:18:01 SJ4Kf0pq
>>142
最初の3行で桁違いな勘違いをしているヒトの文章を精読しろと要求するすか(笑)

144:Socket774
08/08/07 22:21:41 kmIk49YR
>>143
>>137の時点で>>142の指摘をしろです

で、>>136にはうっかり重大な抜け落ちがあるんだけど、キミにわかるかい？

145:Socket774
08/08/07 22:23:46 kmIk49YR
>>144
>>137の時点で>>141の指摘をしろです、だ

146:MACオタ＞145 さん
08/08/07 22:27:13 SJ4Kf0pq
>>145
確かに勿体をつけるのわ、私の流儀じゃ無かったす。その点わ失礼したす。

147:Socket774
08/08/07 22:37:34 5RnQ53X1
「私の流儀」って・・・
ここは邪気眼スレじゃねーぞｗｗ

148:MACオタ
08/08/07 22:54:11 SJ4Kf0pq
IntelやTSMCが好調な反面、ボリュームが出ない半導体製造企業わ色々とヤバそうす。
IBMの半導体部門も、先日のリストラに加えて10%の賃下げとか。。。
URLﾘﾝｸ(www.recordonline.com)
　　-------------------------
　　ARMONK ― One month after signing a job retention deal with New York, IBM said today it
　　will cut the pay of 3,500 workers at their East Fishkill, Poughkeepsie and Vermont operations.
　　-------------------------

149:MACオタ
08/08/07 23:09:11 SJ4Kf0pq
周知のニュースとわ思うすけど、Nvidiaが乏しい資金をはたいてTransmetaからLong Runのライセンス
を受けたとのことす。
URLﾘﾝｸ(pc.watch.impress.co.jp)
Larrabee登場までにGPUの電力効率改善が果たせるか、楽しみな話す。

150:Socket774
08/08/07 23:27:29 mTs0GVHe
Tegra等の携帯機器向けプロセッサのためだよ
いちゃもんつけられる前にあぶく銭渡しとく

151:Socket774
08/08/07 23:46:20 TI3BsLKD
Qosmio G50新兵器、SpursEngineがスゴすぎる件
URLﾘﾝｸ(ascii.jp)

152:Socket774
08/08/08 03:34:33 b211HabC
>151
コストその他問題もあるんだろうけど、どうせならcellをちゃんと積んでほしかった

153:Socket774
08/08/08 08:40:31 I2OZ9IJZ
cellの応用はソニーが一番旺盛だったのに実際にやったのはIBMと東芝だなんてw

154:Socket774
08/08/08 13:10:57 FlSIL5Vs
>>141
バイトごとのデータパスがたて並びだとして、横方向の配線が何本必要か
考えてごらんよ。
>>149
2500Mかぁ、トラメタの技術は微妙だけど、これぐらいのお小遣い程度の
金額だったら安心料としていいかもね。

155:Socket774
08/08/08 15:59:12 awYMWIUz
>>126
次期OSはCPUの64bit化や8コア、16コア、グラボのSLI推進のため相当重いOSが来るぞ。

156:Socket774
08/08/08 21:30:05 V/QHupg+
Windowsがアホみたいに重いのを延々と続けるつもりなら、モバイル系はLinuxに全部明け渡してくれや

157:Socket774
08/08/10 02:53:17 qcukRHOP
URLﾘﾝｸ(www.geocities.jp)

158:Socket774
08/08/10 19:17:55 KDnK1sHc
>>152
というか、パソコンの画面サイズで必要な機能（アップコンバート、etc）を
実現するのに、必要充分な数にしただけって事でしょ。

３Dゲーム用にはこのエンジンを使ってないみたいだし。

159:Socket774
08/08/11 01:44:01 W6eMSj/M
安藤さんいろいろ勘違いしてるぽいな

160:Socket774
08/08/11 17:15:28 FuepZYRw
>>144
スイッチマトリックスからの出力をまとめるのに64入力のORが必要で
これが512本あるからリソース的にはおそらくクリティカルなんだが、その見積もりをしていなかった
昭和生まれのおにいちゃんはこういうマトリックスを見るとついワイヤードORと決めてかかるんだよね

制御シグナルは4096本で多いと言えば多いが、
データパスとは干渉しないからあんまりクリティカルではないと思う

というわけでMACオタ先生のツッコミが頂けなくて残念です

161:,,・´∀`・,,）っ-○●◎
08/08/11 21:54:21 y6R1bzbl
8ビット×256くらいあればAESのS-Box 1段がハード実装できます。

162:,,・´∀`・,,）っ-○●◎
08/08/11 22:48:00 y6R1bzbl
>>157
やっぱり所詮SPARCアーキ以外の知識は凡人クラスか

163:,,・´∀`・,,）っ-○●◎
08/08/12 00:46:42 0tCYd3Td
関係ないけど後藤の記事のスクラップで論文もどきでっち上げるトンデモ大学発見↓
URLﾘﾝｸ(mikilab.doshisha.ac.jp)

164:Socket774
08/08/12 01:57:59 eWVDcPz2
大学のレベルから考えれば卒論はそんなもんでしょ。
論文書いた子は知的照明グループに入ってるようだけど、多分何もできなくて、
しょうがないから適当にでっち上げた代物で卒業させてあげたんでしょ。

と、瞬間的にここまで思ったけど5月10日じゃそんなはずはないわなぁ。
こんなもん論文のくくりに入れたらいかんね。輪講資料未満。

165:Socket774
08/08/12 02:11:42 IZjk21Rx
これ論文じゃなくてまわりもちで書いてるレポートじゃないの。

166:Socket774
08/08/12 02:30:31 BguaIQFS
URLﾘﾝｸ(cetus.sakura.ne.jp)
URLﾘﾝｸ(image.blog.livedoor.jp)

167:Socket774
08/08/12 22:50:52 4Nn/BJMu
どんなレポートなのかは↓ここに書いてある気がする

URLﾘﾝｸ(mikilab.doshisha.ac.jp)

168:Socket774
08/08/12 23:02:16 IZjk21Rx
とりあえず>>164は同志社大学の学生さんにあやまったほうがいいな（笑

169:MACオタ
08/08/13 12:29:22 KxWrfxH6
去年のSIGGRAPHで発表された、CELL/BE + RSXのグラフィックワークステーション"BCU-100"
すけど、SIGGRAPH2008でTerra softがYDLでサポートすることを発表したす。
URLﾘﾝｸ(www.terrasoftsolutions.com)
　　---------------------------
　　Over the course of the past year, Terra Soft worked closely with
　　Sony to develop a version of the Yellow Dog Linux operating system
　　specifically for the Sony BCU-100. This board support package (BSP)
　　provides end users with a best-of-class, high performance Linux
　　OS that seamlessly blends ease of installation with the Cell/B.E.
　　SDK with full 3D support for the on-board RSX GPU.
　　---------------------------
これでハイパーバイザの壁さえ破れば、RSXの使い方自体わPS3 Linuxにも流用可能
ということかと思われるす。
参考までに去年のリリースすも書いておくす。
URLﾘﾝｸ(news.sel.sony.com)

170:Socket774
08/08/14 07:18:59 pEE4BYGk
いいかげんにしろや、ぼけ！

171:Socket774
08/08/15 18:17:20 7L55mMoA
アーキテクチャ業界もネタ切れか
ISCAも地味な論文ばっかりだ

172:MACオタ
08/08/15 20:22:33 x/mQJXmI
ReadWorldTech掲示板でTheINQのCharlie "Groo" Demerjianがx86デコードのオーバーヘッドについて
IntelのPat Gelsingerから聞いたという話を開陳しているす。
URLﾘﾝｸ(www.realworldtech.com)
　　---------------------
　　I directly asked Pat Gelsinger what the decode overhead was for similar performance on x86 vs
　　ARM about 2 years ago. He said, in many uncertain terms, that it was within the range of 0-50%
　　power use, basically you take a 25% extra power hit.
　　The way it was worded was roughly "at 200%, it wouldn't be worth it, 150%, it would be tough,
　　100% perfect, and we think we can do it."

　　It sounded like they did some very extensive modeling of the power costs, and that lead them to
　　dump the ARM division. :) You will recall that they had a very good ARM division a few years ago,
　　so they knew exactly what it would take to compete.
　　---------------------
25-50%の電力効率の不利をIntelの技術でなんとかする。。。ということの様す。

173:MACオタ
08/08/15 23:44:52 x/mQJXmI
IBMのハイエンドPOWER6サーバー、Power595のレッドブックが公開されたす。
URLﾘﾝｸ(www.redbooks.ibm.com)
文中でわPOWER6のパッケージわMCMと表記しているものの、Figure 2-30にあるようにプロセッサ
のダイわ一つで残りわL3キャッシュす。POWER4/POWER5のような大規模MCM
(URLﾘﾝｸ(journal.mycom.co.jp))とわ大違いの廉価版をUNIXサーバーの
ハイエンドに持ってきた。。。ということになるす。
ローエンドのL3外付けチップわ別にして、ミドル以上で部品共通化を図っているすね。

ついでに見つけたPower 595の内部写真す。
URLﾘﾝｸ(server.ccw.com.cn)

174:MACオタ
08/08/16 22:52:28 ahwTntRl
>>169の1U Cell/B.E.サーバー、BCU-100のムービー付プレスリリースす。
URLﾘﾝｸ(www.sony.co.jp)
　　----------------------
　　“ZEGO” コンピューティングユニット『BCU-100』の特長
　　　（1）高速処理化：
　　　　　・Cell/B.E.による230GFLOPSの高速処理と、RSX?による高速グラフィックス処理を実現。
　　　　　・高速メモリーXDR^(TM)のオンボード搭載。
　　（2）小型化：19インチラックの1U（ユニット）に収まるサイズで、省スペース化を実現。
　　（3）低消費電力化：高い演算性能を有しながら、消費電力330Ｗ以下を実現。
　　----------------------

175:MACオタ＠補足
08/08/16 23:10:59 ahwTntRl
ムービーの方を見ると、搭載されているXDRわ10個でECC付1GBということになるす。
参考画像わ同じくプロセッサあたり1GBのECC XDRを搭載したCELLブレード、BladeCenter QS21す。
URLﾘﾝｸ(content.zdnet.com)

176:Socket774
08/08/17 01:09:56 2Q1dlEHi
ソニーの道楽か知らんが今更誰が買うの、これ。

177:Socket774
08/08/17 03:39:46 y5+3oU1f
もう1チップ化したのか
早いな

178:Socket774
08/08/17 08:59:01 4UlloPYf
MACオタ、貼り方気をつけろって言ってんだろ
いい加減学習するか、どっかいけよ

179:MACオタ
08/08/17 09:45:30 Zsenu7UF
東京天文台の牧野教授が、このリリースにいたく感銘を受けたらしく、『スーパーコンピューティングの
将来』を更新しているす。
eASIC社のリリース: URLﾘﾝｸ(www.easic.com)
URLﾘﾝｸ(grape.mtk.nao.ac.jp)
　　-----------------------
　　フルカスタムのチップに比べると、面積効率では 5-8倍程度悪いことになります。消費電力への
　　インパクトが同じ程度だと結構大変ですが、そこがそれほど大きくなければ初期コストの違いの
　　ほうが開発プロジェクトにははるかに重要です。例えば GRAPE-6 程度に完全に専用化した
　　プロセッサを開発することも現実的な話になるわけです。机上の計算では GRAPE-6 チップに
　　比べると 10-15倍程度の回路規模になるので、動作クロックが5倍とすれば性能は 50-70倍で、
　　1.5-2 Tflops 程度です。消費電力は GPU のように 300W とかいうことはないわけですから、
　　かなり競争力があるものになります。
　　-----------------------
この手の製品やファウンダリ企業の技術革新で、アーキテクチャ勝負のファブレス企業が現れて
来るのわ楽しみなことだと思われるす。

180:Socket774
08/08/17 11:02:23 wME5LvSC
>177
まだみたいだけど

181:,,・´∀`・,,）っ-○●◎
08/08/17 11:52:53 s6626r8s
>>165
そうは思ったんだけど、同じ研究室でちゃんと自分でやった
実験結果書いて綺麗にまとめてる学生もいるんだよね。
某ＨＧの母校（笑）だけに一目置いてたが、こうも取り組み方の違いって出るもんだな。

#いや、今更Cellは無いだろ。。。

182:MACオタ＞団子さん
08/08/17 12:07:47 Zsenu7UF
>>181
　　---------------
　　#いや、今更Cellは無いだろ。。。
　　---------------
相変わらず視野が狭いすね(笑)
LarrabeeもCELL/B.E.向けコードを参考にして、真面目にキャッシュ制御命令を駆使しないと
悲惨なスケーラビリティになるすよ。

183:,,・´∀`・,,）っ-○●◎
08/08/17 12:14:39 s6626r8s
MFCによるDMA（笑）をどう参考にするの？
あれそもそもキャッシュじゃないじゃん。

そもそも、Cellに続いてLS採用したマルチコアなんて一つでもあったっけ？

184:MACオタ＞団子さん
08/08/17 12:18:48 Zsenu7UF
>>183
　　--------------
　　MFCによるDMA（笑）をどう参考にするの？
　　--------------
設計段階でメモリブロックごとに、何をキャッシュに残し、何をストリーミングアクセスするか細かく
設定する手間わMFCプログラミングと変わらないす。

185:,,・´∀`・,,）っ-○●◎
08/08/17 12:31:55 s6626r8s
え？
それひょっとしてPentium ＩＩＩ時代からあるプリフェッチとノンテンポラルストアの話のこといってるの？
明示的コヒーレント制御とまったく関係ないんすけど。。。

>設定する手間わMFCプログラミングと変わらないす。

全然的外れ。
たとえばメインメモリからオンダイSRAMに先行ロードするにしても
prefetch*とspu_dmaじゃ全然勝手が違う。

プログラム側から見て常に仮想メモリを操作するアーキテクチャ（IAなど）
でのキャッシュコヒーレントを明示的にコントロールするために、

そもそもメモリ空間が独立だからコヒーレント制御しなくていい変態
アーキテクチャでのコーディングをどう参考になるのかって聞いたんですけど
話を逸らさないでいただきたいですな。
潰しが利かないテクニックなんて覚えてもしょうがないんですが。

186:MACオタ＠補足
08/08/17 12:32:48 Zsenu7UF
Larrabee論文の共著者でもあるPat Hanrahan教授の研究室がCELL/B.E.に関してどういう仕事を
しているか調べてみることをお勧めするす。

Sequoia。。。

187:Socket774
08/08/17 12:43:54 3bG9LTxD
相変わらずプログラミングのに首突っ込むと話をそらすことしかできなくなるMACｦﾀｗ

188:,,・´∀`・,,）っ-○●◎
08/08/17 12:47:49 s6626r8s
たとえば
複数のコアでメインメモリ上からキャッシュ上にLUTをロードするとする。

キャッシュ型アーキテクチャ（要するにCell以外のすべて）は、
複数のスレッドで同じメモリ空間をロードすれば、MESIでいうところの「Shared」になる。
パフォーマンス低下を防ぐなら、必要な分だけコピーを作って別々のアドレス空間に
割り付けておく必要がある。
あるいはLarrabeeはそのへんの制御を明示的に抑制できるんかな？

SPUは自動的なコヒーレント制御はしないからそもそも小細工しなくていい。
むしろSPUがネイティブにリニアアドレッシングできるメモリ空間が狭いなど、別のところで面倒。
うん、全然求められるスキルが違うな。

189:MACオタ＞団子さん
08/08/17 12:59:57 Zsenu7UF
>>188
　　-------------------
　　あるいはLarrabeeはそのへんの制御を明示的に抑制できるんかな？
　　-------------------
アドレスの属性を制御するのか？64-bitアドレシングを生かしてL2の一部を別のメモリ空間に
割り当てるのか。。。
　　-------------------
　　全然求められるスキルが違うな。
　　-------------------
スキル=人力コンパイラとしか考えられないすか(笑)

190:,,・´∀`・,,）っ-○●◎
08/08/17 13:08:39 s6626r8s
命令間のレイテンシ隠蔽のための方策も全然違う。
4Wayのマルチスレッドによりプログラム側から見たレイテンシを小さくしたのがLarrabee
片ややたら多いレジスタを駆使して同じ命令を並べるだけ（LSいくらあっても足りない）

何より未だにCellSDKのコンパイラがウンコなのはみんなわかってるって。

191:MACオタ＞団子さん
08/08/17 13:15:36 Zsenu7UF
>>190
　　---------------
　　命令間のレイテンシ隠蔽のための方策も全然違う。
　　4Wayのマルチスレッドによりプログラム側から見たレイテンシを小さくしたのがLarrabee
　　---------------
4-wayマルチスレッドわロード・ストアの隠蔽だと思われるす。
ショートパイプラインが売り(多分クロックわ低め)すから、命令レイテンシわ隠蔽するまでもなく
小さいんじゃないすかね。
レジスタわ少なそうすから、後続命令への演算結果のフォワーディングがCell/B.E.より重要になるし。。。

192:,,・´∀`・,,）っ-○●◎
08/08/17 13:24:43 s6626r8s
>ショートパイプラインが売り(多分クロックわ低め)すから、命令レイテンシわ隠蔽するまでもなく
>小さいんじゃないすかね。

あらら、お気の毒様
浮動小数演算のレイテンシがどんだけ大きいか考えたことないのね。
x86でもそんな変わらんのよ。

まあCellのは特に大きいほうだと思うけど。

ｘ86の場合はレジスタ多くないからインオーダパイプラインで隠蔽しきれるレベルじゃないね。
加算や乗算で3クロックとか5クロックとかかかってたら8本ないし16本の論理SIMDレジスタで
どうインターリーブするか頭を悩ませることになる
が、見た目のレイテンシが1/4になるなら圧倒的に楽になる。

193:Socket774
08/08/17 13:41:18 kp2MnTOE
>>188
> パフォーマンス低下を防ぐなら、必要な分だけコピーを作って別々のアドレス空間に
> 割り付けておく必要がある。

LUTなら読み出し専用だろ？
Sharedになっても性能落ちないよ

更新もされるテーブルなら、性能低下は仕方ない
Cellだと…ちょっと考えたくないな、集中管理したほうがマシだろうな

194:,,・´∀`・,,）っ-○●◎
08/08/17 13:58:45 s6626r8s
>>193
まあ書き込み前提のテーブルならまた別の意味で設計を変える必要があるけどなー

あと、資料を読み間違ってなければLarrabeeのキャッシュって、L2は全体で
共有するので、遠い部分はリングバス経由でアクセスすることになると思ってるんだが
そーなるとなるべくリングバス使わないほうが速いよな？

キャッシュ容量少ないので、各L2断片ごとに置いて4コア16スレッドで共用するのが理想か。
いずれにしてもccNUMAみたいな最適化が必要になる。

LarrabeeにもおそらくmovntdqaみたいなL1をバイパスしてロードする命令が
あると思うんだが

195:,,・´∀`・,,）っ-○●◎
08/08/17 14:04:51 s6626r8s
もっかい読み直した。1コア4スレッドあたりで256KBか。
ここ訂正しとく

> 4コア16スレッドで共用
→1コア4スレッドで共用

196:MACオタ＞団子さん
08/08/17 14:33:04 Zsenu7UF
>>192
　　---------------------
　　浮動小数演算のレイテンシがどんだけ大きいか考えたことないのね。
　　---------------------
まさか除算を愚直に行うコードでも書いているすか(笑)
仮にオリジナルのPentium Classicと同じだとするとパイプライン段数わ+2す。
fURLﾘﾝｸ(download.intel.com) (page 2-4参照)

197:MACオタ＠補足
08/08/17 14:38:42 Zsenu7UF
>>192すけど、上の突っ込み以前の問題として
　　-------------------
　　が、見た目のレイテンシが1/4になるなら圧倒的に楽になる。
　　-------------------
これ大間違いのような気がするすけど。アンコアのレイテンシわ隠蔽されてもパイプライン内の
レイテンシをMTで隠蔽するのわ無理でわ？

198:,,・´∀`・,,）っ-○●◎
08/08/17 14:50:42 s6626r8s
はい？
4クロックサイクルでローテーションするならどう考えてもレイテンシは大幅に隠蔽できるぞ
もちろんスレッドごとにレジスタファイルを用意する（AtomでもそうやってるしたしかCellのPPEも）

たとえばこんなコードをインオーダで実行すると

addps xmm3, xmm4
subps xmm3, xmm2 ←addpsは3クロックのレイテンシだから、あと2クロック待たないといけない。

しかし4スレッドでインターリーブすれば、順番回ってきたときにはレイテンシ埋まってる。
積和算で8クロックのレイテンシと仮定しても、1スレッドあたりでは2並列のインターリーブで事足りる。
はい、馬鹿でもわかる解説終わり。

えーと、それとも頭が悪いようで？

199:,,・´∀`・,,）っ-○●◎
08/08/17 14:57:22 s6626r8s
断っておくと俺の言ってる命令間のレイテンシってのはデスティネーションに指定したレジスタが
後続の命令でソースとして再利用可能になるまでのクロック数のことだよ。
Intelは整数は伝統的に基本1クロックで済むようにしてるが浮動小数はどんなアーキテクチャでも長い。

200:,,・´∀`・,,）っ-○●◎
08/08/17 15:17:18 s6626r8s

威勢よかったのに返答が無いのは、Google先生に教えてもらってる最中なのか逃げたのかどっちなんだよ

201:,,・´∀`・,,）っ-○●◎
08/08/17 15:53:16 s6626r8s
おーい、まだー？
ひまー（笑）

> アンコアのレイテンシわ隠蔽されてもパイプライン内の
> レイテンシをMTで隠蔽するのわ無理でわ？

この謎の発言の真相はこうかな
「スレッドの実行が切り替わるタイミングわ、Itaniumのようにキャッシュミスしたときだけす（笑）」

→そんなんで4スレッドも用意する必要ないだろ

FGMTと考えるのが自然だし、いつぞの資料のL1がレイテンシ1（←！）, L2が10っていう怪しい数字も、
4で割った値とすれば辻褄が合うんだが

あとClassic Pentiumまでは必ずしもパイプラインの1ステージ＝1クロックではなかったな。
それに当時は平均命令長も短かったし。
2GHz前後で動作し3～4オペランドのSIMD命令を等速で実行となれば、パイプラインに大幅に手は入るだろう。
Cellもふた開けてみるまでパイプライン何十段もあるなんて思わんかったしな

202:Socket774
08/08/17 16:18:53 Xh2Cfp+q
AtomがFGMTとか言ってるオタさんはそこら辺よくわかってません。

203:Socket774
08/08/17 16:21:45 kp2MnTOE
はしゃいでるところを申し分けないが、
Larabeeのコアのスレッドわソフトウェアで切り替えす

> Switching threads covers cases where the compiler is unable to schedule code without stalls.
> Switching threads also covers part of the latency to load from the L2 cache to the L1 cache,
> for those cases when data cannot be prefetched into the L1 cache in advance.
> Cache use is more effective when multiple threads running on the same core use the same dataset,
> e.g. rendering triangles to the same tile.

あとL1をスルーしてデータを取ってくる命令はないみたい。
読みこんだL1を次のパージの候補にする命令はある。

おまけに、ベクトルレジスタはどうもスレッド間で共有するような雰囲気があるぞ。

204:MACオタ＞団子さん
08/08/17 16:23:15 Zsenu7UF
>>198
　　----------------
　　しかし4スレッドでインターリーブすれば、順番回ってきたときにはレイテンシ埋まってる。
　　----------------
それパイプライン化された命令限定す。
長レイテンシの命令を隠蔽するんじゃ無かったすか？加減算だけなら浮動小数点でもシングルサイクル
で終わるかと思うす。
>>199
　　----------------
　　デスティネーションに指定したレジスタが後続の命令でソースとして再利用可能になる
　　----------------
レジスタのリード・ライトに関係無く、フォワーディングネットワーク経由で利用可能になると思われるす。

205:Socket774
08/08/17 16:25:26 kp2MnTOE
上のがインテルの論文のやつ

ほかの記事に、コンパイラがストールしそうなところにスレッド切り替え命令を挿入すると書いてあったよ

206:,,・´∀`・,,）っ-○●◎
08/08/17 16:26:17 s6626r8s
>>203
ソフトウェアでってのがよくわかめ。
スレッド自身で他のスレッドに切り替えるの？

つーかURLplz

207:,,・´∀`・,,）っ-○●◎
08/08/17 16:27:50 s6626r8s
>>204
> 長レイテンシの命令を隠蔽するんじゃ無かったすか？加減算だけなら浮動小数点でもシングルサイクル
> で終わるかと思うす。

バロスｗｗｗｗｗｗ
スループット１をレイテンシ１だと思ってますなｗｗｗｗｗ

208:Socket774
08/08/17 16:28:33 kp2MnTOE
>>206
URLﾘﾝｸ(softwarecommunity.intel.com)

> スレッド自身で他のスレッドに切り替えるの？

そそ

209:MACオタ＠補足
08/08/17 16:31:54 Zsenu7UF
>>201
　　--------------------
　　この謎の発言の真相はこうかな
　　--------------------
何を思いついて嬉しがっているのか良く分からないすけど、除算や平方根のようなFPの長レイテンシ
命令わ、内部で回帰計算を行う必要があるす。
特別にパイプライン化でもできない限り、MTで実効レイテンシが埋められるとも思えないすけど。。。

210:Socket774
08/08/17 16:33:52 kp2MnTOE
>>209
△除算や平方根のようなFPの長レイテンシ命令わ
○除算や平方根のような低スループット命令は

211:,,・´∀`・,,）っ-○●◎
08/08/17 16:34:07 s6626r8s
スループットサイクルとレイテンシサイクルを混同してる子と話をするのは無理だと思うんだが

>>208
てかおもっきしダウンロード済みのpdfだった
思うにFGMTと併用できない技術でもないんだが、逆に明示的なスレッド切り替えだけでしか
スイッチしないとか書いてある箇所ある？

212:Socket774
08/08/17 16:40:59 kp2MnTOE
>>211
> 思うにFGMTと併用できない技術でもないんだが、逆に明示的なスレッド切り替えだけでしか
> スイッチしないとか書いてある箇所ある？

ない
けどFGMT動作はナンセンスだと思うよ
FGMTでは平均的なレイテンシ削減にはなるけど、がっつりスケジューリングするには不向き

213:MACオタ＞団子さん
08/08/17 16:46:04 Zsenu7UF
>>207
　　------------------
　　スループット１をレイテンシ１だと思ってますなｗｗｗｗｗ
　　------------------
古いコアデザインが回帰しているということで、PowerPC G4あたりのマニュアルでもどうぞ。
FMAをやるから加算のみでも1を乗ずる分余計にサイクルがかかるだけで、シングルステージ
で加算を行うす。
URLﾘﾝｸ(www.freescale.com) (Figure 6-3参照)
ところで、これのソースがあるならお願いするす。
>>201
　　------------------
　　あとClassic Pentiumまでは必ずしもパイプラインの1ステージ＝1クロックではなかったな。
　　------------------

214:MACオタ＞210 さん
08/08/17 16:53:18 Zsenu7UF
>>210
　　-----------------
　　○除算や平方根のような低スループット命令は
　　-----------------
ベクトルデータを対象とするなら、パイプライン版除算ライブラリわ存在するすけど。。。　　

215:MACオタ＠補足
08/08/17 16:57:37 Zsenu7UF
ソフトウェアパイプライン版除算の例す。
URLﾘﾝｸ(www.cs.ualberta.ca)

216:Socket774
08/08/17 16:59:24 kp2MnTOE
>>213
Pentiumは知らんのだが、80486のようにfully pipelinedでないものは、たとえばデコードステージに複数クロックかかる場合もある

>>214
痛々しいからこれ以上恥の上塗りをするのはやめて

217:,,・´∀｀・,,）っ
08/08/17 17:06:27 C0ppS6h9
>>213
それ、クロックレンジまでおもっきし回帰するんだが。
FP積和で4clkは流石だったがパイプライン段数を11段に増やした7450ですら
2GHzすら越えた実績がない。

Intelに限ればATOMでも単精度命令のレイテンシは3以上。

218:MACオタ
08/08/17 17:16:04 Zsenu7UF
>>216 さん
　　---------------------
　　Pentiumは知らんのだが、80486のようにfully pipelinedでないものは、たとえばデコード
　　ステージに複数クロックかかる場合もある
　　---------------------
論理回路と模式図を同一視するのわ間違いす。CISCわ、そもそも命令をシングルサイクルで
実行するという考えじゃ無いす。

>>217 団子さん
Silverthorneわ十分ロングパイプラインに分類されるコアかと。
それからe600系が2GHzの製品が無いのわ、デスクトッププロセッサ市場から撤退したという
理由だけす。

219:Socket774
08/08/17 17:23:50 6rX5iNcb
加減算後の正規化に最低でも1サイクル掛かるらしい

220:MACオタ＞219 さん
08/08/17 17:29:32 Zsenu7UF
>>219
正規化無しに後続の依存命令へ結果をフォワードすることわ可能だと思うす。

221:,,・´∀｀・,,）っ
08/08/17 17:36:04 C0ppS6h9
レイテンシ1で？
どんなアーキテクチャだよ。

そもそもP5とP6パイプの段数の差の大部分はデコードやスケジューリングであって
Executeステージの深さは10年前から変わってない。

妄想甚だしい。

222:●ﾃﾍ権田●
08/08/17 17:37:37 PlLb46Vp
これまでのところダンゴ苦戦中っス

223:,,・´∀｀・,,）っ
08/08/17 17:40:15 C0ppS6h9
浮動小数命令をレイテンシ1でこなしてたアーキテクチャを示せよ。
低能マコの指摘するPentiumですらfaddで3。

「1サイクル」の意味をレイテンシのことだと勘違いしてたとしか思えんし
認めればこれ以上恥の上塗りにならねーぞ

224:MACオタ＞団子さん
08/08/17 17:46:51 Zsenu7UF
>>223
　　--------------------
　　浮動小数命令をレイテンシ1でこなしてたアーキテクチャを示せよ。
　　--------------------
勝手に誤解して逆切れされても困るす(笑)

ところで>>213でお願いした『1ステージ＝1クロックではなかったな』のソースわ？

225:,,・´∀｀・,,）っ
08/08/17 17:49:10 C0ppS6h9
ああIEEE754非準拠ならいけるなんてのは論外な。
7450はvfaddもvfmaddもレイテンシ4。G5では8

226:,,・´∀｀・,,）っ
08/08/17 17:52:46 C0ppS6h9
日本語の「Intelアーキテクチャ最適化リファレンスマニュアル」にPen1～Pen3まで載ってるが。

プリフィクスバイト食わせると必ずストールするし(笑)

227:●ﾃﾍ権田●
08/08/17 18:00:37 PlLb46Vp
これまでのところダンゴは煽り過ぎ、もっと落ち着いて恥ずかしくない発言を望むっス♪
そもそもこの手の論争は煽った側の負けっぽですよ。

228:,,・´∀｀・,,）っ
08/08/17 18:01:44 C0ppS6h9
黙れ透明あぼーん

229:MACオタ＞団子さん
08/08/17 18:07:36 Zsenu7UF
>>226
段々と後付の言い訳が出てきたすね。検索してFP命令を持つDSPでも見つけた様すね(笑)
　　------------------
　　プリフィクスバイト食わせると必ずストールするし(笑)
　　------------------
これも苦しすぎるのでわ。。。

230:Socket774
08/08/17 18:07:48 vjedmlWr
無理だしナンセンス

231:Socket774
08/08/17 18:10:26 vjedmlWr
>>230
>>220

232:,,・´∀｀・,,）っ
08/08/17 18:13:12 C0ppS6h9
ちなみにAMD次世代22の#408に貼ったia32_opt.pdfそのものなんだが、
どういう発想で、より高クロックのLarrabeeでFPの加減算がレイテンシ1で済む
なんて妄想に至ったのか理解に苦しむな

233:Socket774
08/08/17 18:20:08 vjedmlWr
1サイクルで浮動小数点加算をするマシンの話は読んだ覚えがあるけどな

ラッチをケチったんだと

トランジスタ世代だがな

234:Socket774
08/08/17 18:23:18 DhZGl14G
団子前より太ったな
運動もしろよ
特に大腿部の筋力が弱ってると血液が下半身に溜まって脳に行かなくなるからな

235:,,・´∀｀・,,）っ
08/08/17 18:24:01 C0ppS6h9
つかP5のfadd/fsub/fmulはレイテンシっていうよりスループットクロックを含め消費クロックが3だ。
fxchで並列化・パイプライン化なんてテクニックはPProからだし。

1TFを叩き出すパイプラインの構造はPPro以降のそれからの逆輸入だろう。
P5に倣ってるのは非対称のパイプラインくらいだろ。

236:MACオタ＞団子さん
08/08/17 18:28:58 Zsenu7UF
>>232
　　------------------
　　どういう発想で、より高クロックのLarrabeeでFPの加減算がレイテンシ1で済む
　　なんて妄想に至ったのか理解に苦しむな
　　------------------
誹謗も百回言えば信じてもらえて大勝利と(笑)
しかし将来引用されるのわ>>190-192な訳すけど。。。

もちろんLarrabeeのマイクロアーキテクチャがより明確になった段階で、的中している可能性もある
すから楽しみにすると良いかと思うす。

237:,,・´∀｀・,,）っ
08/08/17 18:34:57 C0ppS6h9
お前の妄言そこら中に貼ってやるだろうな。まあ気にしないんだろうけど。
マコタみたいな恥がない奴って最強だな。
IA32でFP加減算・乗算を3クロック未満のレイテンシでこなせたものは
未だかつて「ない」。

238:MACオタ＞団子さん
08/08/17 18:36:43 Zsenu7UF
>>237
　　----------------
　　IA32で。。。
　　----------------
また言い訳追加。。。と(笑)

239:,,・´∀｀・,,）っ
08/08/17 18:42:23 C0ppS6h9
バカ丸出しだな

LarrabeeがIA以外の何だっての？
Pentiumの応用であることを根拠にFP演算は低レイテンシだと言ってみたり

そのPentiumが1クロックサイクルでFP演算をこなせないことを指摘したら話題そらしか。
厚顔無恥ってうらやましいよｗｗｗｗ

240:Socket774
08/08/17 18:44:21 kp2MnTOE
>>218
> 論理回路と模式図を同一視するのわ間違いす。CISCわ、そもそも命令をシングルサイクルで
> 実行するという考えじゃ無いす。

。。。

最初のころのSPARCは、

st rd, [rs1+rs2]

のように、3つのレジスタを読み出す命令は、レジスタファイルの読み出しポートが2つしかないので、二回にわけて読み出してた
つまり、レジスタ読み出しステージが2サイクルの場合もあるんだけど、これはCISCなのかな？

>>236
> しかし将来引用されるのわ>>190-192な訳すけど。。。

べつに間違っちゃいないけどね

> もちろんLarrabeeのマイクロアーキテクチャがより明確になった段階で、的中している可能性もある
> すから楽しみにすると良いかと思うす。

いまだにROBはx86用語ではないと認められないMACオタの言うセリフじゃないよなあ

241:,,・´∀｀・,,）っ
08/08/17 18:48:27 C0ppS6h9
まあいいよ
どのみち命令のレイテンシは短いに越したことはない

それはそれで、
単精度演算のレイテンシ6clkもかかるCell-SPUのコーディングテクが役に立たないことが示される

242:,,・´∀｀・,,）っ
08/08/17 18:54:43 C0ppS6h9
同じインオーダのAtomもHT使うことでかろうじて浮動小数演算の性能悪化を食い止めてるのが現実。

243:,,・´∀｀・,,）っ
08/08/17 19:03:13 C0ppS6h9
レジスタ8本(x64で16本だが)でレイテンシ3かそれ以上の命令を
スケジューリングするのは何のハード支援もなしでは現実問題無理。
OoO・レジスタリネームを削除した代わりに用意された
命令インターリーブの手段がHTだ。

244:MACオタ＞240 さん
08/08/17 19:12:10 Zsenu7UF
>>240
　　-------------------
　　レジスタファイルの読み出しポートが2つしかないので、二回にわけて読み出してた
　　-------------------
特に不思議な話とも思わないすけど？
　1. 2ステージの動作と見做さなない理由わ？
　2. 現在、イシュー／ディスパッチからレジスタ読み出しに複数サイクルかかるアーキテクチャわ
　　　珍しくない URLﾘﾝｸ(www.research.ibm.com)

　　-------------------
　　べつに間違っちゃいないけどね
　　-------------------
それを団子さんに説明してあげて欲しいモノす。

245:Socket774
08/08/17 19:12:15 vjedmlWr
つか、Larrabieの場合はHTするくらいならそれぞれのスレッドの命令列をインターリーブして並べておけばいいんだよ

246:MACオタ＞245 さん
08/08/17 19:16:27 Zsenu7UF
>>245
GPU用途でわ深く考えなくてもTLPわ保障されているすから、適当にスレッドを振り当てても良い
かと思うす。

247:Socket774
08/08/17 19:18:07 kp2MnTOE
>>244
> 　1. 2ステージの動作と見做さなない理由わ？

馬鹿じゃね？

3レジスタ読み出しの場合はインターロックがかかるし、
レジスタ読み出しステージを2段にしてパイプライン化したところで、レジスタファイルのポート数が足りなきゃ止まる。

> 2. 現在、イシュー／ディスパッチからレジスタ読み出しに複数サイクルかかるアーキテクチャわ

それはもう全然なんの関係もないから。

248:,,・´∀｀・,,）っ
08/08/17 19:19:51 C0ppS6h9
>>245
SIMDレジスタが1スレッドで128本でもあるならそうしたいところだが、
ModRMを引きずる限り8本、REXつけて16本がいいところ。

まあ引きずると決まったわけではないが、それはそれで
レガシーSSEの延長でもVEXエンコーディングでもない命令セットをどこのOpcode空間に定義するのよって問題も。

249:Socket774
08/08/17 19:27:38 kp2MnTOE
>>248
命令エンコーディングのことは知らんが、1次キャッシュのデータと直接演算できるから、案外困らないんじゃないかね。

>>246
> Cache use is more effective when multiple threads running on the same core use the same dataset,
> e.g. rendering triangles to the same tile.

とインテル自身も言っているように、適当なスレッドだとだめだろう。

250:,,・´∀｀・,,）っ
08/08/17 19:35:43 C0ppS6h9
いやメモリ間オペレーションは代々x86の伝統だし。
デコーダを複雑にもできないはずなのでModRM+SIB+DISPによるメモリアクセスを踏襲する可能性大。
必然的にレジスタは各8本ないし16本。
マスクレジスタは別にあるのかもしれないけど。

251:Socket774
08/08/17 19:41:45 kp2MnTOE
>>250
VPU命令は4オペランドで、メモリオペランドはソース限定なわけだから、
ModRMを踏襲しないんじゃないかなあ

マスクレジスタが別にあるのは間違いがない

252:,,・´∀｀・,,）っ
08/08/17 19:48:01 C0ppS6h9
AVXで真の4オペランド使えてるんだが。メモリオペランドがソース限定なのもAVXの仕様。

VEXエンコーディングを使う可能性高いな。
ほかにOpcode余ってるのは64ビットでUD化された命令空間だけ。

253:,,・´∀｀・,,）っ
08/08/17 20:06:14 C0ppS6h9
ああx64はXMMレジスタに引数を積むとかSSE2までの存在を前提に
ABIが定義されてるから、SSEのOpcodeを潰すという対応は無しね。
逆に言うとLarrabeeでも最低SSE2までは実行できると考えられ。

254:Socket774
08/08/17 20:24:28 kp2MnTOE
>>204
> 　　デスティネーションに指定したレジスタが後続の命令でソースとして再利用可能になる
> 　　----------------
> レジスタのリード・ライトに関係無く、フォワーディングネットワーク経由で利用可能になると思われるす。

MACオタは、他人の発言を曲解して、それが間違っていると指摘するから困るんだよな。
団子だって物理レジスタの話をしているわけではないだろう。

255:MACオタ＞254 さん
08/08/17 20:33:31 Zsenu7UF
>>254
>>204わ、あなたが>>249で書いたことのメカニズムを説明している訳すけど。。。
　　-----------------
　　MACオタは、他人の発言を曲解して、それが間違っていると指摘するから困るんだよな。
　　団子だって物理レジスタの話をしているわけではないだろう。
　　-----------------
>>247。。。

256:,,・´∀｀・,,）っ
08/08/17 20:37:06 C0ppS6h9
＞フォワーディングネットワーク
これ予約機構のことかね？
Intel用語ではActive Register FileといってP6アーキのレジスタリネーミング機構の特徴の一つです。

結局LarrabeeはP5じゃないって言いたいんだな。

257:Socket774
08/08/17 20:41:49 kp2MnTOE
>>256
> ＞フォワーディングネットワーク
> これ予約機構のことかね？

間違ってはないが、ズレている
MACオタが言っているのは、演算器どうしをつないでいるデータの分配ネットワークのこと

258:Socket774
08/08/17 20:42:56 kp2MnTOE
>>256
あ、P5にも(パイプライン化された計算機にはすべて)フォワーディング回路はあるぞ

259:Socket774
08/08/17 20:48:10 kp2MnTOE
>>255
> >>204わ、あなたが>>249で書いたことのメカニズムを説明している訳すけど。。。

さすがにこれは完全に意味不明で、とっかかりもないのだが

249は
> GPU用途でわ深く考えなくてもTLPわ保障されているすから、適当にスレッドを振り当てても良い

キャッシュの効率が落ちるので、適当なスレッドにスイッチするのは良くないということ

> Cache use is more effective when multiple threads running on the same core use the same dataset,
> e.g. rendering triangles to the same tile.

同じデータセットを使うスレッドにスイッチするとキャッシュが効率的になるとインテルが言ってるだろ

フォワーディング回路については、団子がこんなにバカだとは思わんかった
すまん

260:,,・´∀｀・,,）っ
08/08/17 20:49:03 C0ppS6h9
まあ確かに有るね。
実レジスタファイルへの書き込みまでのサイクルには言及した覚えはないので
どのみちFUCKヲタの一人相撲に違いない

261:Socket774
08/08/17 20:58:12 kp2MnTOE
>>260
> 実レジスタファイルへの書き込みまでのサイクルには言及した覚えはないので

実レジスタファイルってアーキテクチャレジスタのことか？

ならやっぱわかってねーな
これはMACオタの勝ち

262:,,・´∀｀・,,）っ
08/08/17 21:29:24 C0ppS6h9
いやそもそもP5って何十もレジスタあったっけ？

つか#248966でいう何ページ目にかかれてることを論じてるの？

263:,,・´∀｀・,,）っ
08/08/17 21:36:43 C0ppS6h9
・Cellのスケーラビリティ
・PentiumはFP加減算1サイクル

流石に負けでいいよいろんな意味で彼は１等賞(笑)だろ

264:,,・´∀｀・,,）っ
08/08/17 21:45:41 C0ppS6h9
>>204とかさ
addpsはレイテンシ3サイクルかかると言ってる傍で
「加減算は1サイクルで済むす(笑)」

日本語通じないバカって素敵。

結局彼はx86を知らない

265:Socket774
08/08/17 22:06:11 kp2MnTOE
>>263
それについては知らん
君ら何を言っているのか理解しかねる

>>184
> 設計段階でメモリブロックごとに、何をキャッシュに残し、何をストリーミングアクセスするか細かく
> 設定する手間わMFCプログラミングと変わらないす。

だいたい正しい

>>185
> たとえばメインメモリからオンダイSRAMに先行ロードするにしても
> prefetch*とspu_dmaじゃ全然勝手が違う。

コーディングレベルでは楽だろうが、設計レベルでは大して変わらん

>>188
> むしろSPUがネイティブにリニアアドレッシングできるメモリ空間が狭いなど、別のところで面倒。
> うん、全然求められるスキルが違うな。

Cellで性能を出せるようなプログラムなら、Larrabeeでも同じようなプログラムになる
Cellでは手に負えないようなプログラムでも、Larabeeではコヒーレントキャッシュに助けられてそこそこ動くかもしれない

>>189
> アドレスの属性を制御するのか？64-bitアドレシングを生かしてL2の一部を別のメモリ空間に
> 割り当てるのか。。。

意味不明

266:,,・´∀｀・,,）っ
08/08/17 22:20:55 C0ppS6h9
おい1サイクルの件、逃げずに見苦しく弁解しろよ。

・ROBはIntel専門用語
・AtomはSMTではない

一等賞大好きだな
何冠王になればいいんだよ負ッケオタ

267:Socket774
08/08/17 22:21:13 ja4mdmlg
ModRMはさすがにそのまま通せるようにはしないと思うけどなぁ

268:Socket774
08/08/17 22:25:39 kp2MnTOE
>>264
>>204
> それパイプライン化された命令限定す。
> 長レイテンシの命令を隠蔽するんじゃ無かったすか？

他人の発言を曲解した上で攻撃するのがMACオタスタイルだけど
これは1レスで矛盾した発言してる

> 結局彼はx86を知らない

x86というか、MACオタの知識はトリビアレベルだね
体系だって勉強した形跡がない

269:,,・´∀｀・,,）っ
08/08/17 22:39:48 C0ppS6h9
>>267
ModRMは1バイト見ただけでSIB・DISPの有無および長さを判別できるから
実はそれなりに合理的。
基本命令がx86なのに別のフォーマットを用意する方がかえってデコーダが複雑になる。

あと命令長を判別しやすいのってフロントエンドの負担軽減のためには大事だからね。
AVXのVEXプリフィクスはModRMまでの命令長が即特定できるから結果的にデコーダにも優しい。

270:,,・´∀｀・,,）っ
08/08/17 22:58:17 C0ppS6h9
あ、要素単位で別々のアドレスにロード・ストアする命令については
かのレポートにSIMDレジスタの各要素値を使う的なことが書いてあるので、
ModRM+SIB+DISPの拡張は不要かと思われる。
従来IAと変えないといけないのはむしろLSUだ。

マスクストアってVMASKMOVPSの512ビット版なんじゃないかと思ったり。

271:Socket774
08/08/18 00:07:50 FIS+Dqqn
Cellのアーキテクトは、「シンプルな要素をたくさん並べる」というありがちな原理主義に陥り、シンプルにしすぎてしまったわけだが
目標性能と使えるリソースが先に決まっていた以上、仕方のない面もある
とはいえ、いまだにまともなコンパイラ一つ用意できていないのは情けない

その点Larrabeeは手堅いアーキテクチャでまとめていて、インテルの現実主義的な姿勢がうかがわれる
もっともCellよりずっとリッチなチップゆえに可能なわけだが

272:Socket774
08/08/18 00:12:17 sNO9M+lF
ﾀﾞﾝｺﾞ・・田舎でなんか嫌な目にでも遭ったのか？

273:,,・´∀｀・,,）っ
08/08/18 00:25:12 TVU6DROr
強いて言えば嫁がゲーヲタ腐女子

274:Socket774
08/08/18 00:27:45 FIS+Dqqn
>>270
> マスクストアってVMASKMOVPSの512ビット版なんじゃないかと思ったり。

伝統的なベクトル機では、マスクは算術演算にも使えるし、
マスクベクトルがおそらく複数あることを考えると、フォーマットどうなってんのかわからんね

AVXはもう公開されてるの？

次ページ