CPUアーキテクチャについて語れ 8at JISAKU
CPUアーキテクチャについて語れ 8 - 暇つぶし2ch164:・∀・)っ-○◎●
07/05/12 14:08:39 wA/vLTHp
ルネサスの技術者が殆どのケースで汎用レジスタは16本あれば十分って言ってるんだがな。

長いレイテンシの隠蔽を前提するにはテクニックが必要だっていうのはまあその通りなんだが
コンパイラレベルではどうしようもない変な条件が付く時点で、それは結局スカラ演算弱いんでしょってことで。


165:MACオタ>162 さん
07/05/12 14:08:48 gD9+7XNL
>>162
最近、本気でプロセッサのボトルネックがデコーダにあるとか考えているヒトがいそうで恐ろしい
すけど、SMTの概念わ命令自体わキューに無尽蔵に詰まっていて、実行リソースを分け合う
というモノす。

現実にわ、命令キュー(ROB)のサイズ自体に制限があるために 「命令自体わキューに無尽蔵に
詰まっていて」の部分が成り立たなくて、色々工夫が必要なんすけど。。。

166:Socket774
07/05/12 14:09:53 FFVqGsn4
コアを人間に喩えるか演算ユニットを人間に喩えるかの違いかな
1つのスレッドを1つの仕事に喩えた方が俺にとってはわかりやすいけど

167:MACオタ>団子 さん
07/05/12 14:11:23 gD9+7XNL
>>164
  ----------------
  ルネサスの技術者が殆どのケースで汎用レジスタは16本あれば十分って言ってるんだがな。
  ----------------
汎用レジスタ32個のAVRアーキテクチャに対するFUDかと。。。

168:レトリック君
07/05/12 14:30:33 baQtcMoW
理解できないのは「譬」の読みかな。
モレの例えでは
 人間=演算ユニット
 文房具=中のリソース
 机=core・L2
(そして部屋=chip)

169:レトリック君
07/05/12 14:35:48 baQtcMoW
必用な汎用レジスタの本数ねぇ…
用途によっては数個で十分、別の用途では256あっても
全然足らない(codeの急激な増大をまねく)。
対象と判定条件で全然違ってくる、そう言う議論だな

170:Socket774
07/05/12 14:36:22 BXpFFjEK
伸びてると思ったらこれかよ、orz

171:Socket774
07/05/12 14:36:57 FFVqGsn4
読み返してみたらわけわからないこと言ってるな
>>166の二行目は無かったことに

172:Socket774
07/05/12 14:38:34 BXpFFjEK
汎用レジスタは4本、多くても8本で十分だろ
68kが出たときには、こんなたくさんあるのに
使えるやついるのか?とモトローラに問い詰めたかった


173:Socket774
07/05/12 14:50:14 FFVqGsn4
>>168
あれ?そうなんだ
それだと>>166の1行目もなかったことにw


174:・∀・)っ-○◎●
07/05/12 14:51:01 wA/vLTHp
URLリンク(resource.renesas.com)

てか演算のレイテンシ馬鹿みたいに大きくなきゃそんなに要らんよ

175:Socket774
07/05/12 14:56:30 sFnyD+05
「組み込み用途ならば」って書いてある気がする

176:・∀・)っ-○◎●
07/05/12 14:58:47 wA/vLTHp
UNIX上のプログラムでも16変数以上は稀とあるな

177:MACオタ>団子 さん
07/05/12 15:00:34 gD9+7XNL
>>174
図3を素直に信じると、要素数16以上の配列を使う関数ってほぼ0ってことになるすけど(笑)
15文字制限のprintfがメジャーな世界ってあるすか?

配列わポインタしか勘定に入れていないとか、色々ごまかしがありそうす(笑)

178:レトリック君
07/05/12 15:00:59 XNhNW89w
ルネの石の設計者って、あまりsoftware分かってない
unix使えるヤシどれほどいるのか
だから鵜呑みはどうかと


179:・∀・)っ-○◎●
07/05/12 15:04:27 wA/vLTHp
配列を全部レジスタに配置するような変態アーキテクチャは要らんだろ
アドレッシングモードをリッチにした方がいい



180:・∀・)っ-○◎●
07/05/12 15:04:46 wA/vLTHp
ベクトル演算がわかってないカスは黙れ

181:・∀・)っ-○◎●
07/05/12 15:06:29 wA/vLTHp
SHの開発主任は麻布から東大の典型的秀才


182:MACオタ>団子 さん
07/05/12 15:06:42 gD9+7XNL
>>179
UNIX上のプログラムで「関数呼び出し時の引数とローカル変数の数」が16個以下になる例が、
統計的に100%なんて戯言を信じるかどうかって話すけど(笑)

183:レトリック君
07/05/12 15:07:05 XNhNW89w
streamのCSEのことも、たまには思い出してやって下さい

184:Socket774
07/05/12 15:08:54 FQ2CjqB1
三大糞コテの同窓会かよ

185:レトリック君
07/05/12 15:09:06 XNhNW89w
>>
ニヤニヤ

186:レトリック君
07/05/12 15:10:04 XNhNW89w
同窓会、いち抜けた ノシ

187:・∀・)っ-○◎●
07/05/12 15:10:16 wA/vLTHp
レジスタの多さに甘んじて実行レイテンシを短くする努力を怠る糞アーキは
メチャメチャにホロン部

188:MACオタ>団子 さん
07/05/12 15:12:30 gD9+7XNL
>>187
滅ぶかどうかわ知らないすけど、本気でローカル変数だけでも16個以下の関数しか世の中に存在
しないと思っているかどうかが知りたいす。

189:Socket774
07/05/12 15:12:33 sFnyD+05
団子おすすめのItaniumはどうなの?

190:・∀・)っ-○◎●
07/05/12 15:15:48 wA/vLTHp
俺自身がローカル変数100個とか平気で使うし。レジスタが多ければね。

んで、どこに100%なんて書いてあるんだ?

191:MACオタ>団子 さん
07/05/12 15:22:26 gD9+7XNL
>>190
  -----------------
  どこに100%なんて書いてあるんだ?
  -----------------
これを信じているかどうか?という質問す。
URLリンク(resource.renesas.com)

192:・∀・)っ-○◎●
07/05/12 15:32:03 wA/vLTHp
>変数が10個以下の関数が95%以上を占めることがわかった。

とは書いてあるが、16個までで100%うんぬんはどうみても脳内妄想です。
本当にありがとうございました。

Itaniumがあんだけのレジスタが必要なのはユニット数が多いからでそ。
まあ、SHが否定してるPA-RISCの血統も引き継いではいるんだが。


まあ、汎用レジスタ8本のx86のほうがPowerPCを搭載したMacを
大きく引き離すようになった時点で、レジスタ本数が本質じゃないことは
既に分かり切ったことかと。

193:MACオタ>団子 さん
07/05/12 15:42:13 gD9+7XNL
>>192
  -------------------
  >変数が10個以下の関数が95%以上を占めることがわかった。
  とは書いてあるが、16個までで100%うんぬんはどうみても脳内妄想です。
  -------------------
URLリンク(resource.renesas.com)
しつこいようすけど、この図を見て何%に見えるのかが聞きたいす。まともな科学教育を
受けていれば、目盛りがついたものわどこまでが有効数字か教わっている筈かと。。。

194:Socket774
07/05/12 15:44:47 sFnyD+05
つか>>169が正しいと思う
とか書くとレトリック君の自演と思われるかな
ほぼ入れ替わりで出てきちゃったし

195:・∀・)っ-○◎●
07/05/12 15:45:57 wA/vLTHp
プレゼン用に簡略したグラフにいちゃもん付ける馬鹿は手に負えない

196:Socket774
07/05/12 15:48:41 1jWIzerW
関数呼び出し回数の割合だから、多変数関数が存在しててもほとんど呼び出されない、ってことでしょ。

>>192
Itanium のは、いっぺんに128個使うつもりではなくて、
ループでのレジスタのローテイトとか、SPARC風レジスタウィンドウのためでは?
あと、
8レジスタじゃ少なすぎるから、x86-64では16になったんでは?

197:MACオタ>団子 さん
07/05/12 15:49:36 gD9+7XNL
>>195
  ---------------------
  プレゼン用に簡略したグラフ
  ---------------------
URLリンク(resource.renesas.com)
  =====================
   出典:日経エレクトロニクス1997年7月14日号開発ストーリ「SHマイコン開発-第1回」P129-132
  =====================

「大阪府立大院生が論文データを捏造 理想的な数値1千個」
URLリンク(www.asahi.com)
  =====================
  トランジスタの特性を示す二つのグラフのデータのとり方の不自然さに助手らが気づいた。
  =====================

198:・∀・)っ-○◎●
07/05/12 15:52:44 wA/vLTHp
なんにせよ汎用レジスタ8本のCPU作ってる会社が半導体業界のトップに君臨してるわけで
無論ルネサスも業界屈指だな



199:MACオタ>団子 さん
07/05/12 16:01:52 gD9+7XNL
>>198
  ----------------
  無論ルネサスも業界屈指だな
  ----------------
素直に「業界屈指の」ルネサスなんで捏造資料と気付かずに騙されたと書けば良いかと。。。
学歴コンプレックス(>>181)も気にしないほうが良いと思うす。


200:・∀・)っ-○◎●
07/05/12 16:04:44 wA/vLTHp
捏造資料って言いがかりかwwwww

SPUのレジスタがメモリだと主張したりデータも示さずスカラ演算が遅くないと言ったり
妄想に限りがないな

201:MACオタ>団子 さん
07/05/12 16:06:15 gD9+7XNL
>>200
  ---------------
  捏造資料って言いがかりかwwwww
  ---------------
でわ、>>193へ回答をお願いするす。数字を書くだけだから簡単だと思うすけど。。。

202:・∀・)っ-○◎●
07/05/12 16:10:46 wA/vLTHp
ほぼ100%とは思うが、スケールの具合からして有効数字はまずないな
グラフが途中で切れたように見えるのはプロットツールの問題じゃないのか

学術論文そのまんまを持ち出してきてるわけでもあるまい。

203:MACオタ
07/05/12 16:11:21 gD9+7XNL
参考までに、目盛りの読み取り方の常識をどうぞ。
URLリンク(kuchem.kyoto-u.ac.jp)
  --------------------
  通常、ビュレットなどの目盛りは最小目盛りの十分の一(通常 0.01 mL)まで読むことになっている。
  --------------------

204:Socket774
07/05/12 16:14:15 sFnyD+05
100%かどうかなんて、どうでもいいのに
今回の話は、99.99%か100%かで結論が変わるようなものじゃないでしょ

205:MACオタ>団子 さん
07/05/12 16:16:01 gD9+7XNL
>>202
まずこの件について
  ----------------
  学術論文そのまんまを持ち出してきてるわけでもあるまい。
  ----------------
日経エレクトロニクスわ学術論文扱いす。例えば、URLリンク(www.sel.co.jp)
その上で、  
  ----------------
  ほぼ100%とは思うが
  ----------------
>>182をどう思うすか?

206:Socket774
07/05/12 16:16:18 sFnyD+05
それより>>196はスルーしちゃうの?
まあ2人でおしゃべりしてる方が楽しいのかも知れないけど

207:・∀・)っ-○◎●
07/05/12 16:22:40 wA/vLTHp
あと、あっちのネタで悪いけどSPUで遅くならないスカラ演算のコードをいい加減、示してくださいね
もちろん机上の空論なら聞きたくない

ちなみに俺がCell向けに書いたMTのコードは本家へのコミットも検討してるくらいなんで
いつでも公開しますよ

208:MACオタ>団子 さん
07/05/12 16:28:03 gD9+7XNL
>>207
SFMTの件なら、その後ソースコード見つけたす。シフト演算の山なんすね。
「机上の空論」で悪いとわ思うすけど、シフト演算わpermuteと同じパイプで行われるから、
この仮定が成り立たないというだけの話かと。
スレリンク(ghard板:661番)
  --------------------
  661 名前:MACオタ>団子 さん 投稿日:2007/05/10(木) 04:04:30 ID:DvaX376M0
    >>657
    スカラとベクトルがIPC的に一緒(当然ベクトルわ並列分だけスループットが高い)なので、
    特にスカラが遅いということわ無いす。
    permuteと演算わ別パイプラインになっているすから、並列動作可だし。
  --------------------

209:・∀・)っ-○◎●
07/05/12 16:30:28 wA/vLTHp
>>206
えーっとなんだったっけ?
REXはコードサイズが増えて性能低下するケースがあるよね。
だから一概に良いとは思わない。

まあ、何事も向き不向きはあるよね

210:・∀・)っ-○◎●
07/05/12 16:36:56 wA/vLTHp
そもそも16バイト単位の読み書きしか出来ないプロセッサで
4バイト単位のスカラ演算を行うにはシフトは必ず発生する

だからこそ遅いって言ってるんだよ
ちなみに要素毎(32ビット迄)シフトはeven、バイトシフトはoddだ

211:Socket774
07/05/12 16:37:24 sFnyD+05
> まあ、何事も向き不向きはあるよね

うはw

212:Socket774
07/05/12 16:43:12 sFnyD+05
まあ、キャッシュですら遅いってんで、レジスタを拡張してなんとかならんか
って研究は、そこここでやってるらしいね
つっても詳しい話は知らん(というよりわからんw)けど

213:・∀・)っ-○◎●
07/05/12 16:47:14 wA/vLTHp
ちなみに、あのネタ書いてから斉藤君とはメールで話やってて
SPE向けの最適化について助言貰っている。

昔、レジスタに番地が振られててレジスタ上にコードを並べると高速に
実行できるプロセッサが存在したそうな


214:Socket774
07/05/12 17:01:07 sFnyD+05
へぇ

215:MACオタ>団子 さん
07/05/12 17:13:32 gD9+7XNL
>>213
  -----------------
  レジスタに番地が振られてて
  -----------------
組込みだと現行の機能す。
URLリンク(www.atmel.com)
URLリンク(www.atmel.com)

216:MACオタ>団子 さん
07/05/12 17:15:04 gD9+7XNL
で、>>205にコメントわ付かないすか?


217:・∀・)っ-○◎●
07/05/12 17:16:08 wA/vLTHp
SPEをスカラ演算に使ったときのロード・ストア・パーミュテーションの
レイテンシをじゅうぶん隠蔽できるケースの方が稀。
だから遅い。自明の理。

逆にあれだけのレイテンシが隠蔽できるくらいデータ並列性があるなら、SIMD化できる。
結局スカラ性能は悪い。

218:・∀・)っ-○◎●
07/05/12 17:18:25 wA/vLTHp
グラフ捏造云々は詭弁者の言いがかり。それ以上でもそれ以下でもない。

その実態はSPEでスカラ演算が遅いことの反証すら出来ない雑魚ww

219:・∀・)っ-○◎●
07/05/12 17:21:00 wA/vLTHp
データの正確さに拘る人間が自分では一切データを用意せず空論を語る矛盾

220:MACオタ>団子 さん
07/05/12 17:30:02 gD9+7XNL
>>217-218
暴れるのわ結構すけど、ローカル変数の数の話わ何処に行ったすか?
  ------------------
  ロード・ストア・パーミュテーションのレイテンシ
  ------------------
これについてわSIMDでもスカラでも一緒なんで、アーキテクチャの問題じゃなくて実装の問題す。
SIMDが速くてスカラが遅いというのとわ違うかと。。。

221:レトリック君
07/05/12 17:34:16 Z8HpemwG
>>193
このグラフはひどいな、実態からかけ離れている。
その辺にころがっているデータの都合良い部分を使ったんかいな。
レビューは受けてないのかな…

222:Socket774
07/05/12 17:37:31 1jWIzerW
>>220 MACオタ
16変数以上の関数があっても、それの「呼び出し回数の割合」は限りなくゼロに近い。

みんな分かっているが、団子がとぼけた答えをしているので、いつまでも終わらない。
二人の馴れ合い。

223:レトリック君
07/05/12 17:37:40 Z8HpemwG
がしかし、引数+変数の数だけregisterが無ければstallするという訳ではないんだよね。
よほど関数bodyが小さくない限り。
従って変数の個数でregisterの個数が多い少ないって議論は片手落ち。
ーみつをー

224:レトリック君
07/05/12 17:39:22 Z8HpemwG
>>222
なんだ二人はラブラブだったのか…
水を差しちゃ遺憾な、そっとしておいてあげるわ ノシ

225:・∀・)っ-○◎●
07/05/12 17:42:48 wA/vLTHp
どーみてもパーシャルリード・ライトをサポートしないアーキテクチャの問題ですが。



なんにせよコードすら書いて検証できず詭弁ばかり並べる人よりも
多少おおざっぱでもグラフを出して説明出来る人の方が
説得力はダントツ上かと思います

まあ、SHの件は麻布高校出身のエリート(ちなみに同級生にかの古川享もいる)から
屈折した感情持っても仕方ないなと思ってしまいますでつよ。



226:・∀・)っ-○◎●
07/05/12 17:50:13 wA/vLTHp
PCREをSPEに移植してみてください。もちろん遅くならないように。
うーんでもやっぱ口だけの人には無理かな


227:MACオタ>222 さん
07/05/12 17:53:53 gD9+7XNL
>>222
  --------------------
  16変数以上の関数があっても、それの「呼び出し回数の割合」は限りなくゼロに近い。
  --------------------
広く使われて(多くの場合)16変数以上使う関数の例わ>>177に書いた通りす。
配列をポインタの1変数として数えるようないかさまをしない限り、16変数以下がほぼ100%というのわ
無理かと思うす。

228:・∀・)っ-○◎●
07/05/12 18:00:06 wA/vLTHp
変数の個数云々の検証はレジスタ本数の決定のためであって
あたかも配列の要素数分だけレジスタを使うかのような詭弁はやめるべきだな




229:Socket774
07/05/12 18:06:16 1jWIzerW
>>227
配列は a[i] のiがimmediateで指定できるときは、レジスタに展開できる、
for(i=0;i<4;i++) a[i]=... → a0=, a1=, a2=, a3=
だけど
a[i] = b[ c[i] ] みたいな演算をしたいときは、
ファンタスティックなレジスタ指定が必要になります。

230:MACオタ>団子 さん
07/05/12 18:06:42 gD9+7XNL
>>228
やっと正気に戻ったようすね(笑)
  -------------------
  変数の個数云々の検証はレジスタ本数の決定のため
  -------------------
その場合、レジスタ本数の増減による性能の差を検証する必要があるす。
また所要レジスタの数も汎用レジスタが完全に対照か、一部の命令で使用するレジスタが
固定されているかどうか、等も大きく影響するかと思うす。
例えば>>215に上げたAVRの例でわ、一部のレジスタが直値の代入ができないために、
  ldi r16, 1
  mov r1, r16
のようなコードになってしまうことがあるようす。

231:MACオタ>229 さん
07/05/12 18:10:32 gD9+7XNL
>>229
>>227わレジスタの話とまったく関係なく、ローカル変数が16個以下ということが一般的か?
という疑問す。
例えばa[100]という宣言が、1変数と数えるのか、100+1(ポインタ)+1(インデックス)と考える
べきか。。。ということなんすけど。

232:・∀・)っ-○◎●
07/05/12 18:15:20 wA/vLTHp
うわっ
CのABIをまるで解っていない


233:Socket774
07/05/12 18:20:03 1jWIzerW
くどいな。
レジスタだけではなく、
b[ c[i] ] なんて操作をしたい場合は、b0,b1,b2,b3... では代用できないんだから、
b[] で一まとまりの変数として考えるべき。だから配列なんだろ。

234:MACオタ>233 さん
07/05/12 18:25:02 gD9+7XNL
>>233
  ------------------
  b[] で一まとまりの変数として考えるべき。だから配列なんだろ。
  ------------------
大きさわ、どうでも良いすか。。。
コードを書いたら、"segmentation fault"ばかりになりそうすね(笑)

235:・∀・)っ-○◎●
07/05/12 18:40:10 wA/vLTHp
くだんね

配列があったら全要素レジスタ変数に展開しろとでも教育された可哀想な人なんだろうな

236:Socket774
07/05/12 18:43:49 UP2odql5
ベクトルプロセッサだとどうなるのかレトリック君に解説をお願いしたい

237:・∀・)っ-○◎●
07/05/12 18:45:27 wA/vLTHp
int func1(int a[8]);

みたいな関数の引数が8個とか10個とか思っちゃう人なんだろうな。
ポインタはどこでも指せるから2^32個とかになるのか。


238:レトリック君
07/05/12 19:07:30 YJKBuV4r
ん?b[ c[i] ]のような二重リストのvector化?
pre-load命令を持たないV.P.の場合は;
innermost loop;
 1)まずindex配列c[i=0~511]がmemoryから直接ザーッと
   register file r0~r511にloadされる(vector SIMD load命令)。
 2)次にb[r0~r511]に対する
   load命令とそれに続く->演算->store 命令が(全てvecor SIMD命令)
  vector pipelineにchaining投入されてゆく
このblocking=512のinnermost loopの外側に
512sttep widthのouter loopが形成される。
こんな感じだったかな。blockingはcompierが自動的に行う。
prelaod命令を持つarchでは二重リストの間接的な要素を直接loadできるので
1)と2)をマージしたようなinnermost loopになる
はず、なんチッチw

239:レトリック君
07/05/12 19:14:02 YJKBuV4r
こうやって改めて書くとSIMD拡張とはまるっきり別物だな。とくに2)が。
だからxlfやintel compilerでvector directiveを挿入してvector化したと
思っているヤシみると、ああ、この人は…と、ついね、思っちゃう訳。メシだ ノシ

240:Socket774
07/05/12 19:19:20 UP2odql5
>>238
ありがと
ベクトルパイプラインの数だけレジスタも用意されてるってことでいいのかな
(しろーとですんまそ)
ついでに、スカラプロセッサにSIMDを組み込む場合にはレジスタをどうすれば
いいのか教えて 数を増やす?サイズを大きくする?

241:Socket774
07/05/12 19:21:40 UP2odql5
あ、続きあったのか

> ああ、この人は…

まあ、そう言わずに教えてくださいな

242:レトリック君
07/05/12 19:24:17 2IcgcX+0
>>240
上は違う。pipelineは8とか16本。register fileは512とか1024
考え方としては各streamを16本のpipelineに割り振る感じ
下は質問の意味が今一分からないよ。メシに行くので ノシ

243:Socket774
07/05/12 19:42:08 0MLiedM0
レジスタのカバー率なんて、計測対象によって変わって来るものに有効桁数なんて意味がないから。

MACオタみたいな勤勉な低能を見ると可哀想になってくるな。

244:MACオタ>243 さん
07/05/12 19:49:29 gD9+7XNL
>>243
まあ話をすりかえたいのわ分かるすけど、
  --------------
  レジスタのカバー率なんて、
  --------------
レジスタのカバー率じゃなくて、「関数呼び出し時の引き数とローカル変数の数 (単位:個) 」す(笑)
URLリンク(resource.renesas.com)

245:Socket774
07/05/12 19:50:30 UP2odql5
> 上は違う。pipelineは8とか16本。register fileは512とか1024

なるほど

> 下は質問の意味が今一分からないよ。

自分でも何を聞きたいのか分かってないのかもしれないw

えーと、たとえば32bitプロセッサで128bit幅のSIMD命令を追加するとして
32bitレジスタを4個用意した方がいいのか、128bitのレジスタを1個用意
した方がいいのか、とかそういう話を期待してた
あとは最適のレジスタ数はSIMD無しの時とくらべて変わるのかなとか
(なんか書いてて己の馬鹿さ加減に恥ずかしくなってきた)

> メシに行くので

後でも良いので 気が向いたらで良いので

246:Socket774
07/05/12 20:00:21 4V7fONaX
SPUのスカラ性能は、道具立ての貧弱さから来る印象よりは行けてるって感じ
かね。配列アクセスをスカラでやるようなまねをするととっても遅いってのは
串団子の言う通りだが、レジスタ変数を有効利用できるようなケースでは遅く
ないってのはMACオタの言うとおり。

大体、どういうケースで何と比較してってのを明確にしなきゃ話にならん。

それはそれとして、PPUは情けない。

247:Socket774
07/05/12 20:01:15 hCjL26Kx
>>244
はいはい

「関数呼び出し時の引き数とローカル変数の数 (単位:個) 」なんて、計測対象によって変わって来るものに有効桁数なんて意味がないから。

MACオタみたいな勤勉な低能を見ると可哀想になってくるな。


248:Socket774
07/05/12 20:03:36 hCjL26Kx
>>245
32bitレジスタ*4だと、ポート数も4倍必要なので
普通はそんなことはしないよ

249:MACオタ>247 さん
07/05/12 20:07:23 gD9+7XNL
>>247
で、有効桁数って何の話なんすか?

250:Socket774
07/05/12 20:09:54 hCjL26Kx
>>239

>>238は正しいのだが、スカラープロセッサでの所謂ベクトル化もほとんど同じだよ。
要素ごとに命令を発行するのが違いなだけで。

251:Socket774
07/05/12 20:11:04 hCjL26Kx
>>249

193 名前: MACオタ>団子 さん [sage] 投稿日: 2007/05/12(土) 15:42:13 ID:gD9+7XNL
>>192
  -------------------
  >変数が10個以下の関数が95%以上を占めることがわかった。
  とは書いてあるが、16個までで100%うんぬんはどうみても脳内妄想です。
  -------------------
URLリンク(resource.renesas.com)
しつこいようすけど、この図を見て何%に見えるのかが聞きたいす。まともな科学教育を
受けていれば、目盛りがついたものわどこまでが有効数字か教わっている筈かと。。。


252:Socket774
07/05/12 20:11:10 4V7fONaX
>>242
streamをpipelineに割り振るってどういうことだ?ベクタ命令内部のデータ並列
で並列演算パイプラインを駆動するってのが典型的なベクタプロセッサだと
思うが。

253:MACオタ>251 さん
07/05/12 20:14:24 gD9+7XNL
>>251
それグラフを読めないヒトにしか関係ない話すけど。。。まさか、あなたも温度計の読み方とか
小学校で教わらなかったクチすか(笑)

254:MACオタ@補足
07/05/12 20:15:51 gD9+7XNL
ちなみに団子さんわ、プライドが高すぎるのでトボケてただけで読めないわけじゃ無いす。

255:Socket774
07/05/12 20:16:45 hCjL26Kx
>>252
演算やロードストアパイプが8個とか16個とかあるのが普通で
ベクトル命令は適当に空いているパイプに割り当てる
ってことじゃろ。

256:Socket774
07/05/12 20:18:16 hCjL26Kx
>>253
このグラフを温度計のように読むやつはMACオタしかいないと思うが。

257:Socket774
07/05/12 20:19:23 oCakvo/6
日エレの特集記事が学術論文扱いって何の冗談なんだ

258:MACオタ>257 さん
07/05/12 20:36:19 gD9+7XNL
>>257
URLリンク(www.google.co.jp)

259:Socket774
07/05/12 20:52:45 oCakvo/6
参考文献として使われているから日エレは学術論文っていう意味?

260:Socket774
07/05/12 20:54:00 hCjL26Kx
>>209
> REXはコードサイズが増えて性能低下するケースがあるよね。

微妙に違って、正しくは
・命令が長くなるのでキャッシュラインあたりの命令数が低下する
・プリフィックスをつけることによって、投機的な命令の切り出しの精度が低下する
ので実効バンド幅が減るのね

261:MACオタ>259 さん
07/05/12 20:57:52 gD9+7XNL
>>259
特に「学術論文」の定義をするつもりわ無いすけど、学術論文の参考文献として
使われる程度に信頼されているという事かと。。。

262:Socket774
07/05/12 21:45:55 zGMtApwJ
>>197
下のネタは
「しばしば自分の意見を論文紹介で代弁するMACオタはバカです」
という自己紹介ですか?

263:245
07/05/13 00:23:10 iSFbLCYO
>>248
ありがとう
てことはレジスタの数を増やさずに一部を128bit化して
普段は32bitでも使えるようにしておく、って感じになるのかな

>>250
kwsk

264:レトリック君
07/05/13 00:56:51 NViMoeQ1
vector pipelineとscalarのvector的なpipelineをモレは別物だと見てる。

scalar processorでのいわゆるベクトル的な物はsoftpipeを指していると思うが
softpipeは簡略に言うと、iterationを展開してload -> 演算 -> store命令を
iteration間を跨がせる様にschedulingする事とも言える。このときCPU
pipe lineはloop bodyをあくまで縦にsequentialに流してゆくのが基本。
これはgemmの様な細いstreamのloopだとvector pipe line のsoftware +
scalar CPU pipelineによる回りくどいemulationにも似ていて、
違いはscalar命令が個々の要素に対し毎回実行される点だとも言える。

しかしloop bodyが複雑になってくるとvectorは時にwork 配列を使ってまでも
loop body をsplitし、細分化したloop内の少ないstreamをindex 変数方向に
pipeline化…横にpipelineを伸ばしそれを縦に束ねたような流れ…となるのに対し、
scalar のsoftpipeでは(配列を使ってsplitすることもできるが、load/stoerのコスト
がvectorより高いので滅多に有効ではない)大量のregister spillを起こさせながら
loop展開し、loop body内をsequentialに実行+先行prefetchやloadを投入する。
pipelineを流れるstreamの向きが直行と言っていいほど変わってくる。

>>250 あなた素人じゃなさそうだね、ニヤリ。酒飲んでくる ノシ

265:・∀・)っ-○◎●
07/05/13 01:40:21 4phbdK/b
>だからxlfやintel compilerでvector directiveを挿入してvector化したと


こいつ真性のアホだwwwwwwwwwww



266:・∀・)っ-○◎●
07/05/13 01:50:16 4phbdK/b
自分でSIMD化も出来ない屑である上にコンパイラの仕事を勘違いしてるわけで

267:・∀・)っ-○◎●
07/05/13 01:52:58 4phbdK/b
>>246
悪いが、「レジスタを活用するケース」というのがごく稀な例だと思うぞ。
ほとんどのケースで、素のCプログラムをspu-gccでコンパイルすれば
激しく遅い。

268:・∀・)っ-○◎●
07/05/13 02:03:12 4phbdK/b
>>260
K8もCore2も16バイト/clkフェッチだから、命令長そのものがネックになるケースはあるよ。


>>263
あのさー、SIMDレジスタと汎用レジスタが共有されてるアーキテクチャってどれだけあると
思ってる?
Intelアーキテクチャの最適化リファレンスとか読んだことある?

XMMレジスタとFP/MMレジスタは物理的には共有した実装は多いが
汎用レジスタとは別物。

269:レトリック君
07/05/13 02:12:40 Y2C2XzUx
あなたは素人に毛が生えてるかどうかのレベルだわ。
自分の未知な世界は狭量にもケチ付けて、人を中傷して憂さ晴らししてるだけ。
人から学ぶと言うことを知らない。能力と人格に問題有り。
まぁどーでもいいやモレの部下じゃないし。2chじゃ珍しくないし。
どこのcodreだか知らないが友達少なそうだな ノシ

270:Socket774
07/05/13 02:17:50 7A/ESxLR
と素人が申しておりまし

271:・∀・)っ-○◎●
07/05/13 02:18:08 4phbdK/b
と、真性の素人がほざいております


272:Socket774
07/05/13 02:19:10 7A/ESxLR
かぶってしもた

273:・∀・)っ-○◎●
07/05/13 02:21:52 4phbdK/b
ベクトル演算とSIMD演算が別物って言うような無知な子だしww

274:・∀・)っ-○◎●
07/05/13 02:40:34 4phbdK/b
>>264みたいな中途半端に英単語と日本語並べる文がかっこいいと思ってるのかね

一見読みづらいから相手が難しいこと話してるなって威圧感与えたいのか
なんなのか知らんが、本質的には馬鹿さ加減が酷いというか。


>先行prefetch

とかさ、長嶋の親父さんの「秋の秋季キャンプ」なみに無意味


275:Socket774
07/05/13 02:52:11 jfXJr8v6
URLリンク(homepage3.nifty.com)

276:Socket774
07/05/13 02:53:06 eYV080dG
あんまり本質的でないところに突っ込んでるな。

277:・∀・)っ-○◎●
07/05/13 02:53:40 4phbdK/b
そんなに英単語多用したいなら全部英文で書けばいいのに。
そっちのほうが読みやすいわ。

同じ流儀で一言でいえば「pedanticなレス」
知性にコンプレックス抱えた人間の典型だな。

278:Socket774
07/05/13 03:16:28 8SqH8r6f
カタカナでなければ読めないのならそう言えばいい

279:・∀・)っ-○◎●
07/05/13 03:21:19 4phbdK/b
日本語で書けるようなものまでわざわざ英単語で書く必要ないだろ

たとえば分割をsplitと書かなきゃいけない理由なんてあるか?

280:Socket774
07/05/13 03:22:43 8SqH8r6f
つremix

281:・∀・)っ-○◎●
07/05/13 03:23:02 4phbdK/b
中二病が「~である」調や使い慣れない四字熟語を多用したりするのと同じ精神構造なんだろ

282:Socket774
07/05/13 03:24:32 8SqH8r6f
どうでもいいアホクサ

283:・∀・)っ-○◎●
07/05/13 03:34:58 4phbdK/b
「偉い人の反対は偉そうな人」

ブログでえらく反響をよんでるフレーズだが、なにげに真理なんだよね。
背が高い人と背伸びをしてる人も別だし
同様に、知識人と、知ったかぶりの関係もそうだよね。

本物の知識人は他人にわかりやすいように配慮することは事欠かない。
典型的な知ったかぶりはまったくその逆で、中身のない単純な文章を
一見小難しく見せるために日本語でもいいところをむやみに英単語に置き換えたりする。
その綻びが「先行prefetch」みたいな頭の悪いフレーズなわけですよ。



284:・∀・)っ-○◎●
07/05/13 03:49:37 4phbdK/b
>縦にsequentialに

ここもだな。長嶋クォリティを感じるのは。

285:Socket774
07/05/13 03:50:18 h7Jci3oM
>>283
>>283
権威主義者の矛盾

286:+++
07/05/13 04:03:08 oNcXQ/gI
>>団子
Itaniumのレジスタ数の多さは、SPARCみたいなレジスタウィンドウ機能と、
ループでの自動レジスタアンローリングとか、そういう理由もある。
でも、それにはもっとレジスタ欲しいと思うけど、それ以上増やせない
理由もあって・・。

SHはあれだね、16bit命令を実現するにはレジスタ数が限界だし。
ちょっと前の日経エレでの対談には、レジスタ・カラリング手法が出てきたんで
これでいいや、とか書いてあったな。

・・・SH-6を作ろうとかいう機運は出てこないのかな。


287:・∀・)っ-○◎●
07/05/13 04:43:45 4phbdK/b
高橋麻奈女史の「やさしい~」シリーズがなぜベストセラーなのか。
難しい内容を初心者にわかりやすいよう噛み砕いて本を書いてる。
あんだけ読みやすいのにツボはちゃんとおさえてる。

あんだけ多くのジャンルの本出せるんだから知識量は半端じゃないと思うが
そこをインテリぶらないのはT大卒の余裕かもね。


>>286
ルネサスとして新規に作ったR8CシリーズってSHではなくM16シリーズの流れだよね。
SHとしては携帯とか車関連で安定した市場があるからね
現状でも世界で通用する企業だし。
個人としてはARMともっとやりあって欲しいんだけど。

288:Socket774
07/05/13 07:54:13 sgR8yGmI
>>264
> scalar のsoftpipeでは(配列を使ってsplitすることもできるが、load/stoerのコスト
> がvectorより高いので滅多に有効ではない)大量のregister spillを起こさせながら
> loop展開し、loop body内をsequentialに実行+先行prefetchやloadを投入する。

スカラープロセッサの場合はループのブロック化もやるんで、こっちのほうがベクトル化のイメージに近いんじゃないかな。
ソフトウェアパイプラインだけじゃないお。

あとレトリック君はイテレーションをまたいだやつを先行プリフェッチと言っているぽいので、べつにそんな馬から落馬じゃないから>団子

289:Socket774
07/05/13 08:17:52 sgR8yGmI
あとOoOのスーパースカラーの場合は物理レジスタがたくさんあるんだから
わざわざスピルコードいれなくてもいいよ

290:Socket774
07/05/13 08:20:54 2HN+BF3d
>>267
だから、何と比べてどういう条件で動かしたときにどういう評価基準で
「遅い」のか明確にして話をしないとただのネガキャンだよ。ちなみに、
byte/short/word load storeが無いことによる性能低下は3割ぐらいかなぁ
と思ってる。コードサイズがでかくなることも痛い。

それから、GCC+素のCコードだとかなりタコだよ。変数をこまめに128bit
アラインするとか、ローカル変数にコピーするとかでずいぶんと早くなる。
XLCのほうはよく知らんがもっと賢いの?

291:レトリック君
07/05/13 08:31:21 3ocC1wpW
>>288
xlf 7,8の-qhot=vectorはschedulingの間隔を少し広げてlatencyの
ペナルティーを和らげようとし(効果小)
intel compiler 7,8のvector directiveはSSE命令を生成するものだったと記憶している。
自動blockingをするcompilerは…あれかなw、それを使っているならば
あなたも素人じゃ無さそうだね。

ただし、scalarの自動blockingはcache hit率を高めるために
折り畳んでいるのであってvector化と対比させる物はblockingした
innermost loopのL2 latencyペナルティを減らす為の疑似ベクトル化だと思う。

「やさしい~」シリーズがどうのこうのしか書けず、内容に触れることの出来ない団子は
オレのレスの内容は全く理解できていないし、あなたのレスの意味も理解できていないよ。
朝飯だ ノシ

292:MACオタ>290 さん
07/05/13 08:39:12 mSmGJBHJ
>>290
  ------------------
  だから、何と比べてどういう条件で動かしたときにどういう評価基準で
  「遅い」のか明確にして話をしないとただのネガキャンだよ。
  ------------------
団子さんわ、自作の乱数発生コードでx86と比較して遅いと言いたいみたいすけど、
普通わ回路規模や設計の世代を考慮するとPPEやPXと比較すべきかと思うす。

293:レトリック君
07/05/13 08:40:05 3ocC1wpW
>>289
つ 多重リストのsoftpipe code生成
loop bodyがほんの少し複雑になただけでregister何個あっても足りなくて
code量爆発するからw
あんまり書くと身元が

294:Socket774
07/05/13 08:44:37 2HN+BF3d
>>288
ブロック化を自動で上手にこなしてくれるコンパイラってある?レトちゃん
との議論は落としどころが良く分からんので、そっちにはあまりかかわりたく
ないのだが、いいコンパイラがあったら使いたいと思ってるんで。

295:レトリック君
07/05/13 08:47:29 3ocC1wpW
>>294
いいのがあるけどここにはかけない。
落としどころが見えにくいのはこっちがねた全部出し切れない理由があるからかな。
ごめんね。

296:Socket774
07/05/13 09:02:18 2HN+BF3d
>>291
blockingについては、L1=ベクタ変数的な解釈も成り立つかと。結局、ストラ
イドとか、スキャッタ/ギャザーをあの性能でこなせるメモリシステムがベクタ
の取りえであり弱点であると思うのだ。それ以外は瑣末?というか解釈の問題
というか。

297:Socket774
07/05/13 09:08:08 3ocC1wpW
>>296
>blockingについては、L1=ベクタ変数的な解釈も成り立つかと。
単純なprogramならそう捕らえられるけど
その考えを拡大して、頑張って造って実は複雑なsoftwareで効果が出なくて
えらく苦労したのが90年代終盤~ここ数年の一つのscalar compier技術だったと思う。
名無しに戻りますw

298:MACオタ>レトリック さん
07/05/13 09:08:10 mSmGJBHJ
>>295
  ------------------
  いいのがあるけどここにはかけない。
  ------------------
ここで話を完結させる気が無いというのわ、上から視点で罵詈雑言だけ書く時の団子さんと
同じレベルかと思うすけど。。。

299:Socket774
07/05/13 09:54:02 KXNItg9a
レトリック君は前からそうじゃん
肝心な所になると逃げちゃう
自分じゃ他人を馬鹿にして楽しいのかも知れないけど
傍から見ると説明が下手な頭の悪い人にしか見えない

300:・∀・)っ-○◎●
07/05/13 10:00:43 4phbdK/b
あたまがわるいひとが無理してむずかしいことを書こうとすると
不要に英単語をちりばめて自体を読みづらくすることくらいしかできない
※無論全部英文で書くことなんてできない。おそらくTOEIC300レベルだから

むろん内容自体は大したことは言っていない

301:MACオタ
07/05/13 10:18:16 mSmGJBHJ
TheRegisterのPOWER6サーバーに関する報道す。今月中にも発表されるが、対応OS
であるAIX 5.4わ遅れるとのことす。
URLリンク(www.theregister.co.uk)
  ---------------------------
  Most notably, IBM has shifted from an out of order design with Power5's integer
  units to an in order design with Power6. Such a drastic change will require first
  AIX 5.4 and then a full software recompile should customers want to see maximum
  performance.
  ---------------------------
Power Mac G5発売時のOS Xの状況と同じす(笑) Ashlee Vance記者自身わ、まだ
POWER6の製造問題を疑っているみたいす。チップとして歩留まりが悪そうなのわ当然
すけど、意図的にFUDをバラまいてるヒトがいるのかもしれないす。
  ---------------------------
  We've heard consistent speculation that a manufacturing issue has crippled IBM's
  ability to produce Power6 chips above 3.5GHz. Customers, however, were promised
  that the initial Power6-based systems will indeed come in above 4.0GHz, during the
  recent IBM ParterWorld event in St. Louis.
  ---------------------------
  

302:・∀・)っ-○◎●
07/05/13 10:19:00 4phbdK/b
>>290
spu-gccは一応、SCE純正のコンパイラなんだけどな。

ただ、メモリレイアウト云々にめんどくさいことに気を遣わなきゃいけないのは
最初からSIMD化するんだよね。
SCEも明示的にSIMD組み込み関数使えば性能が16倍出ますよって公言してる。

確かにspu-gccで明示的にSIMD化すればかなり性能良いコード吐く。
スケジューリングも悪くない。

そもそもスカラが遅いのはCellのアーキテクチャ・実装の問題だと思ってる。
SSEみたいにパーシャルリード・ライトをサポートすればかなり変わってくる筈。

303:MACオタ>302 さん
07/05/13 10:24:17 mSmGJBHJ
>>302
  -------------------
  パーシャルリード・ライトをサポート
  -------------------
>>300のように他人を非難するなら、ここわ」「ワードやバイトデータのロード/ストア」
とか書くべきかと。。。

304:Socket774
07/05/13 10:30:00 3XsG4Rg1
>>301
> a full software recompile

ああ、やっぱそうなのね

305:・∀・)っ-○◎●
07/05/13 10:34:22 4phbdK/b
あと、レトロ人間君はそんなに英単語使いたいなら全部英文で書いてください。
And Letroman, if you like to write English-terms so much, please write without Japanese.

306:・∀・)っ-○◎●
07/05/13 10:35:38 4phbdK/b
おっとRetromanだったかな。綴りがわかりません><


307:・∀・)っ-○◎●
07/05/13 10:40:05 4phbdK/b
① パーシャルリード・ライトをサポート

② ワードやバイトデータのロード/ストアをサポート

どっちが回りくどいかね。
SSEのmovss/movsdはパーシャルリード・ライトでしょう
少なくとも1バイトの読み書きは聞いたことがない。
pinsrb/pextrbはSSE4で初めてサポートされる機能だ


308:・∀・)っ-○◎●
07/05/13 10:45:47 4phbdK/b
もっともパーシャルリードかどうかは実装依存だ。

第一要素にスカラデータをロードしろという仕様はあるが
その他の要素は不定するように仕様で決まってる。

pinsrw/pextrw/maskmovq/maskmovdquはパーシャルライトだな

309:263
07/05/13 10:52:35 QCrMuaRU
>>268
あいてしてくれて、ありがとう
すんませんね、なにぶんしろーとなもんでw

310:・∀・)っ-○◎●
07/05/13 10:56:23 4phbdK/b
SPEネタその続き。
16バイト境界にあわせても、ストア時にパディング領域を破壊していいかどうかの情報は
コンパイラにはわからないので、保持のためのコードを生成してしまうね。
結局SIMD組み込み関数を明示的に使うしかなかったり。

そもそもLSが256KBしかない。
パディングなんてしてられないでしょ。

311:Socket774
07/05/13 11:24:18 esNK0p2y
>>305
団子さん、はっきり言ってしつこすぎだ。
内容に対する突っ込みが>>265だけで、英単語云々に対する
突っ込みが黙々と続くのはいかがなもんかとおもうぞ。

312:・∀・)っ-○◎●
07/05/13 11:44:28 4phbdK/b
内容がないんだからそこくらいしか突っ込むところ無いじゃん
いまだにvectorの意味を誤解してるし

313:・∀・)っ-○◎●
07/05/13 12:11:02 4phbdK/b
ちなみに内容なんて、前スレで論破された記憶を喪失して
同じことを連呼してる以上のことは何もない。

したがって、何も理解しようとする必要なんてない。
英単語に置き換えて読みづらくしてるだけで相変わらず知識の狭さを露見してるだけ。

無理して英語を使おうと必死な痛い子よりもお塩ロックのほうがまだ聴けるよ
ファッキンライト

314:MACオタ>団子 さん
07/05/13 12:34:16 mSmGJBHJ
>>307-308
  ---------------------
  どっちが回りくどいかね。
  ---------------------
分野にもよるのかも知れないすけど、パーシャルリード・ライトという用語わ、バーストアクセスの方が
普通であるメモリやバス、ネットワークのアクセスで使うす。
URLリンク(www.google.co.jp)

315:MACオタ@続き
07/05/13 12:35:06 mSmGJBHJ
ただQWORD以外のスカラデータでのロード/ストアわ、CELL BEが生き残ることができれば将来
の実装で追加される可能性わ大きいと思うす。歴史を鑑みても初期のAlpha AXPの実装もこんなんす。
URLリンク(www.hpl.hp.com)
  --------------------
  Only aligned longwords or quadwords may be accessed: an aligned
  longword is a four-byte datum whose address is a multiple of four; an
  aligned quadword is an eight-byte datum whose address is a multiple of
  eight.
  --------------------
微細化でトランジスタや配線が楽になれば、LSがマルチポート化されてMFCとSPUが並列動作
できるようになるのも、ありそうな話す。

そういう意味でわ団子さんの最近の文句もPower.orgやIBMのフォーラムでもっと大っぴらに書けば
建設的展開があるかもしれないす。

316:・∀・)っ-○◎●
07/05/13 12:54:19 4phbdK/b
過渡期の技術など、残る必要ない。
過去の資産を受け継いできたIntelプロセッサに部分技術が採り入れられて
Cellの役目は終わり。

317:Socket774
07/05/13 12:58:23 zMR3hkxO
そういえばLarrabeeってどうよ
URLリンク(arstechnica.com)

318:MACオタ>団子 さん
07/05/13 12:58:54 mSmGJBHJ
>>316
  --------------------
  Intelプロセッサに部分技術が採り入れられてCellの役目は終わり。
  --------------------
まあ確かにAlpha自体がその良い前例す。

319:Socket774
07/05/13 13:04:06 2HN+BF3d
>>302
配列じゃない独立データだったら、パディング入れてメモリアクセスがシン
プルになってコードサイズが減少する分を考慮すると、パディングの増分を
埋め合わせて黒字になったりする。とはいえ、さっさとスカラアクセス入れ
やがれってのは同意。

なんにせよ、できるだけレジスタに載せるとか、SIMD命令の明示的な利用ま
で含めてチューニングすれば「スカラ」なコードもかなり救える。そんなの
めんどくさくてやってられっか、という意見はもっともだが、CODECが速い
のはそこらへんのテクニックを総動員しているからだったりする。

決して「CODEC向きのプロセッサだから」じゃないんだよ。

320:Socket774
07/05/13 13:05:39 KbejpFwJ
関係ないけど
「Sonyはついに狂ったのか?」by 安藤さん

321:Socket774
07/05/13 13:09:52 zMR3hkxO
ビキニトップをペイントと見抜く眼力はさすが

322:MACオタ>320 さん
07/05/13 13:10:08 mSmGJBHJ
>>320
このスレッド向けの話題だと、APLの件でSUNから散々な仕打ちを受けた安藤氏がRock開発遅延
の報道で嬉しそうなのが。。。

323:Socket774
07/05/13 13:22:06 zMR3hkxO
Larrabeeでなくて?

324:Socket774
07/05/13 18:32:15 Cocyux0E
>>320-323 リンク貼ってください
URLリンク(www.geocities.jp)

>>323
> a subset of the x86 ISA that includes some GPU-specific extensions
ISAかデコーダがグタグタになる悪寒。512ビット幅のベクトルユニットってのも。
あと、
10コア以上でL2$共有って、>10ポートのメモリで同時アクセス可能?

325:Socket774
07/05/13 18:55:22 2HN+BF3d
>>324
> 10コア以上でL2$共有って、>10ポートのメモリで同時アクセス可能?

コア毎に専属の領域を設けるとコア-メモリのIFは無理なく作れるが、その外
が大変。L2をマルチバンクメモリにするとバスとバッファに面積を食われる。

326:・∀・)っ-○◎●
07/05/13 20:36:32 4phbdK/b
どのみちレイテンシすさまじいんだからおもっきしリッチな命令を
コンプレックスデコーダでデコードさせるんでない?
x86は一応15バイト命令まではいける。


327:Socket774
07/05/14 16:00:54 4RkPiqF4

URLリンク(www.procable.jp)
URLリンク(www.procable.jp)
>IBMやモトローラなど、デジタルの欠落の怖さを知り尽くしているメーカー

328:MACオタ
07/05/14 19:02:40 T+HlRhKp
IBMがpSeriesのホームページにPOWER6サーバー発表のリンクを載せてしまって
発表日が5/22とバレちゃったす。リンク先自体わ存在しないすけど。。。
今のところ訂正されてないみたいす。
URLリンク(www-03.ibm.com)
同時期にAIX 6の概要も公開するみたいすね。

329:Socket774
07/05/15 00:07:40 DAK+PHlT
おもろいな。学閥とか持ち出して来た。分かりやすく説明するのが得意なのは
分からない奴の気持ちが分かってるということだからな。
頭の良さとは関係ない。学者が教師として適格かどうかなんてどうでもいいのと同じ。


330:Socket774
07/05/15 00:31:48 ugtYNHZl
キチガイは怖いな

331:・∀・)っ-○◎●
07/05/15 01:49:53 g2fqtQte
>>329
いや、問題大あり。

民間資金や競争資金引っ張ってこなくとも潤沢に固定予算もらえてた時代ならいざしらず
校費等は大幅削減だからネクラ学者さんは総あぼーんの構図だな。

いまどきブンケイ相手にでも研究概要説明できない学者さんは資金の調達できねーわなw
つーか営業力のある教授さんって民間で揉まれた人が多いと思う。

332:・∀・)っ-○◎●
07/05/15 01:55:33 g2fqtQte
講義内容を学生が評価する制度も始まってたと把握してるが

333:Socket774
07/05/15 13:05:50 Qhik7DiC
そもそもレトリック=聞伝の不必要に英語句に置き換えてものを書く癖は、
本人はかっこいいと思っているのだろうが、知的でもなければ技巧的でもない。
ただ無駄に読みづらくしてるだけで、珍走団の当て字と同じくらいDQN臭い。

334:Socket774
07/05/15 21:45:22 RbudYLPI
Sun, allies broaden open-source chip push
URLリンク(news.com.com)

Niagara2もオープンソース化される模様

335:Socket774
07/05/16 14:28:44 /mFcQcRx
相変わらず尾ひれにしか食いつかない魚だねぇ。。。

336:Socket774
07/05/16 22:18:29 6MqYh9iO
Sun licenses tech to ARM
URLリンク(www.theinquirer.net)

NiagaraみたいなARMが出るのかな?

337:Socket774
07/05/16 22:28:39 6MqYh9iO
サンの新しいチップ、UltraSPARC T2とVictoria Fallsに何が期待できるのか?
~さらなる省電力とパフォーマンスの向上に向けたサンの挑戦~
URLリンク(jp.sun.com)

Victoria Fallsはニコイチで256スレッドを実現

338:MACオタ>337 さん
07/05/16 22:37:07 DXFF0AHi
>>337
  ----------------
  Victoria Fallsはニコイチで256スレッドを実現
  ----------------
SMP対応ってだけす。
URLリンク(japan.zdnet.com)
  ================
  Victoria Fallsは、Niagara 2チップを2基搭載するサーバ向けチップ。
  ================

339:Socket774
07/05/16 22:38:56 Bk+6QBGT
>>336-337
向こうとのマルチうぜー

340:Socket774
07/05/16 23:01:47 dpwRmuBu
>>337は256スレッド、>>338は128スレッドになってるね

341:Socket774
07/05/17 00:27:50 CFvy1yPf
>>339
すまなかった
もうやらない

342:Socket774
07/05/17 13:53:05 Pa5lcBrt
「----------------」と「================」、うぜー

343:Socket774
07/05/17 18:20:08 ZOtzqh2A
「~(主語)~わ~(述語)~す。」、うぜー

344:Socket774
07/05/17 19:07:30 hq7DgWgr
>>342-34
こっちでも粘着か

345:Socket774
07/05/17 22:34:55 t/dagiTx
うぜーうぜー、うぜー

346:Socket774
07/05/18 17:40:00 G+bTfjwm
韓国女子高生

URLリンク(bbs.enjoykorea.jp)

347:Socket774
07/05/18 19:50:07 4m+N1Mb2
うぜー

348:Socket774
07/05/18 19:57:54 HZNiIH2b
IBM、間もなく「POWER6」プロセッサ搭載サーバをリリースへ
URLリンク(japan.cnet.com)

349:Socket774
07/05/19 00:06:32 V3d6ErrN
セガサターンの、32bitCPU2つで64bit級!
みたいに、メニイコアCPUで、コア複数使って32,64,128,256bitを再現してくれないかな。
無理だな。

350:・∀・)っ-○◎●
07/05/19 00:22:19 fxEwOSS4
情報弱者を騙すための宣伝文句じゃん。

疑似128ビットマシンなら大学の情報処理センターにあったなぁ

351:Socket774
07/05/19 01:09:59 oHwoEMKx
>>349
SPARCの仕様には128bit浮動小数点演算命令が有るよ。
命令自体が実装されているのか、例外からルーチン呼んで計算してるのか知らんけど。

352:MACオタ
07/05/19 01:31:41 kXRlW1BL
あまりにも。。。イタいす(笑)
URLリンク(upyolic.ath.cx)
  ----------------------
  PowerPCとの互換性も期待される優秀なプロセッサであるPOWER6、Intelのインチキな
  オモチャのハードウェアもどきではなく、PowerPCのMacもぜひ復活させてもらいたいですね。
  ----------------------

353:MACオタ
07/05/19 01:38:29 kXRlW1BL
>>348 さん
これ、CNETの英文記事の原題わ"IBM to debut Power6 servers Tuesday"ってことで、
>>328わ正しかったす。 当然すけど。。。
URLリンク(news.com.com)

>>350 団子 さん
  --------------------------
  疑似128ビットマシンなら大学の情報処理センターにあったなぁ
  --------------------------
どのマシンのことすか?

354:Socket774
07/05/19 02:13:49 4KeLygxc
vanguard?

355:Socket774
07/05/19 10:40:57 e1N5P+oy
>>353
つか本文に5月22日ってはっきり書いてあるじゃん
英語は読めても日本語は読めないんだな

356:Socket774
07/05/19 14:42:31 r/AoOl6f
本文に5月22日ってはっきり書いてあるす。
英語わ読めても日本語わ読めないんすね。

なるほど

357:・∀・)っ-○◎●
07/05/20 01:15:11 fYWDPP0c
教授がほざいてただけだからなぁ。
ソフトウェアで128ビットのアドレス空間をシミュレートしてるだとか

思い違いで、実は四倍精度浮動小数が使えるだけとかって落ちも十分考えられ。
実物見たこと無いし。



Sunは基本的に複雑なオペレーションはOSが無効命令をトラップして実行する
って思想だよな。

358:Socket774
07/05/20 01:42:44 KFUhKkDI
>>357
巨大論理アドレス空間のならいろいろあるけど
大型機由来のセグメントのあるやつ(x86含む)はたいてい巨大だ

思想もなにも後でインプリしたとき遅いだろ

359:MACオタ>団子 さん
07/05/20 07:46:37 basf+1Lb
>>357
  ------------------
  教授がほざいてただけだからなぁ。 [以下、略]
  ------------------
また口からでまかせすか。。。

360:MACオタ>団子 さん
07/05/20 08:04:03 basf+1Lb
ここで油売ってるより、また「もっさり」スレッドがTXネタで伸びてるすよ。
スレリンク(jisaku板:258-番)
  -------------------
  258 :Socket774:2007/05/18(金) 00:00:00 ID:HcBSNHdn
>>257
マジレスしとくと
OCerには日常茶飯事だよ
耐久探るのに、Orthos or TX or TAT回しながら、ブラウズなんてのは結構頻繁、
そこで直ぐ気付くのが>3だったりする
  [中略]
  282 :Socket774:2007/05/18(金) 00:56:42 ID:HcBSNHdn
  >>277
  やってみた?
  結果>50だったでしょ?
  E6700を見る限りじゃ超もっさり+鈍足TX(2MTrips/sec未満)だろ。
  見てて可哀そうになったw
  -------------------



361:Socket774
07/05/20 13:34:24 9FOaoPIu
MACオタの引用うぜー

362:・∀・)っ-○◎●
07/05/20 14:05:43 fYWDPP0c
時刻だけは凄いな。
「わざわざ速度リミッタ紹介してるんだから、使えよwwww」
とだけレスするにも面倒だ


363:MACオタ
07/05/20 17:51:15 basf+1Lb
TheRegister経由のPOWER6情報す。
Oracleが8-way POWER6/4.7GHz搭載のp570のベンチマーク結果を公開しているす。
URLリンク(www.theregister.co.uk)
URLリンク(www.oracle.com)
URLリンク(www.oracle.com)
URLリンク(www.oracle.com)

364:MACオタ@続き
07/05/20 17:59:04 basf+1Lb
上の話すけど、Oracle 11i (11.5.10)のMedium Configuration Benchmark で、レスポンス時間[秒]
でこういった結果す。POWER5に対して十分性能を上げてきたと見るべきかと思うす。
POWER6/4.7GHz x 8 (2100 users): 0.625 [sec]
 POWER5+/2.2GHz x 8 (2000 users): 0.983 [sec]

365:MACオタ@続き
07/05/20 18:16:18 basf+1Lb
POWER5+とPOWER6の結果の比較としてわ、こちらの方が正しいやりかたかもしれないす。
URLリンク(www.realworldtech.com)
  -------------------------
  8 core Power6 4.7Ghz 2700 users @0.702sec repsonse time
  8 core Power5+ 2.2Ghz 1400 users @0.712sec response time
  -------------------------
同じ応答時間で、約2倍のユーザー数を処理しているす。

366:Socket774
07/05/20 18:24:50 z3qYfrTl
へぇ、立派なもんやね。
でもこの手のベンチで高得点出すのってどんどんクラスタ化されていってるような…
商機あんのかね?
1年後にはSMTが再導入されたNeharemが控えてるし、商売としては厳しそうな気がするのだが…

367:Socket774
07/05/20 19:19:58 mdtJk1va
ATI-AMDのR600について語る奴はおらんのか?面白そうだぞ。

368:Socket774
07/05/20 19:35:32 beMuSC86
>>367
それはGPUだろう。蛋白質解析とかGPGPUのスコアでも出ないと。

369:MACオタ
07/05/20 19:38:35 basf+1Lb
ベンチマークの詳細を見ると、
  ・8 x 4.7GHz IBM POWER6 processor chip (SMT-enabled), each witth L2 Cache of
   4MB per core and L3 Cache of 32MB per single Core Module (SCM)
とあるす。POWER5の時と同様にSCM版が先行して、MCMのハイエンド構成わ遅れるということに
なりそうす。
ちなみにOSわPOWER6完全対応じゃないAIX 5.3で、当然POWER6用にリコンパイルなんて
されてない市販のOracle E-Business Suite 11i (11.5.10)のベンチすから、既存アプリでin-order
の悪影響で性能が上がらないという心配わ、大きな問題になるわけじゃない模様す。


370:Socket774
07/05/21 00:48:21 ZLOm1OG/
もうじき問題点もばれるよ。
power.orgの記述はまんざらガセじゃない。

371:MACオタ>370 さん
07/05/21 01:20:44 iRi2b267
>>370
SPECだとリコンパイル済みだし、既存アプリでの問題があったとしても検証結果が一般に
理解される形で公開されるのわ、難しいかと思うす。

372:Socket774
07/05/21 02:09:08 Abac/PjX
>>371
compilerのp6 scheduling対応はまだ不十分だと思う
それ以外にも…

373:MACオタ
07/05/22 05:29:24 TVO4r9wN
既報通りPOWER6搭載のp570が発表されたす。
URLリンク(www-03.ibm.com)
  ------------------------------
  The System p 570 server offers clients 2- to 16-core POWER6 processor configurations at
  speeds of 3.5, 4.2 or 4.7 GHz in an easily expandable 4U (4 EIA units) rack mount modular
  package. Each p570 building block accommodates two processor cards, each of which
  provides two 64-bit POWER6 processor cores, 8 MB of Level 2 (L2) cache and 32 MB of
  Level 3 (L3) cache. The p570 provides memory capacity of up to 192 GB per building block
  or 768 GB per system, depending on memory speed
  ------------------------------

374:MACオタ@続き
07/05/22 05:45:46 TVO4r9wN
4.7GHz版に関してわ、秋になるまで入手不可能というオチがついているすけど、TheRegisterの
記事でわ、製造上の問題でわ無いとのコメントが出ているす。
URLリンク(www-03.ibm.com)
  ---------------------------
  - The 4.2 GHz POWER6 2-core processor card with eight memory DIMM slots
   (FC 5621) . available only for model upgrades from 9117-570 to 9117-MMA . and the
   4 GB, 8 GB and 4/8 GB 533 MHz DDR2 POWER5 memory features (FCs 7893, 7894
   and 4495) are planned for availability November 16, 2007.
  - Model upgrades from 9117-570 to 9117-MMA that include the 4.2 GHz POWER6 2-
   core processor card with twelve memory DIMM slots (FC 5622) are planned to begin
   September 7, 2007.
  ---------------------------
URLリンク(www.theregister.co.uk)
  ---------------------------
  McCredie denied speculation that IBM will struggle to produce enough of the 4.7GHz chips
  to satisfy near-term demand.
  "We have been enjoying very good yields and supply capability," he said.
  ---------------------------

375:MACオタ@続き
07/05/22 06:00:14 TVO4r9wN
SPECの結果わ、こちらす。
URLリンク(www-03.ibm.com)
             SPECint_2006     SPECfp_2006 (いずれも peak/base)
 POWER6/4.7GHz   21.6/17.8        22.3/18.7
 Woodcrest/3GHz   18.1/17.5        17.7/17.1
Montecito/1.6GHz   15.7/14.5        18.1/17.3

参照:
Woodcrest/3.0GHz
 Int: URLリンク(www.spec.org)
 Fp: URLリンク(www.spec.org)
Montecito/1.6GHz/24MB L2
 Int: URLリンク(www.spec.org)
 Fp: URLリンク(www.spec.org)

376:MACオタ@ここまで
07/05/22 06:06:03 TVO4r9wN
その他の各種業界標準ベンチマークの結果わ、こちらに掲載されているす。
URLリンク(www-03.ibm.com)

377:Socket774
07/05/22 21:08:24 Ba8l/F+m
     /.:.:\ +          ,..-─- 、
  く\ノ.:.:.:.:.:.: \       /. : : : : : : : : : \
   \\:.:.:.:.:.:.:__ヽ     /.: : : : : : : : : : : : : : ヽ
     \\:./       ,!::: : : :,-…-…-ミ: : : : :',  
      \\      {:: : : : :i '⌒_, ,_⌒' i: : : : :}  
        \\     {:: : : : | ェェ  ェェ |: : : : :}
.        \\.   { : : : :|   ,.、   |:: : : :;!  
            rヘ \_ ..ヾ: :: :i r‐-ニ-┐ | : : :ノ  
          }  >'´.-!、 ゞイ! ヽ 二゙ノ イゞ‐′
         |    -!   \` ー一'´丿
         ノ    ,二!\   \___/   /`丶、
        /\  /   \\  /~ト、   /    l \
       / 、 `ソ!     \\l::::|ハ/     l-7 _ヽ
      /\  ,へi       r''ー-ゝ_`ヽ、    |_厂 _゙:、
      ∧   ̄ ,ト|      >‐ ̄`    \.  | .r'´  ヽ、
     ,ヘ \_,. ' | |      丁二_   7\、|イ _/ ̄ \
     i   \   ハ∟       |::::|`''ー-、,_/  /\_  _/⌒



378:Socket774
07/05/22 21:46:14 BtmcHDPF
URLリンク(pc.watch.impress.co.jp)
この写真みればだいたいわかる

379:Socket774
07/05/22 22:47:45 JvCGJhc/
POWER6Mac期待してもいいよね?

380:Socket774
07/05/22 22:52:41 JlBdBpsF
…真性?

381:Socket774
07/05/22 23:01:33 nIOXaSJh
>>378
ずいぶん細かいところまで四角く切ってるよね
下の方の階層は細かく切らないのが最近の傾向かと思ってたけど
そうでもないのかな

382:Socket774
07/05/23 00:19:07 Muwzv6NS
インテルがHPCに本腰,専用プラットフォームの普及狙う
URLリンク(itpro.nikkeibp.co.jp)

> S3000PT仕様のボードが搭載できるプロセサ数は1個だけ。
> その代わり,大きさは通常のサーバー用マザーボードの半分で,
> 1Uのサーバー機に2枚搭載する形を採る。ボードに搭載した
> メイン・メモリーを1個のプロセサが占有できる。

383:Socket774
07/05/23 00:56:52 YMv2wvTc
>>381
っていうかデュアルコアのはずなのにどことどこが同じコアなのか分からん。
下側で左右にコアがあると思うのだが微妙にレイアウトが違うような。
光の加減かな。



って書こうとしたら下にスクロールしてないことに気づいた。
細かく区切ってあるのは徹底したチューニングの成果ということなんだろうか。
これで0.75V以下~1.3V以上まで動かせるんだから凄い。
Conroeみたい。

384:Socket774
07/05/23 01:03:16 XZfCWfn/
シリコンウェハーよりでかいチップなんてありえないだろ。

385:Socket774
07/05/23 01:15:41 8EK7dVFx
ボードの大きさが半分てことだろ

386:Socket774
07/05/23 02:33:48 MNGl3NIk
MIPS tips new 32-bit MPU core
URLリンク(www.eetimes.com)

387:Socket774
07/05/23 03:08:23 a/YITAtA
一生懸命張るのはいいんだけど…
単なるURL indexというか、なんというか、
自分の考えは?
いや、いいんだけれども

388:Socket774
07/05/23 12:15:52 rvrOguWK
>>375
なんでWoodcrestと比べてんの?

389:Socket774
07/05/23 23:34:56 UnOv+CAJ
>>387
すまなかった
もうやらない

390:MACオタ>388 さん
07/05/24 20:41:59 BOWgln3Y
>>388
Pentium 4以来、SPECintの王者わx86だからす。

391:MACオタ
07/05/25 01:17:40 6ojiKhut
IBM他4社連合が、製造プロセスの共同開発を更新したというネタわ既報かと思うす。
URLリンク(pc.watch.impress.co.jp)
で、この中でSamsung、Infineon、Chartaredわ以前から手を組んでいたすけど、
URLリンク(www.itmedia.co.jp)
今回わFreescaleが加わったのがミソかと思うす。しかも面白いことにFreescaleのプレスリリース
わ他の3社と微妙に異なっていてSOIプロセスの共同開発についての文言が含まれているす。
URLリンク(media.freescale.com)
  --------------------------
  The agreement includes Complementary Metal Oxide Semiconductor (CMOS) and
  Silicon-on-Insulator (SOI) technologies as well as advanced semiconductor research and
  design enablement transitioning at the 45-nanometer generation.
  --------------------------
Freescaleにとってわ、Phillips, STMicroとのCrolles連合の失敗を意味するかと思うすけど、
Power.org加入とIBMとのプロセス共同開発でAIMでPowerPCを始めたスタート点に立ち戻った
とも言えるかと思うす。

392:MACオタ
07/05/25 01:27:10 6ojiKhut
こちらもPowerPCネタすけど、開催中のMicroprocessorr ForumでAMCCが新PowerPC 440
"Titan"を発表したす。
URLリンク(www.eetimes.com)
  -----------------------
  The 90nm Titan is a dual-core processor that hits 2 GHz in bulk CMOS to deliver
  8,000 Dhrystone MIPS.
  -----------------------
高速化のミソわ、ダイナミックサーキットによるプロセッサ設計の雄、Intrinsityの技術を
導入したことにあるす。ちなみにこのIntrinsityもサマセット研時代のPowerPC技術者の
会社す。
Intrinsityの初期製品わMIPSベースだったすけど、これPowerPCのライセンスが高くて
MIPSを選んだといういわくつきの話す。Power.org以前のPowerPCの戦略の不味さが
改めて明らかになったとも言えるかと思うす。

ちなみにPPC440コアの代表的製品といえばBlue Gene/Lすけど、果たしてAMCC/Intrinsity -> IBM
という痛快極まりない技術の逆転わ有るすかね。。。

393:MACオタ@続き
07/05/25 01:37:22 6ojiKhut
"Titan"の成果わ、POWER6に続いて「回路設計レベルの革新で性能を上げる」ということが
可能であることを証明したす。
Penrynの"Radix-16"除算回路の投入も含めて、この方針が当座の性能向上のトレンドになる
気がするす。これわ設計に費やすコストやマンパワーの増大につながると思うすけど、
なんだか技術者をリストラしつつあるらしい某社の先見性の無さっぷりって。。。

394:Socket774
07/05/25 01:44:46 YPUxFNec
FreescaleがSOI含めIBMと協業する話は1月に既出す。

395:MACオタ>394 さん
07/05/25 01:55:56 6ojiKhut
>>394
これすね。
URLリンク(www-06.ibm.com)
IBMわバルクシリコンでSamsungやInfineon, SOIでChartaedやFreescaleと以前から提携
している訳すけど、ここで面白いのわ今回の発表に今までIBMを中心とするプロセス開発
連合の一員だったSonyと東芝が入っていないことす。
この辺に、今回のリリースの意図があるすかね。。。
  ----------------------
  また5社は5月24日、都内で32nmプロセス共同開発に関する記者発表を行ない、その
  取り組みを日本企業に向けてアピールした。
  ----------------------


396:Socket774
07/05/25 01:57:37 XYN0T54V
そういや↓この件はどうなったの?
URLリンク(enterprise.watch.impress.co.jp)

397:・∀・)っ-○◎●
07/05/25 01:59:31 7M5pJbNR
ノート向けのPPC64はFreescaleには期待せんよ
もっともPowerBookはもう二度とでないだろうが


398:Socket774
07/05/25 02:01:45 XYN0T54V
> Sonyと東芝が入っていない

↓この絵には書いてあるけど…
URLリンク(pc.watch.impress.co.jp)

399:MACオタ>396 さん
07/05/25 02:02:46 6ojiKhut
>>396
質の悪い株屋に買収されて、事業を切り売りされるんじゃないかと恐れていたすけど、
単に良いスポンサーが付いて経営が安定する方向に向かってる模様す。

400:MACオタ>398 さん
07/05/25 02:04:22 6ojiKhut
>>398
"Research"(基礎研究)にしか入っていないすけど?

401:Socket774
07/05/25 02:04:35 XYN0T54V
>>398にはAMDも書いてあるね

402:Socket774
07/05/25 02:05:54 XYN0T54V
>>400
へ?もともと、そういう位置づけでしょ?

403:MACオタ@補足
07/05/25 02:06:38 6ojiKhut
ちなみにそのスライドの"Common Platform Manufacturing"ってのわ、同一の設計でどの会社でも
製造できるというレベルの話すから、ファウンダリ企業にしか関係無いと思われるす。


404:MACオタ>402 さん
07/05/25 02:07:59 6ojiKhut
>>402
CELL BEをSonyとIBMのどちらでも製造できるという点で、現状のIBM-Sony-東芝連合わ
"Common Platform Manufacturing"レベルかと。。。

405:Socket774
07/05/25 02:13:09 YPUxFNec
そもそも今回の発表はバルクであってSOIじゃないでしょ。
SONY、東芝はSOI組なんだから。

ちなみに32nm以降の協業についてのプレスリリース
URLリンク(www-06.ibm.com)

406:Socket774
07/05/25 02:13:15 XYN0T54V
そらあんたの思い込みでしょ

407:Socket774
07/05/25 02:16:00 XYN0T54V
>>406>>404
わかると思うけど

408:MACオタ>407 さん
07/05/25 02:33:49 6ojiKhut
>>407
思い込みでチップの製造を他の会社に移管できるなら、今頃AMDのプロセッサわUMCで
製造されていた筈かと(笑)

409:Socket774
07/05/25 02:36:49 XYN0T54V
なんか噛み合ってないな
まあいいや 説明するのめんどい
おやすみ

410:Socket774
07/05/25 02:46:00 /eUBhKTg
組込のチマチマしたCPUなんざどーでも良いと
内心思っているオレガイル

411:Socket774
07/05/25 02:47:26 /ebs1hSy
でもこれから何年かは自動車向けのCPUの覇権争いが面白そうだよ

412:Socket774
07/05/25 02:49:26 /eUBhKTg
softwareの方が大変

413:Socket774
07/05/25 02:55:02 /ebs1hSy
それはご愁傷様

414:Socket774
07/05/25 10:39:21 fUKbherf
POWERの話になると比較にならんぐらい生き生きするな。
昔から思ってたんだが何でPOWERオタと名乗らないんだ?>MACオタ

415:Socket774
07/05/25 11:31:58 aLBUbQUc
>>414

同意

416:Socket774
07/05/25 15:10:48 5kaRtAE5
【MPF07】米MIPS社が新CPUコア「74K」の詳細を発表,「合成可能なコアで1GHzの壁を超えた」
URLリンク(techon.nikkeibp.co.jp)

ついに合成でも1GHz出るようになったんやね
しかし、パイプラインは17段でアウトオブオーダー採用とは

417:Socket774
07/05/25 15:15:21 5kaRtAE5
そしてケータイでも1GHz到達というお話

【MPF07】米QUALCOMM社,1GHz動作のアプリ・プロセサ「Scorpion」と次世代プラットフォーム「Snapdragon」の詳細を明らかに
URLリンク(techon.nikkeibp.co.jp)

IntelとAMDの1GHz競争も今は昔、か

418:Socket774
07/05/25 15:47:32 b5hOWJJk
車1台には6インチウェハ分の半導体が搭載
URLリンク(pc.watch.impress.co.jp)

419:MACオタ
07/05/25 17:59:42 6ojiKhut
POWER6の国内発表会の記事を読んだヒトも多いかと思うす。
URLリンク(enterprise.watch.impress.co.jp)
注目わパッケージで、この写真のようにL3を外付けにすることを前提にしたSCM(Single Chip Module)
での製造から開始されている点す。
URLリンク(enterprise.watch.impress.co.jp)
ちなみにPOWER5わ最小構成でもeDRAM L3をパッケージに混載したDCMが基本で、SCMわ
単に同じパッケージからL3チップが取り外されているだけす。
 ・POWER5 SCM: URLリンク(www.ibm.com)
 ・POWER5 DCM: URLリンク(www-03.ibm.com)

明らかに初期からブレードサーバーやワークステーションクラスの製品等、ローエンド構成にも
搭載する意欲満々に見えるす。

420:Socket774
07/05/25 18:23:45 i6JnI7Wm
PPCの9シリーズと統合しただけなんじゃないの?

421:MACオタ>420 さん
07/05/25 18:38:06 6ojiKhut
>>420
そういう意味す。ただPPC9xx自体わ外販してるチップすから、それがすぐさまPPC9xxの消滅を
意味する訳じゃ無いす。

422:Socket774
07/05/25 21:23:53 0OeUO3H3
「ビジネス開発にHPCを」、IntelがHPC普及に向け専門組織を新設
URLリンク(enterprise.watch.impress.co.jp)

>>382と同じネタかな?
HPC分野ではメモリ帯域を稼ぐため、メインメモリを1つのCPUに占有させるというところか
まあ、マルチコアなんで1CPUって言っても実はSMPじゃんって話はあるが

423:Socket774
07/05/26 11:33:57 ctmJLC3v
PPC9xxは使い道が限られてるからな…
CoreやAthlonと同じで。

424:Socket774
07/05/29 23:26:05 HVQ65ILd
IBM's Power6 architecture goes down the Itanic route
URLリンク(www.theinquirer.net)

POWER6はインオーダだからダメってのはあまりにも乱暴
ただ、アウトオブオーダやめなければ3GHzくらいでも今の性能出るんじゃないか
って気もするし、それなら電力あたりの性能はむしろそっちの方がいいんじゃ
ないかって気もするし

結論: Intel Core 最強w

425:Socket774
07/05/30 00:20:51 7bRoM0B9
POWER6は驚くほど速くはない!?
URLリンク(www.geocities.jp)
SPECint2006では・・・クロックがが1/3しかないItanium 2と比較して,ベース
では2割,ピークでも4割程度のアドバンテージしかありません。
SPECfp2006も・・・Itanium 2と比較すると,ベースで8%,ピークで23%という
アドバンテージです。
この程度であれば,Itanium 2がMontvaleで追いつけないというほどの性能差ではありません。
やはり,クロックを上げると相対的にメモリレーテンシが増加する効果や,
コアをインオーダ化したこと等により1サイクル当たりの命令実行数
(Instruction per Cycle:IPC)は低下しているようです。

426:Socket774
07/05/30 00:24:06 mIOLNfnp
>>424
Pentium4 2.53GHzが55Wくらいで、AthlonXP 2200+が80Wくらいだっけ
そんな時代を思い出すな。

AthlonXP<クロック上げるとか馬鹿のやることじゃね?w

427:Socket774
07/05/30 00:30:23 9Pi+Pcj0
>>424
OoOが電力効率悪い理由は性能向上幅以上にトランジスタを注ぎ込まないといけないから。

428:Socket774
07/05/30 00:40:15 UALXv4Ar
ARMv7のマルチプロセッサ拡張
URLリンク(pc.watch.impress.co.jp)

429:MACオタ>425 さん
07/05/30 00:45:25 Yeer8U2G
>>425
いちおう、安藤氏のその意見に関する私の感想わこちらす。
スレリンク(jisaku板:548番)
peakの結果の方でわ十分引き離しているすから良いんじゃないすかね。。。

430:Socket774
07/05/30 01:22:25 /kcySFd7
トランジスタをつぎ込んでIPCを向上させても、トランジスタ数に比例して性能が向上することはない。
かといって、IPCを向上させずに周波数だけを上げても、周波数に比例して性能が向上することはない。

431:Socket774
07/05/30 02:05:32 uHJt7RE4
Pentium4 2.53GHz TDP61W
AthlonXP 2200+ TDPmax67W、TDPtyp61W

432:Socket774
07/05/30 02:15:39 uHJt7RE4
Pentium4 2.53GHz 最大電流*電圧80W
AthlonXP 2200+  最大電流*電圧68W

433:Socket774
07/05/30 18:47:29 CB682ZJ8
>>430
ついでに、単純にマルチコアにしても、コア数に比例して性能が向上することはない。

434:Socket774
07/05/31 00:29:35 +wcTBWA4
SMPでリニアに伸びるのは8CPUぐらいまでだったような。
20CPUぐらいで頭打ちになるんだったかな。

435:Socket774
07/05/31 01:34:46 5Tk5PeeV
のびねェよ
どんな単純なin cache loopでハカッテンダか

436:Socket774
07/05/31 11:29:53 m0XuhTpq
IBMがPOWER6Macを出さない方が問題だ。

437:Socket774
07/05/31 12:43:24 97NLY2+b
MacとMacOSの販売権はAppleにあるのになんでIBMが?

438:Socket774
07/05/31 16:28:43 2TZXESHq
IBMがPowerBook用G5を出さなかったのでMacがIntelに乗り換えた、
みたいな話じゃないのか。

439:Socket774
07/05/31 19:01:45 +EsokglI
PowerPCはバカ売れしてるんだが、アップルはパソコンメーカーでは4位程度のメーカーだったので
PowerPC出荷量の1-2%に過ぎなかった。

だから後回しにされた、というわけだ。


このスレはまた別の話だが、自作住人ってなぜか、8コアとか4.7GHzとか、そこら辺の「単語だけ」に反応するよな

440:Socket774
07/05/31 21:46:07 AaTJk+Q1
物事を一個の数値などに単純化しすぎると万人に分かり易くなる
その反面、物事の繊細な本質が見えなくなる
ベンチの性能性能言ってるヤシらだって同じアナのムジナ

441:MACオタ>439 さん
07/05/31 22:25:06 2PTa9e5w
>>439
  -------------------
  PowerPC出荷量の1-2%
  -------------------
組込向けの10倍以上の単価すから、売上に換算すると結構な割合になるすけど。。。
問題わIntelに対抗できるだけの開発費にペイするかどうかってことかと思われるす。

442:Socket774
07/05/31 23:21:21 jtygb6Va
>>439-440
例えばゲーマーだったら、ゲームを快適に楽しみたい、という目的が有って組むけど、
組むこと自体が目的だったら、単語や数値にこだわるのも自然では?
日常使用では、一部の用途を除けば、普通のPCで十分だし。

443:Socket774
07/06/01 00:00:12 WzMifvmK
E6850なんか3GHzでTDP65w。
Power6の存在価値がMacであるかといわれるとかなり微妙。

444:440
07/06/01 02:47:43 SiuhZr8w
>>442
言いたかったのは単純化しすぎた数値にばかり着目すると
結局、変な代物ができあがると言うこと。
cellしかり、点数教育しかり
そしてlinpackだけが速くてその実、使い物にならないcomputerしかり

445:Socket774
07/06/01 03:02:13 NjWj7TXW
>>444
そういう設計だと割り切って作られてる製品を、知っている単語だけで反応し、分かりやすい解説が入るまで叩けないんだよな

446:Socket774
07/06/01 23:32:19 QUNfC2Zd
競争相手としてのPowerPC Macは欲しかったな。

447:Socket774
07/06/02 00:11:35 jbhfMETz
どの市場でも二、三の勢力が競争してるのがいいんだけど、
2,3割のシェア取れなければやっていけないから。

448:・∀・)っ-○◎●
07/06/02 04:36:54 v+AN2/M3
Meromと張り合えるのはPWRficientくらいしかない

449:Socket774
07/06/02 06:46:46 EzwA+Sgl
POWER6の動作電圧の広さもなかなか

450:Socket774
07/06/03 23:56:36 blpDVZUU
URLリンク(pc.watch.impress.co.jp)

451:Socket774
07/06/04 00:26:52 3T+mlpe/
Windows VistaをPPCに移植してそっちをライバルにでもなんでもしてくれ

マカーはx86になって幸せを満喫しているんだよ

452:・∀・)っ-○◎●
07/06/04 00:33:04 lC/IGYNE
IntelにとってはAppleは高値のXeonとMeromだけを買ってくれるいい客だもんな
にしてもClovertown 3GHzは異常に安いが。



453:Socket774
07/06/04 02:04:22 qSi407+l
>>451
IntelがPPCを作り、MSがPPC版Vistaを出せば、全て解決。
x86と同レベルのモノを作ることは、両者にとって困難ではないだろう。

454:Socket774
07/06/04 02:14:57 Fm9PoG+L
素性はいいからな

455:Socket774
07/06/04 13:09:42 hunJO2CG
VistaではなくXPでお願いっ><

456:Socket774
07/06/04 13:43:57 qSUy4G0i
世界初のGPUを使ってサクサク動く画像編集ソフト「Pixelmator」
URLリンク(gigazine.net)

Intelアボーン

457:Socket774
07/06/04 15:33:26 /58af8vC
Adobeアボーンの方がいい…。

458:Socket774
07/06/04 23:49:35 XdYG8Al+
Sun puts a T1 on an FPGA
URLリンク(www.theinquirer.net)

FPGAベースのSPARCコア
どうすか?

459:Socket774
07/06/05 00:25:48 wwj1N8r4
>>453
次世代XBOX用CPUじゃだめなの?

460:Socket774
07/06/06 20:59:54 ChcJKd3f
【DAC2007】IBM社、45nm製造ASICにSOIとエンベデッドDRAMを採用
URLリンク(www.eetimes.jp)

【DAC 2007】米IBM,45nmSOIや0.13μm液浸,Si貫通ビアなどのASICを発表
URLリンク(techon.nikkeibp.co.jp)

461:Socket774
07/06/06 23:32:44 DZwHYlDQ
京速のアーキテクチャまだ決まってなかったらしいな

462:Socket774
07/06/06 23:53:04 GN/V5iug
寄せ集めだろ
ここ数年、何やってたんだか

463:Socket774
07/06/07 00:06:53 OxOjGKY/
プロジェクトを遅らせるほど技術の進歩で京速を達成するのが容易になりますw

464:Socket774
07/06/07 01:16:17 lOpeRYuU
ライバルも進化する
イタチごっこ
忘れちゃいないだろうな

465:MACオタ
07/06/07 20:49:10 OCp7RXQD
ここのところPOWER6関連で、海外の掲示板等で紹介されていた特許や論文を漁っていたす。
POWER6に関してわ、高速化の代償として整数演算ユニット(FXU)がインオーダー実行になっている
ことが以前から指摘されていたすけど、これ以外にもコアに機能上のトレードオフとして削減された
部分やや改善が加えられた部分があるす。以下、興味深い点について書き残しておくす。
長くなるかと思うすけど、勘弁して欲しいす。

■レジスタリネームの削除
FXUでOoOEを削ったことに加えて、OoOEを残したFPUやVUでもレジスタリネーム機能を完全に
削っているす。つまり、ちゃんとpowerアーキテクチャで定義された32個レジスタを有効活用しないと、
レジスタ競合で始終パイプランが停止してしまうということになるす。
ただしHPC Linpackの成績を見ると、POWER4/5と同程度のパイプライン段数であるにもかかわらず
リネームレジスタ数を72->120に大増強したPOWER5とそれほど変わらない効率を出しているす
(POWER5: 84.8%, POWER6: 79.6%, 共にp570 16-way)。
命令キューも小さくなっていることでキャッシュにヒットしてデータが連続的に供給される限りわ、
シンプルな構造にしたことが成功していることが判るす。
ちなみにリネームレジスタわ存在しないものの、後述する投機実行機能に使う一時使用のための
レジスタファイルが一セット用意されている模様す。




466:MACオタ@続き
07/06/07 20:56:23 OCp7RXQD
■load/branch lookahead機能
L1キャッシュやTLBのミスで発生する長期のストール時に実行する一種の投機実行機能なんすけど、
「実行」する訳じゃない。。。ってのが面白いところす。
in-orderでリネームレジスタを持たないという設計により、投機実行中にレジスタの書き換え等、
プロセッサの内部状態が変わるようなことが一切できないす。そこで、冬季実行している間の
実行結果わ捨てて、L1キャッシュへのプリフェッチや分岐テーブルの更新のようなプロセッサの
内部状態を変えない動作のみを行うす。ストールが終わって後続の命令が開始されると、必要な
データがL1に入っていたり、分岐予測の精度が上がっていたりして万々歳ということになるす。

この機能、OoOEと違ってパイプラインバブルを埋めることわ出来ないすけど、普通のin-order実行
で問題となるキャッシュミス等での完全停止の対策としてわ面白いす。バブルについてわ高い動作
クロックと整数命令の実行レイテンシを1に削減したことで影響わ少ないという考えだと思われるす。

ちなみに投機実行中に全くレジスタに書き込めないと、本来の目的である後続のload命令や分岐
命令の実行まで行き着くことすらできないんで一時使用のためのレジスタファイルを一セット持って、
投機実行中の演算結果を書き込むようにしている模様す。



467:MACオタ@続き
07/06/07 21:02:26 OCp7RXQD
■プレデコードの強化
私わ以前から「POWER6わNetburstの衣鉢を継ぐ」とか書いているすけど、これもトレースキャッシュ
に近い機能す。RISCでわ下のメモリ階層からL1命令キャッシュに読み込む段階でプレデコードを行う
すけど、以前わ実行パイプラインで行っていた命令のグループ化の大半をこのプレデコードの段階で
行う模様す。
命令ごとに必要とするリソースを示すビットとグループ境界の参考用に使うビットが付加されるために、
L1キャッシュ内の命令わ32-bit幅のpower命令より若干肥大化するす。この肥大化分が64KBという
L1命令キャッシュのサイズに含まれているかどうかわ不明す。

ちなみにFXUのin-order化/FPUのOoOEの規模縮小により命令のcrackingやらmillicoding (より単純な
命令への変換機能)わ無くなった模様す。複数の実行ユニットを使用する命令わ存在するす。
後述の整数乗除算命令なんかわ、その一例す。

468:MACオタ@続き
07/06/07 21:09:05 OCp7RXQD
■命令ディスパッチレベルのSMT
以前に、
スレリンク(jisaku板:818番)
  ----------------------------
  issue queue内部でOoOE機構を持たないプロセッサにSMTって実装する意味があるすか(笑)
  ----------------------------
なんてことを書いた覚えがあるすけど、なんとPOWER6わ2つのスレッドから7命令をグループ化して
ディスパッチすることでSMTを実現しているす。グループ生成の制限わ、まず優先スレッドから
in-orderかつ所要リソースがダブらないという制限で最大5命令で、残りをサブスレッドから。。。
というモノす。場合によってわサブスレッドの命令のほうが多くなる筈す。

ちなみにPOWER4/5わ命令キューにサイクルあたり5命令のグループをディスパッチして、命令キュー
からアウトオブオーダーで7命令をイシューするという設計だったすけど、OoOEを縮小した分最初から
静的に7命令をイシューするようになったとも言えるす。なんとなく更にVLIW的になったという気もするす。

469:MACオタ@続き
07/06/07 21:14:55 OCp7RXQD
■FPUによる整数乗算/除算の実行
おかげで従来パイプライン化されていなかった整数乗除算がパイプライン化されるす。ただし
スループットわ2。

■FPUの逆数/平方根近似値命令の高精度化
14-bit精度になったとのことす。そのまま使えそうな値すね。

■FPUパイプラインの改善
除算や平方根のようにパイプラインを何周もする長レイテンシの命令がFPUを占有している間に、
前述の一時使用レジスタをその手の命令に回すことで後続の命令をパイプラインに投入できる
ようになっているす。
ただし論文でも「リネームレジスタが無いのでシングルスレッドでの効果わ今一つ」とあるす。
ただし片側のスレッドが除算とかを実行中に、もう一つのスレッドからのFPU命令をどんどん投入
できるそうす。

■単精度浮動小数点わ実行レイテンシが大きい?
倍精度FP演算わ6-cycle後の後続命令に結果をフォワードできるとのことすけど、単精度わ
丸めの追加処理が複雑になるのでフォワードが遅くなるらしいす。


470:MACオタ@続き
07/06/07 21:19:36 OCp7RXQD
■VMX (AltiVec)
VMXのイシューポートが一つだけになって、演算とvpermを同時実行できなくなっているという噂が
流れているすけど、それわ無い模様す。
特許でもVMXユニットが2つ(多分VIU/VFPUとVPERM)という実装例が記述されているし、何より
ダイ写真でベクトルレジスタが2ブロックあって、2つのパイプランが並列実行することを示しているす。
(POWER4以来、IBMの設計わパイプラインごとにレジスタを割り当てている。例えばFXU0とFXU1の
GPRわ別でそれぞれ32個づつある)

どうやらFPUとVMXの関係わ、PPEとよく似ていて命令キューを共有し、FPU命令とAltivec命令を
任意の組み合わせでサイクルあたり2つイシューできる模様す。

謎なのわダイ写真を見る限り、ベクトルレジスタが64-bit幅づつ2つに分割されていることで
四則演算ならともかくシフトやpermuteで不都合が無いのか非常に不思議す。

■リネームレジスタの話の続き
リネームレジスタを削ったかわりに、演算やロードの結果を引数として使う場合の優遇措置わ
色々ある模様す。

471:MACオタ@ここまで
07/06/07 21:22:34 OCp7RXQD
まとめるとベンチマークに現れている高性能っぷりわ、in-order実行の問題であるキャッシュミス等
によるストールが各種の新機軸によってうまくカバーされたことを証明しているかと思うす。
CELLのSPEでわ、そもそもストールが発生しないようにLSを採用した訳すけど、同じIBM社内で
in-orderでの性能向上策として色々考えていることが判るす。
POWER6の手法わ将来のPPEの実装にも適用できるネタであることも今後の注目点じゃないすかね。

IBMわ昔から「割り切った」設計をする癖があるすけど、今回の割り切りネタわ
  「パイプラインバブルわ放置」 
ってところに見えるす。キャッシュ/TLBミスによる長期の停止がIPC低下の主要な原因である
認識わCELL BEの設計方針にも通じるすね。

一方で、数年振りにSPECintの王者の地位を譲ったIntelが今後何をやってくるかわ楽しみす。
IBMと違ってIntelわ 「割り切らない」 会社す。
IBMがPOWER4で「クロックを上げれば命令の実行レイテンシわ多少悪くても良い」と考えた時に、
Intelわ超高クロックのPentium4の上に更に倍クロックのALUを内蔵することで命令のレイテンシを
短縮したす。同じくIBMがデュアルコアわL1をwrite-throughにしてL2で同期すれば良いと考えた時、
IntelわL1をcopy backのままにして、L1間のスヌープを実装したす。
Intelわ既知の性能向上策を決してサボらない会社す。powerを支持する私にとってIntelわ常に
恐ろしい競合相手す。

472:MACオタ@補足
07/06/07 21:23:59 OCp7RXQD
今回参考文献サボったすけど、ほぼソースわあるので質問があれば紹介するす。


473:Socket774
07/06/07 21:27:56 Lm3TZOZJ
IBMとAppleはなぜPOWER6 Macを出さないのか。

474:Socket774
07/06/07 21:30:49 0a8Hjx0P
IntelとPCメーカーはなぜItanium2 PCを出さないのか。

475:Socket774
07/06/07 21:40:31 FiPhouRT
>>470
> 謎なのわダイ写真を見る限り、ベクトルレジスタが64-bit幅づつ2つに分割されていることで
> 四則演算ならともかくシフトやpermuteで不都合が無いのか非常に不思議す。

AMDのPhenomは80bitと64bitに分割されているように見えるが
URLリンク(www.techreport.com)
シャッフルやシフトのスループットは1だな

476:Socket774
07/06/07 21:49:48 FiPhouRT
POWER6の半分程度のクロックだから参考にならないかもな

477:MACオタ>475 さん
07/06/07 21:51:38 OCp7RXQD
>>475
分割されたブロックの距離が妙に遠いすよ。

ダイ写真の方わ>>378のリンク先でも見て欲しいすけど、上側コアの左端がVMXユニットで、
見ての通り128-bit幅のレジスタが2ブロック見える筈が64-bit幅と思しきブロック(赤銅色に見える
四角)が4つあるす。


478:Socket774
07/06/07 22:18:09 SMH/5DS3
トレースキャッシュに続いてランアヘッドも実用化か
Rotenbergはヒーローだな

479:Socket774
07/06/07 22:19:02 SMH/5DS3
何度も言うけどトレースキャッシュとプリデコードキャッシュは全くの別物だから

480:・∀・)っ-○◎●
07/06/07 22:36:23 /oFgfG4i
CellのSPEでもVPERM相当ユニットはLSU側のポートだったな


481:MACオタ>団子 さん
07/06/07 22:46:37 OCp7RXQD
>>480
ちと話わ変わるすけど、PPEのVMXがハーフスピードって話わ、何を探せば書いてあるすか?

482:・∀・)っ-○◎●
07/06/07 22:52:21 /oFgfG4i
もちろん実測。
あとIBMのサイトにも図でそう書いてあったがURLは忘れた。

483:MACオタ>団子 さん
07/06/07 23:00:43 OCp7RXQD
>>482
  ----------------
  あとIBMのサイトにも図でそう書いてあったがURLは忘れた。
  ----------------
そういうの探したすけど、見つからなかったす。
ところでFGMTでソフト的にわクロック半分のプロセッサが2つに見える筈すから、実測だと半分で
当たり前なんじゃないすか?

484:・∀・)っ-○◎●
07/06/07 23:31:26 /oFgfG4i
「PPE VMX 半速」でググったら俺のカキコしかなくてワロタ

むろん両コンテクスト動かして合計スループットを計測した上で言ってる。
フェッチ・デコードが1コンテクストあたり1命令/clkなだけで演算ユニットのポートの
縛りがないことは判明。



IBMのサイトに明示してあったんだが今探しても見つからん

URLリンク(forum.beyond3d.com)

> XENON's VMX floating simd unit longer than PPS's, because dotproduct,DX compression instructions etc
>
> PPS's vmx contain 8 floating units, but i dont know why,
> it has more facilities:
>
> 1. 2*4 ways floating simd unit
> 2. 1*8 ways simd
> 3. yield problem or higher frequency
> 4. VMX run at half speed
> __________________
> Version of Majic12

485:Socket774
07/06/07 23:41:41 FiPhouRT
演算器内で処理が完結するなら、レジスタが分離していても
Vpermやシャッフルで不都合は起きないような気がしてきた

ところで、2つのスレッドを実行できるということは
レジスタセットは各パイプラインごとに2つあるのか?

486:MACオタ>団子 さん
07/06/07 23:43:19 OCp7RXQD
>>484
引用先わ私も検索で引っ掛けたすけど、ポストしたヒトの推測に過ぎないす。

487:MACオタ>485 さん
07/06/07 23:47:58 OCp7RXQD
>>485
  ------------------
  レジスタセットは各パイプラインごとに2つあるのか?
  ------------------
そうす。lookahead用の予備も入れるとパイプラインごとに4つということに。
結果的にレジスタの面積わ、リネームレジスタが120あったPOWER5とほぼ同じす。

488:Socket774
07/06/07 23:52:30 M+M1lLB2
命令ごとに必要とするリソースを示すビットとグループ境界の参考用に使うビットが付加されるために、
L1キャッシュ内の命令わ32-bit幅のpower命令より若干肥大化するす。

EPICみたいだな。

489:Socket774
07/06/07 23:53:47 hHjzXuep
Qualcommの携帯電話向けプロセッサ「Scorpion」
~独自実装で1GHz駆動を実現
URLリンク(pc.watch.impress.co.jp)


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch