CPUアーキテクチャについて語れ 28

CPUアーキテクチャについて語れ 28at JISAKU

CPUアーキテクチャについて語れ 28 - 暇つぶし2ch151:Socket774
14/10/25 00:08:25.67 +tKUQ0OV
多スレッド時に複数のスレッドに振り分けられるHWリソースを
シングルスレッドの時にはまとめて囲い込んで使うCPUならもうあるな。

この方法もスレッド分割の方法も、元スレッドが少ない時に
遊んでしまうハードを減らして処理を加速しようという発想は共通しているな

152:Socket774
14/10/25 00:32:53.77 87o9KsVz
何でIntelはやらないんだろう？
AMDがだらしねぇから？

153:Socket774
14/10/25 00:36:27.61 w5GPv9cr
>>151
Powerですか

154:Socket774
14/10/25 00:39:07.92 kuC/jI+v
>>149
こいつはループの1いてレーション=1スレッドになるから(多分)、OoOとは直交するね
各スレッドはせいぜい2issue OoOじゃないかな

ただまあ、multiscalarあんま性能出ないんだよな

155:Socket774
14/10/25 00:42:13.78 87o9KsVz
>>154
ループアンロールを自動的にやるイメージか。
ループ間依存がないコードならかなり高速化しそうなものだけど、
パラノイアなIntelがやらないのが気にかかる･･･。

156:Socket774
14/10/25 00:42:18.87 lJSx7Hal
>>153
たぶんSMTのこと言ってるんじゃなかろうか

157:Socket774
14/10/25 00:46:02.75 4uZKeYXR
自動でスレッド分割なんて制御ロジックだけで破綻するぞ。

158:Socket774
14/10/25 01:17:09.38 EyS7mgvT
ハードウェアでやれば破綻しそうだけど
コンパイラがダラダラ静的解析して分割点とか同期点とかをヒント命令の形で挿入する実装が多い

159:Socket774
14/10/25 01:17:59.46 piQqr9bu
>>158
それOpenMPで良くね？

160:Socket774
14/10/25 01:25:22.95 EyS7mgvT
あくまで投機実行だからね
依存関係があると分かっても無理やり先を実行するんだ
レジスタ依存はコア間にレジスタ通信用のバイパス入れたり値予測したり
メモリ依存はキャッシュコヒーレンシプロトコルで違反検出したり
そのあたりをハードウェアで支援する

161:Socket774
14/10/25 01:30:52.75 87o9KsVz
ん～、ストールとかのペナルティリスクはあるの？

162:Socket774
14/10/25 01:44:31.69 EyS7mgvT
分岐予測と同じくペナルティを上回る性能向上が得られればよしとする
まあ154も言ってるけどあまり速くはならんのだよね
数値計算とかじゃない一般的なプログラムだとせいぜい10-20%とかだったと思う
まあIPCで考えればそれなりにデカいんだけどさ

163:Socket774
14/10/25 03:18:46.03 qcQTdCNe
電力効率も悪そう

164:Socket774
14/10/25 07:13:53.78 YHwpICtM
現行のCPUでも、本来依存関係があって前の処理がおわらないと実行できないはずの処理を
分岐予測をやって勝手に実行してたりするけど、
それをもっと高度化した感じか？

165:Socket774
14/10/25 08:35:17.09 gR6OvlkT
ここまで最適化されてるのにIPC連呼はうざいな。
これ以上投機実行増やして消費電力増やして何が楽しいの？

166:Socket774
14/10/25 10:13:17.19 VnubN3WX
そもそも、いまのHaswellなんかは20年前からは想像できないレベルの最適化が行われてるわけで、
こういった技術は将来全部とはいわないが部分的にCPUに適用される可能性は高い

167:Socket774
14/10/25 10:15:26.53 87o9KsVz
たしかに20年前から見たら、今のCPUは奇跡みたいなもんだね。
Intelはすごいよ。

168:Socket774
14/10/25 11:39:08.57 gR6OvlkT
1994年ならもうP5アーキテクチャ出てるじゃねーか。

169:Socket774
14/10/25 12:12:39.08 DULakG2t
RADEON組み込んだPOWERとか想像してしまったw

170:Socket774
14/10/25 12:22:20.52 lJSx7Hal
ちょっと懐かしくなって後藤氏の記事を見てきました。
パッと読んだ感じまったくの別物？

Intel CPUの未来が見えるPARROTアーキテクチャ
URLﾘﾝｸ(pc.watch.impress.co.jp)

＞　最適化によって、CPUコアが実行するμOPsを減らし、命令間の依存性を解消し、リネーミングを単純化し、スケジューリングを向上させる。
＞　それによって、演算ユニット、スケジューラ、レジスタなどの使用を減らし、メモリアクセスの回数を減らす。
＞　リソースの使用を減らすわけで、そのため、性能を向上させながらも、消費電力の軽減が可能になる。

171:Socket774
14/10/25 12:53:01.41 EyS7mgvT
PARROTはハードウェア自体を非対称にするのがポイントだから
Denverのほうが近いことをやってると思う

Intelの昔のネタを引っ張ってくるならこっちの方じゃない
URLﾘﾝｸ(pc.watch.impress.co.jp)

172:Socket774
14/10/25 13:11:15.15 87o9KsVz
>>171
今は亡き（死んでないけどｗ）ゲルたん･･･。
帰ってきて。

173:Socket774
14/10/25 14:09:34.80 qapctoPl
>>169
箱○のXCGPU Xenonだな
URLﾘﾝｸ(diit.cz)

ぱっと見た目ほぼLlano

174:Socket774
14/10/25 15:23:05.95 VL+lDDHw
非対称ってどうなのかねぇ
一見良さげに見えるけど、処理が重いかどうか高速に実行すべきかどうか
簡単に判断出来ないからなぁ

175:Socket774
14/10/25 15:56:28.77 kuC/jI+v
parrotのfast/slow pathはトレースキャッシュとそんなにかわらない
トレースキャッシュに載っている命令をさらに最適化する感じ

176:Socket774
14/10/25 17:25:56.78 87o9KsVz
何か効率悪そう･･･

177:Socket774
14/10/26 00:17:32.02 RglLDLIm
Soft MachinesのMPR記事
URLﾘﾝｸ(www.softmachines.com)

SpMTっぽく見えるね、スレッド間のレジスタ依存はコア間バイパスで通信するようだ

スレッドの生成はフロントエンドでやるとか書いてあるけど
コンパイラがどこまでサポートするのかね

メモリ依存もチェックしてグルーピングするとか書いてあるけど
フロントエンドまでの段階でどうやってチェックするのかはよく分からんね
memory disambiguationして投機実行するという意味か

178:Socket774
14/10/26 05:20:11.74 RU+0cFr8
>>177
K12やデンバー以上に面白いCPUが出てきたな

179:Socket774
14/10/26 06:40:35.90 7sxHDFgu
>>177
ただのクラスタに見えてきたが…

180:Socket774
14/10/26 07:04:26.65 7sxHDFgu
しかしクラスタでは他の倍ものIPCのソースが不明だ

181:Socket774
14/10/26 07:54:34.29 r6MHLk9h
だからクロックが低くて相対的にメモリアクセスが高速化されるだけだよ。詐欺のテクニックだ。

182:Socket774
14/10/26 08:00:19.45 7sxHDFgu
>>181
高イシュー幅のマイクロアーキのボトルネックはそこやないんやで…

183:Socket774
14/10/26 11:02:01.08 aM+hflNp
Transmetaの件があるから、モノが出るまで期待しない。

184:Socket774
14/10/26 11:51:58.82 zDY3Ws0X
VLIWは魔性の女感がある

185:Socket774
14/10/26 11:53:26.17 aM+hflNp
何か分かるｗ
あのIntelでさえ翻弄されたんだからねｗ

186:Socket774
14/10/26 11:58:05.72 ojkXXhX6
相対的にメモリアクセスが高速化されてIPCが5倍になったりはせんだろう
といっても177の内容だけでそんなに伸びるとは思えんけど...

こういうアーキって要は命令ウィンドウが極端に大きいOoOマシンなんだろうけど
投機実行をかなり積極的にやらんと実質的なゲインは普通のOoOEと大差ないはず
分割統治的なアプローチだからスケジューラのコストは実効的なウィンドウサイズに対して小さくできる、という利点はあるけど

187:Socket774
14/10/26 12:00:40.61 aM+hflNp
結局、アプリケーションに大きく依存して、効果の得られるケースも限られるとか、そんなオチになるのでは･･･。

188:Socket774
14/10/26 12:49:52.83 7USN65lQ
トラメタのコードモーフィング、PARROT、IA64、Denver、VISC

今までは全部VILWのプロセッサだったけど、VISCはどんなだっけ
もしスカラ処理がVLIWで高速化するなら、GPUもそっち方面に進むのかな
元々グラフィック処理はVLIWと合うし、GPGPUやスカラ処理がVILWになるなら、CPU、GPU両方を同じ命令で制御できるようになりそう

そう言えば昔RADEONはVLIWだったから、VISCがヒットしたらVLIWに戻りそうだ

189:Socket774
14/10/26 13:15:19.98 d7b3G/pn
メモリ速度との乖離が激しい高性能プロセッサだと性能が出にくいかもしれないけど、
低クロックなモバイルプロセッサだと良い線いくのかな＞VISC

190:Socket774
14/10/26 14:48:38.31 7sxHDFgu
やはりただのクラスタでした
今のところ新規性は動的負荷分散以外にはなにもない

191:Socket774
14/10/26 15:23:11.83 wsDkzzO+
CPUのトランジスタ数が1万個のときの設計、100万個のときの設計、10億個のときの設計と、
それぞれ最適な設計は異なるはず

いまのCPUは、キャッシュ用のトランジスタ・GPU用のトランジスタは増えてるが、
コアのロジック部分のトランジスタはさほど増えてないので、
いまのプロセス技術をもっと有効に使える設計のCPUはまだまだ開発される余地がある

192:Socket774
14/10/26 15:27:45.23 7sxHDFgu
URLﾘﾝｸ(www.inf.ed.ac.uk)

193:Socket774
14/10/26 15:40:35.93 7USN65lQ
取り敢えずWindowsと有名どころのベンチマークをいくつか動かした結果を見てみないと判断できない

194:Socket774
14/10/26 15:43:21.21 keJO2pKy
>>191
Intelは開発に莫大な投資をしているにも関わらず、
コアロジック部分のトランジスタはさほど増えていないので、

むしろ開発する余地はもうないのだ。

195:Socket774
14/10/26 15:44:13.90 aM+hflNp
また一つベンチ番長プロセッサが誕生するのであった･･･

196:Socket774
14/10/26 16:14:57.31 r6MHLk9h
キャッシュが増えたのはメモリが速くならないからであって必要悪だよ。

197:Socket774
14/10/26 17:49:51.91 7sxHDFgu
>>190
threadletの生成に3サイクルかけているのはちょっと珍しいかもしれない

198:Socket774
14/10/26 18:11:20.53 N13y1Gom
Nexus 9に載ったTegra K1は2GBのメモリに128MBの専用キャッシュだから
実行中のプログラムのコードの大部分が専用キャッシュに入りそう
だからベンチ番町ではなさそう

199:Socket774
14/10/26 18:13:56.19 N13y1Gom
専用キャッシュというか専用キャッシュ領域な

200:Socket774
14/10/26 21:58:57.16 7USN65lQ
Tegra k1のCPU自体のキャッシュはL1が64k、L2が128kだな
GPUのL2も128k

201:Socket774
14/10/27 03:59:07.81 Zl2EjcKa
Tegra K164bitのL1キャッシュは命令キャッシュが128KB、データキャッシュが64KB、L2が2コア共有の2MB
128MBの専用キャッシュ領域は変換したコードを1次的にメインメモリ上に保管しておく領域のこと

202:Socket774
14/10/27 06:15:33.57 iS9Xd5To
SMTに回帰したそうなAMDのZENのお披露目は何時頃かな

203:Socket774
14/10/29 19:46:25.66 I74fJ4HH
【経済】TSMCが設備投資額を100億ドルに拡大、16nm FinFET量産準備で
ｽﾚﾘﾝｸ(newsplus板)

204:Socket774
14/10/29 19:56:23.01 OgEvAnRt
28nm同様暫くはそれで引っ張る事になるんだろうしな

205:Socket774
14/10/29 20:08:26.73 paX6Ll/M
TSMCは40nmの立ち上げで失速した前科がなぁ。

206:Socket774
14/10/31 17:39:25.14 s5cefO6e
CPUに適度に間違わせることで節電する技術
URLﾘﾝｸ(pc.watch.impress.co.jp)

もう、性能 << 消費電力になってきてるんかね

207:Socket774
14/10/31 17:42:52.86 hItEFAb7
URLﾘﾝｸ(spectrum.ieee.org)

208:Socket774
14/10/31 18:02:00.72 AolbC/Xh
画像処理はわかるけど、金融分析も多少間違っても良いんだｗ

209:Socket774
14/10/31 18:06:28.46 hItEFAb7
金融はモンテカルロ法をよく使うし

210:Socket774
14/10/31 18:40:42.74 28+5bz7j
Razor FFとかタイミングエラーを検出可能なFlip-Flopを使ってごにょごにょというのはどこかで見た気がする

211:Socket774
14/11/01 10:36:48.73 x4WxrQR3
非同期と相性良さそうな発想だな
たしか非同期なarmは実際に設計してみた奴らが居たはずだ

212:Socket774
14/11/01 10:43:11.69 RUuBagHz
シンプルに精度落とすんじゃだめなのかな

213:Socket774
14/11/01 11:39:06.06 XPx1zIId
演算の精度を下げればいいんじゃ
FP64でたまにFP32、FP32でたまにFP16とか

214:Socket774
14/11/01 11:59:17.32 RUuBagHz
モンテカルロ法なら回数を減らす

215:Socket774
14/11/01 20:30:09.04 iBAwgzNT
数値計算では繰り返し計算で近似解を解に近づける手法も
活躍するが、繰り返しの序盤を低精度でやる手はよく使われる

216:Socket774
14/11/01 20:49:42.85 xYkB3FoA
URLﾘﾝｸ(www.geocities.jp)
３．続　Soft MachinesのVISC

　ソフト層なら，ある程度広い範囲のコードを見て，スレッドへの分解ができると思うのですが，
視界の狭いGFEでスレッドの分解や各スレッドに最適な資源割り当てなどを行うのは難しいと思うのですが，
どうやっているのか謎です。

217:Socket774
14/11/02 00:59:57.68 o6dH4QNS
どうせそんな大したことはしていないに相違あるまい

GFEは3ステージ追加したらしいが、
そうすると命令流の後ろのほうを見て前の命令をどうにかすることはできないということだから
(そうしないと分岐予測ミスのペナルティが巨大になるので)
命令を頭から見て3サイクルでどちらかのコアに割り振ることになる

その判断の根拠としては、今までの割り振ったリソースや、ロード命令がキャッシュミスしそうかどうか、
といったところだろう
メモリアクセスはdisambiguationをきっちりやって、データフローグラフを大きくしないと性能は出ないような気がする

218:Socket774
14/11/02 01:25:28.01 C4leVgld
denverの消費電力はどんなものなんだろうか、
クロック高いからあんまりワッパ良さそうじゃないよね

219:Socket774
14/11/02 06:22:13.93 mLS2anjo
32bit版とtdpはかわらないはずなので全体で5w
cpu側が2wのはず
シングル性能二倍近くにあげてるから2coreでもマルチの性能は32bit版と変わらない

220:Socket774
14/11/03 03:49:31.71 xVyZEB8C
>>206
初代Pentiumも真っ青な発想だなｗｗｗ

221:Socket774
14/11/03 09:36:03.13 AHZQJzhl
>>206
適度を管理できなくて破綻しそうだ

222:Socket774
14/11/03 09:57:35.54 U0Q9ZLvr
そのうちサブプライム問題みたいになったりして・・

223:Socket774
14/11/03 13:48:58.77 eE5nF52U
GPUはTESLAと違って少しのエラーを許容してるんじゃなっかったっけ

224:Socket774
14/11/03 13:53:00.51 oC7r2xKP
ECC有無のことかな？

225:Socket774
14/11/03 15:58:42.62 4Ng6axqp
違う

226:Socket774
14/11/03 16:06:54.56 U0Q9ZLvr
精度の話？

227:Socket774
14/11/03 16:34:32.71 JR8xLQhd
記事読めよｗ

228:Socket774
14/11/03 16:56:08.54 4Ng6axqp
計算用コアとしてではなく出力デバイスとして描画に影響しない程度の
ソフトエラーを許容することで歩止まりを挙げよう
つまりグラボを安く提供できるようにして商売として成り立つようにしようということ

229:Socket774
14/11/03 17:13:33.31 4xBCF9vI
その影響しない程度の判断が難しそうだけど

230:Socket774
14/11/03 17:29:17.74 miQ59j7I
これぐらいまでは許して欲しい!!

URLﾘﾝｸ(news.mynavi.jp)

消費電力削減の為なら、葉っぱぐらい、四角だって良いじゃないか～!!!

231:Socket774
14/11/03 17:30:48.00 oC7r2xKP
>>230
さすがにこれはないわｗ

232:Socket774
14/11/03 17:33:46.51 4Ng6axqp
故障として交換品を希望しようにも初めから壊れてるGPUではね…ｗ

233:Socket774
14/11/03 18:20:30.55 4xBCF9vI
>>230
Intelだし描画できてるぶんマシ
エラって真っ黒とか画面崩壊しないならそれで十分

234:Socket774
14/11/03 20:40:50.13 k5TPlVIS
最悪激遅でもいいから何とかならないものか

235:Socket774
14/11/03 20:52:43.79 U0Q9ZLvr
ここはCPUアーキテクチャを語るスレでうが・・

236:Socket774
14/11/03 23:25:34.46 k5TPlVIS
そうでいた

237:Socket774
14/11/10 17:15:07.95 zpDhaotO
>>230
アルファが抜けてないな。
こんな単純なところにバグがあるのがIntelクオリティ

238:Socket774
14/11/11 23:07:16.58 Ytwy6GXN
【IT】スパコン評価に新ランク採用へ...理研の「京」に有利？ [14/11/11]
ｽﾚﾘﾝｸ(newsplus板)

239:Socket774
14/11/12 01:15:34.76 VOoeUcuK
KEK、1024コアプロセサと新液浸冷却手法を採用した395TFLOPSスパコンを稼働
URLﾘﾝｸ(news.mynavi.jp)
URLﾘﾝｸ(news.mynavi.jp)

SC14が11月16日からか

240:Socket774
14/11/12 01:39:03.55 Ipn2Xy52
まずはHPC用途のアクセラレータを作りつつ
他の市場も狙っているのだろうか

241:Socket774
14/11/12 03:26:44.92 VOoeUcuK
>>238
新ベンチマークプログラム:HPCGの概要と「京」における性能
URLﾘﾝｸ(www.ssken.gr.jp)
URLﾘﾝｸ(www.ssken.gr.jp)

pdf 26枚目に暫定リストがあるがBG/Qはまだunoptimizedになってるな

242:Socket774
14/11/12 14:30:21.65 84qhe/x/
RSコンポーネンツ、名刺サイズのスパコン「Parallella board」を販売開始
URLﾘﾝｸ(news.mynavi.jp)

243:Socket774
14/11/12 14:33:08.24 84qhe/x/
日本HP、ワークロード特化型「Moonshot」に新モデル--64ビットARMも搭載
URLﾘﾝｸ(japan.zdnet.com)

244:Socket774
14/11/15 16:02:00.44 zwSZiagj
「Snapdragon 805」、米国政府の定める暗号化セキュリティ基準「FIPS 140-2」の認証を正式に取得
URLﾘﾝｸ(ggsoku.com)
>また一歩、Snapdragonの死角がなくなりました。

245:Socket774
14/11/18 00:08:45.24 Bsb5JLPk
Top500上位はほとんど動きなし、と

246:Socket774
14/11/18 08:20:26.98 C3ZG0Fv4
ネトウヨのせいで世界中がTop500に興味がなくなった。

247:Socket774
14/11/19 00:27:01.06 ZDTvGcAe
だって下らないしなにも生み出さないんだもの
無駄に税金つぎ込むかあるいは廃れるのは
バブル経済と一緒でしかたのないことだろ
どこかで変曲点を迎えるんだよ

248:Socket774
14/11/19 00:28:48.91 XuThRpOr
少なくとも日本のバブル経済失速は日銀の金融引き締めのせいだけどな

249:Socket774
14/11/19 00:34:13.78 7Ytk6aS2
>>248
ほんじゃあダニ段階から更に金融もっと緩和すれば良かったと言えるのか
良く知らないことに口だすな
池沼
おまえみたいなバカはこの世に履いて打てるほどいる
死ねよ

250:Socket774
14/11/19 00:38:14.29 XuThRpOr
別に緩和しろって言ってねぇだろ
いつもは注視してるだのぼんやり座視してるばかりなのに
日銀マンコは余計なところで触れて何もかもダメにしたんだよ

251:Socket774
14/11/19 00:39:09.22 7Ytk6aS2
>>250
引き締めるなだが緩和すると言っていない
バカここにきわまれり

252:Socket774
14/11/19 00:42:42.87 XuThRpOr
テメェがバカだろマンコ野郎
日銀のクズド素人が日本経済ぶっ潰して現在まで続く大不況の引き金引いたのは歴史的事実だろ

253:Socket774
14/11/19 00:42:44.17 7Ytk6aS2
バブル経済ってのは戦後から高度経済成長の延長上で
日本が世界で今の韓国みたいな立場だったときに芽が出ていたんだよ
その典型が総合電器メインフレーマーへの公費投入によるクレイ後追いスパコン事業だろ

おまえ、中学で習ってないのかこんな基礎

254:Socket774
14/11/19 00:44:17.54 7Ytk6aS2
日銀はへましたが
お前らはもっとへまうったんだよ
甘えるな

255:Socket774
14/11/19 00:44:46.63 XuThRpOr
なんでそうやって話そらすんだ？
チョンコ引き合いにだしてまで日銀のクズどもの肩持ちやがって

256:Socket774
14/11/19 00:45:11.21 b75yTxQX
弱者の遠吠え

257:Socket774
14/11/19 00:46:02.78 7Ytk6aS2
>>255
お前らが無能だと言ってるんだよ
ばぶるほうｊかいして25年だぞ

258:Socket774
14/11/19 00:46:11.45 XuThRpOr
チョンコどもにとっては日銀のアホどもは日本凋落の引き金引いたクズだから擁護したくなるんだろうな

259:Socket774
14/11/19 00:48:15.64 b75yTxQX
貧乏人が熱くなるのはわかるが、スレチも自覚できないほどプライドが傷つくことなのか？

260:Socket774
14/11/19 00:48:59.19 7Ytk6aS2
>>258
おまえ知らないだろ1989当時のかんこくなんて全然どうってことなかったって
25年経ち今は周回遅れにされてるけど
でもそれは日銀の金融政策だけのせいではない
なにやてったんだこの25年
勝手にボロ負けしやがって

261:Socket774
14/11/19 00:51:08.99 XuThRpOr
ゆとり教育じゃねｗ

262:Socket774
14/11/19 01:14:24.45 5oAJiBOP
専用のスレがあるんだからそっちでやれ

263:Socket774
14/11/19 01:18:35.81 7Ytk6aS2
そなもの有りません

264:Socket774
14/11/19 01:29:25.08 7Ytk6aS2
いまだGflopsとか言って官僚に上目使いして
ダラダラやってたからだろ