CPUアーキテクチャについて語れ 31at JISAKU
CPUアーキテクチャについて語れ 31 - 暇つぶし2ch250:Socket774
16/01/07 22:29:44.27 dSrXbNkf.net
ARMサーバーにとっては大きな前進だが大手が内製しちまうというのは
半導体メーカーにとっては面白くない流れだな。

251:Socket774
16/01/08 05:38:29.75 BNdhfCAo.net
それも、ARMが標準でまともなパフォーマンスのコアを作ったのが大きいのでは?
かつてはARM本家の実装がしょぼすぎたので、まともなパフォーマンスのサードパーティを使う必要があったが、
いまはARM本家がまともなパフォーマンスのコアを売ってるので、
あえてサードパーティのを使う必要が少なくなった

252:Socket774
16/01/08 07:40:56.04 BZBZ5TGt.net
A57がまともなの

253:Socket774
16/01/08 09:51:42.88 3eVIDSPm.net
A15以降パッとしない
Appleが独自で持ちこたえさせてる

254:Socket774
16/01/08 10:26:23.52 DXCcS1Ti.net
>>245
自社で作るよりって視点が抜けてる

255:Socket774
16/01/08 12:26:03.46 k4y55hx9.net
ARMコアがまともになったというより独自のアクセラレータ混載の需要が高まったからじゃないの
実際MSはFPGAでそうしてる、ARMやらないのは自分とこのソフトウェアがx86向けだからでintelがFPGA混載製品出したらそっちでやるだろな

256:Socket774
16/01/08 14:26:02.75 QiCwaiDx.net
何にせよスマホ向けオクタコアとかの現状見てみれば
もうちょっと早くハイパフォーマンス路線に舵を切るべきだったんじゃないかと思う。
プロセス世代の刷新とのからみがあるので出来なかったのだろうけど。

257:Socket774
16/01/15 16:30:48.26 NksrfuVA.net
>>226
appleはファブないけどatomを全く寄せ付けない性能のcpu設計している
勿論コストも考慮しての話

258:Socket774
16/01/15 17:45:10.60 uEnhT2Is.net
>>250
で、それが何か?
RISC-V、オラクル、HPいずれもappleとは微塵も関係がないし
appleは大規模な設計部隊を持っているので何の反証にもなっていませんね

259:Socket774
16/01/15 18:12:17.82 Af6X6y68.net
過去のしがらみがなきゃそりゃ有利だろうね

260:Socket774
16/01/15 20:59:18.64 rx3pu4am.net
apple a8のじてんで20億トランジスタなのねhaswell 4core +GT2より大規模なの

261:Socket774
16/01/16 00:53:03.52 v4wya1Cw.net
まず比較対象がatomであってるのかとか比較方法がまともなのかとか色々あって
アップルファンボーイの戯れ言の域を出んな

262:,,・´∀`・,,)っ-○○○
16/01/16 00:59:14.95 3R2b+ztv.net
Atomは価格帯的にはSnadragonの中~下位やMediaTekのチップの対抗だから
Haswell4コア以上のトランジスタを割くことができない

263:Socket774
16/01/16 01:18:18.76 3CfXiOi4.net
スナドラ上位まで対抗できちゃうんじゃね?
今度出るヤツはどうか知らないが。

264:Socket774
16/01/16 02:54:27.76 BpJLUbDU.net
AMD、データセンター向け64ビットARMチップ「Opteron A1100 SoC」を正式出荷
URLリンク(japan.zdnet.com)

265:Socket774
16/01/16 15:50:32.31 NoxJlpOm.net
TSMC曰く、EUVは10nmや7nmには間に合わない
URLリンク(www.eetimes.com)
しってた

266:Socket774
16/01/16 16:01:30.34 i6IsHKdw.net
>>258
EUVなんてTSVと同じ

267:Socket774
16/01/16 16:04:16.00 YAziiPtE.net
TSVは実用化してるじゃん

268:Socket774
16/01/16 16:49:50.48 xzMPr6Ub.net
実用化と金額的または量的に支配的な存在になることとは違うからな

269:Socket774
16/01/16 20:53:27.93 YAziiPtE.net
そんな話はしてないからどうでもいい

270:Socket774
16/01/17 23:41:57.84 Xy6lSNbo.net
5nmに間に合う見込みがまだあるのがビックリです
このまま闇に葬られるのかと思っていた

271:Socket774
16/01/18 11:11:40.53 Nmkcbk5D.net
MicrosoftがWindowsのハードウェア要件を変更、次世代プロセッサはWindows 10のみ対応
URLリンク(gigazine.net)

272:Socket774
16/01/20 01:01:50.17 jH8VCxU7.net
異星人が遥か太古に見捨てた技術に人類が挑戦しているというのが笑える

273:Socket774
16/01/23 02:04:56.19 1jZeYbbM.net
もっとパフォーマンス上げてほしぃ。。
デコード数、実行ユニット数増加 (fpのスカラと128bit増えてほしい
低速8命令デコーダ追加 (denverもどき ループ専用?
複合命令追加 複合実行ユニット化 (FMA的な
madd以外もほしぃ add,mul,shift,mask,min,maxから2セット
デコード数同じでパフォーマンス上がる? よりCISCらしく
SIMT?ユニット追加 (コア毎にサブコア8個くらい追加
20~1000回のシンプルなループだと丁度いい並列実行方法がないので、、
SIMDしてもループ残るし スレッド起動遅いしで
なんでもいいから、、

274:,,・´∀`・,,)っ-○○○
16/01/23 08:06:59.18 6XUq18O6.net
> SIMT?ユニット追加 (コア毎にサブコア8個くらい追加
おまXeon Phi/AVX-512がなんだと思ってるんだ
OpenCLから見れば1つのCPUコアに16スレッドの単精度コアが1~2個備わってるわけよ
違いはプレディケートマスクがあるかどうかだけ

275:Socket774
16/01/23 09:40:11.71 WFEnQaos.net
汎用�


276:ョ数命令がショボいのは確か アドレス計算にいまだにLEAが活躍するとか異常 過去を切り捨てれば可能だけど現実的じゃない



277:Socket774
16/01/23 09:45:11.78 WFEnQaos.net
>>267
20回程度のループの最適化方法を教えてやれ
データ20個くらいじゃOpenCLも役に立たない

278:,,・´∀`・,,)っ-○○○
16/01/23 09:56:36.26 6XUq18O6.net
OpenCLのコード書くコストあればこの程度の書き方の変更は苦でもないでしょ
URLリンク(gcc.gnu.org)
この程度やっておけばベクトル幅が違う別の環境にも楽に移植ができる
処理系依存のディレクティブをマクロで切り替えればMSVCのベクトル化も同じコードでOK

279:Socket774
16/01/23 12:02:03.12 WFEnQaos.net
>>270
君は何もわかってないね
まあアセンブラで最適化したことがないならしょうがないけど
20個位だとアラインメント、端数処理、SIMD化準備とかで、汎用関数ではSIMDが活かされないっていう話なんだけど
>>266の前半は、「この人何言ってるの?」と思ったけど、後半はその通りでしょ
もちろん汎用化しなければ色々と方法はあるけどね

280:Socket774
16/01/23 12:04:13.32 WFEnQaos.net
>>270
ていうか、
君ベクトル化の意味を知ったのは最近だよね
この前までトンチンカンな発言してたから

281:,,・´∀`・,,)っ-○○○
16/01/23 13:27:29.62 3sbwh8vT.net
お前が一番頓珍漢だよ
> 20個位だとアラインメント、
揃えればいいしミスアラインロードはx86
> 端数処理、
8並列×2+端数4
> SIMD化準備とかで
準備って具体的になに?
汎用命令からSSEやAVXを実行するためにステート切り替えやデータ転送などで
追加のサイクル数でもかかると思ってるの?
GPGPUじゃねーんだからアホなこと言うなよ
> 汎用関数では
strlenやmemcpy程度の標準ライブラリは既にAVX2まで対応している

282:,,・´∀`・,,)っ-○○○
16/01/23 13:31:07.79 3sbwh8vT.net
具体的に20並列でうまくベクトル化できないソースコードの例をideoneとかにあげてくれよ
タダで直してやるよ

283:Socket774
16/01/23 14:06:54.40 WFEnQaos.net
>>273
20個固定じゃないぞ
だからわざわざ汎用と書いたんだが
SIMD化準備はSIMDレジスタを退避したり固定値をレジスタに読み込んだりだよ
アセンブラで書かないと意識もしないだろうけど
memcpyの中身を見たことがある?
すごく色々と条件分岐やら端数処理やら色々とオーバーヘッドがあるんだけど
これもアセンブラで組まない人には興味がないか

284:Socket774
16/01/23 14:14:10.92 WFEnQaos.net
>>274
まずはお前の課題である、4x4の行列の積20個をやってもらおうか
もちろん20は変数で

285:,,・´∀`・,,)っ-○○○
16/01/23 14:15:15.41 3sbwh8vT.net
> SIMD化準備はSIMDレジスタを退避したり固定値をレジスタに読み込んだりだよ
汎用レジスタだって退避復帰するんだけど?
スカラ整数ならインラインで即値は使えるがFPならどのみち使えん

> memcpyの中身を見たことがある?
> すごく色々と条件分岐やら端数処理やら色々とオーバーヘッドがあるんだけど
アホ?常識だろ
高頻度で呼ばれる処理だからその最適化がコードが肥大化させてもペイできるだけの
時間短縮になる。
その20個のデータを高速に処理しなきゃいけない理由を実例を添えて教えてもらいたいね

286:,,・´∀`・,,)っ-○○○
16/01/23 15:14:46.20 3sbwh8vT.net
> すごく色々と条件分岐やら端数処理やら色々とオーバーヘッドがあるんだけど
memcpyは条件分岐っていってもループ抜けるときとソースとデスティネーションの
アドレス端数を処理するくらいで、拡張命令対応した版なら命令が使えるかどうかのフラグくらいでしょ
これらはcmp+jccを評価するよりはるか前に確定してるのでオーバーヘッド(笑


287:)なんてものはない コードを書く実力もないやつは概して知識もないのに偉そうな態度をとるが 所詮この程度の馬鹿発言しかできない 自分が無能だと自覚してないから他人の能力を判断する能力にも欠けている



288:Socket774
16/01/23 22:31:50.19 IZucUZlf.net
>>274
おい団子、課題はまだか?
お前は約束をまもらない男か?
元ソースはお前のあのひどいアセンブラコードだ
行列積になってないヤツ

289:,,・´∀`・,,)っ-○○○
16/01/23 22:36:03.25 3sbwh8vT.net
言い出しっぺの法則って知ってる?
他人の能力をさげすむのは自分の能力を証明してからにしてくれ

290:Socket774
16/01/23 22:40:06.52 IZucUZlf.net
274 :,,・´∀`・,,)っ-○○○ [sage] :2016/01/23(土) 13:31:07.79 ID:3sbwh8vT
具体的に20並列でうまくベクトル化できないソースコードの例をideoneとかにあげてくれよ
タダで直してやるよ

291:Socket774
16/01/23 22:44:48.61 IZucUZlf.net
SoAとAoSの話題の中で小さな行列に対しての名言
「行列も配列だ」

292:,,・´∀`・,,)っ-○○○
16/01/23 22:45:41.92 3sbwh8vT.net
俺はお前が書いたコードを品評したいんだが?w

293:,,・´∀`・,,)っ-○○○
16/01/23 22:46:57.92 3sbwh8vT.net
> 「行列も配列だ」
そんなことも理解できないバカは来ないでくれる?
その理屈が理解できないお前には連立方程式どころかFizzBuzzのコードすら書けない

294:Socket774
16/01/23 22:47:15.02 IZucUZlf.net
数値計算に関しての名言もあったな
「ニュートン法は最下位ビットまで正しくないと使えない」

295:Socket774
16/01/23 22:49:38.75 IZucUZlf.net
>>284
ベクトル化を自ら語りだしたので、最近やっと理解したのかと思ったら、まだ理解してないのね

296:,,・´∀`・,,)っ-○○○
16/01/23 22:49:38.88 3sbwh8vT.net
ついでに2次元行列は単なるArray Of Arrayだ
わざわざ構造体を使わずに宣言できる。

297:,,・´∀`・,,)っ-○○○
16/01/23 22:52:43.83 3sbwh8vT.net
>>286
馬鹿は黙っててね
C/C++で一般的にfloat a[4][4]がどういうデータ構造で確保されるでしょう?
&(a[0][5]) と &(a[1][1])がまったく同じアドレスを指すことは
専門学校に半年通ったくらいでも知っている

298:Socket774
16/01/23 23:10:19.32 IZucUZlf.net
最適化におけるSoA, AoSのAとSが何を意味してるのか良く考えな
言語上のSやAとは概念が異なるから
おれも親切だな
こんな屑に講習とか

299:,,・´∀`・,,)っ-○○○
16/01/23 23:13:40.14 3sbwh8vT.net
お前は何の実用的なコードも示してないクズの負け犬の遠吠えに付き合う俺も暇だな

300:,,・´∀`・,,)っ-○○○
16/01/23 23:37:50.31 3sbwh8vT.net
4x4行列は構造体だと思い込んでるFランク池沼いつ消えてくれるのかな

301:,,・´∀`・,,)っ-○○○
16/01/23 23:46:30.93 3sbwh8vT.net
言ってもたったの16要素だから全要素に固有のメンバー名つけても
たかが知れてるけどさ
まさか1000x1000行列にまで全要素にメンバー名つけるのかな?
構造体定義だけでソースファイル20MB超えちまうよ
それに配列として定義しないとカウンタ変数によるアドレッシングもできない

302:Socket774
16/01/24 04:00:58.35 ZujnTDOo.net
>>288
本当に?
処理系依存じゃないの?

303:Socket774
16/01/24 04:47:51.40 L6MVGsJA.net
団子はそこまで間違ってないとは思うんだけどSIMD原理主義すぎて痛々しい
とりあえず>>276やってみてよ。
あと>>266のスレッド起動云々は、
今時ならジョブキューに投げてワーカースレッドに処理じゃないかね。

304:,,・´∀`・,,)っ-○○○
16/01/24 08:36:27.21 uMiZidQ9.net
>>293
とりあえずCの多次元配列は実質1次元なのよ
「array(4) of float」のそのまたarray(4)だから
array(16)とレイアウトは互換
なんのことはない、a[m][n]のmを1回インクリメントすると
アドレスは16バイト進んで、nは4


305:バイト進むだけなのだ K&R本にもそう書いてある(←かどうかは忘れた) ■□□□■□□□■□□□■□□□ ↑    .↑     ↑     ↑  a[0][0]  a[1][0]  a[2][0]  a[3][0] ポインタ配列として割り当てた場合は同じa[m][n]でも全くレイアウトが違うけどね とりあえずこれが認められない馬鹿は生きる価値なしだ ・行列は構造体としても定義できるが、「配列ではない」は明らかな誤り



306:Socket774
16/01/24 09:53:41.28 vviOFkY4.net
>>295
>>289

307:,,・´∀`・,,)っ-○○○
16/01/24 09:55:41.91 uMiZidQ9.net
理解力が無いクズだな
この程度でデータ構造を変える必要はない

308:Socket774
16/01/24 10:19:19.43 vviOFkY4.net
SoAとAoSの話題の中で小さな行列に対しての名言
「行列も配列だ」
数値計算に関しての名言
「ニュートン法は最下位ビットまで正しくないと使えない」

309:,,・´∀`・,,)っ-○○○
16/01/24 10:39:37.93 uMiZidQ9.net
名言という言葉を名言という字句の通りに解釈してくれるならこれほど光栄なことはないよ

> ニュートン法は最下位ビットまで正しくないと使えない
こんなことは言った覚えはないが
どっかのDQNの提唱するDQN乗算器のことかな?
下位ビットだけならまだしも上位ビットまで誤差が伝播するのは実用にならないな

310:Socket774
16/01/24 10:44:54.72 bu6b7zrj.net
>>276をお願いします

311:,,・´∀`・,,)っ-○○○
16/01/24 10:47:17.96 uMiZidQ9.net
>>294
とりあえずHaswell用だけど現状permute律速だから1クロック8積和が限界だね
どっかのアホのいうようにgather使ったらますます遅くなったよwww
URLリンク(pastebin.com)
VS2015で/arch:AVX2でビルドしたコードのループがこんな感じ
URLリンク(pastebin.com)

312:Socket774
16/01/24 10:53:03.58 vviOFkY4.net
まったく20個が活かされてないwww

313:,,・´∀`・,,)っ-○○○
16/01/24 10:55:11.91 uMiZidQ9.net
活かせるコードを書いてみてくれ
まさかregister renamingでループカウンターをまたいだ並列化が行われてることすら
理解してないとか?

314:,,・´∀`・,,)っ-○○○
16/01/24 11:01:22.38 uMiZidQ9.net
最低2倍は速くなるんだよね?たのしみだなー(棒

315:Socket774
16/01/24 11:19:20.79 bu6b7zrj.net
>>274に対する課題だけどわかってる?

316:Socket774
16/01/24 11:20:07.89 bu6b7zrj.net
0点

317:,,・´∀`・,,)っ-○○○
16/01/24 11:26:21.11 uMiZidQ9.net
お前の思う100点満点のコードを書いてみてよ

318:,,・´∀`・,,)っ-○○○
16/01/24 11:39:55.98 uMiZidQ9.net
ああ、20は変数、ってそういう意味か
ってこの程度なら部分点だろ
URLリンク(pastebin.com)

319:,,・´∀`・,,)っ-○○○
16/01/24 11:47:45.51 uMiZidQ9.net
スループット分析結果はこれ
URLリンク(pastebin.com)
どのみちport5律速だけど4に近づけることが可能ならその方針を示されたいね

320:Socket774
16/01/24 11:50:48.32 bu6b7zrj.net
>>274を100回読め

321:Socket774
16/01/24 11:52:29.84 bu6b7zrj.net
まさか>>301が20並列とかベクトル化とか思ってるわけじゃないよな

322:,,・´∀`・,,)っ-○○○
16/01/24 11:55:07.41 LPpvWdDn.net
内側が十分ベクトル化されているのであれば外側のループそのものの
ベクトル化は不要だろう?w
そんなことも理解できない馬鹿ですか?

323:,,・´∀`・,,)っ-○○○
16/01/24 11:56:17.78 LPpvWdDn.net
ループの外側まで検討するのはAVX-1024が出てからでいいよ

324:Socket774
16/01/24 11:56:50.74 bu6b7zrj.net
>>301から進化出来ないとしたら>>274の例になってることになる
>>301はFMAを半分も使ってないわけで

325:Socket774
16/01/24 11:58:30.33 bu6b7zrj.net
>>312
十分ベクトル化されてるのにピーク性能の半分未満www

326:,,・´∀`・,,)っ-○○○
16/01/24 11:59:26.07 LPpvWdDn.net
文句があるならお前が9割使えるように書いてよ

327:,,・´∀`・,,)っ-○○○
16/01/24 12:01:38.78 LPpvWdDn.net
ID:bu6b7zrj = ID:vviOFkY4 = コードも書けないクズ

328:,,・´∀`・,,)っ-○○○
16/01/24 12:03:13.28 LPpvWdDn.net
俺はこれ以上は訂正しないのでID:bu6b7zrj = ID:vviOFkY4 の思う100点満点の答えを
さっさと出してクローズしてもらいたいな
このスレはお前の私物じゃないんだし

329:Socket774
16/01/24 12:09:34.95 qPBHqM+n.net
アドレスの割り当てられてない変数にアクセスしたい?
どんなぬるぽマニアだよ

330:Socket774
16/01/24 12:18:55.29 bu6b7zrj.net
ヒント SoA

331:,,・´∀`・,,)っ-○○○
16/01/24 12:20:28.69 LPpvWdDn.net
いらないな。


332:試験は終了だ。 試験官の実力を示す番だよ。



333:,,・´∀`・,,)っ-○○○
16/01/24 12:25:40.37 LPpvWdDn.net
超絶バカID:bu6b7zrjのハッタリに付き合って日曜の午後潰すのもあれだから買い物行ってくるよ

334:,,・´∀`・,,)っ-○○○
16/01/24 12:30:21.22 LPpvWdDn.net
それと二次元配列の転置のことを言うのならtransposed matrixというのだよ
行列はあくまでAoA
SoAという言葉が出てくるのはものをよく知らない人間だ

335:Socket774
16/01/24 12:42:43.68 bu6b7zrj.net
>>289

336:,,・´∀`・,,)っ-○○○
16/01/24 12:46:40.54 LPpvWdDn.net
そこまで ID:bu6b7zrj は執拗に
コードを書いて晒すことすらできない無能だって
自慢したいの?
答えがあるなら出すだけじゃん?
俺はお前の答えが見たいと言ってるんだよ

337:,,・´∀`・,,)っ-○○○
16/01/24 12:47:37.04 LPpvWdDn.net
もういいやあほらし

338:Socket774
16/01/24 12:56:04.27 1anjIwdZ.net
そもそも
4,8,16バイト構造体ならSoAはいらない

339:,,・´∀`・,,)っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:11:30.96 m0PEcgHz.net
ついでにgatherは構造上重いから変換コストをペイすることすらできない

340:Socket774
16/01/24 13:13:18.20 HnFH0Kq3.net
買い物に行く(レスしないとは言っていない

341:,,・´∀`・,,)っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:26:43.92 m0PEcgHz.net
ループの外側にgather/scatter処理が追い出されたところでかえってサイクル数が増えるのが理解できない馬鹿は困る
だから書いて示してみろと言ってるのだが

342:Socket774
16/01/24 13:31:48.60 e3A+RWR0.net
団子さん、かっこいい

343:,,・´∀`・,,)っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:32:45.64 m0PEcgHz.net
だーんごー
だーんごー
たっぷーりー
だーんごー

344:Socket774
16/01/24 13:49:03.40 BENW4Ggg.net
流石に煽るだけ煽って自分では何もしないクズはいらんわ

345:Socket774
16/01/24 13:52:18.73 rIQtC3CQ.net
団子は舐めるものじゃないからな

346:,,・´∀`・,,)っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:56:24.87 m0PEcgHz.net
KNLもSKXもgather/scatterは当面マイクロコード実装だと思うよ
複数のキャッシュラインを並列ロードするのは消費電力が大きすぎる

347:,,・´∀`・,,)っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 14:01:16.98 m0PEcgHz.net
すまん、KNLはハードね
スループットはわからんが
URLリンク(s.news.mynavi.jp)

348:,,・´∀`・,,)っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 14:36:31.43 m0PEcgHz.net
で?なんでコード出せないの?

349:Socket774
16/01/24 15:18:13.47 BENW4Ggg.net
Intelがマニュアルに載せてるgatherの性能比較
URLリンク(i.imgur.com)

350:,,・´∀`・,,)っ-○○○ KD182249247034.au-net.ne.jp
16/01/24 15:59:10.51 gbmtzkx9.net
8個のa(i,j)をgatherするのに2サイクルを切らないと俺のコードのスループットに追いつくことすらできんね

351:,,・´∀`・,,)っ-○○○ KD182249247034.au-net.ne.jp
16/01/24 16:03:11.16 gbmtzkx9.net
scatterはないから一度ストアしてgatherしてstoreするかレジスタ上でPermuteか
遥かに筋が悪いな
そんなことは俺はとっくに思いついてるが敢えてやってない

352:,,・´∀`・,,)っ-○○○ KD182249247034.au-net.ne.jp
16/01/24 18:04:51.23 gbmtzkx9.net
4x4行列の積程度じゃクソ高コストなデータ構造変換に見合う効果を得るにはあまりにコードパスが短すぎる

353:Socket774
16/01/24 18:49:26.14 BENW4Ggg.net
A8X,A9XのSPECint2006のスコア
URLリンク(www.anandtech.com)
2006が測定されるのは初めてかな
libquantumは除くとしてもまだCore Mの方が速い感じだね

354:,,・´∀`・,,)っ-○○○
16/01/24 19:16:22.83 LPpvWdDn.net
ASUSの排熱設計能力の高さがよくわかるわ
T300Chiはもっと評価されるべき

355:Socket774
16/01/24 21:33:32.66 ZujnTDOo.net
>>295
隙間なく詰まってることは保証されないし、上位から詰めるか下位から詰めるかも処理系で違うじゃん。
MicrosoftC と HP の Tru64 UNIX は配列の詰め型逆だったぞ

356:,,・´∀`・,,)っ-○○○
16/01/24 22:04:31.04 LPpvWdDn.net
構造体は処理系依存だが配列は規格上保証されてる

357:Socket774
2016/01/


358:24(日) 22:33:49.57 ID:yx8ucfw5.net



359:,,・´∀`・,,)っ-○○○
16/01/24 23:16:48.24 LPpvWdDn.net
floatは4バイト境界だからたまたま配列と同じようにパディングなしで配置されるだけで
char型16要素の配列と構造体だとまったく違うレイアウトになることも多々ある
Cellなんてfloatすら128ビット境界だったがな

360:,,・´∀`・,,)っ-○○○
16/01/25 07:35:01.59 f06Ohey9.net
今更だがCell SPUのABIあった
アドレス先頭が型のサイズで割り切れるアドレスになるように配置でFAか
URLリンク(www-01.ibm.com)

361:Socket774
16/01/25 18:29:46.14 gj/iSInF.net
SoAのデータ構成で4x4行列の積を普通に作ってみた
特に工夫する要素もなくごくごく普通に
IACAによるとスループットは積1個あたり約4クロック
PORT0/PORT1がフルに計算に使われている状態
>>301だと8クロックだから性能は倍
そもそも、>>301の方法だと、3x3の行列の計算とかどうするつもりだろう
ちなみに、4x4の行列の積の課題はおれが考えたわけじゃなくて、
団子が「AVX512を活かせる処理は4x4の行列くらいじゃね?」って言って自分で出したもの
そりゃ>>301みたいな方法じゃそうかもしれないけど

362:Socket774
16/01/25 18:50:11.39 gj/iSInF.net
URLリンク(whitecats.dip.jp)
ループ判定もアドレス計算も入ってない純粋な演算部分のみ
PORT5がガラ空きなのでパフォーマンスに影響なく入るでしょう
※動作テストもなにもしてないのでミスはあるかも
これがSIMDを使う時に一番初めに考えるSoA構造
偉そうに書くような内容でもなんでもない
基礎の基礎
今回のように要素が多い場合はAoSoAにしたりも
>>301とは違って3x3行列でも5x5行列でも可変サイズ行列でも複素数でもなんでも使える

363:Socket774
16/01/25 18:51:04.71 gj/iSInF.net
pass:matrix

364:,・´∀`・,,)っ-○○○
16/01/25 19:03:20.01 eZZbCJJB.net
お前やっぱどうしようもない超絶バカだな
理解力ないの?
それのどこが単精度4x4行列のデータ構造なんだ?
D3DMATRIXの構造体のレイアウト知ってる?
勝手に要件を変えんなクソボケ

データ構造変換して戻すコストも含めてトータルの時間だよ
gather/scatterの処理時間だけで俺のバージョンの4倍以上かかるんですが?

365:,・´∀`・,,)っ-○○○
16/01/25 19:19:57.86 eZZbCJJB.net
そもそも3Dで多用するアフィン変換は4x4行列のはずだが
5x5って具体的に何を想定してるんだい?
4x4を複数使う用途がなんなのかすら理解してないんじゃね?
ちゃんと俺が丁寧に↓↑で「ここにお前の模範解答入れてね」って示してるんだからそこに入れろよ
あと20個(変数)ってどこに行ったんですかねえ?
エントリポイントもなければプロローグもエピローグもない「メモ書き」はレポートとして受理できない
お前は留年だよ

366:,・´∀`・,,)っ-○○○
16/01/25 19:27:37.71 eZZbCJJB.net
gatherの時間を考慮せずコアループの時間だけ最短になるようにしてホルホルとか悲惨なバカだわ

367:,・´∀`・,,)っ-○○○
16/01/25 19:34:47.46 eZZbCJJB.net
とはいえここまで全て想定内なんですけどね
革新的なソフトウェアgatherのアルゴリズムでも見つけた天才なのかという可能性も微粒子レベルで考えたけどやはり予想未満のヴァカでした
gather/scatterが爆速にならない限り、データ構造が最初からそうなってるならその構造通りに処理した


368:ほうが速い、それだけよ



369:Socket774
16/01/25 19:52:55.67 Eq1/Wrtn.net
爆速になることは当面はないだろうなぁと
実装の論理が本質的に重すぎる

370:,・´∀`・,,)っ-○○○
16/01/25 19:53:40.13 eZZbCJJB.net
SoA化した8個のベクトル内で四則演算が簡単にできるならいいんだけどね

371:Socket774
16/01/25 19:53:41.57 gj/iSInF.net
>>352
D3DMATRIXの構造体の構造でなんて1回も書いてないけど
課題は>>276
>>353
なんで勝手に3Dの話になってんだ?
最小化問題や最適化でいくらでも一般サイズの行列の演算を使うんだけど
端数処理はお前の課題だ
>>274を書いた責任は取れ
4x4行列の話は、
お前が「AVX512で使えるのは4x4の行列くらいだ」って言って、
まったくAVX512を活かしてないデータ構造のバグあり超スロー糞コードを出して来たのが元だよ
でその時からSoAやAoSの話が出てたはずだが
「行列はそれ自体がArrayだ」ってお前が言ったの覚えてるだろ?
今更何勝手な条件を加えてんだ?

372:Socket774
16/01/25 20:02:16.05 gj/iSInF.net
結局「ベクトル化やSoA, AoSの意味を知らずに自分で勝手な条件を加えてその中で考えてました」ってことだよな

373:,・´∀`・,,)っ-○○○
16/01/25 20:02:19.32 eZZbCJJB.net
バカが言い訳見苦しいな
俺の書いてたレスの意味が全く理解できなかったんだね

374:Socket774
16/01/25 20:07:14.14 gj/iSInF.net
>>360
その書き込み、そのままお前に返すwww
まさしくお前にぴったりな内容だwww

375:,・´∀`・,,)っ-○○○
16/01/25 20:09:08.13 eZZbCJJB.net
>>359←うん、簡潔な自己紹介だな

単精度4x4行列と書いてあれば100人中99人はfloat[4][4]を思いつくだろう。
つかこれ以外のデータ構造で最初から格納されてるソフトを知らないがな

376:Socket774
16/01/25 20:10:58.19 gj/iSInF.net
>>362
その枠から出られないから糞コードしか書けないんだろwww

377:Socket774
16/01/25 20:14:38.80 gj/iSInF.net
最初から最後までSoAにしておけば
途中で変換なんか要らないんだよ
そういう構造に出来ない場合があるってのは当然知ってるけど

378:,・´∀`・,,)っ-○○○
16/01/25 20:15:34.23 eZZbCJJB.net
データがSIMDレジスタ幅に合わせて最初からgatherされてるデータ構造を想定して書くなんてサルでもできるじゃん

データ個数は可変という、自分で出題したルールすら満せてない「メモ書き」に落第点以外付けようがないな

379:Socket774
16/01/25 20:20:02.26 gj/iSInF.net
>>365
じゃあお前はサル未満だってことだwww
SoAってSIMDレジスタ幅である必要はまったく無いけど
課題はお前に対してだ
おれの課題じゃない
>>274 でお前はベクトル化するって言っておきながら、
まったくベクトル化されてない>>301を上げたから
当然0点

380:,・´∀`・,,)っ-○○○
16/01/25 20:21:40.53 eZZbCJJB.net
同じ行列内の8要素から構成されるベクトルです

381:,・´∀`・,,)っ-○○○
16/01/25 20:24:37.06 eZZbCJJB.net
アフィン変換の実践的なコード書いてみればわかるけど4x4matrixがそもそも連続したアドレスに配置されてない場合も考慮しなけれなならない

382:Socket774
16/01/25 20:26:00.82 gj/iSInF.net
「行列はそれ自体がArrayだ」
と同じ内容だなwww
SIMDや並列プログラミングにおける「ベクトル化」や「Array」では決して無いから

383:,・´∀`・,,)っ-○○○
16/01/25 20:27:09.79 eZZbCJJB.net
過去ログ読んだら俺はD3DXMATRIXと互換ってはっきり言ってたわ

384:,・´∀`・,,)っ-○○○
16/01/25 20:27:45.62 eZZbCJJB.net
猿以下

385:Socket774
16/01/25 20:36:28.07 gj/iSInF.net
少なくとも>>276には書いてない
じゃあ俺がSoAって言った時にD3DXMATRIX互換だって言えば良いのに
SoAが何かをお前が知らないから>>350を見るまで何も言わなかったんだろうがwww

386:Socket774
16/01/25 20:38:02.31 gj/iSInF.net
過去ログはいちいち取ってないけど、
その時も何度もSoAの話が出たはずだけど

387:Socket774
16/01/25 20:41:13.62 gj/iSInF.net
答えを見てから「そんなのサルでもできる」だもんなwww
クズがwww

388:,・´∀`・,,)っ-○○○
16/01/25 20:41:35.34 eZZbCJJB.net
落ち着いて俺のレス全部読み返してみな?
gatherやscatterがなんのことを言ってた
てめえの足りない頭で丸一日かけて書�


389:「たクソコードが俺の想定の範疇に収まる駄作でしかないと何故気付かないんだ?



390:,・´∀`・,,)っ-○○○
16/01/25 20:43:27.60 eZZbCJJB.net
>>340
まさにこれ

391:,・´∀`・,,)っ-○○○
16/01/25 20:46:01.91 eZZbCJJB.net
ついでだからgather/scatterまで実装してみてくれ

392:Socket774
16/01/25 20:56:21.56 gj/iSInF.net
最初から最後までSoAならそんなものは不要

393:,,・´∀`・,,)っ-○○○
16/01/25 21:07:54.72 GmsyyhMs.net
俺の期待したコードってどんなものだったかわかるかい?
俺はてっきりAoS-SoAの高速変換処理のアルゴリズムでもあるのかと思ったよ
でも、どう書いても>>309以上にport5ネックになるんだよ
ひょっとしてこいつスゲーやり手のpermute演算の魔術師なんじゃないのか?
とか思ったわけ。
完全に負けた!と言わしめるだけのコード書いてくれるならそれはそれで
俺は頭下がるよ

>>330以降は未来に向けたレスのつもりだったけど出てきたのは
scatter/gather処理すら欠落した斜め下のコードだったわけ

何度も言ってるが俺は団子名義でJohn the Ripperのコミッタとして活動してたぜ?
Bitsliceというのは1ビット×128(AVXなら256)のSoAだ
そんな俺がそんなデータ構造の変換に気づかないと思ったのなら
本物に見る目が無い人間だよ
興味もないなら仕方ないけどね

394:Socket774
16/01/25 21:16:56.22 gj/iSInF.net
SoA, AoS の話題の中で「行列はそれ自体がArrayだ」とか「行列の配列はAoAだ」とか書いてたら
SoAを理解してないと思うのは当然だろ

395:,,・´∀`・,,)っ-○○○
16/01/25 21:18:26.45 GmsyyhMs.net
所詮お前は負け犬だ
他人に認められるだけの実力すらない
その粗末なコードの書き方でわかったよ
ばいばい

396:,,・´∀`・,,)っ-○○○
16/01/25 21:22:57.31 GmsyyhMs.net
>>380
そうやって自分の知識や価値観を正しいと思い込むのを
やめるところからだな

397:Socket774
16/01/25 21:24:05.23 gj/iSInF.net
乗算だけの為に並び替えなんて発想がそもそも異常
行列の乗算だけを1回ずつ行うだけでそこが性能に影響するなんてことは非常にマレで、
性能に大きく影響する部分は複雑な計算であるはず
インターフェース上仮に入出力の構造に制約があったとしても、
入力と出力部分だけで変換をすれば良く、
複雑な計算時には処理しやすい形で扱うのがごく自然な発想

398:Socket774
16/01/25 21:25:40.26 /phoABOd.net
複雑な計算て何

399:Socket774
16/01/25 21:26:44.18 gj/iSInF.net
お前のコードは50%
俺のコードは100%
これが結果

400:Socket774
16/01/25 21:28:54.91 gj/iSInF.net
>>384
そりゃ処理依存としか
掛け算3回やるとか足し算や引き算もやるとか逆行列を求めるとか

401:,,・´∀`・,,)っ-○○○
16/01/25 21:29:40.86 GmsyyhMs.net
ぶっちゃけ最初からSIMD向けに整列されたコードを扱うだけならSIMDプログラミングは
複雑でもなんでもないよ
XMLとかJSONみたいなアラインメントすらされてないデータをいかに高速処理するかが
重要なわけで
L1Dキャッシュにあらかじめロードされてる前提でないとSIMD化する価値すらないような
コードなら最初から触れないけどねー

402:Socket774
16/01/25 21:33:37.39 /phoABOd.net
行列の内積って足し算ないの

403:,,・´∀`・,,)っ-○○○
16/01/25 21:37:46.70 GmsyyhMs.net
ベクトルの内積・外積ならわかるが行列は行列積としか言わないだろ

404:Socket774
16/01/25 21:56:58.39 D13n0Ldw.net
AVX512になったらDirect3Dの行列×ベクトルは1クロックでできちゃうようになるの??

405:,,・´∀`・,,)っ-○○○
16/01/25 22:36:10.47 GmsyyhMs.net
そんな関数そもそもあったか?

406:,,・´∀`・,,)っ-○○○
16/01/25 22:45:10.01 GmsyyhMs.net
Rotate(YPL指定)だけは超越関数が速くならない限りはどうにもならん気がするね
一度回転行列に展開して複数の行列に同じ方向の回転をかけるとかそういう使い方なら
SIMDのスループットも生きてくるが
URLリンク(www.cg)


407:.info.hiroshima-cu.ac.jp/~miyazaki/knowledge/tech07.html



408:Socket774
16/01/25 22:55:19.66 D13n0Ldw.net
>>391
XMVector4Transform
>>392
とりあえず一度行列を生成してしまえば、それを多数の頂点に掛けていくから、
スループットは活きると思う。

409:,,・´∀`・,,)っ-○○○
16/01/25 23:27:17.87 GmsyyhMs.net
万に一つ、効率的なgatherのアルゴリズムでも見られるかと期待してたが
実につまらん落ちだった

410:Socket774
16/01/26 21:48:16.51 boggXa0u.net
元データがXMLとかJSONとかって話なら
普通に整列するタイミングありそうだけど。

411:,,・´∀`・,,)っ-○○○
16/01/26 21:56:09.02 VacJ+faz.net
どっかのバカの一つ覚えのSOA(笑)に変換してる暇はないけどな
まあYMMレジスタの半分しか使えないけどSSE4.2のテキストサーチ命令もあるし
あれはミスアラインデータもそのまま使えるから特に必要はないと思うけどね

412:Socket774
16/01/26 22:08:38.25 boggXa0u.net
ごめん、何いってるかわからない。
元がテキストデータなら、バイナリに変換する過程でほとんどあらゆる事前処理が(テキストからの変換自体に比較したら無視できるコストで)できるんじゃないかってことなんだけど。

413:,,・´∀`・,,)っ-○○○
16/01/26 22:26:45.37 VacJ+faz.net
そもそも一回パーズしてノード生成したら終わりだから
いちいちアラインメントを合わせる処理を余分にかける意味自体がないよ
いまどきのCPUでミスアラインロードのスループットなんてアラインメントされてる
データの半分程度だ。
テキストの状態で何度も再利用するわけじゃないんだからパーズ前に1ステージ増やす意味がない

414:Socket774
16/01/26 23:22:03.12 vEaDYQGz.net
団子って田村君?

415:,,・´∀`・,,)っ-○○○
16/01/26 23:24:49.61 VacJ+faz.net
インス君なんて知りませんよ

416:Socket774
16/01/27 19:09:18.57 BM1yJ3F4.net
>>399
ここまで書込が無い所を見るとそうなのかな?

417:Socket774
16/01/27 19:14:07.93 BDQOEzTF.net
ちょっときちがいの系統が違う希ガス

418:Socket774
16/01/27 19:25:19.93 Rn7AkpY3.net
>>342
A9Xはこれだけの性能を持ちながらダイサイズがとても小さいのが凄い
20nmの配線層を流用した14nmモドキのプロセスなのに1コアの面積は14nmSkylakeのほぼ半分
配線層まで微細化した真の14nmプロセスならたぶんSkylakeの1/4程度の面積になりそう

419:Socket774
16/01/27 20:08:21.37 9jws/MEL.net
技術がないから物量勝負で闘うA9Xのダイサイズがなんだって?

420:Socket774
16/01/27 20:12:08.92 Rn7AkpY3.net
ああ>>403で書いたのはチップ全体の面積じゃなくてCPU1コアの面積の話ね

421:,,・´∀`・,,)っ-○○○
16/01/27 21:19:46.59 5iO/SUw5.net
そもそもSoC向けと高速ロジック向けでトランジスタの密度は倍以上変わることもざらですが?
頭脳が子供並

422:Socket774
16/01/27 21:23:53.95 5ZYj8P6K.net
a9xは2coreでa8xは3coreだが

423:Socket774
16/01/27 22:12:27.24 39wBdRUH.net
4GHz+狙った設計と2GHz半ばの設計じゃ全く同じプロセスでもセルライブラリの時点で相当な差が出るわな

424:Socket774
16/01/27 22:32:59.63 UXdN5Zp2.net
テキスト処理専用プロセサが欲しい。
昔はあったのにな。
専用ボードが。

425:Socket774
16/01/29 10:48:06.91 EJylxDWG.net
MSやGoogleは自社のDCで使ってるぞ、テキスト処理用プロセッサ

426:Socket774
16/02/02 22:50:48.76 HTvJi0iW.net
後藤せんせのHBM2プッシュが凄まじいね、Intelとコストに関してうんちゃら書いて最後に「また、あまりフォーカスされないが、メモリアクセスレイテンシの低さもHBMの利点だ」とどや〆しててワロタw

427:Socket774
16/02/02 23:11:56.38 XVQBU9k0.net
まあメモリレイテンシはここ30年一向に進歩してないしな

428:Socket774
16/02/02 23:33:00.81 DqXy4hJw.net
おいくらns

429:Socket774
16/02/05 02:06:37.50 GaL31xg2.net
Soft Machines' 'Virtual Cores' Promise 2-4x Performance/Watt Advantage Over Competing CPUs
URLリンク(www.tomshardware.com)
今年半ばにShastaのテープアウトらしい
さらに毎年改良していくとか
ちゃんと作ってたんだな
そしてグラフが確かなら相当なエネルギー効率だが果たして

430:Socket774
16/02/05 02:10:56.59 GaL31xg2.net
失礼、URL間違ってた
URLリンク(www.tomshardware.com)

431:Socket774
16/02/05 12:47:59.60 k5UCXc5Y.net
うまくいくんかいな。
何度も出ては消える定番のヨタ話のような。

432:Socket774
16/02/05 12:53:33.14 vCmxz395.net
URLリンク(techon.nikkeibp.co.jp)
CNN専用チップ、NVIDIAなどがGPUの改良で開発
URLリンク(techon.nikkeibp.co.jp)
Eyerissは、グラフィックス処理プロセッサー(GPU)と同様、SIMD(single instruction multiple data)などから成る
プロセッサー・エレメント(PE)を多数集積したICである。
ただし、GPUとはデータの移動を最小限に抑えた設計にした点が異なる。
具体的には、EyerissはSRAMから成るオンチップメモリー108Kバイトを備えており、
CNNの各層の演算結果をオンチップメモリーにバッファリングさせることで、
チップ外の主記憶に書き戻す頻度を大きく減らした。
また、PEに入力するデータ列に共通部分がある場合は、その共通部分を保持して差分だけを入力する。
さらに、複数のPEに同じデータを入力する場合は、各PEにそれぞれ送るのではなく、
途中まで1つのデータとして送り、そこからPEの個数分データをコピーして入力する。いわゆるマルチキャストである。
これらによって、データ処理時のデータの移動を最小限に抑え、消費電力を大幅に低減した。
加えて、データを主記憶に書き戻す時は圧縮し、読み出す時に伸長する。
CNNの畳み込み演算後のデータはフィルターを通すことで圧縮しやすい形になっていて、メモリー帯域の節約効果が高いという。
 作製したEyerissの動作をNVIDIA社のGPU「TK1」と比較すると、
EyerissはデータのスループットこそTK1の約1/2だったが、消費電力はTK1の最小約1/37と大幅に低い。
主記憶に出し入れしたデータの帯域も、TK1の1120Mバイト/秒に対し、Eyerissは127Mバイト/秒だったとする。

433:,,・´∀`・,,)っ-○○○
16/02/06 07:57:43.04 aOj9o31u.net
>>416
ほんとそれ

434:Socket774
16/02/06 11:57:26.60 FIO2CLlG.net
つーか確かにIntelCPUが高IPC化して複雑になってるけど、
同様のIPCならVISCにおけるグローバルフロントエンドも複雑化するはずだから
問題の解決にはならないよね。

435:Socket774
16/02/06 15:19:06.83 a2QCE/jW.net
URLリンク(techon.nikkeibp.co.jp)
RISC-V普及の手が光I/Oの他所より早い実用化とは前から聞いていたけど

436:Socket774
16/02/09 22:38:47.92 /jOI/KM1.net
>>288
そういったC言語の仕様が、C言語の高速性につながるが、逆にバグ混入要因でもあるわけなんだよな
少しでも高速なプログラム作りたい人にはプラスになり、
少しでも信頼性のあるプログラムを作りたい人にはマイナスになる

437:Socket774
16/02/09 23:00:49.53 Sf5ew7hw.net
>>288
優先順位が曖昧な人ほどいっぱいカッコをつけたがるんだよな

438:Socket774
16/02/10 01:55:45.03 IkGyGPca.net
後から見直したときに「ん?」って一瞬でも考え込まないように括弧を多用して区切りをはっきりさせるようにしてるが。
ただ余りにも入れ子が深くなるようなら少しずつ分割して計算するように変更してる。
組み込みの世界だとそういうのも無駄だつって嫌われるんだろうけど。

439:,,・´∀`・,,)っ-○○○
16/02/10 07:39:27.62 P/SQsL1H.net
さすがに判ってると思うけど
&a[4][4]と
&(a[4])[4]と
&(a[4][4])とじゃ
まったくポインタの型が違うんだけどな(C++だと代入しようとするとコンパイルエラーになるぞ)

440:,,・´∀`・,,)っ-○○○
16/02/10 07:50:50.39 P/SQsL1H.net
ポインタの宣言時ね

441:,,・´∀`・,,)っ-○○○
16/02/10 07:55:57.87 P/SQsL1H.net
あとoperator[]をオーバーロードしてる場合の挙動も考えるなら
どのみち全体を括弧でくくる習慣つけたほうが無難

442:Socket774
16/02/10 12:54:55.16 H8TYFk5d.net
float a[4][4]に対して以下の3個はまったく同じだと思います
&a[1][1]
&(a[1])[1]
&(a[1][1])
この3個が異なるのはどんな場合でしょうか?

443:,,・´∀`・,,)っ-○○○
16/02/10 23:04:58.48 t8rz2R99.net
すまん、&じゃなくて*演算子でポインタ宣言するときだ

444:Socket774
16/02/11 09:11:26.97 hgxTJO4r.net
>>288みたいな、普段カッコを付けないものにカッコが付いてると、なんか特別な意味があるの?って考えてしまう
>>423
だったら中途半端につけずに、
&((a[1])[1])としないと
マクロなら
(&(((a)[1])[1]))
これが見易すくて間違いが減るとはとても思わない

445:Socket774
16/02/11 12:22:31.62 5eyCLb72.net
C言語は標準で、ポインタやら配列をあやまった使い方してないかとか境界チェックとかするべき
高速化したい人はコンパイルオプション等でそれを外せばいい
もしくは、高速性が必要な特定のポインタ・配列やら領域だけ
ソースコード内になんか記述してチェックを外し、それ以外は全チェックとか

446:Socket774
16/02/11 13:25:26.34 hgxTJO4r.net
他の言語使えば

447:,,・´∀`・,,)っ-○○○
16/02/11 13:29:11.76 xQvsLvE8.net
OoREを飛ばす言語でも使ってれば?

448:Socket774
16/02/11 16:25:32.74 LdmiFxh6.net
ARMがCortexベースのカスタムコアを提供するライセンス形態を追加するんだと

449:Socket774
16/02/11 19:29:15.16 PZy9H5//.net
だんご、
上でCNNチップでてたけどdeep learningやautoencoder知ってるなら解説してくれ
画像認識で高い確度を得られる背景にどういった理論があるのかとか、
webで言われている抽象的な仕組みでなく実際の具体的な処理で何をやってるのかとか

450:Socket774
16/02/11 19:36:36.47 yDA1su+K.net
だんごがわかるわけない

451:Socket774
16/02/11 19:42:53.95 yDA1su+K.net
合ってたら誉める、間違ってたら貶す
基本はこれだけ

452:Socket774
16/02/11 19:46:29.57 yDA1su+K.net
だんごは半精度が活用出来る例であげてるだけで、中身は知らない

453:,,・´∀`・,,)っ-○○○
16/02/11 20:37:18.34 xQvsLvE8.net
>>434
そもそも処理するのは座標じゃなくてピクセルなんだよ
単精度から半精度に落とすんじゃなくて8ビット整数から上げるんだよ
8ビット整数だろうが16ビットFPだろうが今までは32ビットの整数orFPに変換してから演算してたが
16ビットFPをダイレクトに扱えてかつスループットも倍以上上がるならそっちのほうが効率いいだろ?
ピクセルシェーダのスループットも上がるので理屈の上ではゲームやデザイン系実務でも
ネイティブ半精度SIMDサポートの恩恵はあるはずだ。

454:Socket774
16/02/11 20:40:34.91 hgxTJO4r.net
やっぱりピント外れ
ディープラーニングより前の処理だよそれ

455:,,・´∀`・,,)っ-○○○
16/02/11 20:42:11.40 xQvsLvE8.net
アホかそこ一番重要だろ?
なぜ半精度サポートが必要なのかわかってない奴が多い
そもそも学習より前のパターンマッチング処理が一番重たいんだよ

456:Socket774
16/02/11 21:27:57.08 hgxTJO4r.net
じゃあディープラーニングなんて言葉を使わずに画像処理って言えば良いのに
ていうか、まったく質問の答えになってないし

457:,,・´∀`・,,)っ-○○○
16/02/11 21:37:51.60 xQvsLvE8.net
お前がディープラーニングを理解してないことはわかったよ

458:Socket774
16/02/11 21:39:31.13 hgxTJO4r.net
じゃあ質問に答えてやれよ

459:,,・´∀`・,,)っ-○○○
16/02/11 21:40:10.41 xQvsLvE8.net
答えになってないと思うのはお前が理解できてないからだ

460:Socket774
16/02/11 21:40:43.67 S3kJ76T/.net
>>434は半精度演算の話なんかしてないのになんで急に半精度演算の話が出るの?

461:,,・´∀`・,,)っ-○○○
16/02/11 21:41:15.77 xQvsLvE8.net
>>437が半精度って言ってるから

462:,,・´∀`・,,)っ-○○○
16/02/11 21:42:26.54 xQvsLvE8.net
マナたんがわかりやすいスライドを用意してるから嫁
URLリンク(www.slideshare.net)

463:Socket774
16/02/11 21:43:02.38 S3kJ76T/.net
それじゃ434に対する答えになってないじゃんw

464:Socket774
16/02/11 21:46:15.74 hgxTJO4r.net
だから団子に聞いてもムダだと

465:,,・´∀`・,,)っ-○○○
16/02/11 21:47:19.71 xQvsLvE8.net
半精度がキー要素なんだけどNVIDIAの講演すら聞いたことないのね
あるいは講演中寝てたから覚えてないとか?

466:,,・´∀`・,,)っ-○○○
16/02/11 21:48:22.05 xQvsLvE8.net
>>449
理解することを拒否してる奴に言っても無駄だろうね
特にお前みたいな超絶馬鹿

467:,,・´∀`・,,)っ-○○○
16/02/11 21:51:49.03 xQvsLvE8.net
AIのほうが素直に学習できるだけマシだよ

468:Socket774
16/02/11 21:54:58.81 hgxTJO4r.net
「画像認識で高い確度を得られる背景にどういった理論があるのか?」
「半精度マンセー」
日本語が読めない団子www

469:Socket774
16/02/11 21:55:57.38 hgxTJO4r.net
処理速度とか回路効率とか関係ないから

470:,,・´∀`・,,)っ-○○○
16/02/11 21:57:14.26 xQvsLvE8.net
大事なことはすべてNVIDIAが教えてくれた
URLリンク(www.slideshare.net)

471:,,・´∀`・,,)っ-○○○
16/02/11 21:58:05.40 xQvsLvE8.net
> 処理速度とか回路効率とか関係ないから
それ否定したらGPUでやる意味がないんですが

472:Socket774
16/02/11 21:59:00.72 S3kJ76T/.net
GPUの話は誰もしてないっていう

473:,,・´∀`・,,)っ-○○○
16/02/11 22:09:40.42 xQvsLvE8.net
>>434本人の返答も出てないのに理解できてない奴が喚き散らしてもどうしようもないだろ

474:Socket774
16/02/11 22:13:21.22 S3kJ76T/.net
日本語を理解出来ない奴が一番喚き散らしてるっていう

475:,,・´∀`・,,)っ-○○○
16/02/11 22:16:06.72 xQvsLvE8.net
ID:S3kJ76T/ の自己紹介か

476:,,・´∀`・,,)っ-○○○
16/02/11 22:20:17.78 xQvsLvE8.net
> 上でCNNチップでてたけど
って言ってるがこのチップの中身は既報の通りMaxwellのCUDAコアの改良版だ
誰が日本語が理解できてないのか自覚するところからだね

477:,,・´∀`・,,)っ-○○○
16/02/11 22:27:04.87 xQvsLvE8.net
己のほうがうまく説明できると思うなら他人を批判するより自分で説明してみたまえ

478:,,・´∀`・,,)っ-○○○
16/02/11 22:52:23.08 xQvsLvE8.net
だんまりですか?

479:Socket774
16/02/11 23:02:01.01 hgxTJO4r.net
ディープラーニング自体の理論を知りたいっていう質問だよな
それ以前の技術に比べて確度が上がる理論
おれともう一人は少なくともそう解釈した
CNNチップを使えば他に比べて確度が上がる理論を知りたいっていうなら、それは学習データが違うからとしか
わざわざ理論なんて言葉は出て来ない気がする

480:,,・´∀`・,,)っ-○○○
16/02/11 23:04:42.85 xQvsLvE8.net
> ディープラーニング自体の理論を知りたいっていう質問だよな
それもURL貼ったslideshareのほうの資料で説明されてるんだが
ほんと学習能力がない人間は不要だな

481:Socket774
16/02/11 23:08:56.44 hgxTJO4r.net
お前の文章から、それを説明してるようには見えない
後付けwww

482:Socket774
16/02/11 23:09:57.30 hgxTJO4r.net
>>438
これをお前は回答だと言ったわけだが

483:,,・´∀`・,,)っ-○○○
16/02/11 23:10:07.55 xQvsLvE8.net
> それを説明してるようには見えない
お前の感想なんて求めてないんだけど

484:Socket774
16/02/11 23:10:46.34 hgxTJO4r.net
>>438のどこにディープラーニングの理論が書かれてる?

485:,,・´∀`・,,)っ-○○○
16/02/11 23:12:25.16 xQvsLvE8.net
いいや、俺は負け犬に用はないので透明あぼーん入れたし

486:Socket774
16/02/11 23:12:35.53 hgxTJO4r.net
とんちんかんな回答は、団子が大きな勘違いをしたから

487:Socket774
16/02/11 23:13:21.42 hgxTJO4r.net
負け犬www

488:Socket774
16/02/11 23:39:18.67 tGuU+6UL.net
良くも悪くも情念がたっぷり篭ってて、近親者に当たり散らす感覚だよね
自分自身にある劣等感が、姿を変えてレス上に立ち昇って見えるのかな?

489:,,・´∀`・,,)っ-○○○
16/02/11 23:54:02.64 xQvsLvE8.net
俺は感情的にならず説明に文句があるならお前がうまく説明してみろと
合理的なことを言ってるだけなのだけどね

490:,,・´∀`・,,)っ-○○○
16/02/11 23:57:41.67 xQvsLvE8.net
新しいパラダイムのハードウェアの登場で今まで
「理論上は速いが実践向けではない」
とみなされてきたアルゴリズムが見直されることは多いよ

491:Socket774
16/02/12 00:05:28.73 0pYr9oYJ.net
GPGPUのことだな

492:,,・´∀`・,,)っ-○○○
16/02/12 00:07:52.07 CN4cDvOZ.net
文字列照合も今はSIMDによる力任せの方法のほうがBM法やKMP法より速いし

493:Socket774
16/02/12 02:16:17.934054 +R5FVBwV.net
eyerissはgpuとはちがうぜよ
12枚目
URLリンク(www.rle.mit.edu)
alu毎にローカルストレージ(レジスタファイル?)
alu間のデータ受け渡し
同じ画像を違うフィルターに何度もかけて畳み込み処理するので
aluからaluへバケツリレー方式で次々渡して処理していくようだ
フィルターもパターンが決まっているのでこれもバケツリレー
26枚目
いちいちdramやbufferとやりとりするよりデータの移動が少ないので
省電力で済むという
20枚目
65nm 200mhz 16bit fixed

494:Socket774
16/02/12 08:43:54.764335 Jsn1RYkD.net
計算させるよりデータの移動のほうが電力コストが大きいという

495:Socket774
16/02/12 13:54:03.70 AtjYLSpm.net
Deep LearningとConvolutional Neural Network
URLリンク(vaaaaaanquish.hatenablog.com)
楽しいAutoEncoderと学習の世界
URLリンク(vaaaaaanquish.hatenablog.com)

496:Socket774
16/02/13 01:49:49.31 UOMmeNnw.net
Examining Soft Machines' Architecture: An Element of VISC to Improving IPC
URLリンク(www.anandtech.com)
とりあえず貼っとく

497:Socket774
16/02/13 17:09:11.49 Hucx7qO4.net
Kryoのパイプラインモデル
URLリンク(reviews.llvm.org)
X, Y, Load/Storeの3つのスケジューラがあって
それぞれに2つのパイプ(A/B)がぶら下がってる構成、かな

498:Socket774
16/02/20 13:01:24.18 OQWlICUG.net
半導体生産に新戦略 日本の技術と中国の資金を活用
URLリンク(www3.nhk.or.jp)
まじで?
でじま?

499:Socket774
16/02/20 13:12:03.86 Y0kSJXDf.net
日本「すべての技術は日本が起源ニダ!他国は金だけ寄こすニダ!」

500:Socket774
16/02/20 14:21:53.93 YJ0ciKLJ.net
エルピーダ絡みだから半導体ではあってもCPUとは関係ないから
スレの主題にマッチしていない。
まあエルピーダもUMCと組んでロジックやるという構想もあったけどね。

501:Socket774
16/02/20 23:39:38.36 RJD9orCf.net
投資だけで済めばいいが

502:Socket774
16/02/23 02:46:07.42 41rCS9Cl.net
Qualcommから、評判が悪かったsnapdragon810の後継の、
snapdragon820が出るね
製造はSamsungの第2世代14nm FinFETプロセスとのこと

503:Socket774
16/02/23 14:13:22.37 ioexj50J.net
評判悪かったのは熱問題だろう。性能低いから高電圧でクロック上げるとも考えられるけど。
解決するかはわからんけどA57でないしプロセスも変わるので発熱とかの特性はだいぶ変わる。

504:Socket774
16/03/02 10:17:44.63 G7QIBymg.net
ファブの月間生産能力 2015年12月(ウェハー面積、A国企業のB国工場はB国に集計)
 台湾 21.7%
 韓国 20.5%
 日本 17.3%
 米国 14.2%
 中国  9.7%
 欧州  6.4%
 残り 10.2%
URLリンク(www.icinsights.com)

505:Socket774
16/03/15 12:41:44.98 haB8L40I.net
上のソースコードで、演算結果を格納したレジスタを次のオペコードでソースに
指定してるじゃん。それペナルティの対象だろ。遅くなるのは当たり前。
インテルのユーザーマニュアルに書いてある基本中の基本を忘れてる。

506:,,・´∀`・,,)っ-○○○
16/03/15 19:34:53.76 Y5j2fp8l.net
> インテルのユーザーマニュアルに書いてある基本中の基本を忘れてる。
具体的にどこのページにそんなこと書いてあるの?

507:,,・´∀`・,,)っ-○○○
16/03/16 00:25:25.80 XoT5q9eZ.net
正確に言おう
どこにそんなデタラメが常識として記載されてるの?

508:Socket774
16/03/16 11:34:14.92 iFahG68n.net
いまどきレジスタバイパスのないCPUなんて

509:Socket774
16/03/16 19:44:07.12 kDmozApC.net
むしろSandyより前のCPUはバイパスやROB経由で渡すと問題ないけど
リタイアしてレジスタから読むとポート数の制約を受けるとかいう問題があったな
Agnerのマニュアルには更新したレジスタを読むときは9-12uops以上離すなと書いてある

510:Socket774
16/03/27 15:54:16.64 fwm7564H.net
結局話は流れたようだがImagination TechnologiesがAppleに買収されたら
MIPSがいよいよ存亡の危機に陥るところだったな。

511:Socket774
16/03/27 16:14:11.83 FmJo9dMi.net
Imagination ノートに

512:Socket774
16/04/01 13:19:36.53 9uJbkC45.net
モバイルからサーバーまで全てに使えて十分な性能のある
CPUアーキテクチャがあったらいいのに
それをフルスクラッチで作れる体力のある企業はないのかな?
ソフトの互換性が無くなるから最初のうちは不便だろうけど
将来性はあると思うんけど

513:Socket774
16/04/01 14:00:39.33 qJ5sfwgh.net
フルスクラッチで作ったとしても、命令セットはx86互換もしくはARM互換じゃないと
苦しいのでは?

514:Socket774
16/04/01 16:33:06.02 aTupDskC.net
コンパイラは言語別フロントエンド、言語依存のほぼない中間コード、
アーキテクチャ依存のバックエンドと階層化。コンパイラの階層化によって
古い言語やマイナー言語、マイナーな命令セットの寿命が伸びた
CPUの中身、ハードワイヤードロジックも似たようなものなんじゃないだろうか

515: 【大吉】
16/04/01 16:51:35.90 nj1aMwxG.net
クアッドコアが標準になって久しいがそろそろヘキサコアをスタンダードにして欲しい

516:Socket774
16/04/01 17:22:28.47 qJ5sfwgh.net
ヘキサコアやオクタコアにするより、シングルスレッド性能を2倍にしてくれるほうがうれしい

517:Socket774
16/04/01 23:17:58.74 /f3wC5Hx.net
Apple Aシリーズはシングルスレッド性能というかIPC上げてんな

518:,,・´∀`・,,)っ-○○○
16/04/02 00:25:47.31 aW2f7sMa.net
A6 初の独自設計コア 
A7 64ビット+6IPC化
A8 キャッシュ特盛+NEON強化
A9 クロック上げ+NEON強化
ネタ切れ感はあるけどまだいけるのかな

519:Socket774
16/04/02 11:36:29.51 gvJV9m37.net
AppleのAチップはGPUが本体で、CPUはおまけって感じ

520:Socket774
16/04/02 12:03:50.81 29fDOoLL.net
>>497
GPUは差別化しにくいPowerVRのままで、そのPowerVRに6以降大きなアーキテクチャ変更がない。Appleも性能向上は謳うもGPU自体をアピールすることはないのが現状
逆に独自アーキの投入に成功したCPUはチックとタックを毎年同時に行ってて今一番勢いがある

521:Socket774
16/04/02 16:09:35.25 Cl9Z/Kkm.net
appleはimagination買収するんだろ

522:Socket774
16/04/13 08:31:25.90 9pnkje4s.net
いよいよPOWER9の姿が見えてきたぞ
URLリンク(eetimes.jp)

523:Socket774
16/04/13 08:40:49.01 kElcqcr+.net
IO用

524:Socket774
16/04/13 09:35:13.47 34ID/3Hh.net
>>507
AMDはまたアイディアをパク…参考にすることができるな!

525:Socket774
16/04/14 10:48:55.00 s/wL84Sh.net
> Googleは、米国カリフォルニア州サンノゼで2016年4月5日~8日に開催された
> 「OpenPOWER Summit 2016」において、IBM POWERサーバへの移行に向けた
> 準備がほぼ整ったことを明らかにした。既に、2年前に開発した数多くのGoogleアプリや
> 自社のインフラストラクチャソフトウェアの大半を、IBMのサーバ用CPU「POWER8」に移植済みだという。
> バス周辺はさまざまなイノベーションに満ちているため、
> バス開発の方がマイクロプロセッサ開発よりも影響力が大きい
GoogleがIBM「POWER」サーバに移行へ
(Google Preps for IBM, ARM Shift/Search giant could pivot on server CPUs)
URLリンク(eetimes.jp)
URLリンク(www.eetimes.com)

526:Socket774
16/04/14 11:16:08.90 s/wL84Sh.net
>>489
産地、面積だと日本は17.3%だが、本社所在地・金額だと8%
米国54%、韓国20%、日本8%、台湾7%、欧州6%、中国3%
URLリンク(eetimes.jp)

527:Socket774
16/04/17 16:41:19.46 RcClkxAv.net
URLリンク(bylines.news.yahoo.co.jp)
>つい2010年には14%に落ちたという報道があったばかりだが、わずか6年でその半分になったということだ。
\(^o^)/

528:Socket774
16/04/17 17:05:01.82 xfEgd5k1.net
まっきー
NVIDIA の SC15の時のENERGY-EFFICIENT ARCHITECTURES FOR EXASCALE SYSTEMSスライド10が大変重要。
CPU ではALU (FPU) に使われている電力は全体 の電力の4-6% にすぎない。
これしかもおそらく外付けメモリ含んでない。
これは言い換えると、94-96% の電力はアーキテクチャが最適ではないた めに無駄に消費されている、ということであるしかしレファレンスがとてつもなく古いぞこれ、、、Alpha EV6 ではな いの。
さすが N 社である。最近の Wide SIMD アーキテクチャだtもうちょっ と演算器電力多いはず。
とはいえまあ 90% は演算器以外と思って大きくは外してないと思う。
つまり、論理設計だけでまだ10倍電力性能稼ぐことができる。電圧とかでさらに数倍できる。

529:Socket774
16/04/17 17:14:22.05 JbbU5qMV.net
>>489,511,512
こうやって見てみるとエルピーダの買収が響いているようだ。
このスレ的には東芝よりルネサスの動向が気になるが。

530:Socket774
16/04/19 00:26:58.81 fbOqzq+H.net
>>512
日本企業の上層部って頭悪いんだな・・・

531:,,・´∀`・,,)っ-○○○
16/04/19 02:19:26.05 f216LpEp.net
AMDに比べればまだ頭いいだろ

532:Socket774
16/04/19 02:42:20.59 YwH+H4C2.net
記事で2010年にファウンドリ始めろとか書いてあるけど富士通、NEC知らないのか

533:Socket774
16/04/19 08:29:21.46 8+PaqNBp.net
ARMアーキテクチャの躍進に食い込めなかったな>>日本企業

534:Socket774
16/04/19 08:49:11.20 V6kuWUd1.net
日本にはスーパー日立があるじゃないか

535:Socket774
16/04/19 09:46:48.21 1qTNAhd+.net
自社向けの高性能路線にこだわりすぎた

536:Socket774
16/04/19 16:02:32.08 KyM/4/13.net
>>519
いつの間にかルネサスRXシリーズにRX700が追加されて
SuperHおよびV810の後継とハッキリ書かれるようになったな。
早稲田の先生がSuperH使って並列処理の研究してたけど
今後RXに変えるのだろうか?

537:Socket774
16/04/20 07:11:08.12 JrpwSpoH.net
今回の地震は日本の半導体産業にかなりの悪影響があるという話
2004年の新潟県中越地震では三洋の半導体部門が吹き飛んだがどうなることやら

538:Socket774
16/04/20 07:28:12.59 iikGM2nV.net
もともと熊本県は、地震が少ないことを売りにして企業を誘致してたからな
地震が少ない熊本県なら大丈夫だろ→あぼん
このパターン
あと半導体は、ラインが止まることより、製造機器が壊れたり、クリーンルームの機能がとまってクリーンじゃなくなると
大損害が出る

539:Socket774
16/04/21 00:31:19.54 QcRKezIS.net
これかww
17 名刺は切らしておりまして 2016/04/18(月) 22:19:05.96
熊本県庁が企業誘致に使った資料から
URLリンク(i.imgur.com)

540:Socket774
16/04/21 01:57:01.52 +hiUXVrv.net
>>524
ワロタw

541:Socket774
16/04/21 07:33:01.18 WmIo3jco.net
>ASMLは、450mm用露光装置の開発を期間の定めなく延期することを決定したのは、
>「複数の顧客がそうするように要�


542:≠オたからだ」と公言している。複数の顧客とは、 >Intel、TSMC、Samsungのすべてあるいは一部であろう。 ttp://news.mynavi.jp/news/2016/04/19/201/ 要求した理由はなんだろうな



543:Socket774
16/04/21 11:05:02.70 tyTMduU9.net
コスト上がりすぎだったはず

544:Socket774
16/04/25 19:27:21.65 C/kK0pqj.net
10コアチップ・実行4GBメモリ搭載「Meizu Pro 6」正式発表
URLリンク(smhn.info)
実行用4GBメモリは、スマートフォンとして世界で初めてASUSがZenfone 2に搭載しました。
他にはSamsungのGalaxy Note 5や、Galaxy S7 / S7 edge、HP Elite X3、HTC 10も4GBメモリを搭載。Meizuと同じ中国発のスマートフォンとしては、Xiaomi Mi5も搭載していますね。
世界のハイスペックモデルは4GBメモリの搭載がトレンドになりつつあると言えるかもしれません。
4GBを上回るものとしては、世界初の6GBメモリを搭載したスマートフォンvivo Xplay5が発表されています。

545:Socket774
16/04/25 19:50:22.81 C/kK0pqj.net
パッケージの樹脂の問題…??
そのチップメーカーが責任回避のため編み出した嘘八百のような気がしてならない
なぜ壊れない?ヤマハのネットワーク機器の品質管理を探る
URLリンク(ascii.jp)
「RTX3000で何件か原因不明のリブートがあり、ソフトウェア担当が数ヶ⽉検証したところ、
どう考えてもキャッシュのデータが化けているとしか考えられないと結果が出ました。
チップメーカーに聞いてみたら、使っているパッケージの樹脂の問題であることがわかりました」

546:Socket774
16/04/25 19:56:50.00 C/kK0pqj.net
POP Izumidaさんて白髪のおじさんやったんか
若い兄ちゃん風情だろうって今まで勝手な思い込みをしてたw
ビッグデータや人工知能でGPU/FPGAを使う前に知っておきたい“ハード屋”と“ソフト屋”の違い
URLリンク(www.atmarkit.co.jp)

547:Socket774
16/04/25 23:12:33.23 5PLAfN/E.net
パッケージ中の放射性元素が放射線を出しててそれが原因でエラーが出るとかいうのは有名な話

548:Socket774
16/04/26 05:23:24.10 ACvNomm4.net
>>529
中国工場でも日本と同等の品質、と自信を見せてるな。それは結構なことだが
全部教えちゃいましたってことだから、長い目で見たら自分の首を絞めてる。
あちらの人間はヤマハに骨を埋めるつもりなんかないだろう。

549:Socket774
16/04/26 09:46:52.53 i8ssFa6H.net
日電産にシャープ前副社長 ルネサス「買う可能性」
URLリンク(www.sankeibiz.jp)

550:Socket774
16/04/26 11:03:07.07 cxeG08z9.net
ネットワーク機器なんて宇宙線の影響をうけないようにするのが当たり前
メインフレーム用のチップは、9割以上の部分は冗長化してあり1ビットばけても影響ないように作ってあるし、
おなじようにすればいい

551:Socket774
16/04/26 11:07:46.84 cxeG08z9.net
むかしCisco 7200だったかで、
宇宙線の影響で頻繁にクラッシュすることが頻発して
かなり大問題になったような

552:Socket774
16/04/26 11:39:25.07 Vz4mhTeA.net
andoさんがBlogでスパコンを殺す方法って記事の一部翻訳を書いてたから探�


553:オてみたらは? たしか大原氏もasciiの連載で言及してたと思うけど



554:Socket774
16/04/26 18:40:11.13 teY5kWaY.net
URLリンク(semiaccurate.com)
specint_rate per threadがひどすぎて久しぶりに腹痛い
SMTあったら半減じゃないか

555:Socket774
16/04/26 18:52:10.02 VsID5LxE.net
80年代ぐらいまではソフトエラーといえばセラミックパッケージの放射性物質が主要因だったよ

556:Socket774
16/04/26 20:10:06.93 0QvRXf/U.net
ハンダに使ってた鉛の純度が低くて放射線出しまくっててボードをほぼ全数交換する羽目になったスパコンもあったな

557:Socket774
16/04/27 08:48:53.58 JIGUlQSz.net
日本勢 高信頼性メモリや高信頼性ロジック作ってエラー出さないようにしよう
アメリカ ECCでエラー出しても回復できるようにしよう、ロジックも多くの部分はメモリ化け起こっても回復できるように設計しよう
この差
結局アメリカが圧勝

558:Socket774
16/04/27 09:20:41.63 JKnxrnbH.net
URLリンク(news.mynavi.jp)
しかし、NVIDIAの稼ぎ頭のPCグラフィックスの開発の手を抜いて、ディープラーニングに経営資源を集中するという事ができるのは、
やはり、Jen-Hsun Huang氏が創業者のワンマン経営者だからである。
いくつかのベンチャーの経営者を別とすると、このような経営者は日本には居らず、
それが日本のエレクトロニクス産業の衰退の原因ではないかと思わずにはいられない。

559:Socket774
16/04/27 10:41:45.80 Y8FBybqx.net
使い物にならなかったスーパーコンピューター
URLリンク(spectrum.ieee.org)
URLリンク(www.geocities.jp)
・米ロスアラモス ASCI Q/2002~2004年 top500 2~6位/Alpha 8192個
 理由 CPU内アドレスバスにエラー訂正未実装、1時間に1回宇宙線によるエラー
    厚い金属板で覆って6時間に1回まで減らしたが6時間ではとても不便
・バージニア工科大 Big Mac/2003年/Power Mac G5 1100台
 理由 メモリにECCなし、起動シーケンスが完了する前にエラー
    運用を断念し解体、Power Mac G5はドナドナ
・米ローレンスリバモア BlueGene L/2004-2007年 top500 1位/cpu 106496個 コア数212992
 理由 半田に含まれた同位元素からの放射線による1次キャッシュエラー
    1次キャッシュを無効にして運用、予定外の低性能

560:Socket774
16/04/27 10:48:18.33 Y8FBybqx.net
地球シミュレーターキラーとして予算を投入され、14ラックから104ラックまで
3回増強してtop500(LINPACK)1位を7回獲得したBlueGen Lが実は
死んだも同然のゾンビスパコンだった、という衝撃の事実

561:Socket774
16/04/27 11:31:10.00 UDGFLu2m.net
>>542
おもしれぇw

562:Socket774
16/04/27 15:33:44.68 uJDg


563:VTX8.net



564:Socket774
16/04/27 15:41:29.38 dh6AGclo.net
2006以降のMacProはECC搭載だから今なら問題なくスパコン化できるね

565:Socket774
16/04/27 15:49:05.01 JIGUlQSz.net
宇宙線の影響をうけないように、
廃鉱山とかを利用して地下1000メートルくらいに設置すればいいな
また放射性物質の影響をさけるために、さらに厚さ10センチくらいの純銅版で周囲を囲めばいい
そうすれば大丈夫でしょ

566:Socket774
16/04/27 19:28:41.26 wPWSuLCU.net
>>547
岩盤からもアホほど放射線出るし冷却や結露対策でむしろ不利な条件多いぞ
災害対策で廃鉱に設置してるDCもあるけどどのみち床面積が広げられないのでスパコンの設置には向いてない

567:Socket774
16/04/28 20:54:08.85 0NV3hcBQ.net
Retina MacBook 2016 Teardown
URLリンク(www.ifixit.com)
相変わらずすごい密度だな

568:Socket774
16/04/29 15:41:35.46 eEM1QPbW.net
>>549
アップル製品は出かければでかいほどバッテリが詰まってて長時間駆動する

569:Socket774
16/05/01 07:31:27.30 OD/zX+DR.net
そもそもintelがDRAM屋として成功したの、パッケージのアルファ線によるソフトエラーを
京セラのセラミックパッケージ使ったからだしなあ。京セラに口止めしてな。
C7206VXRのルーティングユニットソフトエラー問題はNPE-300かぁ。全数交換でえらい目にあった。

570:Socket774
16/05/01 14:43:47.37 MOgofTEe.net
>>543
知ってた。

571:Socket774
16/05/01 20:11:12.55 25NuUzLd.net
むかしのコンピュータって毎日数個真空管がこわれて交換してたんでしょ?

572:Socket774
16/05/01 20:41:50.03 b3jHkMwu.net
今のスパコンもそうだよ

573:,,・´∀`・,,)っ-○○○
16/05/01 20:58:15.62 y4ddN0Mv.net
壊れるからこそ代替品が安く迅速に調達しやすいx86サーバがスパコンで最大シェアになり得た

574:Socket774
16/05/01 21:20:58.40 CrNj9jgx.net
逆に京みたいなのだと余分に作って持っておくしかないから
調達するより速いんじゃないかね。
冷却システムがゴツいから交換しにくそうだけど。

575:,,・´∀`・,,)っ-○○○
16/05/02 01:08:30.54 TAQiuz+Y.net
余剰在庫ならx86サーバベンダーだって確保しておくし一般サーバ用としても
そのまま使えるので同じだけ余剰在庫持つにしても在庫の回転ははるかにx86のほうがいい
倉庫だって置いとくのはタダじゃないからね(貸倉庫なら家賃が発生する)

576:Socket774
16/05/02 01:46:33.14 A1M5vvBk.net
>>557
社会人なのでその理屈はわからんではないが、
ググッてみると実際京は理化学研究所で部品庫持って交換用備えてるそうな。
ただ、交換部品はCPUボード単位になるのでCPU在庫は富士通が持ってる事になるのかね。

577:Socket774
16/05/02 01:52:15.32 9nOFQpR3.net
スパコンなんざ寿命が決まってるんだからどれくらい保守部品が必要かってのも見積もりやすいだろうな
PC-98みたいに中古品探して保守パーツ漁りするような状況にはならん

578:,,・´∀`・,,)っ-○○○
16/05/02 02:56:34.78 TAQiuz+Y.net
松岡教授のブレなさは流石だと思う
HAL研出身は格が違った(任天堂の故・岩田社長は同僚)

579:Socket774
16/05/02 03:24:51.09 owErfDLB.net
>>555
なぜそんな息をするようにもっともらしい嘘を…
>>560


580: 税金泥棒をよいしょ



581:,,・´∀`・,,)っ-○○○
16/05/02 03:42:10.58 TAQiuz+Y.net
こいつらの民間需要とのズレをなんとかしてくださいな
URLリンク(www.mext.go.jp)

582:Socket774
16/05/02 06:04:58.73 8QfzIEhm.net
x86 を持ち上げる時はレガシーを持ち出す
非x86のHPCを貶す時はベクトルマシン想定で書かれて
CUDA化に手間がかかる大量のソースを無視して松岡氏を持ち上げる
Jaguarのことすら思い出さないくらいだからHPCに興味なんかないんだよ。
ないくせの嘴を突っ込んでくる

583:,,・´∀`・,,)っ-○○○
16/05/02 09:18:59.73 TAQiuz+Y.net
> Jaguarのことすら思い出さないくらいだから
暗黙に新規案件のことを指してると思わないお前の饐えた脳みその構造が
俺の理解の範疇を超えてるだけなんだけどな
AMDがCray案件なんて二度と獲得できないという理屈も理解していない

584:Socket774
16/05/02 09:27:00.87 ues332x+.net
いまどきの大規模HPCは、一定の予備ノードを供えており、
壊れたら自動的に予備ノードに切り替えて、
こわれたノードで実行中のジョブはよびノードで再実行したりするよ

585:Socket774
16/05/02 09:52:58.18 HdDBI/vb.net
>>560
うお、松岡さんって岩田さんと同期かよ!
興味深いこと聞いた。

586:Socket774
16/05/02 10:29:25.08 ues332x+.net
世の中には、松岡教授的アプローチで高速化できるアプリと、
高帯域低遅延インターコネクトが必須なアプリがある
前者に対しての松岡教授の業績はすごいが、
松岡教授の後者叩きみたいなのには同意できない
Linpack以外のベンチマークが注目されるようになってきたのも、
後者のアプリの性能重視したHPCや、後者のアプリの性能を図るベンチマークが必要とされるからで

587:Socket774
16/05/02 13:14:58.84 Vf4DevFd.net
>>562
どうにもなんねぇよ。
産業・民需はLINPACKじゃないから。

588:Socket774
16/05/02 13:43:49.52 Vf4DevFd.net
つかスパコンの民需て何だよw

589:Socket774
16/05/02 13:59:57.74 A1M5vvBk.net
個人向けエンタープライズを引き合いに出すまでもなく
民間企業の研究開発向けとかあるだろ。

590:,,・´∀`・,,)っ-○○○
16/05/02 14:00:28.29 TAQiuz+Y.net
Crayはビッグデータ向けの製品も出してるんだけどな
そこの会議の過去ログみてみ?
「SPARC64は民間で広く使われてるとは言い難く、民間への技術転用を視野に入れるならXeon Phiの方がいいと思います」とか言ってる発言あるが
結局神戸にXeon+KNCのノードが導入されてんのよ

591:,,・´∀`・,,)っ-○○○
16/05/02 14:15:10.21 TAQiuz+Y.net
製薬とか金融シミュレーション、ビッグデータ全般
もちろん使われてるのはXeonクラスタであってPRIMEHPCなんて使ってる民間企業はいないがね
既に富士通の国内Fabなんて野菜工場になって生産は完全にTSMCになってんだけど
どういう言い訳して「国産」ゴリ押しするのか
京の開発費の一体何割が天下り文科役人のナントカ経費とか神戸の某指定暴力団のシノギに消えちゃったのかは非常に興味ありますね

592:Socket774
16/05/02 14:21:52.98 A1M5vvBk.net
きっと団子の親は猛烈なスピードで投げつけられた
SPARCプロセッサが刺さって死んだんだろうな。

593:Socket774
16/05/02 14:22:06.48 Vf4DevFd.net
>>570
そいうのは産業分野

594:Socket774
16/05/02 14:29:04.04 Vf4DevFd.net
PCクラスターをスパコンと言うのに違和感あるな


595: スパコン分野を廉価なコモでティーのPCクラスターが 次第にカバーするようになったら、スパコンの定義を拡大した みないなご都合主義というか



596:Socket774
16/05/02 14:30:27.81 ijHiPf3E.net
げんき玉

597:Socket774
16/05/02 14:31:03.27 Vf4DevFd.net
たとえば昔はNATSRANやADINAでの構造解析はスパコンの分野だったが
いまじゃPCだしな

598:,,・´∀`・,,)っ-○○○
16/05/02 20:08:27.24 8Vtqcx1h.net
>>569
京は民間企業でも利用申請できるの知らないのか?
もともと民間にも使ってもらって経済を活性化するという大義名分のもと作ったのに
「移植性の問題でx86のほうが産業界にとっては良かった」なんて
反省会に上がるレベルだから困るんだよ

599:Socket774
16/05/02 20:41:44.13 rh7z++sp.net
そしたら産業分野というのはどういうマーケットセグメントになるんだよ
民需の解釈の違いだな
それはさておき、何でx86の方が移植性がいいと思う?
archに最適化するためrecompileしなおすから同じLinuxなら同等の筈ではw

600:,,・´∀`・,,)っ-○○○
16/05/02 20:49:42.60 8Vtqcx1h.net
HPC-ACEべったりのコードがAVXにそのまま移植できるならそうだが実際はそうじゃないからな

601:Socket774
16/05/02 20:52:20.98 rh7z++sp.net
民間企業が使うような用途の並列度で比較したら見劣りするさー
いや、もっと端的に言えば、依存を取り扱う並列化の出来ない
SIMDも聞かない問題は、重要な問題であっても適さない。
そういうものを目指して作ったわけではないだろ

602:Socket774
16/05/02 20:56:28.11 rh7z++sp.net
>>580
そういうところの問題かよw
そういうものは本来コンパイラの最適化とコード生成が吸収すべきものであり、
インラインasmに展開される関数群の移植などのレイヤで捕らえている限り
応用は広がらないし幅広く使われない
考えがISAから脱却できないんだな

603:,,・´∀`・,,)っ-○○○
16/05/02 20:56:59.02 8Vtqcx1h.net
はい、民間がSIMDを使わないというレッテル張りいただきました

604:Socket774
16/05/02 20:59:06.22 rh7z++sp.net
ポカーン
誰もそんなことは書いていないぜよ
SIMDくらい普通に使ってるだろ

605:,,・´∀`・,,)っ-○○○
16/05/02 20:59:42.43 8Vtqcx1h.net
>>582
産業向けじゃなくて純粋にアカデミック分野で生きてるGRAPE系の人々の講演を
一度でも聞いてみたらいい
フルノード予約するの大変だから限られたリソースで最大限の成果をあげるために
ASMレベルの最適化してるのも知らないんだね、
知ったかぶりがひどすぎて失笑

606:Socket774
16/05/02 21:03:03.70 rh7z++sp.net
>>585
あほンだら
ベクトルの時代から、どうしてもクリティカルでコンパイラが行き届かないときは
SIMD命令を直接ASMで書いたよ
だがそれは一般的ではない、特殊な場合。
殆どの使われ方はコンパイラの最適化とベクトル化、コード生成に任せる
そしてソフトウエアそのものを作ることによ利得られる成果を求めるんだよ

607:,,・´∀`・,,)っ-○○○
16/05/02 21:04:33.48 8Vtqcx1h.net
ASM出力で理想のコードシーケンスが得られるまでコンパイルオプションの組み合わせを
虱潰しに試してる理研職員のツイートでも読んでみたらいい
残念ながら富士通のコンパイラはそこまで賢くはないのだ

608:Socket774
16/05/02 21:05:24.88 rh7z++sp.net
移植性って、GRAPE用プログラムの移植を前提に話してたのか…

609:,,・´∀`・,,)っ-○○○
16/05/02 21:05:51.62 8Vtqcx1h.net
>>586 現役ですらない老害アピールなんて何の自慢にもならねーぞ
墓に入ってろロートル

610:Socket774
16/05/02 21:08:17.89 rh7z++sp.net
>>587
そりゃコンパイラが未熟なんだよ。
そしたらどのみちどのアーキテクチャ


611:ーにも移植性が悪いコードを書かざるを得ないだろ >>578 に書いているような移植先のアーキテクチャによる移植性の差の問題じゃないぞ



612:,,・´∀`・,,)っ-○○○
16/05/02 21:10:21.05 8Vtqcx1h.net
コンパイラが成熟するのはいつになるんだよ?w
最先端技術はジジイの理想論の世界で動いてるんじゃなくて現場で動いてるんだ
現場にすらいない老害は黙ってろ

613:Socket774
16/05/02 21:13:18.36 rh7z++sp.net
なんでインラインアセンブラ展開される関数呼び出しで書くことが最前端なんだよw
最善端の取り違えだぞ
必要に応じてやればいいだけの話じゃないか
必要が無ければそんなことしないで生産性と集積製 移植性重視で書くだろ

614:Socket774
16/05/02 21:14:22.63 rh7z++sp.net
誤記修正
なんでインラインアセンブラ展開される関数呼び出しで書くことが最前端なんだよw
最前端の取り違えだぞ
必要に応じてやればいいだけの話じゃないか
必要が無ければそんなことしないで生産性と収益性 移植性重視で書くだろ

615:,,・´∀`・,,)っ-○○○
16/05/02 21:15:03.59 8Vtqcx1h.net
> なんでインラインアセンブラ展開される
意味不明すぎる
お前ものすごいアホなこと言ってる自覚ないだろwww
コンパイラはインラインアセンブラを生成しないし
インラインアセンブラをグローバルな最適化を阻害する

616:Socket774
16/05/02 21:16:24.95 rh7z++sp.net
移植性の悪い書き方しといて
どっちのアーキテクチャーの方が移植性いいとか
>>594
まさか知らないんだ

617:,,・´∀`・,,)っ-○○○
16/05/02 21:18:24.50 8Vtqcx1h.net
知らないなーお前の世界の常識なんて
現実世界のコンパイラは-Sでアセンブリコードは出力することはできるけど
「インラインアセンブラ」は生成しない

618:Socket774
16/05/02 21:21:42.44 rh7z++sp.net
>>595
『「インラインアセンブラ」は生成しない』
あたりめだろ誰もそんなことを言っていない
制約つきオペランド式を持ちインラインアセンブラに「展開」される関数郡

619:Socket774
16/05/02 21:23:41.92 rh7z++sp.net
いまぐぐってるのかよw

620:Socket774
16/05/02 21:26:00.96 rh7z++sp.net
むかーしむかしのインラインアセンブラはそのコードセクションを最適化の対象から
除外したり最適化によるコードの移動がまたがないように制限を加えたけれど
それは20年以上前のつたないPC用コンパイラの話だぞ

621:Socket774
16/05/02 21:27:56.31 rh7z++sp.net
それ使わずにアセンブラでゴリゴリ書くと逆に高級言語で書いたその他大多数の部分のリソースへのアクセスや
スタックオフセットの管理が大変すぎるだろうにつか
やりきれないだろうに

622:,,・´∀`・,,)っ-○○○
16/05/02 21:29:59.43 8Vtqcx1h.net
まさかIntrinsicsをasm式をインライン関数化しただけのクソ実装で済ませてた
GCCのことを言ってるのかね?
あんなボトルネックになるような実装してたのGCCくらいしか知らないが
(何度も言ってるけどインラインアセンブリは最適化を阻害する)
最初からXeonスパコンからの移植ならわざわざコードの書き直しに労力割く必要ない
という当たり前の理屈なんですけども理解できませんでしたかねえ

623:Socket774
16/05/02 21:31:37.67 rh7z++sp.net
>>601
世にあまたある殆どのアプリの記述はアセンブラを使わないから
移植性のよしあしを持ち出すなら別の視点がいるだろ

624:,,・´∀`・,,)っ-○○○
16/05/02 21:34:55.13 8Vtqcx1h.net
残念だけどインラインアセンブラがC/C++側の最適化を阻害することは
現行のIntelコンパイラのマニュアルにもちゃんと記載されてる事実なんだよね
もちろんLinux版

625:,,・´∀`・,,)っ-○○○
16/05/02 21:37:25.29 8Vtqcx1h.net
Intel C++のIntrinsicsは内部的にインラインアセンブラを使ってないんだわ
C/C++のオプティマイザによるコードシーケンスの最適化をしてから対応する命令に
変換される
ゴミには理解できなかったかな

626:Socket774
16/05/02 21:40:23.77 rh7z++sp.net
>>602
下手な書き方すると抑制するよ~
上手に使わないと。
だが>>600に書いたようなわけで使わない手は無い。
で、実際移植性は悪いんだろ
そこで
>>579
> それはさておき、何でx86の方が移植性がいいと思う?
> archに最適化するためrecompileしなおすから同じLinuxなら同等の筈ではw

627:Socket774
16/05/02 21:44:29.32 rh7z++sp.net
>>604
SAA GENERIC GIMPLEの話をしてるのか?
それASMと別の話だぞ

628:Socket774
16/05/02 21:46:19.47 rh7z++sp.net
>>606
ごめ SAAじゃなく SSA だた

629:Socket774
16/05/02 21:49:25.86 rh7z++sp.net
またぐぐってるのかよw

630:Socket774
16/05/02 21:57:07.06 rh7z++sp.net



631:>>604 Intelのはなしか… そんじゃ最近のIntel F,Cは実質的にAsmは別の.sファイルにするしかなさそうだな asmは移植もへった暮れも無いだろ 書き直しだよ、書き直し。よくてポーティンコグ。 ポータビリティーは、最初のasmをどのarchで書いたかによって決まり、 プラットホームへのソフトウエアの移植性の優劣とはまったく別の話だ



632:,,・´∀`・,,)っ-○○○
16/05/02 21:59:03.80 8Vtqcx1h.net
URLリンク(pbs.twimg.com)

633:Socket774
16/05/02 22:02:37.22 rh7z++sp.net
>>610
お前は成長しないな

634:Socket774
16/05/02 22:12:18.52 rh7z++sp.net
でも、実際ポータビリティーは劣るんだよね…
それが普及しないことに一因なんだけれど、
さて、それはなぜでしょう(*´艸`*)w

635:,,・´∀`・,,)っ-○○○
16/05/02 22:19:12.79 8Vtqcx1h.net
> それが普及しないことに一因なんだけれど、
そうだね、ガラパゴスCPUのSPARC64は普及しない

636:Socket774
16/05/02 22:27:36.41 rh7z++sp.net
>>613
ガラパゴスってわけではないんだけれども
言っちゃー悪いけどSPARC64は普及しにくいだろうね
中の人は中にいて国から金貰う会社の中のロンリで考え動いているからこそ
その本当に理由が見えない
がしかしそれはアセンブラのポータビリティーや
性能グラフを書いたときに劣って見えるせいではない
という皮肉

637:Socket774
16/05/02 22:34:25.54 A1M5vvBk.net
富士通SPARCは勝手にやってろとしても、
OpenSPARCで陣営増やそうという試みが
OpenPOWERにより存在価値なくなったような印象。

638:,,・´∀`・,,)っ-○○○
16/05/02 22:35:18.65 8Vtqcx1h.net
お前の拙い論理なんざ何の価値もない
某国の改造版MIPSはSSEとニーモニック互換のSIMD命令を追加してます

639:Socket774
16/05/02 22:39:38.83 rh7z++sp.net
今から新しいアーキテクチャーで性能がよくて
税金にぶら下がらず社会の中で事業として自立し
実際に役に立って
世の中に普及し世の中を変えるようものは
ほんとあらわれにくいだろうね
残念ながら
いやほんと残念だわ

640:,,・´∀`・,,)っ-○○○
16/05/02 22:41:10.35 8Vtqcx1h.net
Android NDKのARMのSIMD依存コードをSSEに機械的に置換するための関数とかな
URLリンク(software.intel.com)
もちろん最適化にはならないが
ハード依存コードからの移植のコストを減らすためのお膳立てが求められてるのは現実なのよ

641:Socket774
16/05/02 22:42:13.72 rh7z++sp.net
>>616
んじゃお前がその某国の改造版MIPSを使って食べていけばよいじゃないかw
どうぞご自由に

642:,,・´∀`・,,)っ-○○○
16/05/02 22:42:44.72 8Vtqcx1h.net
Cell SDKにもAltiVecとSPU命令のIntrinsicsを相互に置換するマクロが用意されてたな

643:Socket774
16/05/02 22:44:23.30 rh7z++sp.net
>>618
最適はさておいて、
ポーティングのためのひとつのソリューションだな
がしかしもう追いつかんよその分野は

644:,,・´∀`・,,)っ-○○○
16/05/02 22:48:50.82 8Vtqcx1h.net
そもそもHPC-ACEは128ビットSIMDで単精度サポートなし、AVXは256ビットで
単精度なら8並列で処理できる
単純な置換でどうにかなるほど産業界のメインストリーム(=x86)との親和性が
高くないんだよ
もっともHPC-ACE2は256ビット化&単精度SIMDサポートしたけどね

645:Socket774
16/05/02 22:53:38.98 rh7z++sp.net
一対一に対応しなくたっていいだろうに…
レンテンシやデータパスのバンド幅などさまざまな違いがあるんだし
ISAの昨日レベルにこだわりすぎだろ

646:Socket774
16/05/03 06:11:37.47 6FRd5iju.net
京の時期に調達できたXeonはFLOP


647:S/Wも劣るしFLOPS相対メモリバンド幅も 劣るし、採用したくてもできないものしかなかったわ。 あの年に10PFLOPSという話を否定しなとXeonの出番は作れない



648:Socket774
16/05/03 06:56:07.72 RSiZNTh3.net
利権

649:Socket774
16/05/03 20:37:06.05 gKgo317+.net
富士通としては、x86コアに、高帯域メモリと高帯域メモリコントローラを積んで、HPC-ACE命令・レジスタを追加して、
オンダイに豆腐インターコネクトを追加したCPUをつくってもいいのでは?
べつにSPARC64にこだわる必要は無い
っていうかいま中国で実質的に京のパクリみたいなHPCを作ろうとしてるっぽいよ
MIPSかARMかx86か知らんがどっかのコアに、HPC-ACE風の専用命令と、豆腐っぽい専用インターコネクトを統合して
作るっぽい

650:Socket774
16/05/03 20:41:23.89 gKgo317+.net
中国としては、
AMD-GPUベースのHPC 作ったはいいけどベンチ専用機
Xeon PhiベースのHPC ベンチだけじゃなくバリバリ利用中
PCクラスタやXeon Phiクラスタでは苦手なタイプの計算を高速化するために、
京っぽいアーキテクチャのHPCを開発中

651:Socket774
16/05/03 20:44:29.61 gKgo317+.net
アメリカ勢 CPUやGPUに、京っぽいインターコネクトを積んんでやろう
中華勢 京みたいなHPC用CPUを作ろう
どっちもこういったことを考えてるはず

652:Socket774
16/05/03 20:48:30.37 gKgo317+.net
>>569
重電・航空・自動車は当たり前のようにスパコンつかってる
トヨタがスパコン持ってないとでも思ってるの?

653:Socket774
16/05/03 20:59:25.90 CoP66FxA.net
>>626
夕立っぽいなその文章
去年のニュースであったけど、HPC-ACEの話は出てないな。
もうちょっと詳しい情報があればいいんだが。
URLリンク(news.mynavi.jp)

654:Socket774
16/05/03 22:08:47.32 +HfUYi9t.net
x86コアとか設計思想が古過ぎてHPCに向かないじゃん。
対称性も数も乏しいレジスタ群、貧弱な相対条件分岐命令+長ったらしいオペコード長、
四捨五入のないマルチワード16bit乗算。レジスタ同士の演算でも1クロックで
終わらないとか、堕落しすぎ。

655:,,・´∀`・,,)っ-○○○
16/05/03 22:12:17.54 U3fItOvQ.net
↑とんでもないジジイが来たぞ!

656:Socket774
16/05/03 22:20:59.45 Slej7yxh.net
お前だっていい年だろ

657:Socket774
16/05/03 22:24:08.68 +HfUYi9t.net
マジでそうじゃん。全部ループ中のステップ数が増えて遅くなる原因だし。
ハードウェア上のパイプラインが何段あろうとも、ソフトウェア上ではuvの2本
しかなくて、同じレジスタへの読み書きが続くとペナルティを食らって遅くなる。

658:Socket774
16/05/03 22:26:37.37 Slej7yxh.net
さあたいへん

659:,,・´∀`・,,)っ-○○○
16/05/03 22:31:54.26 U3fItOvQ.net
>>634
案の定P54Cの話かよ
20年以上前のx86の実装が今通用すると思うなよ、爺さん
今のx86はアウトオブオーダ実行で4命令同時発行だぞ
新しいこと学習できないやつは出てくるなよ

660:Socket774
16/05/03 22:37:07.84 CoP66FxA.net
というかペンティアムプロセッサの話はネタとしか

661:Socket774
16/05/03 22:37:43.45 +HfUYi9t.net
お、逆だった。同じレジスタへの書き込み(演算)と読み出し、或いは再書き込みだな。
ペナルティを回避するには、複数の演算を極力1ステップづつ代わりばんこに実行
させるよう並び替えをしなければならない、或いは効率が下がるが、NOPをくれて
やらんとだめだから、面倒くさすぎるな。
こんなアホな事をしないとパフォーマンスが劣るcpuとか無駄すぎ。

662:,,・´∀`・,,)っ-○○○
16/05/03 22:42:22.64 U3fItOvQ.net
Pen


663:tium Pro以降の最適化マニュアルって読んだことある?無いよね? 頭弱くて覚えられないんだよね? 生きてる必要ないから無理しなくていいよ?火葬場に行って石の下に入ってもいいんだよ?



664:Socket774
16/05/03 22:43:11.54 Slej7yxh.net
1つだけ分かったことは
団子みたいなニッチのお宅のいうことに耳を傾けて
参考にし、もしプロセッサーを作るようなことがあったら
ほんと事業にとどめを刺しちゃうなってこと
だけ

665:,,・´∀`・,,)っ-○○○
16/05/03 22:46:21.84 U3fItOvQ.net
俺を分かった気になるなよ、頭悪いくせに
ハード屋は儲かる市場を再優先で見ていればいい
ソフト屋は与えられたもののいくつかから選んで最善をつくすだけ

666:Socket774
16/05/03 22:47:16.08 +HfUYi9t.net
>>636 もう引っかかったのかマヌケ。
マニュアル読んでアセンブラでコード書いてループのスループットみれば実態は明らか。
uvパイプラインとペナルティの事だってマニュアルにきちんと書いてある。
バカは絶対読まないだろうがな。
カタログスペック厨はインテルの売り文句ばっか信じてて実態知らなさ過ぎw

667:Socket774
16/05/03 22:50:53.31 Slej7yxh.net
>>641
ソフト屋はハードのおまけだと
言い切りやがった

668:,,・´∀`・,,)っ-○○○
16/05/03 22:52:19.69 U3fItOvQ.net
>>642
お前の読んでるマニュアルに、vfmadd231ps命令はuvどっちで実行されて
スループットはいくらって書いてある?
(こいつマジ死んだほうyがいいよ)

669:,,・´∀`・,,)っ-○○○
16/05/03 22:52:49.15 U3fItOvQ.net
>>643
当たり前だ、今更きづいたのか

670:Socket774
16/05/03 22:55:12.95 Slej7yxh.net
>>645
そしたらプラットホームインディペンデントに
ソフトウエアを重視して自立している人たちにあまりにも失礼だろ

671:Socket774
16/05/03 22:56:50.92 Slej7yxh.net
そいやプラットホームを絞っても
フトウエアを重視しているアップルのような企業にも
あまりにも失礼
というか
だから勝てないんだよ

672:,,・´∀`・,,)っ-○○○
16/05/03 22:57:13.50 U3fItOvQ.net
インディペンデント(笑)なんてありえない
依存する先をコロコロ変えてる
ハードなしでなんとかなると思うなら算盤や計算尺でも使ってろと

673:Socket774
16/05/03 22:58:05.58 +HfUYi9t.net
何命令同時に発行しようが、レジスタ(或いはメモリ)へ書き込み、次の命令でそのレジスタ
(或いは同じメモリ)を参照しようとすれば、必ずストールし、ペナルティがついて遅くなる。
これを防ぐには複数の演算を1ステップづつ交互に処理させるのがベストだが、
そんなことしなきゃパフォーマンスが落ちるようなcpuは時代遅れってこった。

674:Socket774
16/05/03 22:58:12.65 Slej7yxh.net
高級言語の登場を否定したような口ぶりだな

675:,,・´∀`・,,)っ-○○○
16/05/03 22:58:27.14 U3fItOvQ.net
> アップルのような企業
Appleのようなハードウェアを設計してる会社を侮辱しないほうがいいぞ

676:Socket774
16/05/03 22:59:47.30 Slej7yxh.net
>>651
あの会社はソフトを重視したからこそ他者に差別化できたんだぞ

677:Socket774
16/05/03 23:03:42.74 Slej7yxh.net
また反論のねた探しにぐぐってるのかよ

678:,,・´∀`・,,)っ-○○○
16/05/03 23:04:21.83 U3fItOvQ.net
uvパイプ云々の時点で既に今のx86の実装を理解してないんだが
こんな認知症のおじいちゃんが若者から吸い上げた税金で生きながらえてるような日本って
とんでもないディストピアなんだね

679:,,・´∀`・,,)っ-○○○
16/05/03 23:05:49.41 U3fItOvQ.net
>>653
URLリンク(pbs.twimg.com)
これ以上俺に口答えしたらNG入れるからね?
お前みたいな頑固者は嫌いだよ

680:Socket774
16/05/03 23:06:10.87 +HfUYi9t.net
バカだな。試すなよシッタカの癖に。ソフバンのmmx本からして読んでるから引っかかるかボケ。
大体ストールのこと忘れてたんだろw でなきゃ4命令同時発行とか無駄な足掻きはせんわな。
恥ずかしいな、4命令クン。

681:,,・´∀`・,,)っ-○○○
16/05/03 23:08:24.58 U3fItOvQ.net
> ソフバンのMMX本
P55Cの時代の化石本がどうした?www
その本にvfmad231psのスループット�


682:レってるか?



683:Socket774
16/05/03 23:10:04.69 Slej7yxh.net
>>655
NGいつでもどうそ、私は痛くも痒くもありませんw
アップルはハードを自社設計することで成長した企業ではありません

684:Socket774
16/05/03 23:12:20.24 Slej7yxh.net
なんで団子っておかしな知ったかしたり
すぐかんしゃく起こしたりするのかね
オレには理解できない
まさか消防署ならぬ半島の方から来た人なんだろうか…

685:,,・´∀`・,,)っ-○○○
16/05/03 23:21:56.65 U3fItOvQ.net
順序も忘れたのかね?
iPodは携帯音楽プレイヤーとして破格の大容量のストレージを持つMP3プレイヤーとして
爆発的なヒットを飛ばした。
そのヒットぶりはavexのコピーコントロールCDの廃止にも影響を与えた
当時はiPod用のデジタル配信サービスが立ち上がっておらず
CDからPCに楽曲データを取り込む必要があった

686:Socket774
16/05/03 23:22:14.09 Slej7yxh.net
オレ個人としては相手がどこ出でもいいけど
たとえ2chといえでも
もう少し人とのコミュニケーションのやり方に
双方プラスとなるようなやり方があると思うけれど
団子はそういうのは苦手みたいだね

687:,,・´∀`・,,)っ-○○○
16/05/03 23:27:57.03 U3fItOvQ.net
逆に聞くがお前は2chで誰とうまくいってるんだよwww

688:Socket774
16/05/03 23:28:38.33 Slej7yxh.net
>>660
それよく覚えている。
非常に印象的だったのは、当初2000年初め頃
MP3プレイヤーが多数登場しMDやポータブルCDプレイやの存在意義を
揺さぶり始めた頃、各社8~十数MB程度の…
…中略…
…IPod…
…iOS…
……iPhone…
で、こないだまでサムソンに投げていたのを…
最近自社で…
「知っている奴は知っている」

689:Socket774
16/05/03 23:29:49.43 Slej7yxh.net
>>662
ばかだな2chなんてねただろ
お前とはスタンスが違うよ

690:Socket774
16/05/03 23:31:32.69 Slej7yxh.net
あ、でも2chで知り合った女性と
しばらくお付き合いさせていいただいたか
ありがたいことだ

691:Socket774
16/05/03 23:33:25.20 Slej7yxh.net
ここまで、ぐぐるようなねたは無いはず
なんだけれどもな
おかしいな何をぐぐっているおやら

692:,,・´∀`・,,)っ-○○○
16/05/03 23:35:01.80 U3fItOvQ.net
>>663
そしてiTMSはiPodのために生まれたサービスだ
わかってると思うけどAppleは自社ブランドのハードの利益になることしかやらない
Android用のiWorksやiTMSのアプリは存在しないし
Windows用のXcodeも存在しない
PC向けiTunesは例外的にWindowsでiOSデバイスを使うユーザーに配慮してるだけで
Appleのソフトは結局全てハードの販売に直結してるんだよ


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch