CPUアーキテクチャについて語れ 30at JISAKU
CPUアーキテクチャについて語れ 30 - 暇つぶし2ch954:Socket774
15/11/13 08:25:24.22 TwinPJod.net
>>838はどう解釈しても行列の乗算じゃない

955:Socket774
15/11/13 08:32:34.13 TwinPJod.net
並び順とか積の順番とかそういう話じゃない
積の演算の一部にもなってない
1*1の行列の積を足したもの
っていう屁理屈を使わないと無料

956:Socket774
15/11/13 08:34:27.92 TwinPJod.net
積の定義もいろいろあるけど、それらのどれとも違う

957:Socket774
15/11/13 08:41:52.08 odt1Jedu.net
AVXレジスタに行列ひとつが丸ごと入るようになったのだから行列積や正規化の計算がマイクロコードでいいから1命令でできるようになるといいね。

958:Socket774
15/11/13 09:13:17.26 bHSwfq4M.net
内積ですか外積ですか

959:,,・´∀`・,,)っ-○○○
15/11/13 12:05:11.38 64wEE4oR.net
それだけで完全に動くコードではないという指摘なら確かに正しい
だがロード・ストア命令が抜けてるのはちゃんと理解できてる人にはわかってるはずだからね
vmovaps zmm2, [a]
vpermilps zmm3, zmm2, 0x00
vpermilps zmm4, zmm2, 0x55
vpermilps zmm5, zmm2, 0xAA
vpermilps zmm6, zmm2, 0xFF
vbroadcastf128 zmm1, [b] ; そもそもの話
vmulps zmm0, zmm1, zmm3
vbroadcastf128 zmm1, [b+16] ; zmm1の値が
vfmadd231ps zmm0, zmm1, zmm4
vbroadcastf128 zmm1, [b+32] ; ずっと固定とは
vmadd231ps zmm0, zmm1, zmm5
vbroadcastf128 zmm1, [b+48] ; 言ってないしね
vmadd231ps zmm0, zmm1, zmm6
vmovaps [d], zmm0
↑これすら動作チェックしてないのでおかしいところがあれば指摘してくれw
複数行列に同じ行列掛ける場合なら最初から4レジスタに展開したほうがいいというのであればそれには同意するが
vpermilps=千分率(笑)

960:,,・´∀`・,,)っ-○○○
15/11/13 12:11:52.07 64wEE4oR.net
KNCからAVX512でswizzleに加えインラインの4to16ブロードキャストモードまでなくなったことが地味に痛いとこだがロードとシャッフルと積和が並列動作するなら問題ないでしょう

961:Socket774
15/11/13 12:18:43.58 E1zyPduB.net
ワロタ
zmm1をbroadcastしてないことにようやく気づいたか
さすがにこれは恥ずかしいよ団子さん

962:Socket774
15/11/13 12:33:39.28 TwinPJod.net
そもそもの話zmm1の値がずっと固定とは言ってないしね
wwwwww
痛すぎる
wwwwww

963:,,・´∀`・,,)っ-○○○
15/11/13 12:35:22.29 64wEE4oR.net
マイクロコードでの内積実装といえばdppsとかいう半ば失敗作のものがあるよ
等価なコードをソフト実装したほうがパイプライン乱さないから速い

964:Socket774
15/11/13 12:36:23.43 TwinPJod.net
コード的には糞過ぎて全く使い物にならない
wwwww
コンパイラに最適化を任せてるようなヤツのコードはこの程度か
wwwww

965:,,・´∀`・,,)っ-○○○
15/11/13 12:41:01.76 64wEE4oR.net
どのみち積和間のレイテンシはなにかしらのコードをインターリーブして埋める必要はあるしKNLもSKXもOoOEのコアだから同じレジスタ使い回しでいいはず
千分率(爆笑)

966:Socket774
15/11/13 12:47:29.26 TwinPJod.net
ビルドすら通らないし

967:Socket774
15/11/13 12:49:58.27 TwinPJod.net
PORTスカスカでレジスタ7個も使って
酷すぎる

968:Socket774
15/11/13 12:52:56.47 E1zyPduB.net
URLリンク(gcc.gnu.org)
Samsungの独自設計コアのモデルらしいが、パイプラインの構成はA57にそっくり
+;; 1. Two pipelines for simple integer operations: A, B
+;; 2. One pipeline for simple or complex integer operations: C
+;; 3. Two asymmetric pipelines for Neon and FP operations: F0, F1
+;; 4. One pipeline for branch operations: BX
+;; 5. One AGU for loads: L
+;; One AGU for stores and one pipeline for stores: S, SD

969:Socket774
15/11/13 12:54:54.39 TwinPJod.net
話の元は>>831だが、その>>831がそもそも酷すぎる

970:Socket774
15/11/13 17:18:23.81 5hQWtHn8.net
A9Xはえええ
URLリンク(cdn.arstechnica.net)
URLリンク(cdn.arstechnica.net)
クアッド化したらモバイルi7を余裕で倒せる

971:Socket774
15/11/13 18:11:32.97 3clVKT/k.net
Appleの設計もさることながら
ファウンドリの14/16nmの性能がかなり良いんだろうね
Intelのプロセスのアドバンテージは密度ぐらいしか無くなったのかも

972:Socket774
15/11/13 20:21:50.15 nWWSVMY7t
>>956
imac純正cpu待ったなし

973:Socket774
15/11/13 20:36:31.73 ScWBVz52.net
微細化するほど熱くなり、
ダークシコリンで使わない場所を増やしてるというのに、
この先微細化なんて意味あるのかね?

974:過去ログ ★
[過去ログ]
■ このスレッドは過去ログ倉庫に格納されています


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch