CPUアーキテクチャについて語れ 31

CPUアーキテクチャについて語れ 31at JISAKU

CPUアーキテクチャについて語れ 31 - 暇つぶし2ch2:Socket774
15/11/17 12:05:52.48 Xj4Z8Exq.net
_-__----_-_-_-__--_--_---_--_--_-____--_---__-___--_-________--_--_---___
--_-_--____--_-_-_-___-------_--_-__---____---_--___---_-__-__-__-__-____
_------__-____---___-_-_-_----__--__-_--___--___----____-___----___-_--__
____----__-_------__---_-____-__-__-_--_--___--_-______-__-_-___---_-----
______--___---_---_---_-_--____-_----_--_____-_--__--___--_--_--__---___-
-_---_-__------_-__-_-_---_---_____-____--___-___-_-_-_--__--__-__--_--__
-__-___---___----__-_-_-_-_----____-__---_-_-__---__-_--___-___--_--___--
____----_-__---__--_--_-_-__--_-_-_--_--________---_____--__--__-__------
-_---___----_--_---____---_--__-_-__-_--__-___-_____--------__-______--__
_____-____--___-__----_-__--_--_--_-_-__-_-_-__--_-_-_-_-_-----_-___--_--
-_-_---_-__-__---_--__--_____----_--__-_-_-______-_____-_----_---__-_-_--
---_--_____-___--_-_-----__-__----_-______--_---_---_--_--_-_--_-________
_--_-----_-____-_--_-____--____-_----_-_----_____-___--_-_-___--__-_---_-
-_-__-__---_______-__-----_---_--_-__--___-_----_-_-__--_-__-_-_-__-__--_
_-_-___-____-_____-_---__-_------__--_-_---_-__-__---__--______-_------_-
_---__--_-_--__-____-------__---_--______----_-----_-_--_______-_-_-_____
-_--___--__----____---_-____-__-__----___------___-_-____-___-_--__---_--
___--_---_--_----___-_--_----_--_-___---___-__--__-___----_______-__---__
-____-____--___--___---_---_---___-_--____-----_-____--_--_--__----_--___
___----__--_-___-_-_---__--__--_-__----_----_--___--___-__----_-_-_______
--___---__--_-___-_-_-_-----___--_--_--_--____-__----_-_-_-___-_-_____--_
-_-_---__---__---_-__--__--___-_-----___-_--__-___-__--__---_-___--_-____
_-_--__--__--___---_--_-__-----__-____-__--_---_-_-__-_--_-_----_____-___
_-_-_------_-_--__--___-_---_---_-_--_----________-__-___-__-_----___-___
--_-__-__---__-_____---_--_-_-__---_-_---_-_-___-__--__--__-_--__---___-_
_--___----__-_-_-_-_-__-__-__-_-_--___-_--_-_-_-___-_-_-_-_--___---__----

3:,,・´∀｀・,,）っ-○○○
15/11/17 18:13:55.17 kjthzOAu.net
んほぉぉおおお！おちんちんすごいのぉぉおぉお！！！

4:Socket774
15/11/17 18:48:56.12 6z8qCTYf.net
>>前スレ998
ぶっちゃけ非x86である必要すらもうないだろ？
Xeon/Phiに27万ノードまでサポート可能なOmniPathサポートが加わったことでTofu Interconnectはもはや絶対無比の存在ではなくなった

5:Socket774
15/11/17 20:38:04.62 docW7lkh.net
エクサスケールは米国ですらブレイクスルーが必要みたいに言われてるけど、
F社もI社も更なる強化が必要になるのかね。

6:Socket774
15/11/17 21:12:54.75 DA1BatRP.net
eDRAMやGDDR5と言ったビデオメモリーの後継はHBMで
DDR4や次のDDR5と言ったメインメモリーDRAMの後継はHMC
これで合っている？

7:,,・´∀｀・,,）っ-○○○
15/11/18 02:00:05.05 24noOmup.net
DDR5はまだ決まってないよ。
暫定案どおりになればHMCのようなもの（シリアル化したスタックドメモリ）
あるいはHMCそのものになる模様

8:Socket774
15/11/18 14:55:53.89 oJ0Lpxfy.net
ビデオメモリーがHBM（GDDRから変更）
メインメモリーがHMC（DDRから変更）
フラッシュメモリーがReRAM（NANDから変更）
L2とL3キャッシュがSTT-MRAM（SRAMから変更、なおL1はSRAMが最も適しているので変更せず）

おそらくこれが一番理想かと

9:Socket774
15/11/18 15:21:27.62 1denJCKo.net
なんか久しぶりに見たような気がするレス

10:Socket774
15/11/18 15:24:43.02 YIVYdb0H.net
Top500更新来たね

11:Socket774
15/11/18 18:03:53.93 P3IpFZcj.net
方式と規格がごちゃまぜ

12:Socket774
15/11/18 19:28:13.09 MCwJCDwa.net
CPUにHBMやWide I/OをパッケージングしてDIMMにはNVRAMを刺すってのが
JEDECの将来構想じゃなかったっけ？

13:Socket774
15/11/18 20:54:02.78 5sQ7b8gD.net
Xeon phiの新しいのはいつ出るんですか？

14:Socket774
15/11/18 20:56:37.27 MCwJCDwa.net
年内には出荷で正式発表は来年てスケジュール。

15:Socket774
15/11/18 21:41:08.22 XUT85BpA.net
>>12
>JEDECの将来構想
JEDECにそんなご大層な統一されたビジョンなどない
イニシアチブを握りたいベンダーが勝手に分会を立ち上げて賛同を募るのがプロセス
だから競合する規格も出てくるし、紛糾もする。その将来構想とやらを
どの（DRAM屋の中の)人が言っているかまるで意味合いが違う

16:Socket774
15/11/18 22:41:53.43 Ia1eO7yB.net
Haswellの場合、
vaddpdのレイテンシは3クロック, vfmadd132pdのレイテンシは5クロックなので、
以下のレイテンシはいずれも8になりそうですが、
ループを組んで時間を測定したところ、レイテンシが8～10クロックとばらつくようです。
レイテンシ8の例
vaddpd ymm0, ymm0, ymm1
vfmadd132pd ymm1, ymm1, ymm0
レイテンシ9の例
vaddpd ymm0, ymm0, ymm0
vfmadd132pd ymm0, ymm1, ymm0
レイテンシ10の例
vaddpd ymm0, ymm0, ymm1
vfmadd132pd ymm0, ymm0, ymm1
コード領域のアラインメント、ループアンローリング数、レジスタの値、132,213,231の選択
には依存しないようです。
想定より遅いコードがあるのでいろいろと測ってみてわかりました。
原理、法則、原因がわかる人がいたら教えてください。

17:,,・´∀｀・,,）っ-○○○
15/11/18 23:17:23.22 IpozkCo0.net
なぜ計測に使ったコード全部貼らないの？
まったく的外れかもしれない回答を示すなら
同じサイクルにフォワーディングできるオペランド数に縛りがあって
上限を超えるとレジスタファイルからの読みなおしになり追加のレイテンシが生じる

18:Socket774
15/11/18 23:32:37.61 Ia1eO7yB.net
ループを含めるとこんな感じです
----
mov ecx, 00000000h
@@:
vaddpd ymm0, ymm0, ymm1
vfmadd231pd ymm1, ymm1, ymm0
sub ecx, 1
jnz @b
----

19:Socket774
15/11/18 23:38:20.64 Ia1eO7yB.net
計測部分や初期化まで書くと以下です
----
vzeroall
vbroadcastsd ymm0, qword ptr [適当な初期値]
vbroadcastsd ymm1, qword ptr [適当な初期値]
rdtsc
shl rdx, 32
or rax, rdx
mov r8, rax
mov ecx, 00000000h
@@:
vaddpd ymm0, ymm0, ymm1
vfmadd231pd ymm1, ymm1, ymm0
sub ecx, 1
jnz @b
rdtsc
shl rdx, 32
or rax, rdx
sub rax, r8
----

20:Socket774
15/11/18 23:52:21.89 Ia1eO7yB.net
vaddpd ymm0, ymm0, ymm0
vfmadd132pd ymm5, ymm5, ymm5
vaddpd ymm1, ymm1, ymm1
vfmadd132pd ymm6, ymm6, ymm6
vaddpd ymm2, ymm2, ymm2
vfmadd132pd ymm7, ymm7, ymm7
vaddpd ymm3, ymm3, ymm3
vfmadd132pd ymm0, ymm0, ymm0
vaddpd ymm4, ymm4, ymm4
vfmadd132pd ymm1, ymm1, ymm1
vaddpd ymm5, ymm5, ymm5
vfmadd132pd ymm2, ymm2, ymm2
vaddpd ymm6, ymm6, ymm6
vfmadd132pd ymm3, ymm3, ymm3
vaddpd ymm7, ymm7, ymm7
vfmadd132pd ymm4, ymm4, ymm4
これだとちゃんと8クロックで動きます

21:Socket774
15/11/18 23:55:09.58 Ia1eO7yB.net
8クロック16命令でもちゃんと動くのに、
8クロック2命令でもたるって、
なんなんでしょうかね？？？？

22:,,・´∀｀・,,）っ-○○○
15/11/19 00:36:14.47 Kw3ydvK0.net
そりゃそんだけアンロールすりゃ追加のレイテンシも隠ぺいできるだろ

23:Socket774
15/11/19 00:45:33.95 t7yu5B8y.net
> コード領域のアラインメント、ループアンローリング数、レジスタの値、132,213,231の選択
> には依存しないようです。

24:Socket774
15/11/19 00:48:37.60 t7yu5B8y.net
>>20 のレイテンシはどのレジスタもきっかり8なので、
追加のレイテンシは発生してません
単に以下を5パラにしただけで、実行時間も同じです
vaddpd ymm0, ymm0, ymm0
vfmadd132pd ymm0, ymm0, ymm0

25:Socket774
15/11/19 00:50:59.72 t7yu5B8y.net
5パラじゃなくて4パラでした

26:Socket774
15/11/19 00:51:42.96 t7yu5B8y.net
たびたびすみません
8パラですね

27:Socket774
15/11/19 15:12:15.63 ieFGXtJq.net
ソニー、Xperia向け独自CPUチップの開発に着手との噂

28:。LGも追随か？ http://sumahoinfo.com/sony-to-starts-own-original-cpu-soc-chip-for-xperia-lg-too 最近のARMコアは魔改造しなくてもそのままで十分高性能になったから、こういった傾向が強くなると思うむかしの魔改造しないと使い物にならなかった頃のARMコアは、魔改造するのに多大なリソースが必要なので、スマホ用SoC供給業者が限られ、 Appleやサムスン以外の多くの業者は外部調達してた

29:Socket774
15/11/19 16:54:48.68 HlS9Vx3R.net
魔改造って昔はAppleもSamsungは現行世代もCortex-A使ってただろ
そもそもARMの独自コアは魔改造でもなんでもなくて一から設計した別物だし

30:Socket774
15/11/19 18:53:09.62 YJLO5MJz.net
むしろ独自コアまで設計してるところも増えてるよね。
どちらにせよこの動きはクアルコムには厳しいな。

31:Socket774
15/11/19 19:03:45.42 t7yu5B8y.net
>>16 の続き
Haswell で全パターン試したらなんとなく法則がわかりました
vaddpd, vfmadd132pd のdestになるレジスタ以外がsrcに含まれるとそれぞれ1クロックずつ遅れるようです
Broadwell で試したらこちらはすべて8でした
out of order のエラッタか何かですかね？
これ以外にも、何回かに一度遅れる例がいろいろとあるようです
スループットの方も、
URLﾘﾝｸ(jump.2ch.net)">URLﾘﾝｸ(instlatx64.atw.hu) の結果では
FMAのスループットが0.63とかいう変な値になってますが、
パラメーターの組み合わせによっては0.5ぴったりになります

32:Socket774
15/11/19 19:28:09.14 a7Ca/qqa.net
引き続きモデムはQualcommなんじゃないかね

33:,,・´∀｀・,,）っ-○○○
15/11/19 19:40:48.01 fLwoc3kl.net
>>30
だから>>17でそう言ってるじゃないか、なんで読まないんだ

34:Socket774
15/11/19 19:56:28.50 YJLO5MJz.net
>>31
サムスンは自社製のLGはIntel製のモデム内蔵してる。
このまま流れが進めばクアルコムも他社のSoCに組み込まれる事を許容するかもしれないな。

35:Socket774
15/11/19 22:19:08.88 t7yu5B8y.net
>>32
申し訳ありませんが、
>>17はまったくの的外れです

36:Socket774
15/11/19 22:52:55.62 r2JYkWFK.net
>>29
ソニーに独自アーキを設計できる能力はないから作ってるとしてもIPを組み合わせてカタログスペックだけなSoCになると思う。正直スナドラより良くなるとは思えない

37:Socket774
15/11/19 23:11:26.96 t7yu5B8y.net
>>16
SandyBridge, IvyBridge, Broadwellは問題なくて、
Haswellだけ変
Haswellやっちゃってるなこれは
ずっと変更してないレジスタがレイテンシに影響するって明らかにおかしい

38:,,・´∀｀・,,）っ-○○○
15/11/19 23:54:56.30 fLwoc3kl.net
資料にも書いてあるんだけど、文書読めない人なのかな？
そもそもSandy BridgeにもIvy BridgeにもFMA命令は無い

39:,,・´∀｀・,,）っ-○○○
15/11/20 00:03:50.59 YtKuwTPX.net
> ずっと変更してないレジスタがレイテンシに影響するって明らかにおかしい
いや、いまどきの3～4GHz駆動のCPUでレジスタファイルから演算ユニットまで
0サイクルで転送できると思ってるお前の脳みそが明らかにおかしいんだが
NehalemからSandy BridgeでFP/SIMDは物理レジスタ方式に変更されたんで
0レイテンシでバイパスして読み出せるオペランド数の制約にもろにひっかかるんだわ
>>17が違うと思い込んでるうちは何も理解できないだろうな

40:Socket774
15/11/20 00:05:49.09 sd0jJMYU.net
2000年台前半くらいまでやってたCLIEのときもARMでソニー製SoCを作ってたな
フォームファクタの発展の先にあった先進性が見抜けない間抜けな経営陣だったね

41:Socket774
15/11/20 00:12:41.70 sd0jJMYU.net
URLﾘﾝｸ(jump.2ch.net)">URLﾘﾝｸ(pc.watch.impress.co.jp)
あの頃が出井体制じゃなかったら
スマホに一番近い位置にいたのはソニーだったかも知れんと思う

42:Socket774
15/11/20 00:16:52.22 MPfrBRZi.net
>>37
SandyBridgeとIvyBridgeはもちろんFMA以外
Haswellは普通にADD同士、MUL同士でも発生するし、ADDとMULの組み合わせでも発生しますが、
SandyBridge, IvyBridge, Boradwellはまったく問題ありません
>>38
じゃあSandyBridge, IvyBridge, Broadwellは頭がおかしいCPUなのかな？
あなたはいろいろな数値を見てないからわからないかもしれませんが、
振る舞い的には少なくともレジスタのフォワーディングではないですね

43:,,・´∀｀・,,）っ-○○○
15/11/20 00:20:24.05 YtKuwTPX.net
> Haswellは普通にADD同士、MUL同士でも発生するし、ADDとMULの組み合わせでも発生しますが、
そもそもHaswellのFMULはFMAで行われてて内部的にはFMAの加算値に0レジスタを指定したのと等価
x86の論理レジスタ番号だけを見て推測してたらそりゃおばかさんには理解できんだろうな

44:Socket774
15/11/20 00:20:43.12 MNIXLRSe.net
>>40
日本って残念な国なんだな･･･

45:Socket774
15/11/20 00:39:11.64 /4rhUpLv.net
SONYの意図は、汎用CPU、汎用GPU部分で差別化することではないだろう。
VAIOなんかにはSONYの得意分野をシリコン化したチップが搭載されていた。
他社SoCに依存していると、SONYの得意な機能・性能をスマートフォンに
搭載しようとしたら別チップにならざるを得ずコスト競争力が下がる。
下げないために独自回路を組み込んだSoCを作りたいとのだと予想。

46:Socket774
15/11/20 00:57:25.47 /4rhUpLv.net
>>40
ソニー、クリエの新機種投入を終了
ttpURLﾘﾝｸ(jump.2ch.net)">URLﾘﾝｸ(pc.watch.impress.co.jp)
タブレットもなー
ttpURLﾘﾝｸ(jump.2ch.net)">URLﾘﾝｸ(www.sony.co.jp)
ttpURLﾘﾝｸ(jump.2ch.net)">URLﾘﾝｸ(www.sony.co.jp)

47:Socket774
15/11/20 00:59:58.68 MPfrBRZi.net
>>42
以下をループした時のレイテンシとその理由を答えられますか？
少なくともこの結果はレジスタのフォワーディングでは説明できません
----A----
vmulpd ymm1, ymm0, ymm2
vmulpd ymm2, ymm1, ymm0
vmulpd ymm0, ymm2, ymm1
----B----
vmulpd ymm1, ymm0, ymm3
vmulpd ymm2, ymm1, ymm3
vmulpd ymm0, ymm2, ymm3
----C----
vmulpd ymm1, ymm0, ymmword ptr [rsp+000h]
vmulpd ymm2, ymm1, ymmword ptr [rsp+020h]
vmulpd ymm0, ymm2, ymmword ptr [rsp+040h]
※vmulpdのレイテンシはintel公式で5です

48:Socket774
15/11/20 01:50:41.61 eb4VPFYe.net
Meet Knights Landing, Intel's 2nd gen Xeon Phi coprocessor!
URLﾘﾝｸ(jump.2ch.net)">URLﾘﾝｸ(www.hardwarezone.com.sg)
Knights Landingのダイ写真が出た
76コア搭載だが最上位モデルでも有効にされるのは72コアまで

49:Socket774
15/11/20 04:01:35.05 gIkPEqZy.net
>>35
よくならなくても
qualcommへるのはかくじつなので

50:Socket774
15/11/20 04:36:01.33 yV0u9oGd.net
レジスタリネーミングて知ってるか？

51:,,・´∀｀・,,）っ-○○○
15/11/20 10:54:13.90 /40/j9Ul.net
お前それサバンナでも同じこと言えんの？

52:Socket774
15/11/20 13:15:51.52 O7MbNVpW.net
>>47
デケえ

53:Socket774
15/11/20 16:55:09.42 8dFLPT6t.net
>>47
一般人が買える値段で出る？

54:Socket774
15/11/20 19:01:27.35 tyW0BGPw.net
phiがコンシューマーで使える日は来るのだろうか？
コア数削減してまず外付けでいいからでるかな、32コアぐらいでさ

55:Socket774
15/11/20 21:00:55.37 lKrnQnps.net
8コアでいい
安く出して

56:Socket774
15/11/20 23:29:27.97 Eb2qDL1N.net
>>45
なぜここまでできててiPadを作れなかったのか･･･

57:Socket774
15/11/21 02:32:06.71 5qVRK6dD.net
>>45　>>55
・「ディスプレイフォン」構想の芽が摘まれる（1997年）
　チームはディスプレイカンパニーへ移動
・移動したチーム、「エアボード」　>>45　を開発
　2000年IDT-LF1販売。反響は大、販売は苦戦
・日本では高い、アメリカでは安いと評価された
・2001年CEO Awardで金賞を逃す。金賞は売り上げ好調のプロジェクター
　新商品よりも売り上げを重視する社風に傾きつつあった？
・チームは海外の方が有望と考えたが海外展開を許可されず
・IDT-LF2を発売した後2002年、チームが分断される
・他の商品のために残留させられたメンバーは
　マイナーチェンジIDT-LF3の開発で精一杯
・リーダーを含む離脱組
　2004年、外出先で自宅のベースに繋がった機器の映像を見られるLF-X1発売
　以降「ロケーションフリー」関連開発
・2005年、ロケーションフリー事業、縮小させられる
・LF-X1への久多良木のコメント
　「（ディスプレイ部の厚さが）5mmならいいね！」
　LF-X1（2004年）の厚さは31mm。初代iPad 13.4mm（2010年）、iPad Air2 6.1mm（2014年）
・エアボードを見せられたBill Gatesのコメント
「我々がやりたいことと90％同じだが、残りの10％が違う」
　10%はWindows搭載ではないことらしい。エアボードのOSはVxWorks
ttpURLﾘﾝｸ(techon.nikkeibp.co.jp)
・SONYはJobsから「携帯型音楽プレーヤーを一緒に開発しよう」と
　提案されていた。SONY側出席者に理解されず噛み合わず（2001年）
ttpURLﾘﾝｸ(techon.nikkeibp.co.jp)

58:Socket774
15/11/21 03:19:39.81 QXuz678M.net
A9Xの謎のブロックはやはりx86デコーダだったか

59:Socket774
15/11/21 07:14:37.54 7om/thmj.net
Intel Quark microcontroller D1000のCPUはIA-32ではない
URLﾘﾝｸ(kei-sakaki.jp)

60:Socket774
15/11/21 09:21:46.10 5csCg2DY.net
>>56
太平洋戦争時と同じで上がアホだと負ける、ということか

61:Socket774
15/11/21 09:33:56.96 +KddTjx7.net
太平洋戦争時は戦略はともかくまだ作戦目標が了解されてただろ。

62:Socket774
15/11/21 13:11:57.40 hpty3q9K.net
>>58
IA-64？
なわけないか

63:Socket774
15/11/21 13:15:27.31 gaG8QpNI.net
ARMでいうCortex-Mクラスに落とし込んだらIA-32完全互換じゃなくなっただけ。

64:Socket774
15/11/21 13:42:27.72 7PqO+pMZ.net
そんな傍流作っても続かないんだから、素直にARMにしとけと思った

65:Socket774
15/11/21 22:18:22.20 fWa0JvV8.net
286？

66:Socket774
15/11/22 00:16:33.62 0X8V8J8N.net
>>16 の続き
調べたらいろいろとわかってきました。
非常に長い間(2ms程度でばらつきあり)書き換えていないレジスタを使用すると
レイテンシが1増加するようです
以下は私の予想
2msといえばWindowsのスレッドのタイムスライス値のオーダーなので、
XSAVE/XRSTORあたりにエラッタがあると予想
XRSTOR以降値を更新してないレジスタを使用するとレイテンシが1増えてしまう
通常2msも同じ値を保持することはマレなので特に大きな問題とはとらえられていない
が、Broadwellで直っているのでintelはこの問題を認識はしているのでしょう
----
発生することを確認した命令
vaddpd, vsubpd, vaddsubpd, vmulpd, fma***pd
vaddps, vsubps, vaddsubps, vmulps, fma***ps
(128bitでも256bitでも)
発生しないことを確認した命令 :
addpd, subpd, addsubpd, mulpd
addps, subps, addsubps, mulps
vandpd, vorpd, vpand, vpor
発生することを確認したプロセッサ : Haswell
発生しないことを確認したプロセッサ : SandyBridge, IvyBridge, Broadwell

67:Socket774
15/11/22 00:28:25.78 0X8V8J8N.net
申し訳ありませんが、
>>17はまったくの的外れです

68:,,・´∀｀・,,）っ-○○○
15/11/22 01:29:36.22 +XATIGNy.net
お前の環境だけじゃね？

69:,,・´∀｀・,,）っ-○○○
15/11/22 12:51:28.83 i58M9JBO.net
反論がないな
また圧倒的に勝ってしまったか

70:Socket774
15/11/22 13:46:39.30 xreKSSze.net
IA-64とPhiをSoCで統合してしまおう

71:Socket774
15/11/22 13:55:40.98 op7ciH5N.net
Phiのコアを強化して、Windows10の動作に必要な命令すべてに対応させればいいよ

72:Socket774
15/11/22 14:19:31.98 vlvfuk1S.net
Knights Landingは対応するんでしょ？

73:,,・´∀｀・,,）っ-○○○
15/11/22 15:10:10.64 +XATIGNy.net
そもそもこっちで再現してないんだわ。

74:Socket774
15/11/27 15:58:17.94 aU4kkGh0.net
IoTによる200mmファブの復活―SEMIが語る (1/2)
URLﾘﾝｸ(eetimes.jp)
450mmへの移行が遅れるどころか300mm→200mmへの逆流まで発生している模様

75:,,・´∀｀・,,）っ-○○○
15/11/27 17:21:02.05 UVPRA8R1.net
ここはお前の日記帳

76:Socket774
15/11/27 22:21:12.32 W5vVT/nq.net
いやいや、俺の

77:Socket774
15/11/27 23:49:48.84 hyG2MxRR.net
おまえら勝手に書き込むなや

78:Socket774
15/11/28 13:52:25.06 MCqP9zWy.net
新しい xeon phi はいつ発売されるの？

79:Socket774
15/11/28 22:48:56.02 S4Y80fjo.net
A9Xのダイ写真、147mm2とのこと
GPUが大半だろうがデカい...
URLﾘﾝｸ(www.fool.com)

80:Socket774
15/11/29 04:50:44.73 DYss5erd.net
x86デコーダも搭載してるからでかいんだろ

81:Socket774
15/11/29 07:24:18.25 fwkNT3bn.net
URLﾘﾝｸ(scr3.golem.de)
CPUブロックはA9とほぼ同じ。A9XにはL3 cacheがない？

82:Socket774
15/11/29 17:33:44.04 6ZF3NTiU.net
Appleが欲しいのはCPUで

83:はなくSOCなんだよな MacならZen搭載のAPUとかSkylakeなら最低でも4+GT4eのブツ AMDは出遅れてるし、Intelはそれすらも理解してないアホ

84:,,・´∀｀・,,）っ-○○○
15/11/29 17:43:59.94 KjUytRmM.net
はあ？
無知なお前の感想を言われてもな

85:Socket774
15/11/29 18:01:57.26 nCX2mqBO.net
GT4eを新チップセットで5Kまで対応するのは明らかにiMac狙ってるんじゃないかな？

86:Socket774
15/11/29 19:22:01.09 6ZF3NTiU.net
団子のいうこともわかるよｗ
でも、iMacやMacBookとかで欲しいのはSOC
IntelのGT4e向けはPCではノートですら及びでないしな
Appleくらいしか需要なさそう

87:Socket774
15/11/29 19:58:59.18 Ws3boPRD.net
GT4eで最初出るのはラップトップ向け(45W)でしょ
デスクトップ向けはKabyLakeと同時期に出るかもね、というだけで

88:Socket774
15/11/29 20:00:47.95 7PWBXGpp.net
>>78
GPUは12クラスタだったのか
SP数換算でTegra X1の1.5倍
メモリ帯域も2倍あるしつよそうだな

89:Socket774
15/11/29 20:25:42.95 Ry+f5/Rx.net
Intelは早くなんちゃってSoCじゃなくてPCHをダイ統合すべき

90:Socket774
15/11/29 20:53:08.94 9PttV3Fs.net
A9XのメモリはLPDDR4-3200の128bitだからcore iより速い
BGA接続ならではの速度だが

91:Socket774
15/11/29 21:04:14.05 7PWBXGpp.net
A9にあった8MBのL3キャッシュを省いて
3MBのL2直に変えても悪影響が見られないのは
この51.2GB/sとかいう広帯域DDR4のチカラか？
もしかしてL3の8MBってあまり意味なかったんじゃ？

92:Socket774
15/11/29 21:16:26.15 Ws3boPRD.net
>>88
BGAつーかPoPでしょ?

93:Socket774
15/11/29 21:26:38.25 9PttV3Fs.net
>>90
PoPではないよ
URLﾘﾝｸ(www.ifixit.com)

94:Socket774
15/11/29 21:27:28.79 uuI2tiA6.net
>>89
L3は基本的に効果薄いよ
特にA9Xは2コアだし

95:Socket774
15/11/29 22:09:32.25 Ws3boPRD.net
>>91
あXはPoPじゃないのねすまん

96:Socket774
15/11/30 00:50:20.37 SNbR+SVK.net
14nmクラスになると8MBの三次キャッシュなんて小さいんだな
FXェ！
I7ェ！

97:Socket774
15/11/30 02:19:28.73 sGEyb9jK.net
レイテンシが隠蔽されるような用途ならA9Xは読むだけ、書くだけの時
IntelのeDRAM並　＞　51.2GB/s

98:Socket774
15/12/02 00:31:25.50 F6tpDTe2.net
４部作にするのは、シャリーがあまり売れなかったから、
シャリーの次作を制作するコストを天秤にかけて、シャリーplusでシリーズを畳むことにしたというわけか。
どういう完結の仕方をするのか想像がつかない。

99:Socket774
15/12/02 00:33:07.86 PSbMZgLK.net
ふむふむ、なるほど

100:,,・´∀｀・,,）っ-○○○
15/12/02 06:15:37.38 04ZRMUhy.net
>>82 おいKusoboke、俺は>>81と大体同意見だ
ただしMacとiPadは明確に役割が異なる
Zipファイルの圧縮・展開すらできないタブレットがPCの代わりになるわけがないだろう
Core MをiPad Proに採用できないのは確かにそうだろうが
iPadはPCIeやSATA, DisplayPortもましてWiDiもサポートしない
AppleはノートPCとタブレットを明確に区別している

101:,,・´∀｀・,,）っ-○○○
15/12/02 13:07:33.73 55MLLwhO.net
わかったか！クズどもが！！

102:Socket774
15/12/02 23:17:36.12 fa0v8PW

103:Z.net

104:,,・´∀｀・,,）っ-○○○
15/12/03 16:57:00.38 wuE5oJW8.net
>>100はあ？
揚げ足取りばかりの人生って楽しい？

105:,,・´∀｀・,,）っ-○○○
15/12/03 19:47:32.53 NnPLmm7B.net
お前は揚げ足取り楽しそうだな

106:Socket774
15/12/04 07:32:17.89 0mMM0xci.net
揚げ足美味いお

107:,,・´∀｀・,,）っ-○○○
15/12/04 07:33:50.41 Y0DgLppX.net
俺も好きー
富士通東芝VAIOのPC事業統合クルー？

108:Socket774
15/12/04 09:24:37.83 HTG1gbdF.net
パソコンの価格が今と変わらず、CPUも4コアのままで性能も大して変わらず
16コアのXeonの2CPUのサーバが低価格で販売されるようになったら
パソコン側で計算するよりサーバ側で計算した方が性能あたりの価格が安くなってくるよね？
そういう傾向がさらに進んで
将来、高性能なパソコンを用意しなくてもクラウド上で計算させた方が
価格が安く済むようになると思われる
そうなるとパソコンを取り巻く環境がかなり変化しそう

109:Socket774
15/12/04 10:07:06.85 0mMM0xci.net
東芝、富士通、VAIOのPC事業が統合? 日経などが報道
URLﾘﾝｸ(pc.watch.impress.co.jp)
烏合の衆

110:Socket774
15/12/04 10:08:48.58 HTG1gbdF.net
もう一つ
NVIDIAのSHIELDのようなSTBが進化して高性能コアを8コア／16コアとか載せる時代が来たら
STB上でアプリを実行してPC側で表示するアプリが出てくるかもしれない

111:Socket774
15/12/04 10:57:21.87 2gwTvkNJ.net
>>106
東芝も富士通も国内企業というブランドだけでその実は何のひねりもないラインナップ
VAIOは特徴づくりは行ってるが型遅れの製品ばかり、Pro以外とんちんかんモデルと斜陽に拍車をかけてる

112:Socket774
15/12/04 11:03:26.87 0mMM0xci.net
東芝は折り畳みの小型機をリブレットで出してればいいよ

113:Socket774
15/12/04 11:19:20.62 oxBjDEf5.net
>>105
サーバは事業者の償却資産だから、年利回りは最低40%以上でなければならず
そこへ経費や利益が乗ることで必要な年表面利回りは200％を越える
個人用パソコンは個人の資産だから、5年で元がとれれば充分なので20%とする
最低限事業者用は10倍の効率が必要になる
さらに、有料サービスならやらないが個人所有ならやるような細かな部分も
個人所有の満足度を上げるので事業用外部サーバ方式はさらに不利になる
さらに、イノベーター・アーリーアダプターと呼ばれる先進的な顧客ほど
個人用パソコンの経済効果が大きいので彼らがなかなか移行しない
だからこそ、課金利用サービスに囲い込みやすい非先進的な顧客を求めて
わざわざ機能も操作手段も削って不便にして「シンプル」「イノベーション」
とでかい声で宣伝して違うジャンルを装って売りつける商売が生まれるんだよ

114:Socket774
15/12/04 17:33:30.83 8aYHnk6w.net
事前の学習コストが制約になってるならシンプルにして取りそこなってる需要を取るのは
イノベーションと言っていいんじゃね

115:Socket774
15/12/05 01:45:46.33 1lTEmphS.net
やはりbig.LITTLEは脅威だわ
同じバッテリー容量で駆動時間が100倍も違う

116:Socket774
15/12/05 02:40:23.58 +L2qpq4P.net
最近Linusがボロクソに言ってたなbig.LITTLE
コア切り替えやタス

117:ク割り当てをソフトウェアでやるコストを考えると筋の悪い技術でコア数が多いことの宣伝にしかなってない、と

118:Socket774
15/12/05 03:26:18.64 hWgBgwu6.net
big.LITTLEは脅威

ｗ

119:Socket774
15/12/05 04:14:15.76 lhD2mTeY.net
昔のスマホはベースバンドとアプリケーションでプロセッサコアを2つ積んでたのだから
ARMで統合する代わりに大小2種類のコアと考えると順当な路線なんじゃないか。

120:Socket774
15/12/05 11:16:49.40 I/wOjjv9.net
big.LITTLEは低電力化できる高性能CPUを提供できないARM苦肉の策
クロック神話の如くマルチコア化の波に乗ってライセンス料もとれるからウマウマ

121:Socket774
15/12/05 13:40:02.96 QlxDzXY0.net
苦肉じゃないでしょ
ビジネスモデルがx86とじゃ違うわけだし
手を抜くところは抜く、それだけの話っしょ

122:Socket774
15/12/05 14:05:26.41 IOMENef6.net
命令セットでビジネスモデルが違うのか？

123:Socket774
15/12/05 15:00:05.46 QlxDzXY0.net
同じだと思うの？

124:Socket774
15/12/05 15:06:16.89 IOMENef6.net
おれは電力で違うと思うけど？

125:Socket774
15/12/05 15:22:15.79 QlxDzXY0.net
intelからx86の最新コアのライセンスを受けて自社SoCに組み込んだり
x86のライセンスを受けて独自開発してるメーカーがある？
少なくとも現在までのビジネスモデルは全然ちがうとおもうけど？

126:Socket774
15/12/05 15:26:47.67 IOMENef6.net
amdやviaがあるよね

127:Socket774
15/12/05 15:28:39.44 IOMENef6.net
そもそもappleやnvidiaのdenver,qualcommの820は省電力コアってないじゃん

128:Socket774
15/12/05 15:37:46.13 QlxDzXY0.net
>>122
セカンドソースの時代からのを引きずってるだけで
それ以外で200年代以降に新規ライセンスして貰ったメーカーはある？
*ゲーム機みたいな形態は除く

129:Socket774
15/12/05 15:45:49.06 IOMENef6.net
さぁしらんけど？

130:Socket774
15/12/05 15:53:52.76 kInEz+lx.net
SPECCPU2006にIntel Core i7-5775Cのスコアが登録されていてこれがなかなか興味深い
自作板ではクソザコナメクジというか完全にいらない子扱いだけど、実はクロックあたりの性能が
intel史上最強で、Skylake(6700K)より10%～20%高いスコアが出てる

131:,,・´∀｀・,,）っ-○○○
15/12/05 17:43:33.65 5pIonVZ2.net
128MBキャッシュ利くからな

132:Socket774
15/12/05 17:54:30.84 +L2qpq4P.net
>>126
いやdGPU使うときのゲームの実FPSが高いから
海外掲示板ではSkylakeとどっち選ぶかとか結構議論されてるよ
2chは所詮ガラパゴス

133:Socket774
15/12/05 17:58:02.26 +L2qpq4P.net
例えばこんなデータ
URLﾘﾝｸ(techreport.com)
eDRAMはiGPU使わない場合でもそれなりに効いてる

134:Socket774
15/12/05 18:23:54.47 nYJW7ihA.net
うむ
URLﾘﾝｸ(itc.ua)

135:Socket774
15/12/06 05:21:32.21 +Dy6iIT2.net
eDRAM128MをL4$として使うと、サーバとして使ったときに
一部の使用方法においてかなり高速化しそう
eDRAMつんだXeonを欲しい顧客はいるんじゃ？

136:,,・´∀｀・,,）っ-○○○
15/12/06 08:05:51.94 gOuJ5gPH.net
エロゲ専門のお前らが心配することじゃないし

137:,,・´∀｀・,,）っ-○○○
15/12/08 15:40:45.64 aqO2Avgp.net
エロゲってスペック低いPCでも面白いもんなぁ
馬鹿高いスペックを要求してくるくせにクソなゲームは本当の糞で救いようがない

138:,,・´∀｀・,,）っ-○○○
15/12/09 06:1

139:2:01.74 ID:oHYaWJ0F.net

140:Socket774
15/12/09 22:49:56.40 e4tOPzkR.net
FMAじゃなくてFusedAddAddとかFusedAddSubとかいう命令どう？
単純に乗算より加減算の方が多い処理を速くする目的もあるけど、
丸めが一度だと極端に速くなる例がある
加減算は回路が乗算に比べて回路が少ないから大した回路増加にはならないし、
普通は乗算より加減算の方が多く使うし
実装例とかあるのかな？
x86系だとdest破壊の3オペランドで、符号別に8通りほしい
(FMAは12通り)
ただの加減算もVSUBRPDとかVNADDPDとかあれば良かったのに
なんで省略したんだ？

141:Socket774
15/12/10 13:20:57.68 yinACSGL.net
東芝、2次以降のキャッシュを全てMRAMにする低電力・低コスト技術
URLﾘﾝｸ(pc.watch.impress.co.jp)

142:Socket774
15/12/10 13:37:27.21 7t+d9WJJ.net
>>136
これでL2とL3がSTT-MRAMになりそうだな
同じ容量だと若干性能的にSRAMに劣るけど、その分は大容量化したらいいだけ
SRAMより確実に大容量に出来る。L2もSRAMはKBサイズだけどこれならMBサイズまで簡単に行けるだろう。

143:Socket774
15/12/10 13:49:45.69 DKevYh8j.net
しかし東芝がCPUを作る機会は今後ほとんどないのではないか

144:Socket774
15/12/10 13:50:57.05 7t+d9WJJ.net
あとはL4をHBMにしたら完璧かな？
L1はSRAM以外はあり得ないけど

145:,,・´∀｀・,,）っ-○○○
15/12/10 15:05:47.25 YVriHQ3J.net
明日にもなくなるかもしれないジャップ国の粉飾決算会社に何を期待してんだよ

146:Socket774
15/12/10 18:59:28.96 NIlb+nNN.net
>>136
これx64の4コアとか書いてあるけどどこの使ったんだ

147:,,・´∀｀・,,）っ-○○○
15/12/10 19:48:55.66 /jFF91Bz.net
こんばんは　きれいなだんごやさんだよ
>>141
マジレスするとこのキャッシュ構成で2.66GHzのクアッドコアは以下の3つしか存在しない
URLﾘﾝｸ(ark.intel.com)

148:Socket774
15/12/10 19:56:59.72 jSg/Mhzc.net
シミュレーションって書いてあるから実物ではなく架空のCPUをコンピュータ上で再現したのかもしれない
モデルには128MBのLLCが付いてるからeDRAMが使えるHaswell以降のcore i系を想定しているように見える

149:Socket774
15/12/10 19:57:14.07 f0vUqBZM.net
シミュレーションなんだからデファクトスタンダードを使うだろう。
それにキャッシュの消費電力多目のCore i7を使った方が見た目の効果が大きい。

150:,,・´∀｀・,,）っ-○○○
15/12/10 20:10:54.48 /jFF91Bz.net
>>143
Haswell以降のi7はL3は6MBだ、同型のXeon E3も含めてね

151:Socket774
15/12/10 21:14:26.00 80fsVo3C.net
「IEDM 2015」基調講演：「ムーアの法則を進める必要がある」―ARM
URLﾘﾝｸ(eetimes.jp)
　Yeric氏は、EUVリソグラフィ装置について懐疑的な見方をしているようだ。EUV装置はこれまで長期にわたり、より微細なパターンの描画を実現できる
手段として最も期待されてきたが、仮にそうだとしても、あまりに課題が多すぎて、7nmプロセスに適用することができない可能性があるためだという。
　「EUVでは、7nmプロセス以降、マルチパターニングが必要になる。このため、5nmプロセス以降、リソグラフィ装置によってどれくらいの
コスト削減が可能になるのかは不明だ。今のところ、EUVの代替としては、D

152:SA（Directed Self-Assembly：誘導自己組織化）が最も有力とされている。しかしDSAにも、誘導パターンに限りがあるという独特の制約があるため、形成できる最終パターンが制限される可能性がある」と説明する。

153:Socket774
15/12/10 21:38:07.74 pYyLSyIa.net
>>145
えっ？
あほ？

154:,,・´∀｀・,,）っ-○○○
15/12/10 22:57:35.37 /jFF91Bz.net
だからeDRAMつきが最大6MBだっていってるの

155:Socket774
15/12/10 23:13:13.61 Sgkyjaxp.net
>>148
それを言うなら>>142にeDRAMは載っているのかとｗ

156:Socket774
15/12/10 23:17:23.99 pYyLSyIa.net
あほ？
じゃなくて
あほ！
だった

157:,,・´∀｀・,,）っ-○○○
15/12/10 23:19:30.33 /jFF91Bz.net
ひょっとしたらDDR3とプロトコル互換の東芝独自のキャッシュメモリを載せてるのかもしれない
昔懐かし外部キャッシュ

158:Socket774
15/12/10 23:25:51.10 Sgkyjaxp.net
SkylakeならeDRAM積んでもL3 8MBなんじゃね？
Skylake GT4eの可能性がｗ

159:,,・´∀｀・,,）っ-○○○
15/12/10 23:28:28.93 /jFF91Bz.net
あれはNearMemoryであってキャッシュじゃないから

160:Socket774
15/12/11 02:24:47.40 wVtqzV/g.net
シミュレーションでうまくいくなら他社のアーキテクチャも傑作だらけになってる
L2まではレイテンシが重要だからSRAMのほうがいい、容量重視なeDRAM推しのIBMですらSRAMのまま
eDRAMやMRAMへの置き換えはL3

161:Socket774
15/12/11 09:39:09.51 ajuPRcrb.net
つ　ワッパ

162:Socket774
15/12/11 20:11:02.80 K+AvrjZq.net
>日立製作所と日立金属、配線幅、配線間隔がそれぞれ2umの微細な配線層を形成した
>低温同時焼成セラミック(Low Temperature Co-fired Ceramic:LTCC)パッケージ基板を開発
>有機パッケージ基板上にシリコンインターポーザを搭載したものと比較し、高信頼かつ低コスト
URLﾘﾝｸ(news.mynavi.jp)

163:Socket774
15/12/11 20:53:21.83 K+AvrjZq.net
DRAMの薄さ限界を確認。　7um+4um 劣化なし、7um+2um 劣化
URLﾘﾝｸ(news.mynavi.jp)

164:Socket774
15/12/11 21:20:15.96 K+AvrjZq.net
>>156
1978年　8086　製造プロセス 3um
1984年　80286　1.5um
1984年　68020　2um
1985年　MIPS R2000 2um

165:Socket774
15/12/11 23:02:25.75 9qsZ/Q/x.net
半導体メーカーのAMDはいかにして成り上がり没落していったのか
URLﾘﾝｸ(gigazine.net)

166:Socket774
15/12/12 01:18:38.61 Vcvl6y9A.net
なんというか最新の技術って本当にPCへの貢献はなくなったな
枯れた技術のおこぼれにあずかる感じか

167:Socket774
15/12/12 07:51:54.83 CjSS5gmW.net
iPhoneのSoCに乗っている4MB L3キャッシュの面積をダイ写真から計算してみた
A7 28nm 6.17mm2
A8 20nm 4.58mm2
A9 14nm 4.35mm2
14nmは20nmと同じ配線層を利用しているのであまり面積が減っていない
最新プロセスが本領を発揮できるのはもう少し先か

168:Socket774
15/12/12 18:59:32.14 /Lr/u4Xe.net
DDR5
GDDR6
HBM
HMC
MRAM
eDRAM
メモリーもいろいろ面白くなって来たぞ

169:Socket774
15/12/12 19:02:11.71 h7nsFDtp.net
つーかややこしくなって来たｗ

170:Socket774
15/12/12 23:46:38.33 e+TKBK6t.net
>>162
3D XPointもあるでよ

171:Socket774
15/12/15 19:26:32.84 3ut77rr/.net
レギュレーターを乗せる余裕がなかった

172:,,・´∀｀・,,）っ-○○○
15/12/16 09:10:10.33 eqZtze2t.net
おし

173:りの穴にビー玉入れて遊んでたら取れなくなってしまったどうしたらいいのかな？

174:Socket774
15/12/16 12:29:48.66 /BKlhrdY.net
おしりならう○○と一緒に出てくるから大丈夫
ま○○だったら大変

175:Socket774
15/12/16 20:05:08.06 BKDBvMb1.net
団子さん、何やってんのｗ

176:,,・´∀｀・,,）っ-○○○
15/12/16 21:38:18.14 jf76+3Bh.net
公開ハンドルだから誰でも団子さんになれるからな

177:,,・´∀｀・,,）っ-○○○
15/12/16 22:17:01.23 Se4Hqao/.net
>>166
おい、偽者よ
とうとうボロを出したな
俺はアナルにはキュウリは入れてもビー玉なんてチンケなものは入れん

178:Socket774
15/12/17 17:25:46.42 90zWAoIx.net
URLﾘﾝｸ(www.eetimes.com)
古いファブのようだが何を作る気だ

179:Socket774
15/12/17 19:28:39.05 i0ECEwZv.net
ちょうどmicro-LEDディスプレイ開発してるって噂が流れてるからそれじゃね？

180:Socket774
15/12/18 07:30:18.35 yN0BP/M9.net
団子はヘンタイ

181:Socket774
15/12/18 14:46:05.17 CmRpAwOl.net
食べ物を粗末にすると、もったいないお化けが出てくるぞ

182:Socket774
15/12/18 16:09:22.91 kwtgKHW7.net
その表現すごく嫌い
食べ物じゃなきゃ粗末にしていいような言い方

183:Socket774
15/12/18 17:03:36.22 qlJEvPgJ.net
食べ物を粗末にする→もったいないオバケ
別のものを粗末にする→別のオバケがでる
問題なし

184:Socket774
15/12/18 17:46:40.03 GmlhiA8a.net
なるほどｗ

185:Socket774
15/12/19 07:29:18.63 Cyj8dvR9.net
>>176
なにおばけ？

186:Socket774
15/12/19 07:55:42.38 MI5Jk06G.net
粗チンおばけ

187:Socket774
15/12/20 02:43:14.75 P4T/U/Xk.net
アーキテクチャーじゃないけどこういう話題はいかがだろうか。
URLﾘﾝｸ(www.tv-tokyo.co.jp)
まあ先端品は無理で組み込みマイコン用だろうけど。

188:Socket774
15/12/20 04:02:13.57 DA/rE27E.net
局所クリーンってアイデアが80年代から存在してて、
大きな工場での利用も含めていくつか方向が考えられる。
そのうちひとつの方向の行き着いた先がミニマルファブだろう

189:Socket774
15/12/20 12:02:06.59 BYhXyA3G.net
まだ一部ミニマルファブ化出来ていない行程があるのだが、
見切り的に事業化する動きも出てきている。
URLﾘﾝｸ(www.nikkeibp.co.jp)
まあ依然として半導体の本流は規模の経済、大量生産による低コスト化であり、
ミニマルファブは小ロットの小回りのよさを生かして大ファブを出し抜いて最先端プロセスに躍り出てからが面白くなると思うが
10年はかかりそうだ。

190:Socket774
15/12/20 13:08:39.58 Jl0VImVz.net
URLﾘﾝｸ(eetimes.jp)
ロードマップでは2017年にMEMS生産、2018年ディスクリート、
2021年180nmLSIって予定だからな。

191:Socket774
15/12/20 15:03:55.67 P4T/U/Xk.net
>>182
先端プロセスをやるには電子ビーム描画に変更しないとダメらしい。
するとだいぶ先になる。

192:Socket774
15/12/20 22:53:54.00 P7tB8gpx.net
ビームだと１枚焼くのに時間かかるんちゃうの？

193:Socket774
15/12/20 23:43:05.87 TsWRf/S7.net
>>184
量産は絶望的だなｗ

194:Socket774
15/12/21 00:30:08.15 833FYMXh.net
>>185,186
日本語的に疑問はあるけど
URLﾘﾝｸ(www.seaj.or.jp)
「なぜなら、電子ビーム露光の唯一の重大な欠点は、
露光スピードが遅いことなのであるが、ウェーハ面積は、
300mm のおよそ１/1,000であるから、電子ビームの露光時
間は実質的に1,000倍となるからである。」
電子ビームで300mmウェハ一枚焼くのにかかる時間の
1/1000の時間で焼こうという考えらしい。

195:Socket774
15/12/21 01:09:37.74 qftleOJN.net
大きなウェハ一枚分を待つ時間は許容できないが、
LSI一個分なら電子ビームが走ってる時間が他の過程の時間に対して
相対的に許容範囲に入ると

196:Socket774
15/12/21 01:12:11.73 qftleOJN.net
ウェハが小さくなったからといって他の過程の時間は
1/1000なんかにならないから、電子ビームが選択肢として浮上するわけだな

197:Socket774
15/12/21 02:25:32.48 UVA7vdGm.net
そのぶん露光(?)装置の台数増やせばトータルの生産数は維持できそうなのかね
個体差とかロット内誤差が拡大しそうだが

198:Socket774
15/12/21 04:09:02.26 qftleOJN.net
300mmのファブに発注するのに比べたら生産量も
1/1000とかを想定してるんじゃないのか

199:Socket774
15/12/21 09:37:43.96 Uun6567G.net
最初から当事者たちが少量多品種と言っているしな
CVD等のバッチ処理が未だ無い時点でお察し

200:Socket774
15/12/21 10:09:05.54 n+hUqFSh.net
高コスト少量生産の用途を見出だすのが一番大変そうである(大変だからやめとけとは言っていない)

201:Socket774
15/12/21 10:28:47.18 4quSmDkO.net
ロジック系の少量多品種はFPGAの出現で焼け野原になったからセンサーとかアナログ系が主力になるかな
または市販品ではなく企業や大学の研究用チップ

202:Socket774
15/12/21 10:41:08.91 Uun6567G.net
まあ大変だろうけど、ここ数年界隈で冷や飯食わされている身としては
何とかモノになって欲しい
(それでもどっかの会社のように野菜を作らされないだけマシか)

203:Socket774
15/12/21 11:46:34.64 4sjG9cfU.net
大学の研究用ならEBでMEMSインテグレーションできる装置がVDECに10年ぐらい前からあるし
もうちょっと商業よりなんじゃないかなあ

204:Socket774
15/12/21 21:13:08.75 qftleOJN.net
単価を犠牲にしてでも初期コストとリードタイムを優先、という見方でいいのかな

205:Socket774
15/12/21 21:19:32.58 LXCdZlZ/.net
ファウンダリには委託できない工程を含むが、かといって自前で工場は作れない場合、ミニマルファブなら可能になるケースもあるのでは。

206:Socket774
15/12/22 16:43:49.95 MLHjUI7g.net
>>194
少量生産のをFPGA化したのでは性能的にまったく駄目な用途もあるんだよ
たとえば、ルータ等の通信機器とか、ファイアウォール、HPC分野とか

207:,,・´∀｀・,,）っ-○○○
15/12/22 23:44:55.48 Q4QlrCxR.net
GRAPEはFPGA実装とASIC化を交互に繰り返してる

208:Socket774
15/12/23 03:07:06.13 y8pO3Uc2.net
FPGAを採用したルータは普通にあるわけだが……

209:Socket774
15/12/23 05:08:26.43 TpiFYSf3.net
メイン部分にFPGAつかったルータは大して性能がいらないしょぼいルータでしょ？

210:Socket774
15/12/23 10:42:01.09 y8pO3Uc2.net
>>202
URLﾘﾝｸ(japan.xilinx.com)
こんなのが安物ルータに使えるわけ無いだろ

211:Socket774
15/12/24 01:07:24.33 mUUX+sl9.net
>>200
一番新しいのはeASICじゃなかったっけ

212:Socket774
15/12/24 02:39:30.12 q1qcqyWD.net
URLﾘﾝｸ(www.kfcr.jp)
一番新しいのはアルテラCycloneV、廃エンドじゃ無い辺りは電力とコスト重視と思われ

213:Socket774
15/12/26 03:30:47.00 fgf54nsc.net
プロセスに大差があっても電力効率ではASICに分があるから
2020年代に180nmでも少量生産が可能になれば需要があるという考えなんだろうね。

214:Socket774
15/12/26 03:48:06.19 2/lornsz.net
ミニマルファブはウェハーの直径が12.5mmしかないのでダイサイズは77mm2が限界になる
ハイエンドのCPUやASICはダイサイズが軽く400mm2オーバーの世界なので、仮に微細化で
最先端に追いついてもそういうタイプの製品は作れそうにない

215:Socket774
15/12/26 13:11:35.13 HXmV5Ott.net
ダイサイズってLSI設計する人間からすると100mm2で超巨大って印象だよ

216:Socket774
15/12/26 13:37:52.07 wwoEt4fx.net
SRAMチップとかなら、たとえ100mm2でも超巨大ではないんじゃ？
同じパターンの繰り返しだし
１からロジック書くなら、100mm2なら超巨大だろうが

217:Socket774
15/12/26 15:16:32.72 HXmV5Ott.net
なんでミニマルファブでSRAMとか出てくるのか

218:Socket774
16/01/04 23:46:33.57 Uf9WbLYa.net
「UNIXをC++で分散OSに書き直せ」、幻に消えたBill Joyの野望とは: ITジャーナリスト星暁雄の"情報論"ノート
URLﾘﾝｸ(hoshi.air-nifty.com)

219:Socket774
16/01/05 03:31:22.50 HoriGuv8.net
カーネルや基本ライブラリ・基本デーモンが全部C++化されたら、
遅くて不安定なOSになりそうだね

220:Socket774
16/01/05 03:34:41.37 HoriGuv8.net
結局今の基本部分はCで、GUIまわりがC++が
最適解な気がするよ

221:,,・´∀｀・,,）っ-○○○
16/01/05 07:20:17.80 Ven15nJi.net
>>212
BeOSが遅くて不安定？

222:Socket774
16/01/05 10:27:56.18 i/3EvkCh.net
BeOSはK6-2使ってた頃に1ヶ月だけ試用したけどWinと比べると動作がキビキビしてて良かったなあ。
操作ミスでMP3ファイル250くらい選択して一度に再生しちゃったけど。それでも止まらないのも凄いとは思った。

223:Socket774
16/01/05 11:19:48.78 PXWvUM0Z.net
Windowsが動作可能なハードで動くOSで、同じことをやらせて
Windowsよりもストレスを感じるOSって何かあったっけ

224:Socket774
16/01/05 11:35:34.46 1bF2bdOH.net
いつの時代を想定してるのよ

225:Socket774
16/01/05 17:57:26.50 HoriGuv8.net
C++でOSや基本ライブラリを作る場合、
C++の様々な機能のうち、処理速度やら安定性に影響がありそうな機能はほとんどつかわないでしょ？
文法はC++だけど、C言語＋α程度の機能しかつかわない感じで

226:Socket774
16/01/05 19:04:01.73 zBJBiTeo.net
基本ライブラリが何を指すのかわからないけど、C++の標準ライブラリはC++ならではの機能をガッツリ使うぞ

227:Socket774
16/01/05 23:46:24.96 K67xpA7V.net
URLﾘﾝｸ(www.atmarkit.co.jp)
OracleとHPがRISC-Vの採用を検討しているようだな。

228:Socket774
16/01/06 10:07:46.91 E0cjrIef.net
UCバークレー校のRISC
……
バークレーRISC
……
自称スケーラブルなパイプラインの……思い出そうとすると……うっ、頭が

229:Socket774
16/01/06 19:24:08.22 BDVplxJh.net
RISC自体の生みの親だしぼくのかんがえたさいきょうのあーきてくちゃを考えるのがバークレーのお仕事よ。

230:Socket774
16/01/06 19:43:41.48 sukVm1Ad.net
RISCが開発されたころの半導体技術といまの半導体技術はだいぶ違うからな
トランジスタ数100万以下の時代に効率的なアーキテクチャや命令セットと、
トランジスタ数10億以上の現代に効率的なアーキテクチャ・命令セットは異なるはず
純粋なRISCをいまに持ってきても通用しないでしょ？

231:Socket774
16/01/06 19:57:32.26 OjGjcTjx.net
>次の表はARM Cortex-A5とRISC-V Rocketコアを比較したもので、
>Rocketコアは、DMIPS/MHz性能はARMより10%高く、キャッシュを
>除くコア面積は半分、キャッシュを含めても73%程度と小さい。
>また、コア面積が半分であるので、ダイナミック消費電力も半分程度である。
URLﾘﾝｸ(news.mynavi.jp)
参考　マルチコア拡張の普及版「Cortex-A5」の凄さ
URLﾘﾝｸ(pc.watch.impress.co.jp)

232:,,・´∀｀・,,）っ-○○○
16/01/06 20:00:23.13 pQuPWOtN.net
電力効率がいいのはわかるけど「高性能なコア作れる？」って聞くと途端にだんまりなんだよね > RISC

233:Socket774
16/01/06 20:24:43.55 DL/i9gz8.net
というかオラクルとHPは、ことCPUに関する限りは負け犬臭しかしない
fabも大規模な設計部隊もいない今、I新しいISAだけ手に入れたところでなあ

234:Socket774
16/01/06 21:00:18.03 OjGjcTjx.net
OracleやHPもRISC-VでSPARCやIA64を
置き換えるつもりというわけではないのでは。

235:Socket774
16/01/06 21:01:34.26 OjGjcTjx.net
CMOS製造プロセスが進歩すれば、最新プロセスによる最新重装備CPUコアが必須の
分野の比率はCMOSロジックの用途全体の中で徐々に減っていく。
高速（その分要求が多い）のCPUコアがあれば他のものが
要らないというわけではない。小さな要求で動くものが研究されつくしたわけではない。

236:Socket774
16/01/06 21:08:54.77 OBZd2cSc.net
でもオラクルにしてもHPにしてもそういった分野からは程遠いところでビジネスしてるし
正直追い詰められた半導体設計部門が存在理由の喪失を恐れて足掻いているようにしか見えない

237:,,・´∀｀・,,）っ-○○○
16/01/06 21:18:06.28 pQuPWOtN.net
A5と競い合うようなレベルでどうのこうのってのがね・・・スーパースカラですらないだろ。
そのあたりが一番電力効率のスイートスポットなんだろうけど。

238:Socket774
16/01/06 23:04:35.69 OjGjcTjx.net
大規模CPUは自分自身の電力制御のために場所が違えば、あるいは
昔ならメインを張るようなプロセッサが含まれていたりする
M7に載ってるインメモリデータベースに対するクエリアクセラレータとか
負荷はハードウェアロジックだとしても
マイコン的なものも関わってるんじゃないのかな
また、データベースの変動は意図的入力よりもIoTがらみの自動収集の方が
多くなるだろう。

239:Socket774
16/01/06 23:24:03.70 D+4qe1O0.net
Iotがトレンドなら絶対性能ではなく、必要十分の性能と消費電力効率の高さだろうと思うが?
ユビキタスコンピューティング＋インタネット＝IOTなんじゃないか？

240:Socket774
16/01/06 23:26:21.41 OjGjcTjx.net
PEZYには独自コアによるMIMDの他に雑事用にARM926が載ってる
（たぶんMIPSに変わる）。
エクサスケーラーは中小だが、大手ならこうした部分を自社で
まかなうこともおかしくはないだろう

241:Socket774
16/01/06 23:29:02.86 OjGjcTjx.net
>>232
IoTは幅広いと思う。IoT全体のうち
RISC-Vの処理能力が必要な場面の比率とかはちょっとわからない

242:Socket774
16/01/06 23:30:00.33 LeE+u9aE.net
夢見すぎでしょ
OpenSPARCやらThe Machineやら全力でぶん投げてきた両社に
そんな御大層なビジョンがあるとは到底おもえないね

243:Socket774
16/01/07 04:14:38.55 Ix3QE5mP.net
>>223
2010年に開発が始まってて、32bit固定の命令セットの他に
可変長の命令セットもあるようだから
純粋なRISCというわけじゃなさそう
URLﾘﾝｸ(en.wikipedia.org)
命令セット
URLﾘﾝｸ(riscv.org)

244:,,・´∀｀・,,）っ-○○○
16/01/07 19:17:45.48 SBaGPqoe.net
>>232
IPv6はそもそもユビキタス時代を睨んで128ビットになった経緯がある
そこらのモバイル端末はもちろんテレビのリモコンから水道の蛇口まであらゆるものに
グローバルIPを割り当ててもまだ余裕で余る
パソコンの台数分あれば十分なものならポシャったv5でもよかった。

245:Socket774
16/01/07 19:43:39.39 72+NUkdd.net
MACアドレスの枯渇のほうが深刻なんじゃなかったっけ？＞IPv6

246:,,・´∀｀・,,）っ-○○○
16/01/07 20:06:50.92 SBaGPqoe.net
MACアドレスは64ビットへの拡張が決まってるがv4ではこれに対応できないので
それまでには移行完了する必要はある

247:Socket774
16/01/07 20:25:07.81 72+NUkdd.net
＞　MACアドレスは64ビットへの拡張
なるほど
シンプルに対応しようとするとそうなるわな
ただトラブルは起きそうだ

248:Socket774
16/01/07 21:39:47.22 p8HK6p2p.net
【企業】Amazon、半導体事業に進出
ｽﾚﾘﾝｸ(bizplus板)

249:Socket774
16/01/07 22:13:15.68 bEKQ/Twj.net
>>241
MSと同じく全くwktkしないな

250:Socket774
16/01/07 22:29:44.27 dSrXbNkf.net
ARMサーバーにとっては大きな前進だが大手が内製しちまうというのは
半導体メーカーにとっては面白くない流れだな。

251:Socket774
16/01/08 05:38:29.75 BNdhfCAo.net
それも、ARMが標準でまともなパフォーマンスのコアを作ったのが大きいのでは？
かつてはARM本家の実装がしょぼすぎたので、まともなパフォーマンスのサードパーティを使う必要があったが、
いまはARM本家がまともなパフォーマンスのコアを売ってるので、
あえてサードパーティのを使う必要が少なくなった

252:Socket774
16/01/08 07:40:56.04 BZBZ5TGt.net
A57がまともなの

253:Socket774
16/01/08 09:51:42.88 3eVIDSPm.net
A15以降パッとしない
Appleが独自で持ちこたえさせてる

254:Socket774
16/01/08 10:26:23.52 DXCcS1Ti.net
>>245
自社で作るよりって視点が抜けてる

255:Socket774
16/01/08 12:26:03.46 k4y55hx9.net
ARMコアがまともになったというより独自のアクセラレータ混載の需要が高まったからじゃないの
実際MSはFPGAでそうしてる、ARMやらないのは自分とこのソフトウェアがx86向けだからでintelがFPGA混載製品出したらそっちでやるだろな

256:Socket774
16/01/08 14:26:02.75 QiCwaiDx.net
何にせよスマホ向けオクタコアとかの現状見てみれば
もうちょっと早くハイパフォーマンス路線に舵を切るべきだったんじゃないかと思う。
プロセス世代の刷新とのからみがあるので出来なかったのだろうけど。

257:Socket774
16/01/15 16:30:48.26 NksrfuVA.net
>>226
appleはファブないけどatomを全く寄せ付けない性能のcpu設計している
勿論コストも考慮しての話

258:Socket774
16/01/15 17:45:10.60 uEnhT2Is.net
>>250
で、それが何か？
RISC-V、オラクル、HPいずれもappleとは微塵も関係がないし
appleは大規模な設計部隊を持っているので何の反証にもなっていませんね

259:Socket774
16/01/15 18:12:17.82 Af6X6y68.net
過去のしがらみがなきゃそりゃ有利だろうね

260:Socket774
16/01/15 20:59:18.64 rx3pu4am.net
apple a8のじてんで20億トランジスタなのねhaswell 4core +GT2より大規模なの

261:Socket774
16/01/16 00:53:03.52 v4wya1Cw.net
まず比較対象がatomであってるのかとか比較方法がまともなのかとか色々あって
アップルファンボーイの戯れ言の域を出んな

262:,,・´∀｀・,,）っ-○○○
16/01/16 00:59:14.95 3R2b+ztv.net
Atomは価格帯的にはSnadragonの中～下位やMediaTekのチップの対抗だから
Haswell4コア以上のトランジスタを割くことができない

263:Socket774
16/01/16 01:18:18.76 3CfXiOi4.net
スナドラ上位まで対抗できちゃうんじゃね？
今度出るヤツはどうか知らないが。

264:Socket774
16/01/16 02:54:27.76 BpJLUbDU.net
AMD、データセンター向け64ビットARMチップ「Opteron A1100 SoC」を正式出荷
URLﾘﾝｸ(japan.zdnet.com)

265:Socket774
16/01/16 15:50:32.31 NoxJlpOm.net
TSMC曰く、EUVは10nmや7nmには間に合わない
URLﾘﾝｸ(www.eetimes.com)
しってた

266:Socket774
16/01/16 16:01:30.34 i6IsHKdw.net
>>258
EUVなんてTSVと同じ

267:Socket774
16/01/16 16:04:16.00 YAziiPtE.net
TSVは実用化してるじゃん

268:Socket774
16/01/16 16:49:50.48 xzMPr6Ub.net
実用化と金額的または量的に支配的な存在になることとは違うからな

269:Socket774
16/01/16 20:53:27.93 YAziiPtE.net
そんな話はしてないからどうでもいい

270:Socket774
16/01/17 23:41:57.84 Xy6lSNbo.net
5nmに間に合う見込みがまだあるのがビックリです
このまま闇に葬られるのかと思っていた

271:Socket774
16/01/18 11:11:40.53 Nmkcbk5D.net
MicrosoftがWindowsのハードウェア要件を変更、次世代プロセッサはWindows 10のみ対応
URLﾘﾝｸ(gigazine.net)

272:Socket774
16/01/20 01:01:50.17 jH8VCxU7.net
異星人が遥か太古に見捨てた技術に人類が挑戦しているというのが笑える

273:Socket774
16/01/23 02:04:56.19 1jZeYbbM.net
もっとパフォーマンス上げてほしぃ。。
デコード数、実行ユニット数増加 (fpのスカラと128bit増えてほしい
低速8命令デコーダ追加 (denverもどきループ専用？
複合命令追加複合実行ユニット化 (FMA的な
madd以外もほしぃ add,mul,shift,mask,min,maxから2セット
デコード数同じでパフォーマンス上がる？よりCISCらしく
SIMT?ユニット追加 (コア毎にサブコア8個くらい追加
20～1000回のシンプルなループだと丁度いい並列実行方法がないので、、
SIMDしてもループ残るしスレッド起動遅いしで
なんでもいいから、、

274:,,・´∀｀・,,）っ-○○○
16/01/23 08:06:59.18 6XUq18O6.net
> SIMT?ユニット追加 (コア毎にサブコア8個くらい追加
おまXeon Phi/AVX-512がなんだと思ってるんだ
OpenCLから見れば1つのCPUコアに16スレッドの単精度コアが1～2個備わってるわけよ
違いはプレディケートマスクがあるかどうかだけ

275:Socket774
16/01/23 09:40:11.71 WFEnQaos.net
汎用�

276:ｮ数命令がショボいのは確かアドレス計算にいまだにLEAが活躍するとか異常過去を切り捨てれば可能だけど現実的じゃない

277:Socket774
16/01/23 09:45:11.78 WFEnQaos.net
>>267
20回程度のループの最適化方法を教えてやれ
データ20個くらいじゃOpenCLも役に立たない

278:,,・´∀｀・,,）っ-○○○
16/01/23 09:56:36.26 6XUq18O6.net
OpenCLのコード書くコストあればこの程度の書き方の変更は苦でもないでしょ
URLﾘﾝｸ(gcc.gnu.org)
この程度やっておけばベクトル幅が違う別の環境にも楽に移植ができる
処理系依存のディレクティブをマクロで切り替えればMSVCのベクトル化も同じコードでOK

279:Socket774
16/01/23 12:02:03.12 WFEnQaos.net
>>270
君は何もわかってないね
まあアセンブラで最適化したことがないならしょうがないけど
20個位だとアラインメント、端数処理、SIMD化準備とかで、汎用関数ではSIMDが活かされないっていう話なんだけど
>>266の前半は、「この人何言ってるの？」と思ったけど、後半はその通りでしょ
もちろん汎用化しなければ色々と方法はあるけどね

280:Socket774
16/01/23 12:04:13.32 WFEnQaos.net
>>270
ていうか、
君ベクトル化の意味を知ったのは最近だよね
この前までトンチンカンな発言してたから

281:,,・´∀｀・,,）っ-○○○
16/01/23 13:27:29.62 3sbwh8vT.net
お前が一番頓珍漢だよ
> 20個位だとアラインメント、
揃えればいいしミスアラインロードはx86
> 端数処理、
8並列×2＋端数4
> SIMD化準備とかで
準備って具体的になに？
汎用命令からSSEやAVXを実行するためにステート切り替えやデータ転送などで
追加のサイクル数でもかかると思ってるの？
GPGPUじゃねーんだからアホなこと言うなよ
> 汎用関数では
strlenやmemcpy程度の標準ライブラリは既にAVX2まで対応している

282:,,・´∀｀・,,）っ-○○○
16/01/23 13:31:07.79 3sbwh8vT.net
具体的に20並列でうまくベクトル化できないソースコードの例をideoneとかにあげてくれよ
タダで直してやるよ

283:Socket774
16/01/23 14:06:54.40 WFEnQaos.net
>>273
20個固定じゃないぞ
だからわざわざ汎用と書いたんだが
SIMD化準備はSIMDレジスタを退避したり固定値をレジスタに読み込んだりだよ
アセンブラで書かないと意識もしないだろうけど
memcpyの中身を見たことがある？
すごく色々と条件分岐やら端数処理やら色々とオーバーヘッドがあるんだけど
これもアセンブラで組まない人には興味がないか

284:Socket774
16/01/23 14:14:10.92 WFEnQaos.net
>>274
まずはお前の課題である、4x4の行列の積20個をやってもらおうか
もちろん20は変数で

285:,,・´∀｀・,,）っ-○○○
16/01/23 14:15:15.41 3sbwh8vT.net
> SIMD化準備はSIMDレジスタを退避したり固定値をレジスタに読み込んだりだよ
汎用レジスタだって退避復帰するんだけど？
スカラ整数ならインラインで即値は使えるがFPならどのみち使えん

> memcpyの中身を見たことがある？
> すごく色々と条件分岐やら端数処理やら色々とオーバーヘッドがあるんだけど
アホ？常識だろ
高頻度で呼ばれる処理だからその最適化がコードが肥大化させてもペイできるだけの
時間短縮になる。
その20個のデータを高速に処理しなきゃいけない理由を実例を添えて教えてもらいたいね

286:,,・´∀｀・,,）っ-○○○
16/01/23 15:14:46.20 3sbwh8vT.net
> すごく色々と条件分岐やら端数処理やら色々とオーバーヘッドがあるんだけど
memcpyは条件分岐っていってもループ抜けるときとソースとデスティネーションの
アドレス端数を処理するくらいで、拡張命令対応した版なら命令が使えるかどうかのフラグくらいでしょ
これらはcmp+jccを評価するよりはるか前に確定してるのでオーバーヘッド（笑

287:）なんてものはないコードを書く実力もないやつは概して知識もないのに偉そうな態度をとるが所詮この程度の馬鹿発言しかできない自分が無能だと自覚してないから他人の能力を判断する能力にも欠けている

288:Socket774
16/01/23 22:31:50.19 IZucUZlf.net
>>274
おい団子、課題はまだか？
お前は約束をまもらない男か？
元ソースはお前のあのひどいアセンブラコードだ
行列積になってないヤツ

289:,,・´∀｀・,,）っ-○○○
16/01/23 22:36:03.25 3sbwh8vT.net
言い出しっぺの法則って知ってる？
他人の能力をさげすむのは自分の能力を証明してからにしてくれ

290:Socket774
16/01/23 22:40:06.52 IZucUZlf.net
274 ：,,・´∀｀・,,）っ-○○○ [sage] ：2016/01/23(土) 13:31:07.79 ID:3sbwh8vT
具体的に20並列でうまくベクトル化できないソースコードの例をideoneとかにあげてくれよ
タダで直してやるよ

291:Socket774
16/01/23 22:44:48.61 IZucUZlf.net
SoAとAoSの話題の中で小さな行列に対しての名言
「行列も配列だ」

292:,,・´∀｀・,,）っ-○○○
16/01/23 22:45:41.92 3sbwh8vT.net
俺はお前が書いたコードを品評したいんだが？ｗ

293:,,・´∀｀・,,）っ-○○○
16/01/23 22:46:57.92 3sbwh8vT.net
> 「行列も配列だ」
そんなことも理解できないバカは来ないでくれる？
その理屈が理解できないお前には連立方程式どころかFizzBuzzのコードすら書けない

294:Socket774
16/01/23 22:47:15.02 IZucUZlf.net
数値計算に関しての名言もあったな
「ニュートン法は最下位ビットまで正しくないと使えない」

295:Socket774
16/01/23 22:49:38.75 IZucUZlf.net
>>284
ベクトル化を自ら語りだしたので、最近やっと理解したのかと思ったら、まだ理解してないのね

296:,,・´∀｀・,,）っ-○○○
16/01/23 22:49:38.88 3sbwh8vT.net
ついでに2次元行列は単なるArray Of Arrayだ
わざわざ構造体を使わずに宣言できる。

297:,,・´∀｀・,,）っ-○○○
16/01/23 22:52:43.83 3sbwh8vT.net
>>286
馬鹿は黙っててね
C/C++で一般的にfloat a[4][4]がどういうデータ構造で確保されるでしょう？
&(a[0][5]) と &(a[1][1])がまったく同じアドレスを指すことは
専門学校に半年通ったくらいでも知っている

298:Socket774
16/01/23 23:10:19.32 IZucUZlf.net
最適化におけるSoA, AoSのAとSが何を意味してるのか良く考えな
言語上のSやAとは概念が異なるから
おれも親切だな
こんな屑に講習とか

299:,,・´∀｀・,,）っ-○○○
16/01/23 23:13:40.14 3sbwh8vT.net
お前は何の実用的なコードも示してないクズの負け犬の遠吠えに付き合う俺も暇だな

300:,,・´∀｀・,,）っ-○○○
16/01/23 23:37:50.31 3sbwh8vT.net
4x4行列は構造体だと思い込んでるFランク池沼いつ消えてくれるのかな

301:,,・´∀｀・,,）っ-○○○
16/01/23 23:46:30.93 3sbwh8vT.net
言ってもたったの16要素だから全要素に固有のメンバー名つけても
たかが知れてるけどさ
まさか1000x1000行列にまで全要素にメンバー名つけるのかな？
構造体定義だけでソースファイル20MB超えちまうよ
それに配列として定義しないとカウンタ変数によるアドレッシングもできない

302:Socket774
16/01/24 04:00:58.35 ZujnTDOo.net
>>288
本当に？
処理系依存じゃないの？

303:Socket774
16/01/24 04:47:51.40 L6MVGsJA.net
団子はそこまで間違ってないとは思うんだけどSIMD原理主義すぎて痛々しい
とりあえず>>276やってみてよ。
あと>>266のスレッド起動云々は、
今時ならジョブキューに投げてワーカースレッドに処理じゃないかね。

304:,,・´∀｀・,,）っ-○○○
16/01/24 08:36:27.21 uMiZidQ9.net
>>293
とりあえずCの多次元配列は実質1次元なのよ
「array(4) of float」のそのまたarray(4)だから
array(16)とレイアウトは互換
なんのことはない、a[m][n]のmを1回インクリメントすると
アドレスは16バイト進んで、nは4

305:バイト進むだけなのだ K&R本にもそう書いてある（←かどうかは忘れた） ■□□□■□□□■□□□■□□□ ↑　　　　.↑　　　　 ↑　　　　 ↑　 a[0][0]　　a[1][0]　　a[2][0]　　a[3][0] ポインタ配列として割り当てた場合は同じa[m][n]でも全くレイアウトが違うけどねとりあえずこれが認められない馬鹿は生きる価値なしだ・行列は構造体としても定義できるが、「配列ではない」は明らかな誤り

306:Socket774
16/01/24 09:53:41.28 vviOFkY4.net
>>295
>>289

307:,,・´∀｀・,,）っ-○○○
16/01/24 09:55:41.91 uMiZidQ9.net
理解力が無いクズだな
この程度でデータ構造を変える必要はない

308:Socket774
16/01/24 10:19:19.43 vviOFkY4.net
SoAとAoSの話題の中で小さな行列に対しての名言
「行列も配列だ」
数値計算に関しての名言
「ニュートン法は最下位ビットまで正しくないと使えない」

309:,,・´∀｀・,,）っ-○○○
16/01/24 10:39:37.93 uMiZidQ9.net
名言という言葉を名言という字句の通りに解釈してくれるならこれほど光栄なことはないよ

> ニュートン法は最下位ビットまで正しくないと使えない
こんなことは言った覚えはないが
どっかのDQNの提唱するDQN乗算器のことかな？
下位ビットだけならまだしも上位ビットまで誤差が伝播するのは実用にならないな

310:Socket774
16/01/24 10:44:54.72 bu6b7zrj.net
>>276をお願いします

311:,,・´∀｀・,,）っ-○○○
16/01/24 10:47:17.96 uMiZidQ9.net
>>294
とりあえずHaswell用だけど現状permute律速だから1クロック8積和が限界だね
どっかのアホのいうようにgather使ったらますます遅くなったよｗｗｗ
URLﾘﾝｸ(pastebin.com)
VS2015で/arch:AVX2でビルドしたコードのループがこんな感じ
URLﾘﾝｸ(pastebin.com)

312:Socket774
16/01/24 10:53:03.58 vviOFkY4.net
まったく20個が活かされてないwww

313:,,・´∀｀・,,）っ-○○○
16/01/24 10:55:11.91 uMiZidQ9.net
活かせるコードを書いてみてくれ
まさかregister renamingでループカウンターをまたいだ並列化が行われてることすら
理解してないとか？

314:,,・´∀｀・,,）っ-○○○
16/01/24 11:01:22.38 uMiZidQ9.net
最低2倍は速くなるんだよね？たのしみだなー（棒

315:Socket774
16/01/24 11:19:20.79 bu6b7zrj.net
>>274に対する課題だけどわかってる？

316:Socket774
16/01/24 11:20:07.89 bu6b7zrj.net
0点

317:,,・´∀｀・,,）っ-○○○
16/01/24 11:26:21.11 uMiZidQ9.net
お前の思う100点満点のコードを書いてみてよ

318:,,・´∀｀・,,）っ-○○○
16/01/24 11:39:55.98 uMiZidQ9.net
ああ、20は変数、ってそういう意味か
ってこの程度なら部分点だろ
URLﾘﾝｸ(pastebin.com)

319:,,・´∀｀・,,）っ-○○○
16/01/24 11:47:45.51 uMiZidQ9.net
スループット分析結果はこれ
URLﾘﾝｸ(pastebin.com)
どのみちport5律速だけど4に近づけることが可能ならその方針を示されたいね

320:Socket774
16/01/24 11:50:48.32 bu6b7zrj.net
>>274を100回読め

321:Socket774
16/01/24 11:52:29.84 bu6b7zrj.net
まさか>>301が20並列とかベクトル化とか思ってるわけじゃないよな

322:,,・´∀｀・,,）っ-○○○
16/01/24 11:55:07.41 LPpvWdDn.net
内側が十分ベクトル化されているのであれば外側のループそのものの
ベクトル化は不要だろう？ｗ
そんなことも理解できない馬鹿ですか？

323:,,・´∀｀・,,）っ-○○○
16/01/24 11:56:17.78 LPpvWdDn.net
ループの外側まで検討するのはAVX-1024が出てからでいいよ

324:Socket774
16/01/24 11:56:50.74 bu6b7zrj.net
>>301から進化出来ないとしたら>>274の例になってることになる
>>301はFMAを半分も使ってないわけで

325:Socket774
16/01/24 11:58:30.33 bu6b7zrj.net
>>312
十分ベクトル化されてるのにピーク性能の半分未満www

326:,,・´∀｀・,,）っ-○○○
16/01/24 11:59:26.07 LPpvWdDn.net
文句があるならお前が9割使えるように書いてよ

327:,,・´∀｀・,,）っ-○○○
16/01/24 12:01:38.78 LPpvWdDn.net
ID:bu6b7zrj = ID:vviOFkY4 = コードも書けないクズ

328:,,・´∀｀・,,）っ-○○○
16/01/24 12:03:13.28 LPpvWdDn.net
俺はこれ以上は訂正しないのでID:bu6b7zrj = ID:vviOFkY4 の思う100点満点の答えを
さっさと出してクローズしてもらいたいな
このスレはお前の私物じゃないんだし

329:Socket774
16/01/24 12:09:34.95 qPBHqM+n.net
アドレスの割り当てられてない変数にアクセスしたい？
どんなぬるぽマニアだよ

330:Socket774
16/01/24 12:18:55.29 bu6b7zrj.net
ヒント SoA

331:,,・´∀｀・,,）っ-○○○
16/01/24 12:20:28.69 LPpvWdDn.net
いらないな。

332:試験は終了だ。試験官の実力を示す番だよ。

333:,,・´∀｀・,,）っ-○○○
16/01/24 12:25:40.37 LPpvWdDn.net
超絶バカID:bu6b7zrjのハッタリに付き合って日曜の午後潰すのもあれだから買い物行ってくるよ

334:,,・´∀｀・,,）っ-○○○
16/01/24 12:30:21.22 LPpvWdDn.net
それと二次元配列の転置のことを言うのならtransposed matrixというのだよ
行列はあくまでAoA
SoAという言葉が出てくるのはものをよく知らない人間だ

335:Socket774
16/01/24 12:42:43.68 bu6b7zrj.net
>>289

336:,,・´∀｀・,,）っ-○○○
16/01/24 12:46:40.54 LPpvWdDn.net
そこまで ID:bu6b7zrj は執拗に
コードを書いて晒すことすらできない無能だって
自慢したいの？
答えがあるなら出すだけじゃん？
俺はお前の答えが見たいと言ってるんだよ

337:,,・´∀｀・,,）っ-○○○
16/01/24 12:47:37.04 LPpvWdDn.net
もういいやあほらし

338:Socket774
16/01/24 12:56:04.27 1anjIwdZ.net
そもそも
4,8,16バイト構造体ならSoAはいらない

339:,,・´∀｀・,,）っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:11:30.96 m0PEcgHz.net
ついでにgatherは構造上重いから変換コストをペイすることすらできない

340:Socket774
16/01/24 13:13:18.20 HnFH0Kq3.net
買い物に行く（レスしないとは言っていない

341:,,・´∀｀・,,）っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:26:43.92 m0PEcgHz.net
ループの外側にgather/scatter処理が追い出されたところでかえってサイクル数が増えるのが理解できない馬鹿は困る
だから書いて示してみろと言ってるのだが

342:Socket774
16/01/24 13:31:48.60 e3A+RWR0.net
団子さん、かっこいい

343:,,・´∀｀・,,）っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:32:45.64 m0PEcgHz.net
だーんごー
だーんごー
たっぷーりー
だーんごー

344:Socket774
16/01/24 13:49:03.40 BENW4Ggg.net
流石に煽るだけ煽って自分では何もしないクズはいらんわ

345:Socket774
16/01/24 13:52:18.73 rIQtC3CQ.net
団子は舐めるものじゃないからな

346:,,・´∀｀・,,）っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 13:56:24.87 m0PEcgHz.net
KNLもSKXもgather/scatterは当面マイクロコード実装だと思うよ
複数のキャッシュラインを並列ロードするのは消費電力が大きすぎる

347:,,・´∀｀・,,）っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 14:01:16.98 m0PEcgHz.net
すまん、KNLはハードね
スループットはわからんが
URLﾘﾝｸ(s.news.mynavi.jp)

348:,,・´∀｀・,,）っ-○○○ KD182249247007.au-net.ne.jp
16/01/24 14:36:31.43 m0PEcgHz.net
で？なんでコード出せないの？

349:Socket774
16/01/24 15:18:13.47 BENW4Ggg.net
Intelがマニュアルに載せてるgatherの性能比較
URLﾘﾝｸ(i.imgur.com)

350:,,・´∀｀・,,）っ-○○○ KD182249247034.au-net.ne.jp
16/01/24 15:59:10.51 gbmtzkx9.net
8個のa(i,j)をgatherするのに2サイクルを切らないと俺のコードのスループットに追いつくことすらできんね

351:,,・´∀｀・,,）っ-○○○ KD182249247034.au-net.ne.jp
16/01/24 16:03:11.16 gbmtzkx9.net
scatterはないから一度ストアしてgatherしてstoreするかレジスタ上でPermuteか
遥かに筋が悪いな
そんなことは俺はとっくに思いついてるが敢えてやってない

352:,,・´∀｀・,,）っ-○○○ KD182249247034.au-net.ne.jp
16/01/24 18:04:51.23 gbmtzkx9.net
4x4行列の積程度じゃクソ高コストなデータ構造変換に見合う効果を得るにはあまりにコードパスが短すぎる

353:Socket774
16/01/24 18:49:26.14 BENW4Ggg.net
A8X,A9XのSPECint2006のスコア
URLﾘﾝｸ(www.anandtech.com)
2006が測定されるのは初めてかな
libquantumは除くとしてもまだCore Mの方が速い感じだね

354:,,・´∀｀・,,）っ-○○○
16/01/24 19:16:22.83 LPpvWdDn.net
ASUSの排熱設計能力の高さがよくわかるわ
T300Chiはもっと評価されるべき

355:Socket774
16/01/24 21:33:32.66 ZujnTDOo.net
>>295
隙間なく詰まってることは保証されないし、上位から詰めるか下位から詰めるかも処理系で違うじゃん。
MicrosoftC と HP の Tru64 UNIX は配列の詰め型逆だったぞ

356:,,・´∀｀・,,）っ-○○○
16/01/24 22:04:31.04 LPpvWdDn.net
構造体は処理系依存だが配列は規格上保証されてる

357:Socket774
2016/01/

358:24(日) 22:33:49.57 ID:yx8ucfw5.net

359:,,・´∀｀・,,）っ-○○○
16/01/24 23:16:48.24 LPpvWdDn.net
floatは4バイト境界だからたまたま配列と同じようにパディングなしで配置されるだけで
char型16要素の配列と構造体だとまったく違うレイアウトになることも多々ある
Cellなんてfloatすら128ビット境界だったがな

360:,,・´∀｀・,,）っ-○○○
16/01/25 07:35:01.59 f06Ohey9.net
今更だがCell SPUのABIあった
アドレス先頭が型のサイズで割り切れるアドレスになるように配置でFAか
URLﾘﾝｸ(www-01.ibm.com)

361:Socket774
16/01/25 18:29:46.14 gj/iSInF.net
SoAのデータ構成で4x4行列の積を普通に作ってみた
特に工夫する要素もなくごくごく普通に
IACAによるとスループットは積1個あたり約4クロック
PORT0/PORT1がフルに計算に使われている状態
>>301だと8クロックだから性能は倍
そもそも、>>301の方法だと、3x3の行列の計算とかどうするつもりだろう
ちなみに、4x4の行列の積の課題はおれが考えたわけじゃなくて、
団子が「AVX512を活かせる処理は4x4の行列くらいじゃね？」って言って自分で出したもの
そりゃ>>301みたいな方法じゃそうかもしれないけど

362:Socket774
16/01/25 18:50:11.39 gj/iSInF.net
URLﾘﾝｸ(whitecats.dip.jp)
ループ判定もアドレス計算も入ってない純粋な演算部分のみ
PORT5がガラ空きなのでパフォーマンスに影響なく入るでしょう
※動作テストもなにもしてないのでミスはあるかも
これがSIMDを使う時に一番初めに考えるSoA構造
偉そうに書くような内容でもなんでもない
基礎の基礎
今回のように要素が多い場合はAoSoAにしたりも
>>301とは違って3x3行列でも5x5行列でも可変サイズ行列でも複素数でもなんでも使える

363:Socket774
16/01/25 18:51:04.71 gj/iSInF.net
pass:matrix

364:,・´∀｀・,,）っ-○○○
16/01/25 19:03:20.01 eZZbCJJB.net
お前やっぱどうしようもない超絶バカだな
理解力ないの？
それのどこが単精度4x4行列のデータ構造なんだ？
D3DMATRIXの構造体のレイアウト知ってる？
勝手に要件を変えんなクソボケ

データ構造変換して戻すコストも含めてトータルの時間だよ
gather/scatterの処理時間だけで俺のバージョンの4倍以上かかるんですが？

365:,・´∀｀・,,）っ-○○○
16/01/25 19:19:57.86 eZZbCJJB.net
そもそも3Dで多用するアフィン変換は4x4行列のはずだが
5x5って具体的に何を想定してるんだい？
4x4を複数使う用途がなんなのかすら理解してないんじゃね？
ちゃんと俺が丁寧に↓↑で「ここにお前の模範解答入れてね」って示してるんだからそこに入れろよ
あと20個（変数）ってどこに行ったんですかねえ？
エントリポイントもなければプロローグもエピローグもない「メモ書き」はレポートとして受理できない
お前は留年だよ

366:,・´∀｀・,,）っ-○○○
16/01/25 19:27:37.71 eZZbCJJB.net
gatherの時間を考慮せずコアループの時間だけ最短になるようにしてホルホルとか悲惨なバカだわ

367:,・´∀｀・,,）っ-○○○
16/01/25 19:34:47.46 eZZbCJJB.net
とはいえここまで全て想定内なんですけどね
革新的なソフトウェアgatherのアルゴリズムでも見つけた天才なのかという可能性も微粒子レベルで考えたけどやはり予想未満のヴァカでした
gather/scatterが爆速にならない限り、データ構造が最初からそうなってるならその構造通りに処理した

368:ほうが速い、それだけよ

369:Socket774
16/01/25 19:52:55.67 Eq1/Wrtn.net
爆速になることは当面はないだろうなぁと
実装の論理が本質的に重すぎる

370:,・´∀｀・,,）っ-○○○
16/01/25 19:53:40.13 eZZbCJJB.net
SoA化した8個のベクトル内で四則演算が簡単にできるならいいんだけどね

371:Socket774
16/01/25 19:53:41.57 gj/iSInF.net
>>352
D3DMATRIXの構造体の構造でなんて1回も書いてないけど
課題は>>276だ
>>353
なんで勝手に3Dの話になってんだ？
最小化問題や最適化でいくらでも一般サイズの行列の演算を使うんだけど
端数処理はお前の課題だ
>>274を書いた責任は取れ
4x4行列の話は、
お前が「AVX512で使えるのは4x4の行列くらいだ」って言って、
まったくAVX512を活かしてないデータ構造のバグあり超スロー糞コードを出して来たのが元だよ
でその時からSoAやAoSの話が出てたはずだが
「行列はそれ自体がArrayだ」ってお前が言ったの覚えてるだろ？
今更何勝手な条件を加えてんだ？

372:Socket774
16/01/25 20:02:16.05 gj/iSInF.net
結局「ベクトル化やSoA, AoSの意味を知らずに自分で勝手な条件を加えてその中で考えてました」ってことだよな

373:,・´∀｀・,,）っ-○○○
16/01/25 20:02:19.32 eZZbCJJB.net
バカが言い訳見苦しいな
俺の書いてたレスの意味が全く理解できなかったんだね

374:Socket774
16/01/25 20:07:14.14 gj/iSInF.net
>>360
その書き込み、そのままお前に返すwww
まさしくお前にぴったりな内容だwww

375:,・´∀｀・,,）っ-○○○
16/01/25 20:09:08.13 eZZbCJJB.net
>>359←うん、簡潔な自己紹介だな

単精度4x4行列と書いてあれば100人中99人はfloat[4][4]を思いつくだろう。
つかこれ以外のデータ構造で最初から格納されてるソフトを知らないがな

376:Socket774
16/01/25 20:10:58.19 gj/iSInF.net
>>362
その枠から出られないから糞コードしか書けないんだろwww

377:Socket774
16/01/25 20:14:38.80 gj/iSInF.net
最初から最後までSoAにしておけば
途中で変換なんか要らないんだよ
そういう構造に出来ない場合があるってのは当然知ってるけど

378:,・´∀｀・,,）っ-○○○
16/01/25 20:15:34.23 eZZbCJJB.net
データがSIMDレジスタ幅に合わせて最初からgatherされてるデータ構造を想定して書くなんてサルでもできるじゃん

データ個数は可変という、自分で出題したルールすら満せてない「メモ書き」に落第点以外付けようがないな

379:Socket774
16/01/25 20:20:02.26 gj/iSInF.net
>>365
じゃあお前はサル未満だってことだwww
SoAってSIMDレジスタ幅である必要はまったく無いけど
課題はお前に対してだ
おれの課題じゃない
>>274 でお前はベクトル化するって言っておきながら、
まったくベクトル化されてない>>301を上げたから
当然0点

380:,・´∀｀・,,）っ-○○○
16/01/25 20:21:40.53 eZZbCJJB.net
同じ行列内の8要素から構成されるベクトルです

381:,・´∀｀・,,）っ-○○○
16/01/25 20:24:37.06 eZZbCJJB.net
アフィン変換の実践的なコード書いてみればわかるけど4x4matrixがそもそも連続したアドレスに配置されてない場合も考慮しなけれなならない

382:Socket774
16/01/25 20:26:00.82 gj/iSInF.net
「行列はそれ自体がArrayだ」
と同じ内容だなwww
SIMDや並列プログラミングにおける「ベクトル化」や「Array」では決して無いから

383:,・´∀｀・,,）っ-○○○
16/01/25 20:27:09.79 eZZbCJJB.net
過去ログ読んだら俺はD3DXMATRIXと互換ってはっきり言ってたわ

384:,・´∀｀・,,）っ-○○○
16/01/25 20:27:45.62 eZZbCJJB.net
猿以下

385:Socket774
16/01/25 20:36:28.07 gj/iSInF.net
少なくとも>>276には書いてない
じゃあ俺がSoAって言った時にD3DXMATRIX互換だって言えば良いのに
SoAが何かをお前が知らないから>>350を見るまで何も言わなかったんだろうがwww

386:Socket774
16/01/25 20:38:02.31 gj/iSInF.net
過去ログはいちいち取ってないけど、
その時も何度もSoAの話が出たはずだけど

387:Socket774
16/01/25 20:41:13.62 gj/iSInF.net
答えを見てから「そんなのサルでもできる」だもんなwww
クズがwww

388:,・´∀｀・,,）っ-○○○
16/01/25 20:41:35.34 eZZbCJJB.net
落ち着いて俺のレス全部読み返してみな？
gatherやscatterがなんのことを言ってた
てめえの足りない頭で丸一日かけて書�

389:｢たクソコードが俺の想定の範疇に収まる駄作でしかないと何故気付かないんだ？

390:,・´∀｀・,,）っ-○○○
16/01/25 20:43:27.60 eZZbCJJB.net
>>340
まさにこれ

391:,・´∀｀・,,）っ-○○○
16/01/25 20:46:01.91 eZZbCJJB.net
ついでだからgather/scatterまで実装してみてくれ

392:Socket774
16/01/25 20:56:21.56 gj/iSInF.net
最初から最後までSoAならそんなものは不要

393:,,・´∀｀・,,）っ-○○○
16/01/25 21:07:54.72 GmsyyhMs.net
俺の期待したコードってどんなものだったかわかるかい？
俺はてっきりAoS-SoAの高速変換処理のアルゴリズムでもあるのかと思ったよ
でも、どう書いても>>309以上にport5ネックになるんだよ
ひょっとしてこいつスゲーやり手のpermute演算の魔術師なんじゃないのか？
とか思ったわけ。
完全に負けた！と言わしめるだけのコード書いてくれるならそれはそれで
俺は頭下がるよ

>>330以降は未来に向けたレスのつもりだったけど出てきたのは
scatter/gather処理すら欠落した斜め下のコードだったわけ

何度も言ってるが俺は団子名義でJohn the Ripperのコミッタとして活動してたぜ？
Bitsliceというのは1ビット×128(AVXなら256)のSoAだ
そんな俺がそんなデータ構造の変換に気づかないと思ったのなら
本物に見る目が無い人間だよ
興味もないなら仕方ないけどね

394:Socket774
16/01/25 21:16:56.22 gj/iSInF.net
SoA, AoS の話題の中で「行列はそれ自体がArrayだ」とか「行列の配列はAoAだ」とか書いてたら
SoAを理解してないと思うのは当然だろ

395:,,・´∀｀・,,）っ-○○○
16/01/25 21:18:26.45 GmsyyhMs.net
所詮お前は負け犬だ
他人に認められるだけの実力すらない
その粗末なコードの書き方でわかったよ
ばいばい

396:,,・´∀｀・,,）っ-○○○
16/01/25 21:22:57.31 GmsyyhMs.net
>>380
そうやって自分の知識や価値観を正しいと思い込むのを
やめるところからだな

397:Socket774
16/01/25 21:24:05.23 gj/iSInF.net
乗算だけの為に並び替えなんて発想がそもそも異常
行列の乗算だけを1回ずつ行うだけでそこが性能に影響するなんてことは非常にマレで、
性能に大きく影響する部分は複雑な計算であるはず
インターフェース上仮に入出力の構造に制約があったとしても、
入力と出力部分だけで変換をすれば良く、
複雑な計算時には処理しやすい形で扱うのがごく自然な発想

398:Socket774
16/01/25 21:25:40.26 /phoABOd.net
複雑な計算て何

399:Socket774
16/01/25 21:26:44.18 gj/iSInF.net
お前のコードは50%
俺のコードは100%
これが結果

400:Socket774
16/01/25 21:28:54.91 gj/iSInF.net
>>384
そりゃ処理依存としか
掛け算3回やるとか足し算や引き算もやるとか逆行列を求めるとか

401:,,・´∀｀・,,）っ-○○○
16/01/25 21:29:40.86 GmsyyhMs.net
ぶっちゃけ最初からSIMD向けに整列されたコードを扱うだけならSIMDプログラミングは
複雑でもなんでもないよ
XMLとかJSONみたいなアラインメントすらされてないデータをいかに高速処理するかが
重要なわけで
L1Dキャッシュにあらかじめロードされてる前提でないとSIMD化する価値すらないような
コードなら最初から触れないけどねー

402:Socket774
16/01/25 21:33:37.39 /phoABOd.net
行列の内積って足し算ないの

403:,,・´∀｀・,,）っ-○○○
16/01/25 21:37:46.70 GmsyyhMs.net
ベクトルの内積・外積ならわかるが行列は行列積としか言わないだろ

404:Socket774
16/01/25 21:56:58.39 D13n0Ldw.net
AVX512になったらDirect3Dの行列×ベクトルは1クロックでできちゃうようになるの？？

405:,,・´∀｀・,,）っ-○○○
16/01/25 22:36:10.47 GmsyyhMs.net
そんな関数そもそもあったか？

406:,,・´∀｀・,,）っ-○○○
16/01/25 22:45:10.01 GmsyyhMs.net
Rotate(YPL指定)だけは超越関数が速くならない限りはどうにもならん気がするね
一度回転行列に展開して複数の行列に同じ方向の回転をかけるとかそういう使い方なら
SIMDのスループットも生きてくるが
URLﾘﾝｸ(www.cg)

407:.info.hiroshima-cu.ac.jp/~miyazaki/knowledge/tech07.html

408:Socket774
16/01/25 22:55:19.66 D13n0Ldw.net
>>391
XMVector4Transform
>>392
とりあえず一度行列を生成してしまえば、それを多数の頂点に掛けていくから、
スループットは活きると思う。

409:,,・´∀｀・,,）っ-○○○
16/01/25 23:27:17.87 GmsyyhMs.net
万に一つ、効率的なgatherのアルゴリズムでも見られるかと期待してたが
実につまらん落ちだった

410:Socket774
16/01/26 21:48:16.51 boggXa0u.net
元データがXMLとかJSONとかって話なら
普通に整列するタイミングありそうだけど。

411:,,・´∀｀・,,）っ-○○○
16/01/26 21:56:09.02 VacJ+faz.net
どっかのバカの一つ覚えのSOA(笑)に変換してる暇はないけどな
まあYMMレジスタの半分しか使えないけどSSE4.2のテキストサーチ命令もあるし
あれはミスアラインデータもそのまま使えるから特に必要はないと思うけどね

412:Socket774
16/01/26 22:08:38.25 boggXa0u.net
ごめん、何いってるかわからない。
元がテキストデータなら、バイナリに変換する過程でほとんどあらゆる事前処理が(テキストからの変換自体に比較したら無視できるコストで)できるんじゃないかってことなんだけど。

413:,,・´∀｀・,,）っ-○○○
16/01/26 22:26:45.37 VacJ+faz.net
そもそも一回パーズしてノード生成したら終わりだから
いちいちアラインメントを合わせる処理を余分にかける意味自体がないよ
いまどきのCPUでミスアラインロードのスループットなんてアラインメントされてる
データの半分程度だ。
テキストの状態で何度も再利用するわけじゃないんだからパーズ前に1ステージ増やす意味がない

414:Socket774
16/01/26 23:22:03.12 vEaDYQGz.net
団子って田村君？

415:,,・´∀｀・,,）っ-○○○
16/01/26 23:24:49.61 VacJ+faz.net
インス君なんて知りませんよ

416:Socket774
16/01/27 19:09:18.57 BM1yJ3F4.net
>>399
ここまで書込が無い所を見るとそうなのかな?

417:Socket774
16/01/27 19:14:07.93 BDQOEzTF.net
ちょっときちがいの系統が違う希ガス

418:Socket774
16/01/27 19:25:19.93 Rn7AkpY3.net
>>342
A9Xはこれだけの性能を持ちながらダイサイズがとても小さいのが凄い
20nmの配線層を流用した14nmモドキのプロセスなのに1コアの面積は14nmSkylakeのほぼ半分
配線層まで微細化した真の14nmプロセスならたぶんSkylakeの1/4程度の面積になりそう

419:Socket774
16/01/27 20:08:21.37 9jws/MEL.net
技術がないから物量勝負で闘うA9Xのダイサイズがなんだって？

420:Socket774
16/01/27 20:12:08.92 Rn7AkpY3.net
ああ>>403で書いたのはチップ全体の面積じゃなくてCPU1コアの面積の話ね

421:,,・´∀｀・,,）っ-○○○
16/01/27 21:19:46.59 5iO/SUw5.net
そもそもSoC向けと高速ロジック向けでトランジスタの密度は倍以上変わることもざらですが？
頭脳が子供並

422:Socket774
16/01/27 21:23:53.95 5ZYj8P6K.net
a9xは2coreでa8xは3coreだが

423:Socket774
16/01/27 22:12:27.24 39wBdRUH.net
4GHz+狙った設計と2GHz半ばの設計じゃ全く同じプロセスでもセルライブラリの時点で相当な差が出るわな

424:Socket774
16/01/27 22:32:59.63 UXdN5Zp2.net
テキスト処理専用プロセサが欲しい｡
昔はあったのにな｡
専用ボードが｡

425:Socket774
16/01/29 10:48:06.91 EJylxDWG.net
MSやGoogleは自社のDCで使ってるぞ、テキスト処理用プロセッサ

426:Socket774
16/02/02 22:50:48.76 HTvJi0iW.net
後藤せんせのHBM2プッシュが凄まじいね、Intelとコストに関してうんちゃら書いて最後に「また、あまりフォーカスされないが、メモリアクセスレイテンシの低さもHBMの利点だ」とどや〆しててワロタw

427:Socket774
16/02/02 23:11:56.38 XVQBU9k0.net
まあメモリレイテンシはここ30年一向に進歩してないしな

428:Socket774
16/02/02 23:33:00.81 DqXy4hJw.net
おいくらns

429:Socket774
16/02/05 02:06:37.50 GaL31xg2.net
Soft Machines' 'Virtual Cores' Promise 2-4x Performance/Watt Advantage Over Competing CPUs
URLﾘﾝｸ(www.tomshardware.com)
今年半ばにShastaのテープアウトらしい
さらに毎年改良していくとか
ちゃんと作ってたんだな
そしてグラフが確かなら相当なエネルギー効率だが果たして

430:Socket774
16/02/05 02:10:56.59 GaL31xg2.net
失礼、URL間違ってた
URLﾘﾝｸ(www.tomshardware.com)

431:Socket774
16/02/05 12:47:59.60 k5UCXc5Y.net
うまくいくんかいな。
何度も出ては消える定番のヨタ話のような。

432:Socket774
16/02/05 12:53:33.14 vCmxz395.net
URLﾘﾝｸ(techon.nikkeibp.co.jp)
CNN専用チップ、NVIDIAなどがGPUの改良で開発
URLﾘﾝｸ(techon.nikkeibp.co.jp)
Eyerissは、グラフィックス処理プロセッサー（GPU）と同様、SIMD（single instruction multiple data）などから成る
プロセッサー・エレメント（PE）を多数集積したICである。
ただし、GPUとはデータの移動を最小限に抑えた設計にした点が異なる。
具体的には、EyerissはSRAMから成るオンチップメモリー108Kバイトを備えており、
CNNの各層の演算結果をオンチップメモリーにバッファリングさせることで、
チップ外の主記憶に書き戻す頻度を大きく減らした。
また、PEに入力するデータ列に共通部分がある場合は、その共通部分を保持して差分だけを入力する。
さらに、複数のPEに同じデータを入力する場合は、各PEにそれぞれ送るのではなく、
途中まで1つのデータとして送り、そこからPEの個数分データをコピーして入力する。いわゆるマルチキャストである。
これらによって、データ処理時のデータの移動を最小限に抑え、消費電力を大幅に低減した。
加えて、データを主記憶に書き戻す時は圧縮し、読み出す時に伸長する。
CNNの畳み込み演算後のデータはフィルターを通すことで圧縮しやすい形になっていて、メモリー帯域の節約効果が高いという。
　作製したEyerissの動作をNVIDIA社のGPU「TK1」と比較すると、
EyerissはデータのスループットこそTK1の約1/2だったが、消費電力はTK1の最小約1/37と大幅に低い。
主記憶に出し入れしたデータの帯域も、TK1の1120Mバイト/秒に対し、Eyerissは127Mバイト/秒だったとする。

433:,,・´∀｀・,,）っ-○○○
16/02/06 07:57:43.04 aOj9o31u.net
>>416
ほんとそれ

434:Socket774
16/02/06 11:57:26.60 FIO2CLlG.net
つーか確かにIntelCPUが高IPC化して複雑になってるけど、
同様のIPCならVISCにおけるグローバルフロントエンドも複雑化するはずだから
問題の解決にはならないよね。

435:Socket774
16/02/06 15:19:06.83 a2QCE/jW.net
URLﾘﾝｸ(techon.nikkeibp.co.jp)
RISC-V普及の手が光I/Oの他所より早い実用化とは前から聞いていたけど

436:Socket774
16/02/09 22:38:47.92 /jOI/KM1.net
>>288
そういったC言語の仕様が、C言語の高速性につながるが、逆にバグ混入要因でもあるわけなんだよな
少しでも高速なプログラム作りたい人にはプラスになり、
少しでも信頼性のあるプログラムを作りたい人にはマイナスになる

437:Socket774
16/02/09 23:00:49.53 Sf5ew7hw.net
>>288
優先順位が曖昧な人ほどいっぱいカッコをつけたがるんだよな

438:Socket774
16/02/10 01:55:45.03 IkGyGPca.net
後から見直したときに「ん？」って一瞬でも考え込まないように括弧を多用して区切りをはっきりさせるようにしてるが。
ただ余りにも入れ子が深くなるようなら少しずつ分割して計算するように変更してる。
組み込みの世界だとそういうのも無駄だつって嫌われるんだろうけど。

439:,,・´∀｀・,,）っ-○○○
16/02/10 07:39:27.62 P/SQsL1H.net
さすがに判ってると思うけど
&a[4][4]と
&(a[4])[4]と
&(a[4][4])とじゃ
まったくポインタの型が違うんだけどな（C++だと代入しようとするとコンパイルエラーになるぞ）

440:,,・´∀｀・,,）っ-○○○
16/02/10 07:50:50.39 P/SQsL1H.net
ポインタの宣言時ね

441:,,・´∀｀・,,）っ-○○○
16/02/10 07:55:57.87 P/SQsL1H.net
あとoperator[]をオーバーロードしてる場合の挙動も考えるなら
どのみち全体を括弧でくくる習慣つけたほうが無難

次ページ