CPUアーキテクチャについて語れ 53

CPUアーキテクチャについて語れ 53at JISAKU

CPUアーキテクチャについて語れ 53 - 暇つぶし2ch36:Socket774
21/11/12 03:27:39.39 couiGj4I0.net
高速なCPUを作る前提なら
命令はリッチでなくてはならない
高速になればなるほどフロントエンドが肥大化するので
それに見合った命令にする必要がある
複合可能な処理は命令に追加しておくべき
小数演算なら積和に比べて指数部への小さい値の加算などゴミみたいな規模の回路で実現出来るのだから
2bit程度の即値指定で出来るようにしておけば良い
2倍4倍1/2倍などわりと使うことが多い計算が
コード的にほぼ無コストで出来るようになる

37:Socket774
21/11/12 03:37:46.24 couiGj4I0.net
>>16
SIMDの性能を出したければ
SoA形式でデータを保持する
1個のレジスタで行列を保持しようとする考え方は
SIMDに適さない
SIMDサイズが変わると破綻するので
ただし現実問題としてSoAに出来ない事が多い
だからAVX512にはリッチなシャッフル命令がある
SoAしか効率的に処理出来ないA64FXみたいなのは
スーパーコンピューターだから成り立つのであって
コンシューマー用には向かない

38:MACオタ＞36 さん
21/11/12 08:14:49.33 wc8vt/fS0.net
>>36
一つの解決策わ CELL BE の SPE の様にローカルメモリと SIMD プロセッサ、そしてメインメモリからローカルメモリへのコピーを司るプログラム可能な MFC (memory flow controller) という構成にして、メインメモリ上の AoS データをローカルメモリで SoA に並べ替えるコトかと

39:Socket774
21/11/12 08:37:02.05 J/w+I8PD0.net
アセンブラ数命令～数百命令をMD5化してハードウェアレジスターに格納し、入力とMD5値に対する結果をネットワーク上やDB上にに問い合わせて結果をもらうというのは？
ネットワークアクセスやDBアクセスが爆速である事が前提になるけど。
世界中で無駄な同じ演算やらせるぐらいなら結果をネットワーク上やDB上にキャッシュして誰かが一回だけ実行すればいいｗ
こんなの出来ればとっくの昔に誰か作ってるよね。

40:Socket774
21/11/12 09:37:35.30 nwwpd6YV0.net
URLﾘﾝｸ(gist.github.com)
これを見ろ
寝ぼけたこと言ってんじゃねえぞ

41:Socket774
21/11/12 09:48:44.92 bUE9E7Px0.net
>>34-35
Vector拡張は規格がfixしたのが最近なだけでRISC-V最初期から存在する拡張
そもそも命令数の多さや複合可能な命令を1命令にすることやSIMDとCISCは関係ない
CISCvsRISCは、1980-1990年代のCPU内バスとマイクロコードによる制御を前提とする
マルチサイクルのマイクロアーキテクチャと、ワイヤードロジックによるパイプライン処理の
マイクロアーキテクチャの対立であって、すでにRISCのマイクロアーキテクチャが
勝利し、現行のCPUはすべてパイプライン化されている

42:Socket774
21/11/12 12:14:38.76 gy+Umnnnd.net
>>40
一般的な定義と君の定義は違う
まずは略語を展開して意味を考えてくれ

43:MACオタ＞40 さん
21/11/12 12:23:06.43 wc8vt/fS0.net
>>40
>Vector拡張は規格がfixしたのが最近なだけでRISC-V最初期から存在する拡張
x86-64 の経緯を思い出せば明らかな様に普通わ、
ISA 仕様／シミュレータ公開
→プロセッササンプル品
→ プロセッサ発売/ソフト開発
という順番なので、規格が固まる前から開発とか評価とかしろと言うのわ無理だと思うすけど。。。

44:MACオタ＞41 さん
21/11/12 12:28:05.96 wc8vt/fS0.net
>>41
歴史的な経緯わ >>40で間違って無いと思うす
そもそも CISC って用語が RISC 側から命名した蔑称だし、可変長命令だけが定義って訳でも無いし。。。

45:Socket774
21/11/12 12:29:39.23 J/w+I8PD0.net
げ
ネットワークアクセス10usもかかんのかよ。
じゃ無理だな
うーむ。
配線を飛び越える技術がありゃなぁ。
AB間配線をC配線が飛び越えられればなぁ。
核磁気共鳴とかじゃなくトランジスタやゲート組み合わせれば出来るかもしんないなこれｗ
でみどーせ遅くて使い物になんねーだろーしなぁ。

46:Socket774
21/11/12 12:34:58.54 gy+Umnnnd.net
>>43
定義と特徴の区別くらいつけなさい
まずは単語を直訳

47:MACオタ＞44 さん
21/11/12 12:37:30.31 wc8vt/fS0.net
>>44
>配線を飛び越える技術がありゃなぁ。
非接触ならこんなんとか
URLﾘﾝｸ(old.hotchips.org)
こんなんとかす
URLﾘﾝｸ(xtech.nikkei.com)

48:MACオタ＞45 さん
21/11/12 12:43:12.63 wc8vt/fS0.net
>>45
英語を読めるコトが自慢なら、良い教材があるのでお勧めするす
URLﾘﾝｸ(cs.stanford.edu)

49:Socket774
21/11/12 12:44:22.26 gy+Umnnnd.net
まあ定義はどうでもいいとして
命令がチープだと高性能CPUにはならない
高性能CPUならそれに見合った命令が必要
逆に
PICのような超チープなCPUには
超チープな命令セットが似合う

50:Socket774
21/11/12 12:47:55.07 gy+Umnnnd.net
>>47
当時のRISC/CISCの特徴
と
RISC/CISCの単語の定義
とがぐちゃぐちゃ

51:MACオタ＞48 さん
21/11/12 12:49:29.51 wc8vt/fS0.net
>>48
>PICのような超チープなCPUには
>超チープな命令セットが似合う
そのチープな 8-bit CPU の世界でも PIC vs. AVR の様な CISC vs. RISC 論争があるのわご存じ無いすか？

52:Socket774
21/11/12 12:51:44.08 cb63thVN0.net
>>47
う～んこの上から目線。リサ・スーをも見下す気位の高いMacオタ。一体どんな華々しい実績があるんですかねぇ

53:Socket774
21/11/12 12:52:09.10 gy+Umnnnd.net
言葉の意味は
単純な命令セットのCPU
複雑な命令セットのCPU
これだけ
単純か複雑かは相対的なもの

54:Socket774
21/11/12 13:36:34.95 J/w+I8PD0.net
>>46
チップ間磁石通信とはまたド派手だねー。
いやぁ、単に立体的で無くて信号線をバスと交差出来れば回路に自由度が上がるんではと思ったんだけど。
40hzとか0n05Hz とかの遅い信号線だったら無線で飛ばすのも平気だろうけど6MHz とかだと難しそうな感じだねっぽいね。

55:Socket774
21/11/12 15:16:27.16 pJI4v/0qM.net
>>53
磁界結合は昔から知られてる技術だし
原理試作まではできてもその先の製品化までは高い壁があるんだと思うよ。
大手半導体メーカーの多くは既に検討して諦めたんじゃないかな。
わりと最近だとPEZYが製品化にチャレンジして敗北してる。

56:Socket774
21/11/12 15:19:53.69 pJI4v/0qM.net
>>48
RISCの原点にたちかえってシンプルな
aarch64 の Apple M1 が
Intel越えのシングルスレッド性能を達成してるわけで
その主張は明らかな間違い。

57:Socket774
21/11/12 15:56:28.45 2YsenjElF.net
シンプルとチープも違う気がするが、まあそこに比例関係はないというのは間違いない

58:MACオタ
21/11/12 17:31:04.04 wc8vt/fS0.net
ｽﾚﾘﾝｸ(jisaku板:994番)
前スレ994で言及した AMD の E-core, Zen 4c “BERGAMO” わ初出の噂を辿ると今年6月末のこの動画に行き着くす
URLﾘﾝｸ(www.youtube.com)
ソケットあたり 128-core の制限わ AGESA (AMD の BIOS CPU driver) によるとのコトすから、GENOA (P-core) と BERGAMO (E-core) の面積比が 4:3 という訳でわ無い模様す。
そう言う意味でも大原氏の予想 (URLﾘﾝｸ(news.mynavi.jp)) わ外れてると言うのが私の見立てす
ーーー
ラフに言ってZen 4cコアのエリアサイズはZen 4の半分にはならない様に思える。そもそも96コア vs 128コアという事だから、単純に言って3/4のサイズということになり、Alder Lake的に混ぜてもそれほどダイサイズが減らない割に、性能が今一つという事になりかねない。
ーーー

59:Socket774
21/11/12 18:21:26.88 couiGj4I0.net
>>55
適しているかどうか
に修正すればいいか？
aarch64がシンプルかというと
多少疑問ではあるが

60:Socket774
21/11/12 18:23:26.14 couiGj4I0.net
x86の汎用整数命令はチープだから
それに勝っても明らかな間違いでもないけど

61:Socket774
21/11/12 18:29:46.94 5t2YuQ2oM.net
今となっては主要な違いは命令長が可変か固定かくらいじゃね？知らんけど

62:Socket774
21/11/12 19:45:23.45 J/w+I8PD0.net
>>54
そりゃ磁石で飛ばしてもねぇ。
互換性を保ちつつ高速化するってのは難しいねぇ。
じゃーこーゆーのはどうだろうｗ
データ挿入削除が可能なインデックス型めもりぃｗ
従来のメモリーに加えてインデックステーブルをワイアロジック化ｗ
文字ハッシュ値算出用の加算しつづける命令ｗ
高速論理演算用メモリーウィンドウとかｗ
WinProcのメッセージ高速処理用、巨大switch文のテーブルヒット検索命令ｗ
役に立たない事しか思い浮かばない。

63:Socket774
21/11/12 20:36:44.39 vPely6u3M.net
>>59
x86の整数演算命令ぜんぜんチープじゃないぞ。
メモリオペランドについて直接演算可能なんてRISC CPUじゃ考えられない高級命令だ。

64:Socket774
21/11/12 21:02:50.09 cb63thVN0.net
でもそれって内部ではロード命令と演算命令に分割されてて、性能には寄与しなくね？

65:Socket774
21/11/12 21:39:46.58 flgsUCxsM.net
>>63
その通りで高性能CPUの場合、命令セットがよほどアホでない限り性能とはほぼ無関係になる。
なので >>48は誤り。
x86の場合はあまりに命令が複雑すぎるせいで
ごく稀に性能の足を引っ張ることもあるらしいが。

66:Socket774
21/11/13 01:09:19.84 OmLfhjd20.net
RISCが出た背景の一つに「CISCにおいて、複雑な命令は
たいして使われてないから、それらを省いてRISCが登場したって
のがあるな」
後、複雑な命令とリッチな命令も違うかと
例えば、一昔前のマルチメディア系処理向けや、今のAI深層学習で
SIMD系命令を拡張するのは、命令をリッチにすることであって
複雑にするのとは方向が違うかと

67:Socket774
21/11/13 03:47:00.59 XEFxQBgf0.net
>>62
x86のアドレッシングは強力
でも肝心の演算の中身がチープ
いまだにLEAを多用するのもその証拠
ゼロから命令を作り直せば確実に性能は上がる

68:Socket774
21/11/13 03:53:10.34 XEFxQBgf0.net
複雑とリッチ
基本は同じ
リッチ、チープは洗練具合の比重が高くはなるが
まあ少なくともRISC/CISCの言葉の定義に
 >>40のような実装方法の意味は含まれない

69:Socket774
21/11/13 03:59:44.70 XEFxQBgf0.net
x86の汎用整数の命令は
今のCPUの規模に全く合ってない
洗練もされてないし演算の種類も少ない
2オペランドが時代に合ってない
ソフト資産が重要で今さら変えられない
変えるタイミングがない
64bit化が良いチャンスだったのに
逃したのはAMDにも大きな責任がある

70:MACオタ＞67 さん
21/11/13 04:13:47.56 j6IsdTC/0.net
>>67
>まあ少なくともRISC/CISCの言葉の定義に
>>>40のような実装方法の意味は含まれない
ソコに異常に固執する理由わ何故？あなたの英語解釈以外の学術的なソースがあるなら、ぜひ紹介していただきたいす。
ところで ISA における『リッチ』という表現を高機能という意味で皆さん使っている様すけど、普通わ命令数が多いという意味で使わないすか？
古典的にわ良い ISAわ直交性があるとされていたために、サポートするデータ型全てで同じ演算・関数用の命令を規定すると必然的に命令数が増えて『リッチ』になる。。。というコトすけど

71:Socket774
21/11/13 04:26:26.09 XEFxQBgf0.net
命令数は数え方でいくらでも変わるからあまり意味がない
内部的に変換されるから命令セットは大して重要じゃない
というような風潮があるけどそんな事はない
命令セットは非常に重要
x86が刷新してくれたら良いなあなんて思ってる

72:Socket774
21/11/13 04:30:55.18 XEFxQBgf0.net
1命令をリッチにする
これが(効率良く)性能を伸ばすのに必要だと思ってる
RISCとは対極の考え方

73:MACオタ＞71 さん
21/11/13 04:45:11.73 j6IsdTC/0.net
>>71
>1命令をリッチにする
上でも書いたすけど、この業界で ”rich instruction set” という用語わあるすけど、”rich instruction” の方は聞かないす
ご自慢の英語力わどこへ？

74:Socket774
21/11/13 05:08:26.68 XEFxQBgf0.net
例えば2項論理演算
AND/OR/ANDN/NAND/NOR/...
演算部分の回路規模は全命令の中でも最低レベルの演算なんだから
はじめから全パターン用意するべき
全パターン前提であれば
即値4bitによる汎用2項論理演算命令が1個あれば良い
命令数的には減るが出来ることは増える
私はこちらの方がリッチな命令セットだと思う
単純に命令数を比べるのは意味がない

75:Socket774
21/11/13 05:18:47.52 XEFxQBgf0.net
当然汎用3項論理演算命令1個の方が応用範囲が広い
3オペランドでsrcとdestが一部共通な命令であったとしても
演算順やdestの選択は即値8bitに全て含まれる
一般的に
命令のスループットは上げやすいが
レイテンシを下げるのは難しい
どんなに簡単な命令でも
レイテンシ1クロック未満にはならない
2命令使うとどんなに簡単な命令でも
レイテンシは2クロックかかる
論理演算の回路規模は非常に小さいので
はじめから汎用3項論理演算を用意しておくべきと思う

76:Socket774
21/11/13 05:24:33.60 XEFxQBgf0.net
頭の悪い人は
即値の中からいくつか取り出して
AND/OR/...とする方が命令数が増えるからリッチだと言う

77:MACオタ＞73 さん
21/11/13 05:26:10.32 j6IsdTC/0.net
>>73
プロセッサのマニュアル読んだコトあるすか？
“AND” という論理演算一つの取っても、引数が64-bit/32-bit/16-bit/8-bit で異なり、さらにそれぞれが符号付きか符号無しかで別の命令IDが割り付けられるす。
更にわ引数がレジスタであるか、直値であるか、レジスタで指定するメモリアドレスであるか、メモリアドリスの直値であるか、等で命令IDわ分ける必要があるす。そしてメモリアドレス指定にはオフセット付きやら無しやらが有り、そのオフセットもレジスタに入っていたり直値だったり。。。と、数学的表現で単一の論理演算だけで必要な命令IDビットフィールドわ際限なく増えていくす
特にメモリアドレスを引数に取る CISC ISA の命令数が増えるのわ後半の理由によるモノす

78:Socket774
21/11/13 05:28:00.68 XEFxQBgf0.net
FMA4よりFMA3の方が命令数が多いから
FMA3の方がリッチである
なんて主張する人がいるかな？

79:Socket774
21/11/13 05:30:51.29 XEFxQBgf0.net
>>76
それらを同じ命令と数えるか
違う命令と数えるか
それだけでも命令数は変わる

80:MACオタ＞73 さん
21/11/13 05:31:48.18 j6IsdTC/0.net
>>77
>>72 を読めばわかるすけど、そもそも「そんな言い回しわ無い」というのが回答す

81:MACオタ＞78 さん
21/11/13 05:35:31.73 j6IsdTC/0.net
>>78
命令を解釈するのわ人間で無くデコーダー回路なので、オペコードとオプションビットが異なれば違う命令す
人間側から見ても違うニーモニックだし。。。

82:Socket774
21/11/13 07:08:06.10 zh/peCa3M.net
>>66
Apple M1と比較すればどう見てもリッチじゃん。
今以上にリッチにしても命令体系がさらにグシャグシャになるだけで高速化には寄与しない

83:Socket774
21/11/13 07:13:10.88 zh/peCa3M.net
>>73
> はじめから全パターン用意するべき
高級言語にある演算はすべて既に存在するわけで
それ以上増やしたところで利用率ゼロの命令が増えるだけで無意味

84:Socket774
21/11/13 08:59:01.25 XEFxQBgf0.net
>>79
リッチの単語の意味を知らないなら辞書をみなさい
 >>80
君にとってはXOR AX, AXとXOR AX, BXは違う命令かな？
>>81
本当にそう思う？
色々なCPUの命令を見た方良いよ
 >>82
現在も少しずつ増えたりしている
論理演算は複数合わせて使われる事が多く
コンパイラは最適化によって適切な命令にすることが出来る
命令数的に増えない、回路規模も全く大した事がない、論理演算は非常に良く使われる

85:Socket774
21/11/13 09:08:34.44 XEFxQBgf0.net
>>82
intrinsic

86:Socket774
21/11/13 09:17:54.23 F1sGu0wH0.net
Intel : Sapphire Rapids + Ponte Vecchio
AMD : EPYC + Instinct MI200 (MI250X)
NVIDIA : GRACE + Hopper
どこもCPUもGPUも手出してるが
CPU:AMD×GPU:NVIDIAの組み合わせがサーバーもPCも安定感あるな

87:Socket774
21/11/13 13:24:32.88 bihNMtZt0.net
>君にとってはXOR AX, AXとXOR AX, BXは違う命令かな？
うん違う命令だな
nopとxchg ax,bx位違う

88:Socket774
21/11/13 14:06:07.54 E/suHgxtd.net
命令セットの命令数は実装依存
命令セットの仕様の段階では命令数は決まらん
てことになるね

89:Socket774
21/11/13 14:18:37.60 E/suHgxtd.net
VCMPEQPDとVCMPLTPDは同じ命令？違う命令？
命令数は数え方次第でいくらでも変わる
命令数でリッチさなんてわからない
たった○○命令とデータシートで自虐的に語ってる例のCPUの命令セットは間違いなくチープてはあるが

90:Socket774
21/11/13 14:39:09.59 L3iahA3I0.net
つか命令増やしまくった結果使わない命令が多数出て
設計費材料費製造費無駄だからRISCが作られたんだが
車輪の再発明すんの

91:Socket774
21/11/13 16:34:48.22 9KPNWkBl0.net
8086が設計された時代は8bit CPUの過渡期で
開発ツールもアセンブラからコンパイラへと
移りつつあった。当時のCPUエンジニアは、
コンパイラはレジスタを上手に使えないって
考えていたせいで86の設計にもそれは現れた。
ループカウンタはCX
メモリコピーのソースがSI
デスティネーションがDI
コピーがREP MOVSB
比較がREP CMPSB
などなど。
今となっては互換性を保つための足かせも
当時のエンジニアは大まじめに設計したのだ。

92:Socket774
21/11/13 17:45:55.44 E/suHgxtd.net
REP MOVSは今でも良く使われる
非常に高速
現在のレジスタの縛りは
乗算除算のRAX, RDX
シフト数指定のCL
スタック操作のRSP
くらい？

93:Socket774
21/11/13 17:51:00.26 E/suHgxtd.net
8bitの8080の拡張だから
出た当時から命令セットは多少いびつ

94:Socket774
21/11/14 04:30:36.58 kT1D1ztW0.net
Power9関連でこんな記事が
URLﾘﾝｸ(news.ycombinator.com)

95:34352 訳して、一部コピペ >Power9に装備されている4x64ビットのベクトルユニットが弱いため、 >多くの「弱点」がありますこれはSIMDのVSXの演算器のことだな後はこれ https://en.wikichip.org/wiki/ibm/microarchitectures/power9 >4x FP + FX-MUL + Complex (64b) Zenのブロックダイアグラム https://pc.watch.impress.co.jp/video/pcw/docs/1192/135/p03.pdf AVX2の128bitSIMD演算器が4つあるつまりhttps://www.phoronix.com/scan.php?page=article&item=blackbird-power9-4c&num=3 このベンチ結果は、命令セットやレジスタの構成以前のマイクロアーキテクチャの違いが出たわけかというか、Power9の64bitSIMD演算器って、、x86はCoreアーキの時点でSIMD演算器は 128bit化してなかった？殆どSIMD系の強化はしてこなかったんだな　IBM-Power PowerPC970がこけて、通常のコンシューマー市場への足掛かりを失ってから SIMD強化しても仕方ないで放置状態だな　

96:Socket774
21/11/14 05:12:39.17 d2K9AXmlF.net
>>93
IBM系も128bitのはずだ
直系子孫じゃないけどAltivecの時点で128bitでしょう
いや、今日日128bitじゃ弱いんだけどさ。

97:Socket774
21/11/14 05:26:43.82 kT1D1ztW0.net
PowerMac 箱360 PS3
ここら辺な、SIMD128bitだな　鯖系は128bit化してないが
Power10は128bitSIMD採用じゃなくAI用行列アクセラレーターに
トランジスタ使ってる？

98:Socket774
21/11/14 05:45:31.54 d2K9AXmlF.net
まあ演算粒度を上げたくないというのがあるのかもしれないが、
それでx86の方が売れるのであれば、市場の読み間違いなのか。

99:Socket774
21/11/14 07:06:20.16 kT1D1ztW0.net
演算粒度でしばらくぐぐったら、関連がありそうな資料が
これ　URLﾘﾝｸ(www.ieice-hbkb.org)
ここの　(2) 細粒度マルチスレッドと粗粒度マルチスレッド　という項目に
> 細粒度方式の利点として，メインとなるスレッドの性能を低下させないことがあげられる
とあるな。
ってことはスレッド性能のために演算粒度を上げないようにしてるってことか？
Power系　それだからSIMDも64-128bit止まり。

100:Socket774
21/11/14 07:08:15.75 kT1D1ztW0.net
x86鯖の方が売れるのは価格の問題だな多分

101:Socket774
21/11/14 08:15:19.52 yLJ7E/ep0.net
命令が増え過ぎたら滅多に使わない命令は削って未定義命令実行例外割り込みでソフトウェアシミュレーションするしかないね。
ソフトウェアエミュレート出来る命令だけは何とか一応ｗ
逆に言えば最新CPU向けのソフトも一応動かせるｗ

102:Socket774
21/11/14 08:26:15.29 yLJ7E/ep0.net
命令過不足はソフト命令単位エミュ。
極端に命令系統が変わり果てたCPUはインストラクションエミュ上で実行ｗ
これで命令過不足出ても客からクレーム起きにくくなるｗ（ぉぃ....

103:MACオタ＞97 さん
21/11/14 08:44:19.77 XItMWShS0.net
>>97
>ってことはスレッド性能のために演算粒度を上げないようにしてるってことか？
>Power系　それだからSIMDも64-128bit止まり。
時間的粒度(一つのチップ上で動かす複数スレッドを切り替えるタイミング)の話なので全然関係無いす。
下記リストから用語を見繕って検索すると情報わ見つかるので読んで妄想カキコミを減らしてくれるコトを祈るばかりす
- CGMT (IBM PowerPC RS64-II “Northstar”, 等)
- FGMT (Sun “Niagara”, Intel

104:“Larrabee”, 等) - SMT (Intel HyperThreading Technology, 等)

105:MACオタ＞99 さん
21/11/14 08:48:29.10 XItMWShS0.net
>>99
>命令が増え過ぎたら滅多に使わない命令は削って未定義命令実行例外割り込み
そのやり方でわ廃止命令のオペコードが無駄になるので新命令用のオペコードを確保するために命令長がどんどん伸びていくすけど良いすか？

106:Socket774
21/11/14 09:20:39.16 yLJ7E/ep0.net
>>102
exeヘッダとCPUID命令でバージョン相当が確認出来れば競合しないのでは？
いやよく知らんが

107:MACオタ＞103 さん
21/11/14 09:59:22.27 XItMWShS0.net
>>103
>exeヘッダとCPUID命令
未定義命令トラップわ使えないかと。
あと廃止命令だけで無く、exe ファイル内の全命令を確認／変換する必要があるので別の ISA でエミュレーションするのと変わらないのでわ？

108:Socket774
21/11/14 10:03:28.12 pSOqtrqk0.net
廃止命令による命令空間汚染なんかより
継ぎ接ぎによる今の非効率な命令エンコードを気にしろよ
木を見て森を見ず
今時数ビットを気にする時代でもないし

109:MACオタ＞105 さん
21/11/14 10:11:26.89 XItMWShS0.net
>>105
>今時数ビットを気にする時代でもないし
命令長 32-bit の制限に縛られる RISC で「数ビット」わ深刻な問題すけど。。。

110:Socket774
21/11/14 10:16:18.45 pSOqtrqk0.net
32bitに制限してることが問題

111:MACオタ＞107 さん
21/11/14 10:20:34.37 XItMWShS0.net
>>107
命令長を変えると完全に互換性を失うので、廃止命令をエミュする理由すら無くなるす

112:Socket774
21/11/14 10:21:51.88 T6CBbs+F0.net
固定長だと命令デコード数をもりもり増やせる事はARMが証明してしまった。いくらL0があるとはいえ可変長は嫌ね

113:Socket774
21/11/14 10:24:07.04 pSOqtrqk0.net
>>108
32bit固定長が元々が失敗だったってこと
 >>109
固定長はいずれ破綻する

114:Socket774
21/11/14 10:25:48.32 pSOqtrqk0.net
x86が固定長だったらとっくの昔になくなってる
なくなってた方が良かったかもしれんが

115:MACオタ＞110 さん
21/11/14 10:28:15.58 XItMWShS0.net
>>110
>固定長はいずれ破綻する
ARM わ破綻せずにモダンな ARMv8 に移行したし、そもそも ISA ごと乗り換えても問題無いのわ Apple が証明した歴史的事実かと

116:Socket774
21/11/14 10:37:25.20 yLJ7E/ep0.net
>>104
未定義命令トラップ誰か使っちゃってるの？
暴走防止用？
あれ１命令でサブルーチンコール出来るから便利なのに。

どーせ訳わかんねーCPU買わされるんだろーからメッチャイタズラしちゃえｗ
PCと全レジスターを全部MRAM 化ｗMRAM１２８ＭＢをCPU内臓ｗ
ソフトを128MB以内にすればいつ電源切れても再開出来る「マイクロUPS」を実装ｗ
ついでにPS Vitaをネイィティブ実行できるようにしちゃえｗファミコンとかろっぱー等よそのCPUのバイナリをウルトラ高速実行出来るよう、命令ビットテーブルをソフトで指定出来るようにしちゃえｗ
テレビラジオ録画CPU でふぉｗxbox kinnectまるまるCPUに入れて超高速人体認識ｗ
汎用レジスター8 bit長CPUたくさんいれちゃえｗ
windows で使ってるサービスぜんぶチップセットあたりにぜんぶ常駐ハードウェアワンチップ化してcpuかえら追い出しちゃえｗ

117:MACオタ＞113 さん
21/11/14 10:46:27.74 XItMWShS0.net
>>113
>未定義命令トラップ誰か使っちゃってるの？
「exeヘッダとCPUID命令」で ISA のバージョンを判定する場合に使えないというだけす。
ただし近年の OS で未定義命令トラップによるシステムコールを使わなくなった理由わ、スーパースカラが普通になった現在のプロセッサでわ割込によるパイプラインフラッシュで動作が激遅になるからす

118:Socket774
21/11/14 10:5

119:2:21.93 ID:pSOqtrqk0.net

120:Socket774
21/11/14 10:54:14.25 pSOqtrqk0.net
>>112
使い捨て命令セットを作りたいならどうぞご自由に

121:Socket774
21/11/14 11:03:18.13 MlN7vwq20.net
結局、ISAなんて、エコシステムをどの程度整備できるかでしかないんだから、Appleがやったように、自社とその影響範囲をすべて差し替えられると確信できたら乗り換えてもなんも問題ない
中国だって同じように、Sunwayは独自…まぁあれはalpha感があるが…のもので事足りてるんだから、そういうことだろ
ていうかいつまでRISCとかCISCとか言ってんだよ今令和だぞ？

122:MACオタ＞115 さん
21/11/14 11:17:52.19 XItMWShS0.net
>>115
>AVXやAVX512の機能は32bit固定長じゃどう頑張っても不可能
>[中略]
>バックエンドが犠牲になるのは本末転倒
一つの回答わ富士通/ARM の SVE すけど、そもそもこの手の用途わアクセラレータへ移行というのが流行す
AVX512 やらで電力効率が上がるなら Aurora が Larrabee の後継チップから GPU に置き換えられるコトも無かった訳だし、当の Intel すら AMX でそっちに舵を切ったす

123:MACオタ＞117 さん
21/11/14 11:21:02.97 XItMWShS0.net
>>117
>結局、ISAなんて、エコシステムをどの程度整備できるかでしかないんだから、Appleがやったように、自社とその影響範囲をすべて差し替えられると確信できたら乗り換えてもなんも問題ない
Apple 以前に Windows ユーザーのお馴染みの GPU がソレす。
皆さん何の疑いもなく使ってるのでわ？

124:Socket774
21/11/14 11:46:44.95 yLJ7E/ep0.net
>>114
ふーん。
命令とオペコードがぐちゃぐちゃであっちこっちの企業や個人で拡張し過ぎて収拾つかなくなってるんだね。つまりは好き勝手にオペコードを決めていいという事だよね。
互換性は動かしてみないと分からん、と....

125:Socket774
21/11/14 11:52:31.24 MlN7vwq20.net
うるせーぞクソコテそれはそれとしてお前は消えろ

126:MACオタ＞120 さん
21/11/14 11:59:27.61 XItMWShS0.net
>>120
>命令とオペコードがぐちゃぐちゃであっちこっちの企業や個人で拡張し過ぎて収拾つかなくなってるんだね。
何処をどう読んだらその結論に？

127:Socket774
21/11/14 12:06:11.48 yLJ7E/ep0.net
AVX512ねぇ。512ビット制御たって。
そこらうろついてる汚い格好したおばちゃんがこぞって買うような物にはなんないと思うけど。
光速度測定であっちこっちで重力変異を測定出来るんならいいけど、ここらの測定はたいがいは何やってもムダ
分子微細系計測も難しい
数学研究でテイラー展開やらで精度上げて新しい成果が出るとも思えないし
うーん。光の指向性分散具合の計測ってわけにもいかんし

128:MACオタ
21/11/14 12:11:47.04 XItMWShS0.net
ウェハ丸ごと一枚使った AI プロセッサ "WSE" で名を挙げた Cerebras が時価総額4兆円企業に成り上がったとのコトす
URLﾘﾝｸ(www.anandtech.com)
先日次世代品の “WSE-2” も発表して順調そのもの。
Jim Keller が CTO を務めるTenstorrent より投資家を集めたと言うのわ興味深いす
URLﾘﾝｸ(images.anandtech.com)

129:Socket774
21/11/14 12:21:50.94 PyN5chPQd.net
流行らん

130:Socket774
21/11/14 12:34:12.08 d2K9AXmlF.net
アクセラレーターへの移行って言ってもワンホップ増えるわけでしょ
データ移動にコストかけてる世界でそれ本当に性能出せるの？

131:Socket774
21/11/14 12:36:29.26 PyN5chPQd.net
移行しない
GPUにすら移行出来てないのに

132:MACオタ＞125-127 さん
21/11/14 13:05:21.91 XItMWShS0.net
>>125-127
ちょうど大原氏がこの辺の現状と動向についてまとめた記事があるす
URLﾘﾝｸ(www.itmedia.co.jp)
ーーー
ヘテロジニアス環境の理想で言えば、CPUとGPU、NPUその他が並列に並び、1つのメモリをCache CoherencyにUnified Accessできることが望ましいし、長期的には命令セットが共通化きれればより好ましい。
ーーー
Intel AMX わ正にコレを実現しているす

133:Socket774
21/11/14 13:20:26.42 06FuBjqn0.net
大規模なVLIWかベクトルプロセッサかな

134:Socket774
21/11/14 13:22:19.47 d2K9AXmlF.net
それはワンホップ増やさないで済むようにアクセラレーターまで統合という構想だと思う。
PezyだってWarrior統合とかやってたのも同じ理由だろう。

135:Socket774
21/11/14 13:44:14.34 MlN7vwq20.net
そりゃ、メモリ空間が統合されていてデータの置き場所を意識しないでよく、かつ、どこに置かれていようと十分なレイテンシと帯域でデータにアクセスできるのなら、それは理想的なメモリシステムだわな
今のところそれに一番近いのはNVIDIAのUnified Memoryだが、とはいえPCIeの帯域で律速するわけで…
その辺の問題は、NVIDIAはGraceで解決しようとしてるし、PowerであればNVLinkを内部バスに取り込むことでボトルネックを軽減しようとしている
最近って言いながら十年前の記事を上げるなよ…

136:MACオタ＞131 さん
21/11/14 13:58:58.56 XItMWShS0.net
>>131
>最近って言いながら十年前の記事を上げるなよ…
未来から来られた方とわお見それしたす(笑)
ちなみに2021年時点で IBM わスーパーコンピュータ案件が取れなくなったのでアッサリ POWER10 から NVLink を削除したす。2030年11月の情報をご存知の様すからその後の展開を講釈して頂きたいモノす
IBM の言い訳わこちら
URLﾘﾝｸ(www.hardwareluxx.de)
ーーー
IBM and NVIDIA initially partnered to develop NVLINK host-to-GPU attach technology to overcome performance bottlenecks caused by the insufficiency of PCIe Gen3 capabilities.
While this provided substantial differentiation relative to PCIe Gen3 and Gen4, the industry accelerated the pace of PCIe development. With the advent of PCIe Gen5, both IBM and NVIDIA determined that PCIe is once again sufficient for eliminating performance bottlenecks in host-to-GPU attach.
Therefore a proprietary solution such as NVLINK is no longer a strong differentiator for host-to-GPU attach, and the POWER10 processor will not exploit NVLINK for host-to-GPU attach.
ーーー

137:Socket774
21/11/14 14:12:07.31 DAPkPcIJM.net
coherency 維持するにもコストかかるからな。
ノード外まで coherenct な

138:システムも昔は存在したが滅びたわけで規模が大きくなると諦めないといけなくなるぜ

139:Socket774
21/11/14 14:37:35.89 d2K9AXmlF.net
その手のをAMDがやるとしたらHPC向けAPUという事になるんだろうが
報道記事も2015年あたりでぱったりだなぁ

140:MACオタ＞133 さん
21/11/14 14:42:35.25 XItMWShS0.net
>>133
>規模が大きくなると諦めないといけなくなるぜ
POWER10 の話をしているなら IBM の目論見わ、その真逆す
URLﾘﾝｸ(www.nextplatform.com)
ーーー
This 2 PB can be spread over the memory of multiple systems in IBM’s memory cluster, and all of it directly accessible from a Power10 core within any one of them.
ーーー
IBM 的にわデータ処理をアクセラレータで行い、サーバープロセッサわアクセラレータにメモリや IO 資源を提供するハブ化すると考えている模様す

141:MACオタ＞134 さん
21/11/14 14:54:37.20 XItMWShS0.net
>>134
>報道記事も2015年あたりでぱったりだなぁ
先日発表された HPC 向け MCM GPU もチップ間接続わ Zen のチップレット間インタコネクトと同じ Infinity Fabric す。
同 GPU と Zen 3 を採用したスーパーコンピュータ “Frontier” わ CPU-GPU 間インタコネクトにやはりメモリコヒーレンシをサポートしたInfinity Fabric を採用するとアナウンスされているす
URLﾘﾝｸ(www.hpe.com)
ーーー
The new accelerator-centric compute blades will support a 4:1 GPU to CPU ratio with high speed AMD Infinity Fabric links and coherent memory between them within the node.
ーーー

142:Socket774
21/11/14 14:57:20.03 d2K9AXmlF.net
>>136
仰せはわかるが、APUにはならんよね
インターコネクト改善でレイテンシも削れるようにできてるんだろうけど、
まあ性能が出るかモノが出てきてから考えましょう、と。

143:MACオタ＞137 さん
21/11/14 15:04:19.41 XItMWShS0.net
>>137
>仰せはわかるが、APUにはならんよね
IBM 渡来の思想でオンダイのインタコネクトも Infinity Fabric なので一緒かと
URLﾘﾝｸ(pc.watch.impress.co.jp)
ーーー
Infinity Fabricは、1つにはオンダイのインターコネクトの拡張だ。しかし、その一方でソケット間もサポートする。ソケットでは、CPUとCPUの間、CPUとGPUの間、CPUと他のアクセラレータの間をInfinity Fabricで接続する。
ーーー

144:Socket774
21/11/14 16:07:21.07 d2K9AXmlF.net
じゃあInfinity Fabricでレイテンシ極減して性能出るのに期待するとしよう。
PezyにせよEuroProcessorにせよアクセラレーター自体は流行っている。
個人的には富岳のような構成を支持するがそういう環境ばかりが正義ではないのは理解している。

145:MACオタ＞139 さん
21/11/14 16:23:26.94 XItMWShS0.net
>>139
>個人的には富岳のような構成を支持するがそういう環境ばかりが正義ではないのは理解している。
富岳の A64FX もノードあたりのメモリが 32GB しか無い段階で伝統的なサーバープロセッサと言うより、NIC を統合すればアクセラレータだけでスーパーコンピュータを作れる的な思想を感じるす。。。

146:MACオタ
21/11/14 16:26:55.47 XItMWShS0.net
ところでココって妙に SIMD 推しのヒト達が多い様に感じるすけど、現在一般的なアーキテクチャで最弱の SIMD である NEON 採用の Apple Silicon が良い性能を発揮しているのをどう見ているすか？

147:Socket774
21/11/14 16:30:54.96 RakAR5Bq0.net
命令セットなんて性能に関係しないってこと

148:MACオタ＞142 さん
21/11/14 16:46:13.29 XItMWShS0.net
>>142
SIMD 演算ユニットの幅やら数やらサポートする数値型などわ単純にピーク性能に直結するマイクロアーキテクチャ上

149:の問題なので、ISA の優劣とわ別かと

150:Socket774
21/11/14 17:13:46.72 xlc5cy6v0.net
>133
かろうじて絶滅はまだしてないよー　32ソケットだからもう大規模とは言えないけど。
買収された先で生き残ってる。少ないけど需要はあるからね。
　HPE Superdome Flex
　URLﾘﾝｸ(assets.ext.hpe.com)

151:Socket774
21/11/14 17:34:09.34 xlc5cy6v0.net
>144　補足
SGI UV 300の高速インターコネクト技術を継承
クロスバーチップSuperdome Flex ASIC
クロスバーファブリックSuperdome Flex Grid
URLﾘﾝｸ(h50146.www5.hpe.com)

152:Socket774
21/11/14 18:09:40.39 T6CBbs+F0.net
>>141
SIMDに関しては128bitの add/mul + fma * 3という演算器数に振った構成そのままの性能というイメージ。
AVX2は256bitと言ってもデスクトップ用途でリニアに性能2倍になるアプリなんてほぼ無いし

153:Socket774
21/11/14 18:59:16.11 d2K9AXmlF.net
>>146
エンコの話題でAVX2で1.4倍くらいになりました、ってベンチ見て
凄いと思う人としょぼいと思う人で意見割れてたな。

154:Socket774
21/11/14 19:27:53.65 yLJ7E/ep0.net
ビットマップの拡大縮小命令(というかサブルーチン) とかどうだろｗここの高速化回路検討ｗ
ソースビットマップのアドレスとサイズ、拡大縮小率を指定すると出力先RAMにサイズ変更したビットマップを出力してくれるみたいなの。
問題は中間補正値をどうするかだけどこれも指定出来るように....
字が小さくてよく読めない俺向けw
windowsも拡大縮小率を指定出来るけどけっこー重くなるんだよな
ジジババおれうれしいｗ

155:Socket774
21/11/14 19:32:16.23 lyacq+jAa.net
解像度下げれば万事おけ。

156:Socket774
21/11/14 19:34:17.10 T6CBbs+F0.net
>>148
GPUってご存知無い？

157:Socket774
21/11/14 19:35:28.54 eyP5BnOdM.net
>>145
おお生き延びてたのか。
知らなかった。ありがとう

158:Socket774
21/11/14 20:42:17.60 yLJ7E/ep0.net
>>150
そうか！
GPUつきのノート買えば字が読みやすくなるのか！
そういやでっかいテレビ買えばいいだけじゃん。なんだぁ～。

159:Socket774
21/11/14 21:47:12.43 l0Uq7rWR0.net
AVXって独立した計算装置で
CPUのコアと密接に繋が無くても良いんだろ

160:MACオタ＞153 さん
21/11/14 21:57:02.59 XItMWShS0.net
>>153
命令とレジスタ自体わ定義されてても元々 FPU わ別チップで割り込み経由で呼び出していたすから、そういう実装がありえるのわ否定しないす
性能低下が大きいので誰もやらないと思うすけど。。。

161:Socket774
21/11/14 22:19:19.72 OxLBdDUCd.net
私は小数計算をたくさんやるからSIMD推し
単精度ならCUDAを使ったりもするけど

162:Socket774
21/11/14 22:21:59.92 OxLBdDUCd.net
NEONはうんこ
機能的にはAVX512が強い

163:Socket774
21/11/14 22:25:48.87 OxLBdDUCd.net
普通に庶民が手に入る範囲だと10980XEが最強
1コアでAlderLakeのPコアの倍の性能、Eコアの4倍の性能
これが18コア

164:Socket774
21/11/14 22:30:10.52 T6CBbs+F0.net
どの辺がウンコ？ shuffle?
と思ったら純粋にFlopsの話も含んでるのか

165:Socket774
21/11/14 22:31:52.55 OxLBdDUCd.net
>>158
全てがうんこ
なんか良い点思いつく？

166:Socket774
21/11/14 22:34:21.95 OxLBdDUCd.net
shuffle最強はAVX512

167:Socket774
21/11/14 22:43:31.81 T6CBbs+F0.net
>>159 NEONは書いたことないからわからん

169:MACオタ＞155-156 さん
21/11/14 23:26:57.27 XItMWShS0.net
>>155
>私は小数計算をたくさんやるからSIMD推し
 >>156
>NEONはうんこ
>機能的にはAVX512が強い
ところが SPECfp2017 でも Apple M1 シリーズが良い結果を出していると言う事実が。。。
URLﾘﾝｸ(images.anandtech.com)

170:MACオタ
21/11/14 23:50:07.27 XItMWShS0.net
Mediatek の ARMv9 SoC “Dimensity 2000” がAntutu Benchmark で 1,000,000 超えたという噂が話題す
Qualcomm の Snapdragon 888 で 858,734 程度なんだとか
URLﾘﾝｸ(www.digitaltrends.com)
ーーー
According to unverified leaks, the Dimensity 2000 will allegedly feature a Cortex-X2 core at 3.0 GHz, three Cortex-A710 cores, and four A510, similar to Qualcomm’s Snapdragon 898.
ーーー
NEON → SVE2 で ARM は更なる進歩を実現するすかね？果たして正しい情報なのか腐れルーマーの類なのか。。。

171:Socket774
21/11/14 23:54:23.40 pSOqtrqk0.net
SkylakeX/CascadeLakeのコアの半分以下の性能
糞だよ
コンシューマー系intelはHaswellから性能があがってないからねえ
なんとかしてほしいねえ
AVX512搭載のRocketLakeですら本来の半分の性能だし

172:Socket774
21/11/15 00:08:03.01 ttOQWTJI0.net
10980XEが今時点では最強
 >>163
SVE2は基本SoA前提で応用範囲が狭い
期待してない

173:Socket774
21/11/15 00:15:58.64 5xdC8x9N0.net
何を測ってるのか不明なウンコベンチをさらに全部足し合わせてしまう総合スコアでは何もわからんな

174:MACオタ＞165 さん
21/11/15 00:28:20.54 zVsSKx9Q0.net
>>165
>[i9-]10980XEが今時点では最強
コレ、SPECint2017 と SPECfp2017 合わせて幾何平均を取った結果なので直接比較わできないすけど、それほど輝かしい結果にわ見えないす
URLﾘﾝｸ(images.anandtech.com)

175:MACオタ＞166 さん
21/11/15 00:32:05.57 zVsSKx9Q0.net
>>166
SPEC CPU 2017 ベンチマークの詳細わこちら
URLﾘﾝｸ(www.spec.org)
ソースも購入できるす。
URLﾘﾝｸ(www.spec.org)

176:Socket774
21/11/15 00:32:46.71 xm8PFLQUF.net
SVE2は性能出るか出ないか言うなら、NEONより向上するかというのを考えたい。
いや、特に論拠を持ってるわけじゃないけど。

177:Socket774
21/11/15 02:37:21.27 ke2lnjB50.net
>>167 それが18Cあるからってことじゃない？

178:MACオタ＞170 さん
21/11/15 03:19:31.73 zVsSKx9Q0.net
>>170
コア性能の比較ということで。
一応1スレッドで SPECfp2017 を測定した結果すから、turbo boost も込みす。

179:Socket774
21/11/15 03:26:33.22 ke2lnjB50.net
>>171 最初から >>157氏は >>157のように書いてるんだし(10980XEはAVX512が36基)、そんな話は不要でしょ。
それより、そういう前提で >>159の下記に何か言える人は言ってあげればいいんじゃない。
＞なんか良い点思いつく？

180:Socket774
21/11/15 05:06:39.57 ke2lnjB50.net
ちなみに、Geekbenchには7980XE～10980XEやW-3175XのHackintoshが沢山居るね。

181:Socket774
21/11/15 06:48:46.49 wCkMfqh90.net
そりゃ倍精度演算繰り返すような処理のピーク性能では10980EXの方が高いでしょ。MACヲタはSPECfpで

182:計測に使われてるソフト見てない疑惑。個人的にはさらに高性能な3970Xや3990Xだって庶民に買えるじゃんとは思うけど。

183:Socket774
21/11/15 06:53:44.26 wCkMfqh90.net
間違えた
s/10980EX/10980XE/

184:Socket774
21/11/15 06:56:09.26 ke2lnjB50.net
>>174 3970X以上だとAVX512固有の機能が使えず、fp性能が同等クラスの3970Xでも価格が倍近くだから >>157氏の選択肢に入らないってことかと思った。
あと、3980X/3990Xとかだとコア性能は高くても計算内容によってはメモリ4chしかないのがネックになるかも。

185:Socket774
21/11/15 07:01:04.63 wCkMfqh90.net
>>176
それはあるかも。
そのへん本人が説明してくれればな～

186:MACオタ＞174 さん
21/11/15 07:24:43.60 zVsSKx9Q0.net
>>174
>MACヲタはSPECfpで計測に使われてるソフト見てない疑惑。
伝統的に SPECfp わオープンソースの科学技術計算用ソフトで構成されるていたす。>>168 のリストにある通り2017年版わマルチメディア系ソフトも増えて、
- 511.povray_r
- 526.blender_r
- 538.imagick_r
あたりが単精度浮動小数点性能が効くすけど、残りの10個のサブベンチわ主として倍精度性能を求められるかと。

187:Socket774
21/11/15 07:35:39.50 ke2lnjB50.net
まぁ、>>157やその後の話見たら、>>176くらいのことは考慮してレスしないと話が変な方向に行きそうだね。

188:MACオタ＠補足
21/11/15 07:36:54.68 zVsSKx9Q0.net
>>178 の補足す
もっとも SPECfp わ SPEC95 の頃から『メモリ速けりゃ全部OK』的な傾向わあったすから、Apple M1 シリーズの好成績わソレが理由という可能性も考えられるす
Anandtech.com わベンチ結果のページ (URLﾘﾝｸ(www.anandtech.com))で自前で行った SPEC CPU のサブベンチの個別結果も公開しているすから、興味のある方わ i9-10980XE とM1 を比較して特徴を抽出できるす

189:Socket774
21/11/15 07:45:31.23 wCkMfqh90.net
>>178
SIMDのピーク性能を測るようなベンチでは無いよねという話。まぁ当の157が出てこないし、なんでも良いんだけどさ

190:MACオタ＞172 さん
21/11/15 07:54:35.50 zVsSKx9Q0.net
>>172
>そんな話は不要でしょ。
コア性能が高いと語っている様な。。。
>>157
>1コアでAlderLakeのPコアの倍の性能、Eコアの4倍の性能

191:Socket774
21/11/15 07:54:42.81 NR3TTRoN0.net
まーたこの知恵遅れはネットにある情報をつなぎ合わせてオナニーしてるよ…キモすぎ…

192:Socket774
21/11/15 07:57:13.16 ke2lnjB50.net
>>182 あんた大丈夫か？>>157って書いたのに「これが18コア」を見てない。>>170でもそれを指摘済み。

193:MACオタ＞181 さん
21/11/15 08:00:13.56 zVsSKx9Q0.net
>>181
>SIMDのピーク性能を測るようなベンチでは無い
 >>157 に書いてある主張わ上で書いた通りかと
アプリベースのベンチで SIMD のピーク性能が測れないと言うことわSIMD の有用性そのものが疑われるすけど、そう言うコトが言いたいすか？
Intrinsic 必須という意見わあるかと思うす

194:Socket774
21/11/15 08:08:27.74 ke2lnjB50.net
>>185 >>157氏は自分で書いたプログラムを実行しているようなので、その内容も詳しく聞かず話を進めることに意味はないでしょ。
既に書いてある内容からすると、AVX512気に入ってて、SIMD使用率が高いので、価格含めてそういう選択したのかな？
って感じじゃない。特に現段階であーだこーだ言う話ではない。

195:MACオタ＞184 さん
21/11/15 08:08:43.60 zVsSKx9Q0.net
>>184
>>>170でもそれを指摘済み。
そこに拘るのわ自由すけど、複数のプロセッサを比較するなら条件を揃えるのが科学的態度す。
anandtech.com でわ n-way の SPECfp rate の計測も行なっているすけど、

196:ココであえて 1-T の結果で比較しているのわマイクロアーキテクチャ的要素を比較する目的す

197:Socket774
21/11/15 08:39:58.92 ke2lnjB50.net
ちなみに、Linpackなら10980XE定格（PL1 165W、PL2はXeon系なので1.2倍か？）で1000GFlops近く出そう。
前にこの辺りに書いたけど、うちの7980XEでPL1=PL2=165Wで、メモリとメッシュOCしてて1030GFlopsとか。
OCすれば1200～1300GFlopsくらいは比較的容易。全力（実用性なし）で1700GFlops。
Alder 8+8定格（爆熱）は700GFlopsくらいだっけ。
CGレンダリングの定格比較だとCHINEBENCHなんかはAlder 8+8の方が圧倒的に速いね。

198:Powerスキヤキ
21/11/15 15:34:39.47 Jcpo4tCe0.net
POWER9で自作してるか、自作したいって人、日本におるんかいな。

199:Socket774
21/11/15 15:50:10.52 wCkMfqh90.net
そんなのよりCortex-X系搭載のチップで自作したい

200:Socket774
21/11/15 16:40:16.95 xm8PFLQUF.net
ソケット規格が現状ないしオンボかな
TrustZoneは使えるんだよね？

201:Socket774
21/11/15 18:54:56.57 73S5fnju0.net
>>189
例のアメリカで売ってるBTOキット
個人輸入してるのもいるかな？
50万ぐらいするけど

202:Socket774
21/11/15 19:09:36.16 3O2B9pSO0.net
ThreadRipperより安いな

203:Socket774
21/11/16 03:03:05.77 pzuzG95L0.net
SPEC fp って少なくとも昔は単精度、倍精度入り交じりで参考にし辛かったから
追いかけてないんだけど、今でも入り交じりなのかね

204:Socket774
21/11/16 07:00:17.85 1raOaU2Q0.net
富岳が4期連続でスパコンランキング4冠
URLﾘﾝｸ(pc.watch.impress.co.jp)
富岳の天下ってもっと短いと思ってたけど、これで4期目か。半導体不足が要因？

205:MACオタ＞195 さん
21/11/16 08:12:40.51 jzy4FEyJ0.net
>>195
TOP500 Nov.2021 版わこちら
URLﾘﾝｸ(www.top500.org)
top10 が変わり映えしないので面白みが無いすけど、11位以下にわ “Zen3” EPYC や “Ice Lake” Xeon の構成がチラホラと。。。
中国わ完全にステルスモードに入った感じす。
あと、それなりに海外にも売れていると聞く A64FX のシステムわ、まだ国内案件ばかりす

206:Socket774
21/11/16 10:30:39.62 Y+fwX0xx0.net
まだ調整不足かGreen500での数値はパッとしないけど
スキャンダル以降開発の継続が危ぶまれていたPEZY-SC3リリースできたんだな…

207:Socket774
21/11/16 11:51:44.69 O4fF+J3y0.net
SpecCPUでの結果は、同世代/同コア数/動作周波数が近い
x86と同等以上なのに、アプリケーションベンチ。特にマルチメディア系
だと大敗するPower9

208:Socket774
21/11/16 12:13:36.34 k4cxdQd2d.net
富岳って自作出来る？
富岳ってPC？

209:Socket774
21/11/16 13:11:37.17 3AN0WrcmF.net
>>199
自作できないアーキなんて何度も出てきているので
たまにそういうツッコミ入れてもらうのは構わないが、半ば諦め�

210:驍ｭらいに構えておけ。

211:Socket774
21/11/16 13:18:24.65 Y+fwX0xx0.net
昔話ばかりしてるやつのせいで忘れられがちだが
今後の技術動向についての部分でPCと関係はある

212:Socket774
21/11/16 16:32:30.16 O4fF+J3y0.net
これ
URLﾘﾝｸ(www.spec.org)
Powewr9 40コア 3,4Ghz (ベース3,4Ghz 最大3.8Ghz)
URLﾘﾝｸ(www.spec.org)
XeonGold-6242R 40コア　3.1GHz(ベース3.1Ghz 最大4.1Gh)
この結果だけ見ればPower9が勝ってるがPower9の4コアモデルが
同世代のx86-4コアにマルチメディア系ベンチで大敗

213:Socket774
21/11/16 16:34:51.79 XlQVbwV6d.net
マルチメディア系ベンチとやらの内容は？

214:Socket774
21/11/16 16:42:25.54 O4fF+J3y0.net
これだよ
URLﾘﾝｸ(www.phoronix.com)
MP3エンコードと動画デコードでかなりの差をつけられてる
ちなみにPower9のSpecCPUでのx264エンコの値は、同コア数同世代のXeonやEPYC
と比較しても特に悪くない

215:Socket774
21/11/16 16:57:18.17 BdARCeEma.net
>>195
Auroraが遅延したから……いや遅延してなくても今年の11月にフル構成でベンチ採るのは無理だった気がする
世界一を2年にわたって守り通した富岳は素直に「良い仕事した」でいいんじゃないの

216:Socket774
21/11/16 17:10:44.59 1raOaU2Q0.net
>>205
そうだね。立派なもんだ

217:MACオタ＞202 さん
21/11/16 17:27:25.66 jzy4FEyJ0.net
>>202
4-socket の POWER9 を 2-socket の Cascade lake Xeon と比べても。。。
SPEC CPU の rate ベンチわ “copies” の数だけ相互に関係のないジョブを流すだけなので、極端な例で別筐体の複数ノードで走らせると、ノード数に比例して成績伸びるす

218:MACオタ
21/11/16 17:33:54.12 jzy4FEyJ0.net
今年5月の発表以来音沙汰が無かった Snapdragon Developer Kit for Windows すけど、やっと正式発表。$219 也とのことす
URLﾘﾝｸ(www.microsoft.com)
詳細仕様わこれで、発表時に恐れていた通り、
- 4GB LPDDR4 固定
- up to 64GB eMMC
。。。
URLﾘﾝｸ(www.ecs.com.tw)
コレで何を開発するすかね？？

219:MACオタ＞197 さん
21/11/16 17:38:39.39 jzy4FEyJ0.net
>>197
>PEZY-SC3リリースできたんだな…
せっかく MIPS64 6-core 搭載なのにまだ x86 ホストプロセッサ必要なのわ残念な話す
開発リソースが足りないすかね？
NA-IT1 - ZETTASCALER3.0, AMD EPYC 7702P 64C 1.5GHZ, PEZY-SC3, INFINIBAND EDR
URLﾘﾝｸ(www.top500.org)

220:Socket774
21/11/16 17:44:02.50 1raOaU2Q0.net
>>208
メモリ少ないなぁ。せめて4倍は欲しい。

221:Socket774
21/11/16 19:17:01.58 IjwJPRf2M.net
>>206
エクサに届かないのかあと発表当初は残念な気持ちだったけど
この結果を見ると、米国や中国の谷のタイミングにうまいこと滑り込んで
作戦勝ちっていう感想に変わったなあ

222:MACオタ＞211 さん
21/11/16 19:31:56.87 jzy4FEyJ0.net
>>211
>エクサに届かないのかあと発表当初は残念な気持ちだったけど
ARM サーバープロセッサの勃興といい、AI の流行とそれに合わせた数値型のサポートといい、HBMの�

223:ﾌ用といい、最高のタイミングで設計/建設されたと思うす正に、天・地・人、全ての要素が成功を約束していたかと

224:MACオタ＞210 さん
21/11/16 19:34:44.21 jzy4FEyJ0.net
>>210
The Register も Apple Silicon の開発者キットと比較して同じ感想を述べているす
URLﾘﾝｸ(www.theregister.com)
ーーー
The Reg can't help but think of Apple's M1 developer kits, although we'd caution that performance is unlikely to be comparable. In addition, Microsoft warned: "There are no refunds available on this product. This product is meant for developers, not consumers."
ーーー

225:Socket774
21/11/16 19:43:28.36 pzuzG95L0.net
Green500 2021年11月
GPU以外
　01　MN-3
　16　A64FX
　20　A64FX
　21　A64FX
　27　Hygon Dhyana /AMD–Chinese joint venture
　45　SX-Aurora TSUBASA
　47　EPYC 7H12
　48　SW26010 /China
　49　SX-Aurora TSUBASA
　50　SX-Aurora TSUBASA

226:Socket774
21/11/16 19:47:52.68 pzuzG95L0.net
27　Hygon Dhyana /AMD-Chinese joint venture

227:MACオタ
21/11/16 19:48:42.88 jzy4FEyJ0.net
>>212 の続きす
ただ一つ気になるのわ売れ行きが芳しいとわ言い難かった京の派生品が、SPARC64 VIIIfx → IXfx → XIfx と次世代品をどんどんリリースしたのと比べて、なかなか A64FX の次が出てこないのす
ARMv9 + HBM3 + 次世代TOFU なんてのが出て来ても良いと思うすけど。。。

228:MACオタ
21/11/16 19:51:16.01 jzy4FEyJ0.net
>>215
Zen 1 の中華ライセンス品す
URLﾘﾝｸ(www.anandtech.com)

229:Socket774
21/11/16 19:59:29.72 +lA1S8eY0.net
IBM、127量子ビット「Eagle」プロセッサー発表。「従来のコンピューターではシミュレートできない」
URLﾘﾝｸ(japanese.engadget.com)

230:MACオタ＞218 さん
21/11/16 20:12:17.67 jzy4FEyJ0.net
>>218
そっち方面でわ、このニュースが興味深いす
「大阪市大、量子コンピュータに実装しやすい量子化学計算量子アルゴリズムを開発」
URLﾘﾝｸ(news.mynavi.jp)
タイトルに量子ばっかり出てくるすけど、ここで言う『量子化学計算』わ波動方程式を解いて量子力学計算を行う応用す

231:Socket774
21/11/16 20:14:39.08 pzuzG95L0.net
公式サイトが間違ったリンク貼ってた。>214は6月
　01　MN-3
　12　PEZY-SC3
　22　A64FX
　26　A64FX
　27　A64FX
　33　Hygon Dhyana /AMD-Chinese joint venture
　50　SX-Aurora TSUBASA

232:Socket774
21/11/16 21:38:57.47 i931DHce0.net
>>216
そりゃSPARC64の時には汎用サーバのラインナップがあったから最新テクノロジー適用しやすかったんだよ
スパコン専用になればスパコンが売れないとアップデートは難しい

233:Socket774
21/11/16 22:01:17.22 3AN0WrcmF.net
>>216
前倒しがなければ運用開始年は今年やぞ
富岳
まあこの論だと来年後半あたりにはリリース期待せなならなくなるが。

234:Socket774
21/11/17 00:26:56.52 dqshBFgd0.net
分岐先をコンパイル段階でテーブル化しといてありったけのコアで分岐先がすぐ実行出来るように待機させておくってのはどうなの？分岐時のパイプラインペナルティをゼロにする涙ぐましい努力

235:ｗ特定アドレス範囲をアクセスする際には、通常のロード/ストア命令が自動的にポインタとしてインデックス参照されるとかｗモジュールや関数、ローカルスコープごとに・自動でポインタアクセスするアドレス範囲を記述・ジャンプする可能性がある分岐先アドレスリスト上記情報が入ったモジュール補助情報をCPUに教えるための、スタックやフレームポインタのような新しい「モジュール情報ポインタ」を用意するとかｗｗ変数関数オブジェクトをサブルーチン単位でバイナリでテーブル化しといてアクセス時は番号でアクセス.... てこんなんで速くなる訳ねぇな速くなる訳ないなー。無駄な努力じゃ。

236:Socket774
21/11/17 00:50:12.39 gCfyh0ul0.net
>>223
速くなるかもしれないけどその分に見合うリソース消費なのかって話
だからシングルスレッド増強じゃなくて効率考えてマルチスレッドでいいじゃないって流れにこの20年くらいなってる

237:Socket774
21/11/17 01:55:25.18 2otWjtsZ0.net
>>221
VPP5000やSX-3みたいなベクトル機の
時代はCPUのアップデート的なことって
考慮してたのか？
後、ベクトルと言えば。SX-6i SX-8i
と言ったNECベクトルCPUを使った
デスクサイドの（サイズはミドルタワー
3台分の体積)
があるが、使ったこと人いる？

238:Socket774
21/11/17 02:05:19.66 dqshBFgd0.net
>>224
うーん。どうだろう。
お金を出す人とソフトウェア機能を提供する人との需要供給のマッチングが重要じゃないの。
ミュールじゃなくて、道路に物を投げつける福岡のBBAのイメージじゃない？
パソコンないと授業に参加出来ないリモート小学校、汎用機ないとCG作れない給料稼げないテレワークなんでしょ？
自転車で青梅から八王子まで通う人が生き残る世界ってのが現実なんだろうねｗ

239:Socket774
21/11/17 02:14:42.69 FQDx7UfYa.net
モダンなCPUの分岐予測は限りなく100パーセントに近づいているし
稀なミスへ先見的に対処できるならそれこそIPFのプレディケーションみたいなアプローチで救えばいい
そしてこの世界観ではトレースキャッシュを復活させられるだろう
現実にはそれができないから困ってる
つまり >>223みたいな電力とダイエリアを無駄遣いする実装は文字通りの産廃
オーバーヘッドがゼロというありえない前提を置いてもそういった評価になる

240:Socket774
21/11/17 06:39:51.82 LIYVONyD0.net
つかItaniumが大体 >>223じゃね

241:Socket774
21/11/17 06:45:13.31 jsWGxT950.net
Itaniumが死んだとき、やっぱり多数決方式なんていらんかったんや！と思ったっけ。
実際どうなのかは知らんけど。

242:Socket774
21/11/17 06:52:36.50 5jyqSbtV0.net
>>227
分岐予測100%はあり得ない前提
法則の全くない50%分岐の予測的中率は50%

243:Socket774
21/11/17 06:57:40.91 xlOx5TY7a.net
EPICへの批判とかもっともらしい理屈は多々あったけど、x86がキメラ化で生き残ってることを思えば
結局は社内闘争の結果だったと結論していいのでは
わずかな生き残りを除いてIPF派閥は大半がパージされてる
現代ではバ

244:ンガロールのデザインチームよりも存在感が無いといえばそのすさまじさがわかるそもそも外様がIntelのプロセス技術だけ乗っ取って開発を続けようってのが都合よすぎた IA64で市場独占という甘い夢を前に親藩・譜代らの心証を忘れた上級管理職者の罪は重い

245:Socket774
21/11/17 07:01:52.50 5jyqSbtV0.net
日本語で

246:Socket774
21/11/17 07:39:04.60 gCfyh0ul0.net
日本語に見えるが何語なんだろう
コンテキスト的にも >>226 とかに較べればはるかにクリアだが

247:Socket774
21/11/17 07:44:58.71 YEgjWb8I0.net
ここんとこずっとぼくのかんがえたさいきょうのあーきてくちゃ語ってるやつがいるな
お前は今までの無数のプロセッサ設計者たちより賢く、アイディアに富む自信があるのか？
先人たちが思いつかず、実験してみなかったとでも？
本気でそう思うなら今すぐ起業してプロセッサを作れ。ディッツェルはそうしてる

248:Socket774
21/11/17 08:03:06.07 5jyqSbtV0.net
>>233
もっと簡単な単語を使えってこと
おれみたいな小学生にはわからん

249:Socket774
21/11/17 08:14:31.75 jsWGxT950.net
>>233
GPT2とかのモデル持ってきて雑にファインチューニングするとこういう文章吐きそう

250:Socket774
21/11/17 08:50:01.84 2otWjtsZ0.net
>>234
本業の人間でやってるのもいる
竹下世界塔の計算機よもやま話という、ブログの管理人もそれ
URLﾘﾝｸ(keisanki.at.webry.info)
ぼくのかんがえたさいきょうのCPU
当の本人は大型汎用機からCPU設計に入ったらしいけど
(富士通の本車田氏もメインフレームが最初)

251:Socket774
21/11/17 11:11:01.04 iu+voaKR0.net
>230
ワザとそうしない限り、分岐のうち法則の全くないものの比率が低いんだよ。

252:Socket774
21/11/17 11:19:15.69 pql/xRCv0.net
x86って外部にライセンスできるンだっけ？

253:Socket774
21/11/17 11:33:22.12 iu+voaKR0.net
>239
AMDが51%以上出資してる会社をクッションに使ったアクロバティックな方法
　AMDのZenマイクロアーキテクチャをベースに中国メーカーが「Dhyana」プロセッサの生産を開始
　URLﾘﾝｸ(gigazine.net)

254:Socket774
21/11/17 11:55:02.83 eiDONS80M.net
昔はNECでもx86互換品を作っていて堂々と売っていたんだよな
V30とかintelの中身とは別物だから
ライセンスとかは無かったと思ったが

255:MACオタ＞237 さん
21/11/17 12:07:32.37 N3HJyL280.net
>>237
>本業の人間でやってるのもいる
学会発表などの一部の例外を除いて、アイデアを公開すると「公知の技術」になって知財としての権利が無くなるすからやらないのが普通かと。。。

256:Socket774
21/11/17 12:13:02.63 RbdUi9+gd.net
>>238
わざとそんなことをするヤツはいない
法則性のない分岐がある以上
限りなく100%に近づくなんて事はない

257:MACオタ＞238 さん
21/11/17 12:27:32.00 N3HJyL280.net
>>238
>分岐のうち法則の全くないものの比率が低いんだよ。
ソレ以前にプログラムにおける分岐の大半がループの類なんでわ？
入力に対応した分岐処理なんかわ予測できるモノでも無いす。あとソートなどの分類処理も

258:Socket774
21/11/17 12:30:55.42 RbdUi9+gd.net
単純なループなんて誰も心配してない
バカなのか？

259:Socket774
21/11/17 12:37:25.72 jsWGxT950.net
『限りなく』は曖昧表現なので、�

260:e々想定してる確率が違いそう

261:MACオタ＞245 さん
21/11/17 12:38:18.27 N3HJyL280.net
>>245
単純で無いループわ多いし、ISA レベルでゼロサイクル分岐が可能なシステムも再内周でしか有効でない場合が多いかと

262:Socket774
21/11/17 12:42:32.66 RbdUi9+gd.net
で？
自分はバカです
の上塗り？

263:Socket774
21/11/17 12:44:50.88 2otWjtsZ0.net
>>242
あくまでも、仕事でCPUいじってきた
経験や知識等を元に、「こんな風に
したら良い」って感じでやってるだけ
でしょ。
Macオタみたいな人は、そこら辺のことが
分からない人？頭が悪いという意味でなく
感覚的にそういうネタを理解してない
っぽい。

264:MACオタ＞249 さん
21/11/17 12:52:29.62 N3HJyL280.net
>>249
>「こんな風にしたら良い」って感じ
特許の文書わハンパなく冗長なんで読みにくいすけど、中身わそのレベルす
だから適用(請求)範囲を限定しないと権利が取れないので、殆どの特許わ自社製品と密接に関係しているす。
それほど未来でない次世代製品の仕様を予測するのに特許文書が参考になるのわ、そうした理由す

265:Socket774
21/11/17 12:59:50.68 RbdUi9+gd.net
話をそらしてごまかす
よくやる人なのかな？
>>247も >>250も
こういう人とはまともに会話出来ない

266:Socket774
21/11/17 13:43:54.52 lc3G43gg0.net
>>239
すでにライセンスされたたぶんは殺せないみたい＞VIAのとか

267:Socket774
21/11/17 13:53:49.97 iu+voaKR0.net
実際に調べてみたら
　一部の命令のスループットを向上させるだけではやくなるプログラムが多かった　>RISC
実際に調べてみたら
　失敗の少ない予測方法を見つけることができる分岐が多かった　>高品質の分岐予測
原理原則の話ではなく、どろくさい経験的、実用的な話

268:Socket774
21/11/17 14:38:28.25 RbdUi9+gd.net
「限りなく100%に近づいていく」に突っ込んでるわけで
一定数予測不可能な分岐が存在する以上
どんなに予測技術が進んでも予測には限度があると
予測が有効なことは誰も否定してない

269:Socket774
21/11/17 15:49:55.12 CYr6tFLtF.net
AMDの合弁を中国政府が接収したらおそらくIntelとの契約でライセンス無効になるような条項入ってるだろう。
まあそうなったらライセンス無視して作るかもしれないし、無視しなくてもHPCならK12を作ればいいんじゃないか。

270:Socket774
21/11/17 15:54:12.66 iu+voaKR0.net
確率50%を狙ったもの以外に50%の分岐って本当に存在するか？

271:Socket774
21/11/17 15:55:49.77 mc+Vv6DHM.net
(錯乱)

272:Socket774
21/11/17 16:48:55.20 n05JXtIy0.net
>>256 住民のデータベースの情報の処理とかで、男か女か、とか？（厳密に50%にはならないだろうけど）

273:Socket774
21/11/17 17:33:14.97 RbdUi9+gd.net
最初に思い付いたのが
多倍長で無理数を計算するときの加算時のくりあがり処理
他には
正負対称の一様乱数の符号による分岐とか
シミュレーションで使いそう
別に50%じゃなくても
予測不可能な分岐はたくさんある
50%が一番当たる可能性が低いというだけ
検索系は予測が難しく
小さい要素数の検索をたくさん行えば
外れる率は高まる

274:Socket774
21/11/17 17:35:58.90 RbdUi9+gd.net
予測が簡単な周期が小さな分岐を含むループは
ループアンロールで分岐を無くせるわけで
こういうところはプログラマーによる最適化も可能

275:Socket774
21/11/17 18:02:36.84 5jyqSbtV0.net
ハフマン符号とか�

276:A 意図的に確率が50%に近付けるわけだし

277:Socket774
21/11/17 18:19:09.78 jsWGxT950.net
下手に分岐減らしたりするより（愚直に近いデータでやりくりする等して）キャッシュ意識する方が最近のアーキテクチャでは効く場合があると聞いた

278:Socket774
21/11/17 18:35:33.94 UZ2v9PJ70.net
CPUに分岐予測させると回路が大掛かりになるじゃん
コンパイラが分岐予測して効率の良いコードを吐き出せば良いんじゃないの

279:Socket774
21/11/17 18:42:01.96 LIYVONyD0.net
>>223に戻る

280:Socket774
21/11/17 18:43:46.60 jsWGxT950.net
それってCとかで処理速度を測ろうと下手なループ書いたら計算結果が定数になるやつと何が違うんや

281:Socket774
21/11/17 18:44:52.48 zzP+e8oyd.net
>>262
それぞれ別の最適化
 >>263
コンパイラが分岐予測するのは無理
分岐の最適化が限度

282:Socket774
21/11/17 18:47:21.05 zzP+e8oyd.net
>>223は全く現実的じゃない
 >>265
何と同じと言ってるのかわからん

283:MACオタ
21/11/17 18:50:31.34 N3HJyL280.net
既に５ちゃんねる内でもあちこちでスレ立てされている様すけど、Qualcomm が昨夜の投資家向けイベントで Apple M1 クラスの Windows デスクトップ向け ARM プロセッサを2023年にリリースすると発表したす
先日買収した Nuvia のスタッフに開発させるとのこと
URLﾘﾝｸ(www.theregister.com)
URLﾘﾝｸ(regmedia.co.uk)
プレゼンにわ確かに
ーーー
Next-gen CPU
Designed in lead in performance and power efficiency
Industry-leading Nuvia team
ーーー
と書いてあるす。
かくて Nuvia が開発していたと言う ARM サーバーコアわご破算で Nuvia のスタッフわ手慣れたコンシューマ製品の開発に振り向けられるという T. P. Morgan 氏の予想わ的中す (URLﾘﾝｸ(www.nextplatform.com) 参照)
ただ肝心の Microsoft が >>208の様な体たらくなので目論み通りにいくかどうか。。。
業界でわ Apple が iPhone 搭載モデムを自社開発に移行するコトによる収益減に対応する為の新事業と見られているすけど、コレで稼げる様になるまで Qualcomm の体力が保つかどうかの勝負になるのかもしれないす

284:Socket774
21/11/17 18:54:58.18 jsWGxT950.net
>>267
先に決まってることならともかく、実行時に決まることは無理やんって言いたかった。
実行時のコンテキストや分岐履歴がわかるハードウェア分岐予測とは異なるよなって

285:MACオタ＞251 さん
21/11/17 18:58:01.22 N3HJyL280.net
>>251
>話をそらしてごまかす
本職わ教育目的を除いて手の内を披露しない理由を書いただけすけど、あなたの本題わ何だったすか？

286:Socket774
21/11/17 19:11:47.52 jsWGxT950.net
>>268
Cortex-Xシリーズがある今、そこまでする必要があんのかと思わないでもないけど、シェアの大きなQualcommが性能にやる気出したのは良い事だなー。
Linux用GPUドライバをクレクレせざるを得ない

287:Socket774
21/11/17 19:35:25.94 iu+voaKR0.net
>258
人間介入する以上、人間の作業内の効率も無意識に上げようとするから
一つ前とその次の関係がランダムにはならないよ
>261　少なくともそれら数種はあるってことはわかったよ。
検索でヒット率50%は稀だと思う。

288:Socket774
21/11/17 19:42:05.99 LIYVONyD0.net
>>268
いつぞやIntelがx86エミュやったら裁判起こ�

289:ｷぞオラァンつってたからそこで争って勝つ確信がなけりゃWinCEみたいな非互換別版で終わりそう

290:Socket774
21/11/17 19:51:11.13 CYr6tFLtF.net
>>273
そんなのはMSがやるからQ社はWindows on ARM出したいって言ってる顧客に製品を提供するだけだろう
まあ、売上はだいぶ変わるだろうが。

291:Socket774
21/11/17 19:54:35.28 5jyqSbtV0.net
>>272
50%50%ランダムが一番予測的中率が悪いというだけで
10%90%ランダムも10%は予測が外れるわけだ
今後IPCが上がって行けば
外れた時のペナルティも増えていく
外れた時の性能も重要であることに変わりはない

292:Socket774
21/11/17 21:47:46.33 iu+voaKR0.net
>PWM
パルス幅は整数というか離散値なんじゃないのかな。オーディオ用で無段階のもあるんだろうか。

293:Socket774
21/11/17 21:48:54.55 iu+voaKR0.net
スマン、誤爆した >276

294:MACオタ
21/11/17 23:53:03.84 N3HJyL280.net
Twitter に SC21 Top500 BoF のレポートが上がってるすけど、中国が神威太湖之光の後継システムを含む二つのスーパーコンピュータで HPC Linpack (当然 FP64) 1 EFlops 越えを達成したのわガチの様す
URLﾘﾝｸ(twitter.com)
“OceanLight” ってのわ「神威海洋之光」になるすかね？
URLﾘﾝｸ(pbs.twimg.com)
URLﾘﾝｸ(pbs.twimg.com)
URLﾘﾝｸ(pbs.twimg.com)
URLﾘﾝｸ(pbs.twimg.com)
URLﾘﾝｸ(pbs.twimg.com)
(deleted an unsolicited ad)

295:Socket774
21/11/17 23:59:13.27 2otWjtsZ0.net
youtubeにPower9BTO買った、。動画投稿者がいるけど
登録数が普通の自作PC Youteberよりはるかに少ない

296:Socket774
21/11/18 01:25:35.83 afSgKUoNF.net
ベンチで出ない性能は絶対に出ないと考えれば超多コア1EXAもよいのだろうが

297:Socket774
21/11/18 02:01:06.84 pzk7Wa3u0.net
中国のスーパーコンピュータってベンチマーク番長で
長時間動作が出来ず実用に耐えない不安定っぷりと聞いたが本当なのか

298:Socket774
21/11/18 02:10:07.76 OHSaMOou0.net
いまだにそんなの信じてる人いたんだ………

299:MACオタ＞281 さん
21/11/18 04:49:48.35 lX66FozS0.net
>>281
「SC17 - Gordon Bell賞は神威・太湖之光の地震シミュレーション」
URLﾘﾝｸ(news.mynavi.jp)

300:MACオタ
21/11/18 12:17:04.61 lX66FozS0.net
HPCG の Top10 すけど、10位の現行地球シミュレータ (NEC のベクトル・アクセラレータ SX-Aurora TSUBASA 搭載) がピーク性能を基準にした効率わダントツす
URLﾘﾝｸ(top500.org)
URLﾘﾝｸ(pbs.twimg.com)
もっとも効率で見ると、
SX-Aurora > A64FX > A100 > V100
となっているすから、NVIDIA GPU も正当進化してる模様す

301:MACオタ
21/11/18 12:30:23.84 lX66FozS0.net
この話題も既にあちこちでスレ立てされている様すけど、Apple が一般向けに iPhone の修理部品の供給を開始すると発表したす
URLﾘﾝｸ(www.apple.com)
ーーー
Available first for the iPhone 12 and iPhone 13 lineups, and soon to be followed by Mac computers featuring M1 chips, Self Service Repair will be available early next year in the US and expand to additional countries throughout 2022

302:. ーーーまず来年早々に米国内向けに iPhone 12/13 でサービスを開始し、M1 mac や海外へ拡大する。。。ともちろん私わ大歓迎すけど、DIY 文化の無い日本人らしく他スレでわ否定的な意見が多いのが気になるす米国を基盤に古くから “Right of Repair” 運動を続けてきた ifixit.com に感謝を捧げるす

303:Socket774
21/11/18 12:43:19.91 BnjyYK4w0.net
Linux向けGPUドライバ整うまでイラネ

304:Socket774
21/11/18 13:40:18.20 dS4HjaNH0.net
>>281
データセンターのサーバとか計算用途でないものでベンチマーク流してTOP500のランキング数稼いでる

305:Socket774
21/11/18 15:42:18.29 afSgKUoNF.net
>>284
むしろNECかなり悪化したな
旧世代のSXシリーズだともっと%出てただろう。
まあカタログスペック辺りのコストがバカみたいにかかってたので

306:Socket774
21/11/18 16:14:47.56 7yqF8S5E0.net
東大、万能な「光量子プロセッサ」を開発
URLﾘﾝｸ(pc.watch.impress.co.jp)

307:Socket774
21/11/18 17:28:26.45 IJ3moW+I0.net
>>288
そりゃ以前のSXシリーズとPCIeボードに詰め込んだAuroraを比較するのが間違ってるんじゃね？

308:MACオタ＞288、290 さん
21/11/18 17:54:42.86 lX66FozS0.net
>>288 >>290
確かに SX-ACE 版の地球シミュレータで 11% だったす
URLﾘﾝｸ(www.hpcg-benchmark.org)
URLﾘﾝｸ(pic1.zhimg.com)
HPCG の結果自体わ 0.055 PFlops → 0.75 PFlops と10倍以上に上げてきてるので仕方が無いところすか。。。

309:MACオタ
21/11/18 18:01:45.30 lX66FozS0.net
>>285 のApple のリペアプログラムすけど、恐れていた通り国内でわ日本人らしいオチになりそうす
『アップルの「iPhoneを自分で修理」プログラム、日本上陸は望み薄か』
URLﾘﾝｸ(news.mynavi.jp)
ーーー
万が一、法律まわりの整備が整ってプログラムが提供されたとしても、普通の人が手を出すのはやめた方がよいでしょう。
ーーー
このまとめ方と言い、小学生から鉛筆削り用ナイフを取り上げ、「3ない運動」で世界一だった自動二輪産業を潰した過去をここでも繰り返しそうす
いかにもセルフ経済制裁が得意な国らしい流れすね。。。

310:MACオタ＞289 さん
21/11/18 19:38:13.69 lX66FozS0.net
>>289
>「光量子プロセッサ」を開発
色々スゴいと思うところわ有るすけど、常温常圧環境下で動くと言うだけでもなんだか期待が持てるす

311:Socket774
21/11/18 20:27:47.74 HSunkIlx0.net
光子力ビーム！！１

312:Socket774
21/11/18 23:16:12.75 afSgKUoNF.net
量子コンピューターの計算素子の分類に関してすこし前に解説聞いたが
違いがよくわからなくて忘れてしまったな。
極低温でやるゲート方式のヤツはIBMが進んでて国内勢全然だった
国内はアニーリング方式が多いが一枚岩というわけでもない。

313:Socket774
21/11/19 00:25:01.62 C7jdPfhO0.net
>>293
断捨離文化の普及も大きいよ
ときめかなくなった(笑)という理由で物捨てを潔い清々しい行為として正当化する思想がそれなりに普及してしまい何でも使い捨て指向に。
コンマリ、あいつは亡国�

次ページ