CPUアーキテクチャについて語れ 17

CPUアーキテクチャについて語れ 17at JISAKU

CPUアーキテクチャについて語れ 17 - 暇つぶし2ch599:Socket774
10/11/07 18:03:54 OjobMChw
>>597
タイルレンダの仕組みわかってねーんだな。
インタリーブというレベルじゃないんだわ。
考えてもみろよ。
理想は頂点がどのタイルに属するか全て決定してからレンダリングを行うわけだが
もちろん現実的にはそれはできない。
で何が行われるか知ってるか？
PowerVRでパフォーマンスあげるTipsでも調べてみるといい。
そういう情報あるかどうか知らないけど。

600:,,・´∀｀・,,）　・・・→　-○○○
10/11/07 18:08:43 Jw/kKYNC
実際問題Fermiは雀の涙ほどながらもライトバックキャッシュを採用してメモリ帯域のセーブをはかってるわけで。
NVIDIAも（タイルレンダのような）キャッシュローカリティを生かしたGPUアーキテクチャへのシフトは
何度か言及している。

URLﾘﾝｸ(journal.mycom.co.jp)

> --それでも多数のFP演算器は必要だが、10倍のエネルギー効率は達成可能か?
>
> Dally:演算器の消費エネルギーはそれほど大きくはなく、データを移動するためのエネルギーの方が大きい。(中略)

> --そのとき、GPUのアーキテクチャは現在のFermiとは変わるのか?
>
> Dally:多くの点でアーキテクチャの詳細は変わることになると思うが、ハイレベルのアーキテクチャは同じで、
> 多数のコアを持ち、高度のスレッド並列、GPU内部のメモリ階層はプログラマに見せるというようなビューは
> 変わらないと考えている。

少なくとも階層型メモリからVRAMオンリーの垂れ流しアーキテクチャに戻ることはなさそうだな

601:,,・´∀｀・,,）　・・・→　-○○○
10/11/07 18:19:52 Jw/kKYNC
>>599
わかってないね。
別にGDDR5を辞めてシングルチャネルDDRにでもやりましょうってレベルの話はやってないから。
つか、いったいどこのGPUメーカーが将来にわたってタイルレンダ否定してるんだ？

Next-Gen Tile-Based GPUs
URLﾘﾝｸ(developer.amd.com)

602:Socket774
10/11/07 18:24:59 OjobMChw
>>601
ローポリゴンだから適しているって書いてあるなw

603:,,・´∀｀・,,）　・・・→　-○○○
10/11/07 18:50:54 Jw/kKYNC
タイル分割してからテッセレーションすればいい。
だからDirectXの固定パイプラインは邪魔臭いのだ。

愚者は経験に学ぶというけど、ITの知識ってのは日進月歩ですぐ使い物にならなくなる。
自分のパラダイムに合わないと思ったら引退を考えたほうがいい。

それともあれか？今のRadeonやGeForceのアーキテクチャがそのまんまスケールしていくとでも思ってるのか？
PCIeの消費電力枠を500Wとか600Wとかに拡張でもするか？

604:Socket774
10/11/07 19:11:11 kSg5Kuvl
>>596
Cellならともかく、Itaniumになりそうな悪寒

605:,,・´∀｀・,,）　・・・→　-○○○
10/11/07 19:20:14 Jw/kKYNC
Itaniumなら特定顧客がついていまだに大黒字出してる事業じゃん。
ソニーがCell関連で出した赤字なんて・・・

GMAを置き換える計画はともかく、HPC向け特化のアクセラレータとしてちゃんと事業として成立するのか？
高利益率のXeonMPプラットフォームを売るためのエサとして考えるなら悪くもないが
TeslaにQPIでもライセンスしておいてもいいはなしだよな。

606:Socket774
10/11/07 19:23:33 corJ5hTD
Itaniumのアプローチは好きよ
IPC高いし
ああVLIWよもう一度…

>>593
＞x86は可変長フォーマットなので互換性を損なわずに命令を追加できる。
結局CISCの方が現実の変化に対してロバストだっていういい見本になりましたね、x86。

＞今のCPU業界の現状はなんだ？
＞クロックは上がらない、最大IPCも４がいいところ、次はオペレーション密度を高めるしかない。
そこでもう一度Itaniumをだな…

＞ARMに期待するのはやめとけよ。A15でようやく1コアあたりの性能でAtomと肩を並べられるレベルだ。
だけど、安いぞ。IntelがAtom系の価格を大幅に下げるんなら話は別だけど、
そうでないなら携帯端末だけでなく特定用途鯖もARMが奪いうると思う。

＞IntelがそのうちSCCを実用化してくるし、いまだに64ビット化の計画もないARMに蔵独活（笑）なんて
まぁ64bit化の予定があるとしても、それまでは繋ぎのアドレス拡張で我慢するしか無いね。
逆にそこにIntelは携帯端末での勝機と、Web・DB鯖等での地盤強化を図る余地を見出すだろうけど、
携帯端末でARMに勝つのは難しいと思うっすよ。
現状まだ64bit化の恩恵を受け辛い規模の製品しかないし。
今やってるSoCが成功するなら大丈夫と思うけど、駄目だったらイメージ悪化も合わせてタハーな事になる。
SCCは…そのオプションはARMも取れる事をお忘れ無く。

607:Socket774
10/11/07 19:25:31 gt3n7jzC
まだ使いたい顧客がいるとは言え・・・これは酷い

URLﾘﾝｸ(itpro.nikkeibp.co.jp)
＞新機種の特徴は、従来の「A200」シリーズ（4年前）よりも最大で20％処理性能が向上した点だ。
＞プロセッサにはインテル製のデュアルコアプロセッサ「Itanium 9140N」を採用した。
＞Itaniumシリーズの最新モデルはクアッドコアの「Itanium 9300」シリーズで、
＞Itanium 9140Nは一世代前のプロセッサになる。
＞最新のプロセッサを採用しない理由について「クアッドコアでは一つのプロセッサが
＞停止すると、一気に4つのプロセスが止まってしまう。可用性を重視した機種なので、
＞あえてデュアルコアのプロセッサを選択した」（NEC）と説明する。
＞標準レンタル料金は最小構成となる「A312」で月額1170万円。

608:Socket774
10/11/07 20:07:26 cVhPjrIO
4年前より20%の向上って少なくないか？
値下げして価格性能比10倍とかかな？

609:Socket774
10/11/07 20:43:12 EZdOE41G
それがNの仕様です

610:MACオタ＞608 さん
10/11/07 21:15:16 8S6xMSwl
>>608
なぜか Tukwila を採用しなかったのが原因ですが、ちょうど Unix 板の Sun スレッドで色々語られていますね。
ｽﾚﾘﾝｸ(unix板:204-207番)

611:Socket774
10/11/07 21:23:59 /BqENHBm
Fermiのメモリ帯域削減策はキャッシュもそうだけど、それよりもシェアードメモリ(ローカルストア)だと思う
Fermi以前から対応・読み書き可・レイテンシ2クロック
実際FermiのデフォルトではシェアードメモリがG92の3倍に設定されているし
キャッシュはどちらかというとSMを跨ぐやり取りや、シェアードメモリなんか使うのﾏﾝﾄﾞｸｾな人でも性能出すためでしょう

Fermiが3や4になってもシェアードメモリを重視するかどうかは分からんけども

612:Socket774
10/11/07 22:55:54 Coe2pjSs
コンピュータの発展の歴史はキャッシュやメモリ、ストレージの階層化
なんだからGPUのメモリが階層化することに何の不思議も無い

613:Socket774
10/11/07 23:05:16 cBYEMzs0
量子技術へ行き着くのは何年後になるやら

614:Socket774
10/11/08 01:28:23 HKtqWWos
その前にスピントロニクスが来るだろうね

615:Socket774
10/11/08 01:59:40 kfjzbCLR
階層化を避けて袋小路にはまってるのが現状

616:Socket774
10/11/08 04:42:07 +C1P+YMF
避けてはないだろ避けては

617:Socket774
10/11/08 04:55:21 supgJuYn
>>607
今だにｐｃ９８使ってるのと同じ理由で使ってるんだろうな。ｿﾌﾄ資産のため仕方なく

618:Socket774
10/11/08 05:30:04 mwHJRwC0
高額に見えるが、もしかしたらけっこう値下がりしてるのかもしれない

619:Socket774
10/11/08 09:59:00 AsgF7+7k
エラー検出・訂正機構が強化されてる新しい世代の方がいいと思うんだけどなー＞いたにうむ

620:Socket774
10/11/08 12:13:36 kR/rccCY
>>603
> タイル分割してからテッセレーションすればいい。
> だからDirectXの固定パイプラインは邪魔臭いのだ。

タイルレンダのダメダメさとテッセレーションの有無は直接関係ないだろ
それにテッセレートしてみた結果となりのタイルにはみ出すケースどうすんの？w

> 愚者は経験に学ぶというけど、ITの知識ってのは日進月歩ですぐ使い物にならなくなる。
> 自分のパラダイムに合わないと思ったら引退を考えたほうがいい。

お前さん自身の自戒の言葉と理解しておくよ。
今後とも3Dレンダリングの勉強がんばってくれ。
手を動かしてみないと身につかないよ。

> それともあれか？今のRadeonやGeForceのアーキテクチャがそのまんまスケールしていくとでも思ってるのか？
> PCIeの消費電力枠を500Wとか600Wとかに拡張でもするか？

寒い詭弁
それがタイルレンダがスケールする理由にはならない。

621:,,・´∀｀・,,）　・・・→　-○○○
10/11/08 13:26:35 3FffnnCD
タイルレンダが駄目じゃなくて要するにPowerVRなんだろ？
いまどきドリカスプログラマなんてお呼びじゃないんだけどな。

てかさ、キャッシュ容量分の解像度までしかレンダリングできないとかアホなこといってた人でしょ。
ストリーム処理って発想がないのに笑ったけど。
その程度PS3（Cell SPE）のレンダラでも当たり前にやってるはずなんだけどな。

PVRとの違いを説明するなら、キャッシュ（ローカルストレージ）はあくまでストリームバッファであって
データは外部メモリに配置する。
256k全部を使って処理するんじゃなくて、たとえば64kごとのデータブロックをストリーム処理する。
キャッシュ上に無いテクスチャなどのデータが必要になったら次のブロックに処理を回してメモリロードを隠蔽する。

SPEはコンテクストスイッチの仕組みを用意していないので泥臭いことをやらないといけないが、
Larrabeeならthread, CUDA coreでいうところのwarpを切り替えて実行する機構があるので
キャッシュミスが発生してもコアに空きを作らないで済む。

いいことを教えようか。この論文の人はいまNVIDIAの社員だよ。
URLﾘﾝｸ(graphics.stanford.edu)

↓あとこれはどうでもいい。会話が成立してないし。

> > それともあれか？今のRadeonやGeForceのアーキテクチャがそのまんまスケールしていくとでも思ってるのか？
> > PCIeの消費電力枠を500Wとか600Wとかに拡張でもするか？
>
> 寒い詭弁
> それがタイルレンダがスケールする理由にはならない。

質問をしてるのであって理由を説明したつもりはありません。
日本語できます？脳味噌沸いてる？
まあどうでもいういけど

622:,,・´∀｀・,,）　・・・→　-○○○
10/11/08 13:37:52 3FffnnCD
> それにテッセレートしてみた結果となりのタイルにはみ出すケースどうすんの？w

近傍のデータを隣のコアで処理するように組めばいい。そのための高速バスなのだし。
しょせんPowerVRの経験だけじゃ理解できないだろう？

623:,,・´∀｀・,,）　・・・→　-○○○
10/11/08 20:46:01 3FffnnCD
わからん人は我らがパルオ様が2002年に書いた記事でも読めばいい
URLﾘﾝｸ(www.atmarkit.co.jp)

んで今後NVIDIAがやることはこう。
来年登場するKeplerや更に先のMaxwellは、Fermiよりもはるかに大容量のキャッシュメモリを
搭載することになる。丁度Larrabeeか、それ以上かもわからんね。
キャッシュメモリを増量することでFLOPSあたりのVRAM帯域依存率を減らしていけば原理的に
ムーアの法則以上の速さでFLOPS/Wを引き上げることができるというのがあの性能向上予想の根拠。
Larrabeeのx86命令セットは貶しても方法論そのものは否定してない。
実際同じ方向に向かってるのだから。後藤も指摘してるが。

AMDは知らんがな。

624:Socket774
10/11/08 22:33:55 L9lSvpB6
なんだ散々ダメさを指摘されて実際Intelも手を引いたのに
未だ自分の愚かしさが理解できない馬鹿が連投してるのか

625:,,・´∀｀・,,）　・・・→　-○○○
10/11/08 23:24:24 3FffnnCD
愚かなのはお前だ

Intelは手を退いてないし実際NVIDIAはLarrabeeと同じ路線だ。
来年になればわかる。

626:Socket774
10/11/09 00:12:51 OxQEd/Z6
帯域爆発どんと来い！ by Rambus
URLﾘﾝｸ(pc.watch.impress.co.jp)

627:Socket774
10/11/09 00:15:14 kqVPAj7b
Don't 来い

628:,,・´∀｀・,,）　・・・→　-○○○
10/11/09 00:30:35 5t6+3pTh
XDR2ってまだペーパー規格なんだな。
暗にPS4の計画が具体的に動いてないことがわかった。

629:Socket774
10/11/09 00:45:15 rpT2EqTd
パタヘネの ARM 版みたいな教科書はないの？
「改訂 ARMプロセッサ」は見つけたけど、2001 年出版じゃ古すぎる気がする。

630:Socket774
10/11/09 00:56:34 hGOz6H48
> 来年になればわかる。
前もどこかで似たような事言ってたな。
いったい来年とやらはいつになったら来るのやらｗ

631:Socket774
10/11/09 01:09:55 BH8hnmDQ
>>621
PowerVRときいてドリカスっていつの時代だよ、おっさん。
お前iOSのプログラミングしたことないってことだな。
時代についていけてないねー。

>PVRとの違いを説明するなら、キャッシュ（ローカルストレージ）はあくまでストリームバッファであって
>データは外部メモリに配置する。
>256k全部を使って処理するんじゃなくて、たとえば64kごとのデータブロックをストリーム処理する。
だ・か・ら
タイルレンダに入る前にストリーミングを途切れさせるから、
そこに高速なキャッシュがあろうが意味が無い。

> 質問をしてるのであって理由を説明したつもりはありません。
じゃあ関係ない質問だな

> 近傍のデータを隣のコアで処理するように組めばいい。そのための高速バスなのだし。
この反論書いてるときおっさん顔真っ赤だったろ？
隣のコアって何だよ？
隣のタイルのことだとするとそのタイルはもうレンダリング終わってるかもしれないんだろ？
でテッセレータ関係なく実際その状況は起こるんだよ。
そうするとパフォーマンスががた落ちする.。

まぁお前は気長にLRB待って無駄に年食ってな

632:,,・´∀｀・,,）　・・・→　-○○○
10/11/09 02:34:43 5t6+3pTh
iOS（笑）　ごめん、Apple製品嫌いなんだ。
そもそもうちはゲーム系じゃないのよ。
常日頃から言ってるだろ、CUDAもAVXもやってるって。OSはLinuxだよ。

あ、SH-4+PowerVR+WindowsCEな環境向けの開発なら実は俺も数年前に一時開発に借り出されてたことあるんだわ。
具体的にはSH7770ってSoCだけどな。

あとCell SPEのソフトGPUはPS3上のLinuxでも試せるよ。
完全に思い通りにレンダラ組めるので、どうやったら高速に描画できるか、
ちょっとした罰ゲーム気分でお試しあれ。

本音ゲームなんてどうでもいい。科学技術計算で数字が出せるプロセッサ希望。
変われないならGPGPUなど滅んでしまえばいい（←ものすごい本音）

633:,,・´∀｀・,,）　・・・→　-○○○
10/11/09 02:53:45 5t6+3pTh
> タイルレンダに入る前にストリーミングを途切れさせるから、
> そこに高速なキャッシュがあろうが意味が無い。

お前さんやっぱ無能だな。ストリーミングの意味が解ってない。
PS3のゲーム開発とかやらせてもらえなかった落ちこぼれだろ。
たとえばSPEはMFCにコマンド送っておけば勝手にSPEにデータとってきてくれる。
その間にLSに載ってるデータだけで別の処理をしておく。

x86でいうprefetch*命令でも同じ。メインメモリのレイテンシを想定して必要になる前のタイミングで命令を発行していく。
Larrabeeの場合はprefetch*を発行してからファイバー（あるいはハードウェアスレッド）を切り替えてしまえばいい。
ポイントは必要なデータはキャッシュ（ストリームバッファ）に常に存在する状態を保つことだ。
キャッシュにないのがわかった時点で別のスレッドに回せばいい。
256kのキャッシュしかないなら1スレッド64k程度しかつかわないというのはそういうこと。

> 隣のタイルのことだとするとそのタイルはもうレンダリング終わってるかもしれないんだろ？
> でテッセレータ関係なく実際その状況は起こるんだよ。
> そうするとパフォーマンスががた落ちする.。

頂点補完に必要なデータが隣のタイルに振り分けた頂点座標なのか、ピクセルマップなのか
それすらもわかってない素人ですな。

634:Socket774
10/11/09 03:51:51 W66uFCPC
PowerVRはいつの間にか世間で一大勢力になってるぞ。
タイルに問題があるにしてもプログラムの側で対応というケースも出てくるかもしれない。