【AMD】RadeonのGPGPUの整備を願うスレ【NVIDIA】at JISAKU
【AMD】RadeonのGPGPUの整備を願うスレ【NVIDIA】 - 暇つぶし2ch550:Socket774
09/11/17 03:04:18 J0CAloNa
TOP500を見た感想。GPGPUは不要。

551:Socket774
09/11/17 03:11:25 sDLjTGPh
>>549
残念ながらありえな

>>550
トップを取ったORNLの時期スパコンはOpetron+Fermiで構成される予定

552:Socket774
09/11/17 04:19:57 HWM8g8Qc
>>551
気の毒だけど、それ多分詐欺スペック(倍精度1T、単精度2T、220W、10月発売)での計画だから見直されるか、かなり遅れる上に低性能になるかのどちらかになるよ。

553:Socket774
09/11/17 10:41:47 onkg88WT
今の所RadeonでもGeforceでもGPGPUで出来ることは
一般じゃトリップ検索ぐらいしかないよな。
それはおいといて。

スパコン分野は安い4870X2まとめ買いしてソフト開発の方に注力したんだろう。
HPC分野では破格のTeslaよりさらに破格で弾あるしな。

554:Socket774
09/11/17 11:01:44 1fynVpRR
ID:sDLjTGPhは知ったか書く前にまず日本語を正しく覚えようよ

555:Socket774
09/11/17 11:16:31 pT22jC+G
まーCUDAがゴミってのは同意

556:Socket774
09/11/17 11:26:31 0+lMNrJJ
ありえないとソースを一切出さずに言っているのが笑えるw

557:Socket774
09/11/19 21:24:18 7dKtM5JS
いろいろなコードをOpenCLで書いて、Radeon HD 5770で動かしてみたんだけど
GPUがハングアップしたり、clBuildProgramが永遠に終わらなかったり
とっても不安定... (WindowsのGPUリカバリに凄い感謝。Linuxでやったら毎回再起動が必要でとっても面倒だったw)
NVIDIAの方のOpenCLは安定してるのかなぁ ?

AMDさんにはバグだらけなんだから、頻繁な更新をお願いしたいところだけど、
次の更新は何時になる事やら...

558:Socket774
09/11/19 21:45:59 kGZu13vW
毎月更新してんだから遅くても1か月でしょ?
考えることか。

559:Socket774
09/11/19 21:50:53 ZhnFP/kU
GPGPU関係のDLLは毎月のCCCで毎回更新されるわけじゃない

560:Socket774
09/11/19 21:53:55 7dKtM5JS
あれ、毎月更新なのですか。知りませんでした。
今、SDKは11/12がLaunchDateになっているんですが、
中身は10/16のままなんですよね。
と言うことはそろそろ次の更新が来るのかなー。楽しみだ。

561:Socket774
09/11/20 22:12:28 zBOUov3X
AMDのOpenCL実装遅いのですが
これってCPUに続く重大なハードウェアバグですよね?
設計ミスで性能でない商品を売りつけてるんだよね?

562:Socket774
09/11/20 22:23:49 g7Uv+WaB
設計ミスで性能でないのはどちらかというとOpenCLの仕様のような。
汎用性狙うのは良いが、結局そのままじゃどのハードで動かしてもあまり速度は出ない。
速度出すにはターゲット依存の最適化をギチギチにかける必要がある。

DirectComputeの方がGPU的な特性のデバイスで
性能出す上ではかなりマシな仕様


563:Socket774
09/11/20 23:04:44 a7AIcygp
メモリの抽象とかは、5xxx番台とOpenCLはかなり近いと思うから
十分な性能が出そうな気がするけどねぇ。後はAMDのコンパイラの作り込み次第になるのかな。

4xxx番台は、ローカルメモリが実質グローバルメモリ状態だから、
ローカルメモリを使わなきゃいけない場合(=ほとんどの場合)は凄く遅くなりそうだけどね。

そーいえば、DirectComputeは全然調べてないや。OpenCLよりもGPU向けとのことだし、
少し調べてみようかな。

564:Socket774
09/11/20 23:06:12 H5UU0p6K
OpenCLはケチなAppleが旗振りだから、結局PCUnixの連中が手弁当でがんばらない限り発展はしないだろ
DirectComputeは例のごとくMSがどかどか研究費つぎ込むだろうから、環境整備は結構早いと思う

565:Socket774
09/11/20 23:18:59 Z9XJrmOs
>>562
その為にターゲット依存部分はデバイス毎に分けて書くこともできる仕様だから、
全部が間違ってるってわけでもないとも思うがな。

初版の仕様だし、そんなもんじゃね?

566:Socket774
09/11/21 13:12:04 f6DMArnx
>>535
それって、クリアスピードのアクセラレータを駆逐してるだけのような。

567:ラデ厨 ◆TX.Dz2qTUo
09/11/22 18:39:29 bWkox70j
ラデは内蔵メモリを増やすだけがGPGPU対策なんだね(・´ω`・)

568:ラデ厨 ◆TX.Dz2qTUo
09/11/26 20:54:52 /3fPnyA3
結局頼みの綱のOpenCLでも劇遅のようだね(・´ω`・)

569:Socket774
09/11/26 21:35:40 H0U+3ha3
badaboomの体験版はジャギが酷く使い物にならんが製品版だとバージョンが違うからジャギが相当でなくなってる



570:Socket774
09/11/27 04:26:18 LINBMUV6
まともなドライバ更新もできないんだから、GPGPUのソフト開発なんて無理だろw
この際、NVIDIAに金出してSDK移植してもらった方が良いんじゃね?w

571:Socket774
09/11/27 04:50:46 ZpRFWLuG
みんなこれやってよ
URLリンク(www.ngohq.com)

572:Socket774
09/11/27 05:09:37 hZfgkrKn
>>571
なんか、OpenCL動かないんだけど、とりあえずDirectComputeだけ
GeForce GTX260: D12577
Radeon HD5750: D96518

Radeonはちゃんとドライバ入れてるのに、OpenCLサポートがNoになるし、
GeForceは、一瞬でベンチが終わってスコアがマイナスになる。
OpenCLは自分の作ったプログラムやSDKのデモは動くんだけどなぁ。
このソフトは内部でNVIDIAとAMDのOpenCL.dllの位置を自動認識しているらしいから、
64bit版とかインストール先をデフォルトじゃない場所にするとだめなのかな。

とりあえず、このベンチを実行したらGTX260が出力する画面が乱れるようになったw

573:Socket774
09/11/27 07:08:30 knMAqEeD
>>572
一瞬gtx260が12万、5750が9万で260スゲーと思った。

574:Socket774
09/11/27 07:17:00 IAAdAjRq
変なべんちw

575:Socket774
09/11/27 07:43:50 hZfgkrKn
たぶん、ベンチマークプログラムが間違っているんじゃないかな?
v.0.25だと、
GTX260: M73704
HD5750: M27967
なので、こっちの方が妥当な結果に見える。
単純な行列演算ではGTX260はHD5750の半分の時間で処理出来るのでね。

576:Socket774
09/11/27 13:43:49 8cECvxy2
<スパコン>長崎大の浜田助教、3800万円で日本一の速度達成 安くても作れ、事業仕分けにも一石?

「何度もあきらめかけた」というが、3年かけてGPU380基を並列に作動させることに成功。
メーカーからの購入分だけでは足りず、実際に秋葉原でGPUを調達した。開発費は約3800万円。
一般的には10億~100億円ほどかかるというから、破格の安さだ。
そしてこのスパコンで、毎秒158兆回の計算ができる「演算速度日本一」を達成した。

URLリンク(headlines.yahoo.co.jp)



577:Socket774
09/11/27 14:13:08 fk+QuxYO
<スパコン>長崎大の浜田助教 の検索結果 約 2,170 件中 1 - 10 件目 (0.33 秒)

578:Socket774
09/11/27 18:50:28 +BlENlDG
全く性質の違う二つのスパコン比べても意味ないしなぁ
しかも地球シミュレータが作られたのは7年前でしょう

579:Socket774
09/11/27 19:23:03 sMs8dv1c
その業績は称えていいものだと思うが
どんな課題でも158TFlops で計算できるわけではない事は知っておかないと

URLリンク(progrape.jp) の6頁

580:Socket774
09/11/27 23:16:41 MKl/6y2u
>>576
計算速度2PFLOPS(毎秒2000兆回)のGRAPE-DRはスルーですかいw


・・・ところで、GRAPE-DRって完成していたっけ?(’’;)

581:Socket774
09/11/28 00:04:35 zSUAFowA
映像系もいいけどサウンド系のソフト欲しいな

582:Socket774
09/11/28 00:09:51 mo+fN+i+
>>580
あれは・・・おっとこんな時間に誰か来たようだ

583:Socket774
09/11/28 10:33:43 dTeZlDtj
>>581
FM音源のVSTi作ってる人とか居たぞ。
ソフトシンセの世界では、いくつかでてる。

584:Socket774
09/11/28 12:09:28 OETqcr9n
FM音源のMIDIプレイヤーとVSTリバーブは見たけどVSTiなんかあったっけ?
レイテンシ命のDTMじゃGT200やRV870でVSTiはまだ無謀だと思うけど

585:Socket774
09/11/28 16:05:49 HPkLGX1Y
作ってる人もいるんだね、ほんと楽しみだ
レイテンシは構造的にどうなんだろ、問題ある部分あるんだろうか

586:ラデ厨 ◆TX.Dz2qTUo
09/11/29 19:34:23 VyvBZLs/
ラデはレイテンシを隠蔽できる構造にないから無謀だね(・´ω`・)

587:,,・´∀`・,,)っ-○○○
09/11/29 21:01:39 1kopwAVM
L2キャッシュが1MBもないNVIDEOも似たり寄ったりだけどな


588:Socket774
09/11/30 04:18:28 U/HzEC9l
電気信号的なレイテンシなんてそんなに影響出るの?


589:Socket774
09/11/30 20:18:57 5Ydip3hi
>>588
オーディオ関係のマニアは、”事実上はゼロである”という観念がありません。
”実際にない”ことを求めます。

590:Socket774
09/12/01 15:32:03 v+AJtrWb
オーディオプロセッシング関連は
うわさだけでぜんぜん実用レベルまでいってねえよ
同じ奴がソースなしで言ってんだろ?
まあフリーより商用のほうが対応先だろうな

591:Socket774
09/12/01 17:34:23 ILFfBfWd
ソースどころか、ソースコードまで一緒に公開されてますが・・・
ちったぁggrksやまほど出てくるっての。

>ビデオカードでサウンドを生成するFM音源内蔵型のMIDIプレイヤー「g_synth」
URLリンク(www.forest.impress.co.jp)


592:Socket774
09/12/01 19:44:30 AWs1tBtd
音楽製作系の人と聞き専のオーディオマニアは微妙に志向が違う

593:Socket774
09/12/02 00:00:02 EDmxAnKv
開発環境も進化したしこれからどんどん出てきそうだな

594:Socket774
09/12/02 00:26:16 uZ8AkrE/
>>591
それただのMIDIプレイヤーじゃねえか
DTM系の奴は昔デュアルOpteronが流行ったくらい発音のレイテンシに命を懸けてるんだぞ…
未だと最小レイテンシ10msとか廉価環境扱い

595:Socket774
09/12/02 00:31:37 X5jYAOvM
音げー目的か?
普通の演奏とか録音ならまったく問題ないと思うけどな

596:Socket774
09/12/02 00:46:01 S/1P/djR
音はよく分からんけど10msも遅延すると位相合わせるのが面倒くさかったりするんじゃないの?

597:Socket774
09/12/02 09:24:27 g1AdaZRI
GPUに送る電気信号的なレイテンシが、10msとかいくわけが無いw

598:ラデ厨 ◆TX.Dz2qTUo
09/12/03 21:07:46 uiwYNK7o
GPGPUから逸脱してしまってるね(・´ω`・)

599:Socket774
09/12/05 01:51:41 3Lwb2owT
Sandra 2010 GPGPUベンチもあるよ
URLリンク(www.semiaccurate.com)


600:ラデ厨 ◆TX.Dz2qTUo
09/12/07 20:55:44 cpLaJBNb
いよいよGPGPUの時代だね(・´ω`・)

601:ラデ厨 ◆TX.Dz2qTUo
09/12/09 22:31:25 TRB9nl6x
CUDAが日々進歩する中アチストリームは何の更新もないまま放置されてるね(・´ω`・)

602:Socket774
09/12/09 22:37:06 sHDMcF0+
良いじゃねえかこのままゲームはAMD、GPGPUはゲフォでどのPCにも二枚差しで仲良くやってこうぜ

603:Socket774
09/12/09 23:08:21 gqgr6r/n
グプグプもラデだろうな。
Win7はDX11対応が最低ラインだからゲフォはまずはそこからだな。
それ以外はTop500にそれなりに出て来ない限りどうでもいいよ。

604:Socket774
09/12/10 00:22:14 5B1orArU
ゲフォ…というかTeslaはFermiベース?が来年東工大のTSUBAME2.0に大量納入される予定だけど
ラデは既に中国の天河一号に採用されてTOP500中5位のマシンの一部だからなぁ
万が一LarrabeeのGPU版が普通に出来てたらnvidia死んでたわ

605:Socket774
09/12/10 00:32:20 58xuFuyx
そんな遠い話はいいからさー
早いとこエンコなりなんなりにも使えるようにしとくれよー

606:Socket774
09/12/10 15:14:41 q+rJanK1
>>605
Win7で既にトランスコードに使ってるでしょ


607:ラデ厨 ◆TX.Dz2qTUo
09/12/11 23:12:04 7Zv2fhNc
詳しく(・´ω`・)

608:Socket774
09/12/12 00:17:33 O6WO/6UC
2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来
URLリンク(www.slideshare.net)

609:Socket774
09/12/12 00:31:55 AXLokd1q
Teslaって失敗か?
安くてナンボの世界なんだな

NVは電気代にも配慮してくれ
日本ローカル事情じゃ無理か

610:Socket774
09/12/12 12:39:35 UJL+8Zjg
>>591
合成音声エンジンをGPUで動かせばいんじゃね

611:Socket774
09/12/12 16:56:21 Jeys0BcR
>>610
初音ミクを見るにそこまでしなくてもって感じ


612:Socket774
09/12/12 18:59:28 l+YuSEQo
初音ミクは初音ミクであって人声モデリングとして見たら微妙どころじゃない糞音源でしょ
電子楽器は元々CPUじゃ遅すぎるから専用DSP作って賄ってた分野だから
再現度の高いVOCALOIDはメニーコアCPUやGPUのような今のCPUより高性能なハードウェアで実装されるだろうね

613:,,・´∀`・,,)っ-○○○
09/12/12 19:10:55 LfwDXAhP
サンプル数の問題だろ。
人の声の50音パターンを並べるだけの作業のCPU負荷なんてたかが知れてる。
逆に人の声を動的生成するアルゴリズムの改良が無い限り、GPUなんて使おうが何の進歩も得られない。
つーか固定パターンを並べるだけのほうが楽ではあるんだが


614:Socket774
09/12/12 19:25:00 8yI7zciC
楽器の物理シミュレーションとか手抜きせずやろうとしたら重いね

615:Socket774
09/12/12 21:44:42 ScJ9lZ1i
ミクがくそ音源なのはサンプルが絶対的に少ないから。
演算性能の問題ではない。

616:Socket774
09/12/12 21:49:04 zXpYPT6I
>>613
音色を変えずにピッチを変更するってだけでも結構なコストがかかるぞ。

617:,,・´∀`・,,)っ-○○○
09/12/12 21:51:58 LfwDXAhP
がくっぽいどなんか低音以外全然本人とかけ離れてるだろ

618:Socket774
09/12/12 22:18:54 ScJ9lZ1i
ほんとに打ちこんでる奴いるのか?
PitchBend動かす程度の負荷なんてたかが知れてる。

そんなものより空間系エフェクタのほうがよっぽど負荷かかるわ。

619:,,・´∀`・,,)っ-○○○
09/12/12 22:21:19 LfwDXAhP
これだけは確か


RadeonはFFTに向いてない


620:Socket774
09/12/12 22:44:37 UJL+8Zjg
CPUパワー喰って数値計算いっぱいある処理で
楽しげな使い道だと音声合成くらいかと思うけどなぁ…

621:Socket774
09/12/12 23:01:37 zXpYPT6I
>>617-618
ボカロの処理は知らないが、短時間フーリエ変換で位相の矛盾がないように合成するには相当な処理が必要になるよ。

622:,,・´∀`・,,)っ-○○○
09/12/12 23:45:17 LfwDXAhP
短時間フーリエ変換の「相当な処理」なんてGPUに不向きもいいところだ


623:Socket774
09/12/12 23:50:26 enOtsbrv
どうでも良いが、ハードシンセなんてkorgがoasys(pen4搭載)を出して以来衰退してますが
だが、物理音源ではZ1EX,V1以上のものは知らない
出音はEX5以上のものを知らない

624:Socket774
09/12/13 00:00:09 X1BCs2wY
あとサンプリング使わない純粋なフォルマント音源で
パフューム並の表現力はあるyamahaのfs1r

625:,,・´∀`・,,)っ-○○○
09/12/13 00:08:28 Gw3F5ZKy
ハードシンセの衰退を決定づけたのはMMXが出た頃じゃね?
当時は革新的だったよな。XG音源とかナツい。

元になったDSPはポシャったけど、MMXの登場はx86のソフトウェア需要拡大を決定づけた。

626:Socket774
09/12/13 00:10:33 lViooUoI
>>622
具体的な理由は言えないんですねわかります

627:,,・´∀`・,,)っ-○○○
09/12/13 00:13:34 Gw3F5ZKy
>>626
この惨状が理由だよ
URLリンク(forums.amd.com)

628:Socket774
09/12/13 00:32:49 WN1p6Zn7
mmx pentium必須だったroland virtual sound canvas(VSC-55)とか
SSEつかったyamahaのS-YXG100PVLでVL(物理モデル(簡略))1音+PCMとか
ま、このころは再生だけでやっとこさで、演奏に耐えられるもんじゃなかったが

VLといえばVL70mがいまだに生産終了になってないのが驚きだ

629:Socket774
09/12/13 00:37:35 lViooUoI
>>627
団子だからそのスレッドで何が問題になってるのかわかってると信じて書いておこう。
音声合成で用いる短時間フーリエ変換は基本的に8192点を超えることはない。

630:,,・´∀`・,,)っ-○○○
09/12/13 00:41:15 Gw3F5ZKy
いや、そもそも不向きだからソフトが無いんですよ。
CPU版のACMLにはあるのにGPUには無いものってのはそういうこと。


631:,,・´∀`・,,)っ-○○○
09/12/13 00:50:52 Gw3F5ZKy
URLリンク(www.amd.com)
> 同社のアルゴリズム・チームは、「AMD FireStream 9250」により大規模な1Dの複雑な単精度浮動小数点FFTに
> おいて174 ギガフロップスを達成したと報告しています※3

倍精度かと一瞬目を疑ったけどこれが現実。
大本営発表ですら9250駆使してこれじゃ使えんわ。

残念だがGPUソフトシンセ(笑)が出る前にコモディティなクアッドコアCPUが単精度200GFLOPSに到達するするほうが先だ。
AVX用のFFTは既に俺でも書いてるし。

632:Socket774
09/12/13 01:10:05 lViooUoI
団子は音声合成について少し学んでからレスしてくれ。
> 大規模な1Dの複雑な単精度浮動小数点FFTにおいて
長い1つの数列に対する処理の場合の話でしょ。>>629でFA

633:,,・´∀`・,,)っ-○○○
09/12/13 01:14:24 Gw3F5ZKy
だから具体的に何GFLOPS出せるのよ

634:Socket774
09/12/13 01:19:17 lViooUoI
174GFLOPS以上。

で、CPUでは具体的に何GFLOPS出せるのよ?

635:,,・´∀`・,,)っ-○○○
09/12/13 01:26:23 Gw3F5ZKy
シミュレーションだが、普通にSandy Bridgeで200超える。

636:,,・´∀`・,,)っ-○○○
09/12/13 01:29:46 Gw3F5ZKy
ああ実際コード組んだ訳じゃないのか。
俺のパフォーマンス予想だと実効100GFLOPS以下。
320のデータ並列度で更に何スレッドもインターリーブするから、むしろ大規模じゃないと遊びが多くなるから。

637:,,・´∀`・,,)っ-○○○
09/12/13 01:31:51 Gw3F5ZKy
まさかGPUの特性わかってないの?


638:Socket774
09/12/13 01:34:18 lViooUoI
その200GFLOPS以上とやらでようやく1つの音素が合成できるってだけでしょ?
複数の音素で並列に走らせられるから、そういう意味では十分大規模になるよ。

639:Socket774
09/12/13 01:36:22 lViooUoI
なんで俺がFFTのコード書かなきゃならんのさ。
別に音声合成の研究してるわけじゃないよ。

640:,,・´∀`・,,)っ-○○○
09/12/13 01:41:38 Gw3F5ZKy
なら素人は黙ってな

641:Socket774
09/12/13 01:42:18 lViooUoI
で、具体的な反論はまだですか?

642:Socket774
09/12/13 01:44:29 UcM+1jOt
おいおい、Larrabeeで恥掻いたばかりなのに次のターゲットは大本営ベンチマークすらまだ出ていないAVXかよ…

643:,,・´∀`・,,)っ-○○○
09/12/13 01:45:13 Gw3F5ZKy
反論はできない。なぜなら理論だってないから。

論と脳内妄想の区別はつけよう。
せめてそれなりの資料を示そう。

644:,,・´∀`・,,)っ-○○○
09/12/13 01:46:04 Gw3F5ZKy
>>642
ばーかばーか
URLリンク(software.intel.com)

645:Socket774
09/12/13 01:46:45 yKnayMSN
>>641
さっきから独り言を言っているようにしか見えない俺は団子をNG登録済み。
一々相手にする必要はない。殆どの住人は見限ってる。

646:Socket774
09/12/13 01:53:48 lViooUoI
>>643
どこら辺が妄想なのか指摘することぐらいは出来るよね。

647:,,・´∀`・,,)っ-○○○
09/12/13 01:54:22 Gw3F5ZKy
具体的な数字を示してない

648:,,・´∀`・,,)っ-○○○
09/12/13 01:57:01 Gw3F5ZKy
バタフライ演算用のロジックも備えてない(というかペナルティが生じる)し、CPUに差を詰められるばかりで先がない。
まさか公称1.2GFLOPSが出せると思ってる訳じゃあるまい?



649:Socket774
09/12/13 01:58:10 UcM+1jOt
>>644
で、そのページのどこに実機でも200GFLOPS近い数字が出せるって書いてあるんだ?

650:,,・´∀`・,,)っ-○○○
09/12/13 01:59:00 Gw3F5ZKy
>>649
お前には公開されてないよ

651:Socket774
09/12/13 02:00:27 0aJajCkK
ID:Gw3F5ZKy

652:,,・´∀`・,,)っ-○○○
09/12/13 02:04:39 Gw3F5ZKy
SIMD演算でFFTやる上でネックになりがちなのは俗にバタフライ演算といわれる水平方向の値移動。
URLリンク(upload.wikimedia.org)

しかしまさにこの通りのオペレーションを実行する命令があるんだわAVXには

653:Socket774
09/12/13 02:20:29 lViooUoI
随分進んでしまったようで。

>>647
Cypressは32KBのLDSとアドレッシング可能なレジスタをSIMD Core毎に持ってるから
4000点FFTを同時に20並列実行出来るんじゃねってことで。

>>648
> バタフライ演算用のロジックも備えてない
アドレッシング可能なレジスタ、CPUのSIMDと違って別々の処理が出来るStream Core。
別に要らなくね?

654:,,・´∀`・,,)っ-○○○
09/12/13 02:22:48 Gw3F5ZKy
たぶんRadeonが一番苦手なオペレーションじゃないかな。
CUDAでも同期プリミティブ使いつつShared MemoryにストアしてロードとかしないといけないのでLoad/Storeネック。

LarrabeeでのFFTはかなり素直に書けたんだぜ。おまいらはバカにしてるけど。
4近傍要素に限れば積和演算1命令にswizzle操作を畳み込める。L1キャッシュへのストアなしでな。

655:,,・´∀`・,,)っ-○○○
09/12/13 02:23:31 Gw3F5ZKy
> > バタフライ演算用のロジックも備えてない
> アドレッシング可能なレジスタ、CPUのSIMDと違って別々の処理が出来るStream Core。
> 別に要らなくね?

やっぱわかってないな

656:,,・´∀`・,,)っ-○○○
09/12/13 03:12:55 Gw3F5ZKy
一応書いておくか。

要素数が少ないほどベクトル内の要素移動の頻度が相対的に高くなりその分の演算リソースを
FP演算にまわせなくなるので、原理的にFLOPS数は落ちる。
しかも、最初の数ステージは積和か積差かでプレディケートしないといけない。

こういう要素があるゆえに、一般的にはSIMD演算器のベクトル長が長いほど相対的に不利で、
FFTの要素数がSIMD長を大きく超えてはじめて実効効率があがっていく。
(ただしメモリ帯域がネックにならない範囲で)

174GFLOPSでるのはベストケースで、これより短いと、あからさまにネックになる。

何故こうなるかは仕様書読んでみればわかる。
というかシミュレータなり実機なりで動かしてみれば良い。

657:,,・´∀`・,,)っ-○○○
09/12/13 03:17:55 Gw3F5ZKy
プレディケートっていうか定数パターンとのXORで符号反転すれば十分か。
それでもその分だけはFLOPS数は殺がれることは間違いないが。


658:Socket774
09/12/13 05:52:40 U9qni5tE
スレ開けたら団子だらけでふいたwww

659:Socket774
09/12/13 06:37:51 g7dw5jYu
とりあえず10240bitじゃデカスギル
chromeを見習って出直せ

660:Socket774
09/12/13 08:08:47 00KLpItY
chromeは32bit spを8個まとめたものを1グループとして
その中にcommon register fileとL1 cacheがある
これがnv的に言うとSMだな

それが4つあるのがchrome400/500シリーズ
S3はこれをshader poolと呼ぶ、更にこれに直結する形で
L2 cacheとstream bufferが着く
ちなに固定機能群と、shader poolの演算群は独立の並列構造

粒度は特に語られてはいないが、32bit*8sp*4cycleとしても最大でも1024bit
5400Eで書かれてるように128bit(32*4sp)単位でなら512bit
ま、サイクルは4以下の可能性もあるので、もっと小さいかもな
クソ長い固定機能パイプラインから外れた構造だとレイテンシも短かろう
元がSSEなのが理由かは知らんが、1サイクルでの積和算はサポートしない

この構造だと、何気にcacheはライトバックっぽいんだが
あの高効率はそれが原因か?

661:Socket774
09/12/13 10:57:45 u5EvRrBG
目立たないけど凄いやつ

特にアピールもしない
分かるやつだけが寄っていく

662:Socket774
09/12/13 22:12:40 5ni2gXrg
Google Chromeの話かと思って頭ひねってしまった・・・
Chromeって、S3の方かよw

663:Socket774
09/12/14 00:26:58 YDh/0X6R
名前が一番かっこいいのもChrome。

664:Socket774
09/12/14 01:42:50 XK+8IS33
タクロー

665:Socket774
09/12/14 09:24:11 J64TBleT
団子って基本的に妄想前提で理論付けしてくるよね

666:,,・´∀`・,,)っ-○○○
09/12/14 23:12:59 kgBSmHff
だから実測してみろよ

667:ラデ厨 ◆TX.Dz2qTUo
09/12/14 23:45:37 ZF/7D2OO
10240bitじゃ紙芝居よりも遅いだろうね(・´ω`・)

668:,,・´∀`・,,)っ-○○○
09/12/14 23:48:55 kgBSmHff
ソフトが存在してないこと自体が競争力がないことの証明


669:Socket774
09/12/15 08:06:12 hGxQ/WOZ
団子さんお元気ですか?
ララビーが失敗した今、あなたは何の味方で何を敵にしているんですか?

670:,,・´∀`・,,)っ-○○○
09/12/15 08:33:55 7VClrwiG
消去法でCUDA

671:Socket774
09/12/15 08:44:17 4XaGvXFR
逆神だな。
HPC向けのララビー残るのに乗り換える意味が分からん。


672:Socket774
09/12/15 11:27:37 R6Wx7Qr6
存在しないから俺の理論が正しいとかどこの厨房ですか?
まぁどこにでもいる俺が知らないから有名(実行可能)とかありえないとか本気で思ってる池沼なんだろうけど

673:Socket774
09/12/15 12:45:26 e+JQJy8W
じゃあ存在させてみせろよ。
絵に描いた餅など美味くはないぞ。

674:Socket774
09/12/15 12:59:16 B8geLIZN
>>672
じゃあお前はカタログスペックに釣られて存在してもいないアプリ性能の最強を唱えるマンチキンか。
発想がCellマンセーしてたゲハ坊レベル。


675:Socket774
09/12/15 13:12:41 R6Wx7Qr6
毎回この手の煽りする奴湧くけどまだ発展途上の技術に妄想で決め付けてるのがオカシイって書いてるだけだぞ
自分じゃ技術開発も出来ないくせに文句だけは一人前だな
とくに>>674なんてどこにマンセーしてる意見が載ってると言うんだ?
ホントケチつけるのだけが生き甲斐なんだな

676:Socket774
09/12/15 13:23:08 e+JQJy8W
> 発展途上の技術
要するに現時点では使い物にならないってことだろ

677:Socket774
09/12/15 13:26:25 e+JQJy8W
言い出しっぺが動かないんじゃ発展もしようがないよ?>ID:R6Wx7Qr6


678:Socket774
09/12/15 13:27:21 pXJGMsEM
つまり団子さんの敵はOpenCLとDirectX11ということですか?
それともCUDA Cのことではないから敵ではなく、環境としてのCUDAということで、
敵はATI Streamということですかね。

679:Socket774
09/12/15 17:10:44 cCvgrZeN
発展途上っていか
今のstreamは、真面目にCPU統合しようとした場合
切り捨て確実だよ

680:Socket774
09/12/15 19:12:42 98ViIECX

最高のバカ

681:Socket774
09/12/15 20:40:02 cCvgrZeN
阿保か
10240bitの演算粒度のまま統合してどうするw
CPUとの命令セットの統合はどうするの?
モッサリVLIWのままか?
有り得ないなからw
あ、お絵かき専用だから良いのか
スマンね

682:Socket774
09/12/15 20:58:38 4XaGvXFR
なんだ10240bitの人か。

683:Socket774
09/12/15 21:14:12 cCvgrZeN
10240bitは単なる事実

684:Socket774
09/12/15 21:24:54 nT/l3bnJ
VILWが続くと本気で思ってるんだ

685:Socket774
09/12/15 21:34:31 4XaGvXFR
VLIWは今の密度で演算器を詰め込むためには必要だろ。
粒度変えるのは簡単だが、VLIW構成変えるのは
結局シェーダの新規設計になる。



686:Socket774
09/12/15 21:48:05 cCvgrZeN
当たり前だろ
はっきり言って統合に際しては
AMDのGPUは全て作り替える必要がある
真っ先に捨てられるのがモッサリVLIW

687:Socket774
09/12/15 21:54:40 15x8MbSR
いつも文章一緒だから
もう10240bit乙とでも書いておけw

688:Socket774
09/12/15 21:55:07 8+1RVXjN
逆にすぐにでも統合できそうな構造なのはS3だね

689:Socket774
09/12/15 22:07:31 cCvgrZeN
まだ10240bitが理解出来てないのね

じゃ64要素(単位Pixel)でいいやw

690:ラデ厨 ◆TX.Dz2qTUo
09/12/15 22:47:14 hZmYQfIy
アムダはS3とフュージョンすれば大勝利だね(・´ω`・)

691:Socket774
09/12/15 23:00:34 r1WSeCB3
ID変えてまで主張することなのか

692:,,・´∀`・,,)っ-○○○
09/12/15 23:46:02 7VClrwiG
>>679
お前はバカですか?アホですか?屑ですか?
好きか嫌いかではなく、使えるか使えないかだ。
CUDAは比較的マシなだけだ。

693:Socket774
09/12/16 00:51:29 0YJkovHT
火曜日の最高の馬鹿はID:cCvgrZeNか。OK.把握

694:Socket774
09/12/16 01:42:18 HTvzrumj
ATIVideoConverter使ってみたけど謳い文句は嘘つきとしか言いようが無い出来だな
GPUloadは10%以下でCPU使用率が上がるし、大体読み込めるファイルに限りがありすぎだろ特定のaviとwmvぐらいしか読み込まないとかなんだよこれは・・・
まだbadaboom使ってた方がマシ読み込めるファイルもまあまあ多いし進行速度がプレビュー画面で表示されるしなにより複数起動できて同時進行でエンコ出来るのがいい
と俺は思った

695:Socket774
09/12/16 05:42:48 NKB5iRrP
>692はアンカーミスだろ
>678への

696:Socket774
09/12/16 06:07:32 B63RfcW3
URLリンク(pc.watch.impress.co.jp)
>Bulldozerの実質的な開発リーダーだったMoore氏が、現在、APU(Accelerated Processing Unit=FUSION)を担当しているところも意味深だ。
>AMDの現在のGPUは、NVIDIAと比べると、ずっと既存グラフィックスに最適化している。AMDの勇ましいヘテロジニアスコンピューティングのかけ声とは裏腹に、
>GPUアーキテクチャ自体は保守的だ。もしかすると、AMDは現在のGPU開発チームとは別に、CPUのアーキテクトが中心になったデータ並列コアの開発を進めているのかもしれない。

これってcentaurがS3の演算器作ったのとおなじだな

697:Socket774
09/12/16 06:24:10 NKB5iRrP
いつも後追いだな
今のGPUも切り捨て確定

698:Socket774
09/12/16 07:21:58 gMUebggu
そんな苛めんなよ

699:Socket774
09/12/16 07:33:49 NKB5iRrP
単なる事実

700:Socket774
09/12/16 08:06:53 33JD+Gs6
↑最高のバカ

701:Socket774
09/12/16 09:05:24 FViH9jtf
次は新しいアーキテクチャって言われてるのに

どこまでも今の状況にこじつけたいのね

702:Socket774
09/12/16 09:17:00 Tcct9O59
いいものを作ってくれるなら後追いでもいいよ。
作れもしないよりは遥かにね。

703:Socket774
09/12/16 09:24:20 BFP7Qysj
おっとLarrabeeの悪口はそこまでだ

704:Socket774
09/12/16 10:09:38 NKB5iRrP
今のままで使い物になると思い込んでる
馬鹿が多いこと

705:Socket774
09/12/16 10:27:17 FViH9jtf
単純にGPUの延長じゃ厳しいからね

706:Socket774
09/12/16 11:32:16 Y+dhuOrf
コード一行も書かないニートが巨額の研究資金と最高級の頭脳の結晶たるGPU/CPUを語るのってかっこいい。

707:Socket774
09/12/16 11:39:49 Tcct9O59
Fermiが順調に延期しまくってるけど、大量受注にはどう対応するんだろう。
中には今年中の発売で契約していたものもあるだろうに。

708:Socket774
09/12/16 12:03:31 FViH9jtf
延期のお知らせを出すだけでしょ

709:Socket774
09/12/16 12:05:00 4vG9ObY4
鳩山乙

710:Socket774
09/12/16 16:33:31 Tcct9O59
毎月延期のお知らせしてそうだ。

711:Socket774
09/12/17 20:20:04 Ett78KgA
GT200シリーズはDirectX10.1対応!11なんて対応しても今の時点で恩恵なんか全くないからいいんだよ!消費電力?そんなものは何枚も積まなければ気にしなくていいよ!ベンチマーク?そんなのキチガイの趣味でしょ!?

そうだ!今流行りのGPGPUだけどなんちゃらストリームはへぼいし対応ソフトも少ないらしいね!それに比べてCUDA!やっぱりGPGPU使うならCUDAだよね!

だからラデなんかよりゲロが一番いいんだよ!わかった?もう一度言うよ!?ゲロが一番いいんだよ!

ゲロ最高!ゲロ最高!ゲロ!ゲロ!ゲロ!

ゲロゲロゲロゲロゲロゲロゲロおおおおおお!!!!!

712:ラデ厨 ◆TX.Dz2qTUo
09/12/18 22:36:51 9ICG0znu
カエルの鳴き声がやかましいね(・´ω`・)

713:Socket774
09/12/18 22:43:54 +n/Ky674
もう止めて!!
ゲフォのライフはマイナスよおおおおおおお!!!!
そこまで進化したら、プーアルを最終形態のフリーザが、ガチボコリするようなもんだよ・・・

714:Socket774
09/12/19 00:05:02 MTNmnj8o
とあるスレで見つけた
URLリンク(www.comtec.daikin.co.jp)

MachStudioは3Dワークステーションのグラフィックアクセラレータとして
最適なパフォーマンスをもたらすATI FirePro V8750と共に出荷されます。

V8750=HD4870

715:ラデ厨 ◆TX.Dz2qTUo
09/12/20 21:55:42 YlA+yxnL
それで?(・´ω`・)

716:Socket774
09/12/20 23:15:06 ZRBXC3MJ
>>715
枯れたゲボ使うお前にゃ無縁だよww

717:Socket774
09/12/21 23:21:29 giTSEqYb
今のメッセージは「おにいちゃん」と「まんこ」
を高校生に言わせたかっただけのメッセージだな!

718:Socket774
09/12/22 01:15:41 Oo9tMpw5
やっとβがとれたがHD2xxxと3xxxは切り捨てか

719:Socket774
09/12/22 02:03:02 vutx6JxQ
>>571
Cata9.12でHD4830でDirectCompute動くようになった
D104665

720:Socket774
09/12/22 18:47:43 6GybTGqN
rtgenがラデ上で動くようにならないかなー

721:ラデ厨 ◆TX.Dz2qTUo
09/12/24 17:55:58 IttyBCgq
無理無理(・´ω`・)

722:Socket774
09/12/25 21:50:08 DPFKFvOj
スパイウェア解析ツールとな

rtgenを使うのではなく自分でビルドすればいいのに


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch