【GPGPU】くだすれCUDAスレ pert2【NVIDIA】

【GPGPU】くだすれCUDAスレ pert2【NVIDIA】at TECH

【GPGPU】くだすれCUDAスレ pert2【NVIDIA】 - 暇つぶし2ch743:デフォルトの名無しさん
10/03/29 08:15:18
そんなことしたらますますイールドが悪くなるわけで。

744:デフォルトの名無しさん
10/03/29 11:43:02
1CUDAコア破損しただけで３２個分が台無しになるFermi
512すべて無事なのはほとんどないんだろうな

745:デフォルトの名無しさん
10/03/29 11:50:30
PS3と同じ作戦でござる。

　　　　＿＿＿＿＿＿＿＿＿＿＿＿
　　　　ヾミ || || || || || || || ,l,,l,,l 川〃彡|
　　　　　V~~''-山┴''''""~ 　　ヾニﾆ彡|　　　　　　　512SPは存在する・・・・・・！
　　　　 /　二ー―''二　　　　　ヾﾆニ┤　　　　　　存在するが・・・
　　　 <'-.,　　￣￣　　 _,,,..-‐､　〉ニﾆ|　　　　　　　今回　まだ　全部有効にするとの
　　　/"''-ﾆ,‐l 　　l`__ニ-‐'''""` /ニ二|　　　　　　　指定まではしていない
　　　|　==＝､!　　`＝====､　　l =ｌべ=|
.　　　| `ーﾟ‐'/　　 `ー‐ﾟ―' 　　l.=lへ|~|　　　　　　　そのことを
　　　 |`ー‐/　　　　`ー―　　H<,〉|=|　　　　　　　どうか諸君らも
　　　 |　　/　　　､　　　　　　 l|__ノｰ|　　　　　　　思い出していただきたい
.　　　| ／`ー　~　′　　＼　　　.|ヾ.ニ|ヽ
　　　 |ｌ　下王l王l王l王lヲ｜　　|　ヾ_,|　＼　　　　　つまり・・・・
. 　　 |　　　　≡　　　　　　　　　|　　 `l　　＼__　　　我々がその気になれば
　　　　!、　　　　　　　　　　 _,,..-'′ ／l　　　 |　~'''　 FermiのSP数は
‐''"￣|　`iｰ-..,,,＿,,,,,....-‐'''"　　／　 |　　　 |　　　 320SP　384SP　ということも
　-―|　　|＼　　　　　　　　　／　　 |　　　　 |　　　可能だろう・・・・・・・・・・ということ・・・・！
　　 |　　 |　＼　　　　　　／　　　 |　　　　　 |

746:デフォルトの名無しさん
10/03/29 14:07:53
　　　　　＿＿＿_
　　　　　　　|<三`'ヨ′
　　　　　　_/6|ｰ廿┤
　　　 /l￣　ＫL.三.｣￣h
.　　 /　|　　レ兮y′/ l
　　〈　く　　 ∨ l/　,ｲ　|
　　　＼_,.>、　　　 /,L..｣_
.　0ﾆﾆﾆ)而}ﾆﾆﾆﾆニ),ﾘﾘﾆﾆ)
.　　Ｌ| |＿＿＿__|＿＿__| |
　　 l | |.＿＿＿＿＿＿_| |　　,:
　,　　l ＼ヽ　l　　|　　 , '／　　;'
　:, ____l＿|_|_;_|＿|＿__|_|＿＿　　　;
　　|＼ﾞ;三三ﾞ';三三三,;ﾞ三三＼　;'
　　|＼＼三三ﾞ三ｼﾞｼﾞ三三,''三;'＼,;'　　;'
　　|、＼＼三ﾞ;三三ｼﾞｼﾞ･'三三三;＼　;
　　0ﾄ､＼＼＼;'三三;'三三三;''三三,;'＼
　　　　＼＼＼| 炎炎炎炎炎炎炎炎炎 |
　　　　　＼＼| 二I二二I二二I二二I二 |
　　　　　　　＼ＬI二二I二二I二二I二二｣
　　　　　　　　0｣　　　　　　　　　　　　0｣

747:デフォルトの名無しさん
10/03/30 10:14:08
NVDIAフォーラムでGTX480の倍精度性能はTeslaの1/4という発言が
ありますがどうなんでしょう

748:デフォルトの名無しさん
10/03/30 10:30:27
>>747
おれ、人柱としてぽちったから待っててくれ。

749:デフォルトの名無しさん
10/03/30 11:15:36
>>748
俺はお前を待っているぞ
+　　　+
　 ∧＿∧ 　+
　（0ﾟ・∀・）　　　ﾜｸﾜｸﾃｶﾃｶ
　（0ﾟ∪ ∪ +
　と＿_）__）　+

750:デフォルトの名無しさん
10/03/30 11:36:18
Quadroと同じ戦略か。
妥当っちゃ妥当だな

751:デフォルトの名無しさん
10/03/30 12:00:52
EECだけでなく倍精度も性能を劣化させたのか
GPGPUの利点がどんどんなくなってるな

752:デフォルトの名無しさん
10/03/30 12:20:38
>>749
あ、748なんだけど、さすがにTesla買う金は無いのよ。
なんか、GTX480で動かして「明らかに倍精度の性能落としてやがる！！！１１」と
分かるプログラムはどこかにあるかな。

753:デフォルトの名無しさん
10/03/30 12:21:31
Teslaもないと比べようがなくね？

visual profilerの関数の実行時間を比較くらいしか厳密な計測はできなさそう。

754:753
10/03/30 12:22:12
リーロードしてなかった、悪気はないんだｗ

755:デフォルトの名無しさん
10/03/30 12:34:45
NVIDIA_GPU_Computing_SDK/C/bin/linux/release$ ./matrixMul
Processing time: 0.120000 (ms)
Test PASSED

Press ENTER to exit...
あたりを倍精度化してもらえばいいかと

756:デフォルトの名無しさん
10/03/30 12:36:50
>>753
かぶって申し訳ないｗｗ
おれ>>739なんだけど、失敗かな。日本で入手可能になるのを
待ったほうが早くて安かったかもしんないよなorz

757:デフォルトの名無しさん
10/03/30 12:41:40
>>755
おけ、matrixMulでGTX280とGTX480の比較ならやってさしあげられる。
floatのままと、doubleに全部置換した版で。

758:デフォルトの名無しさん
10/03/30 12:50:39
floatは内部で型変換してるからdoubleの方が早いって聞いた事あるんだけど…

759:デフォルトの名無しさん
10/03/30 12:59:07
倍精度のFMAをひたすら繰り返す感じのカーネルで計測するのがよいかと。

760:デフォルトの名無しさん
10/03/30 13:09:51
>>758
どこかのCPUでintをdoubleに変換してたという話かと。

761:デフォルトの名無しさん
10/03/30 13:10:18
しかし、480SPとか、AMDはリアル12コアだとか、
時代の進歩は速いものだな。

762:デフォルトの名無しさん
10/03/30 14:06:01
しかし、性能はGTX295から毛の生えた程度
ていうか、もし倍精度の性能がいまいちだったらGTX480/470より
GTX295を買ったほうが安くていいかもね

763:デフォルトの名無しさん
10/03/30 14:14:19
長崎大のようなことをやられたらNVDIAが東工大から呼出をうけて
「２度目はないからな」とか言われても不思議じゃないよね

764:デフォルトの名無しさん
10/03/30 15:00:14
>>762
GTX295、5万円くらいだからなぁ。倍精度の性能がGTX280の２倍程度ならば…
GTX295でヨシってことになると。>>757よろしく！

765:デフォルトの名無しさん
10/03/30 15:19:12
matrixMulはメインメモリの転送が時間に含まれてるしサイズが小さめ
プログラムが書けるなら1000x1000あたりの性能をお願いします

766:デフォルトの名無しさん
10/03/30 15:43:23
>>760
そうなのか？
普通のCPUの構造上浮動小数点演算は、
64bitでやるから型変換をしてると聞いたんだけど

767:デフォルトの名無しさん
10/03/30 15:48:57
もしかしてGPUだと話は別なのかな…

768:デフォルトの名無しさん
10/03/30 18:34:02
>>766
x86アーキテクチャでは、普通は変数型に関わらず浮動小数点演算は80bitの拡張倍精度で行う。
メモリロード/ストアの際に、変数がfloat型ならfloat型に変換されはするが、
別に大した処理でもないので速度にそんな影響は出なかったと思うが。

769:デフォルトの名無しさん
10/03/30 18:46:24
R3000かなんかで64bitint乗算がなくてとかなかったっけ

770:デフォルトの名無しさん
10/03/30 22:56:03
>>767
GPU だとどころか、倍精度演算器が載ってない CPU だってあるから。
処理系によって話が別。

771:デフォルトの名無しさん
10/03/31 02:58:13
device emulationってなくなっちゃうのね

772:デフォルトの名無しさん
10/03/31 05:57:59
ちょっと整理。

・x86(fpu)
浮動小数点レジスタが80bitなので、floatを突っ込んでも80bitで演算する。
従って、floatとの変換処理が入るのでdoubleの方が速いことがしばしば。

・x86(sse)
MMXレジスタが汎用なので、floatはfloatのまま演算する。
従って、定数や標準関数でdoubleに汚染されないように気をつければfloatの方が多少速くなる。
また、MMXレジスタにfloatの方が2倍詰め込めるのでベクタ化した場合に2倍速くなる可能性もある。
更に、キャッシュ効率もよくなるのでより速くなるかもしれない。

・GPU(cuda)
単精度レジスタと倍精度レジスタが分かれているんだっけ? 倍精度についてよく知らんのでフォローお願い。
演算器の特性上、単精度の方がずっと高速に演算するし、転送量も当然半分にできる。
応用にも拠るけれど、CPUとのI/Fは単精度で内部だけ倍精度にできると最強かも。

773:デフォルトの名無しさん
10/03/31 07:48:43
64bit版gccだと、-m32オプションをつけない限りもはやx87のコードは吐かないなあ。

>CPUとのI/Fは単精度で内部だけ倍精度にできると最強かも。
これって何回丸めが発生するかによるけど、精度は単精度+αだね。
でもこういうことはよくやるなあ。
データ量を減らしたくて少し精度が欲しい場合は、最終的に欲しいデータはfloatで持っておいて、
計算するときにすべてdouble型のデータにコピーして最後に結果をfloat型に戻す。
この方法をとれば、丸め誤差の発生は一回で済む。
計算の中身が超越関数使ったり、複雑であったりすると結構有効だよ。
その分速度は犠牲になるけど、メモリ帯域が支配的であると余り影響がないな。
G200系だとまだ効果はないだろうけど、Fermiなら結構役に立つんでない？

774:デフォルトの名無しさん
10/03/31 11:35:13
>・x86(fpu)　
>浮動小数点レジスタが80bitなので、floatを突っ込んでも80bitで演算する。　
>従って、floatとの変換処理が入るのでdoubleの方が速いことがしばしば。　
doubleは64bitなんだから結局まるめが入るのは同じじゃないの？

775:デフォルトの名無しさん
10/03/31 13:02:05
おいおいあれだけCPU側のコードが糞だといっておいて、CPUのこと知らなさすぎだろｗ

floatが遅くなるのは、MSVCが、floatのときは毎回メモリに書き戻すことで精度を32bitに落としてIEEE互換にするコードを出すから
レジスタ間ならfloat/double/long double関係なく80bit

776:デフォルトの名無しさん
10/03/31 14:32:17
GPUの種類を取得する関数か何かはありませんか？

777:デフォルトの名無しさん
10/03/31 14:42:10
>>776
サンプルでついてくるdeviceQueryのソース読んでみれば

778:デフォルトの名無しさん
10/03/31 14:44:59
>>776
CUDA APIガイドに書いてあるだろ

779:デフォルトの名無しさん
10/03/31 15:12:11
そうじゃなくて製品名です

780:デフォルトの名無しさん
10/03/31 15:20:59
製品名って、ASUSかEVGAか判別したいってこと？？

781:デフォルトの名無しさん
10/03/31 15:26:11
メーカーの判別はどうがんばっても無理だろ

782:デフォルトの名無しさん
10/03/31 15:32:47
じゃあせめてWindowsかMacかInaxかぐらいわかりませんか？

783:デフォルトの名無しさん
10/03/31 15:33:23
製品名って言うくらいだから、ELSA GLADIAC 998 GTX Plus V2 512MBみたいなのじゃないのか。

784:デフォルトの名無しさん
10/03/31 15:34:04
>>782
CUDA以前の問題。てか、そのレベルじゃ絶対無理だろ。

785:デフォルトの名無しさん
10/03/31 15:53:38
#ifdef _WIN32

786:デフォルトの名無しさん
10/03/31 15:55:08
まさかOpenCLの話か？
#ifdef _apple
とかやった覚えがある。

787:デフォルトの名無しさん
10/03/31 16:15:17
#ifdef　_appleは豆知識だな

788:デフォルトの名無しさん
10/03/31 16:44:37
Inax は釣りだろ。782 は偽者じゃないか？
TOTO 向けと別の最適化するのかなｗ

789:デフォルトの名無しさん
10/03/31 19:31:24
水流をGPUでシミュレーションして最適化するのか

790:デフォルトの名無しさん
10/03/31 21:04:19
流体シミュレーションはGPGPUのメインテーマだから、まさにうってつけだろう

791:デフォルトの名無しさん
10/03/31 21:06:11
OpenCL使えよ馬鹿ども

792:デフォルトの名無しさん
10/03/31 21:08:09
日本の便器メーカーは水量削減に血道を上げているからな
いかに少ない水量で、効率良く、かつきっちり排泄物を流しきるか

793:デフォルトの名無しさん
10/03/31 21:11:31
便器開発での計算に使用するだけでなく、
便器自体にTeslaを搭載し、
排泄物を画像認識して最適な水流を計算する。

排熱も有効利用できそうだ

794:デフォルトの名無しさん
10/03/31 22:39:35
>>793
画像認識のコード書くやつは大変だな

795:デフォルトの名無しさん
10/03/31 22:42:09
確かに、今は節水ということで一般家庭向けの便器は
流れが悪いといくことを感じるな。

現場では流体演算とかして設計しているのだろうか？

796:デフォルトの名無しさん
10/04/01 01:09:36
TOTO 節水シミュレーションでググってみた。
URLﾘﾝｸ(www.toto.co.jp)

797:デフォルトの名無しさん
10/04/01 01:17:06
流体どころか三相全てシミュレートしてるんだな

798:デフォルトの名無しさん
10/04/01 07:04:31
GTX470が先に発売されるみたいですね。
購入される方いますか。

799:デフォルトの名無しさん
10/04/01 12:43:41
どうしてcudaはosと密接なのか？
最新のubuntuをいれたくてもいれられへん
理由を教えてくれろ

800:デフォルトの名無しさん
10/04/01 14:28:01
>>799
ドライバレベルで提供されているから。

801:デフォルトの名無しさん
10/04/01 19:55:02
>>797
固体ってのが生々しいな。シミュレーションするためにウンコの物性とか
測定したりしたんだろうな。

802:デフォルトの名無しさん
10/04/01 20:10:39
壊れ方とかがリアルな模型があるとか聞いたことがある。
でも物体の測定データのファイル名とかはなまなましいだろうなｗ

シミュレーションしているときのSSとかあればいいのに。

803:デフォルトの名無しさん
10/04/01 21:27:09
たしか法律で、流す水の量は決まってるんだよね。

804:デフォルトの名無しさん
10/04/02 07:57:34
>>799
たぶん、nvccがgccの進化について行けていないだけだと思う。
バイナリだけなら、最新のUbuntuでも動くよ。

805:デフォルトの名無しさん
10/04/02 16:58:24
最近のディストリビューションって大抵1年かそこらでサポート終わりじゃん。
1つまえのバージョンにしか入れられないと、半年程度でいれかえなきゃいけないんだよね。
そこらへんを早く何とかしてくれよ。
CentOSとかつかえばいいのかもしれんけど

806:デフォルトの名無しさん
10/04/03 03:06:19
そこを何とかしてもらいたいね。
俺は古いバージョンのLinuxをVirtualBoxで新しいバージョンのLinux上で動かして、
クロスコンパイルライクなことをしているよ。コンパイルだけなら仮想化環境でも通るからな。

807:デフォルトの名無しさん
10/04/03 12:32:49
GTX480で倍精度削られたのは本当らしい…

Quadroではどうなるんだろう

808:デフォルトの名無しさん
10/04/03 14:22:26
今すぐ計算して論文書かなきゃって人以外は↓ここ聞いてからにした方がいいんじゃないかと。
URLﾘﾝｸ(www.hardocp.com)

「当機はまもなく離陸しますw」

809:デフォルトの名無しさん
10/04/03 14:24:49
>>807
ドイツ語読めないけど、これ？
URLﾘﾝｸ(www2.hardware-infos.com)

810:デフォルトの名無しさん
10/04/03 22:55:58
Q1.同じGT-240を二枚挿せばCUDAも倍近く早く処理できるようになりますか？
Q2.GDDR5とGDDR3とDDR3でCUDA動画エンコードの処理スピードはどれくらい
違いますか？GDDR3を100として。

811:デフォルトの名無しさん
10/04/04 00:22:50
>>810
もう少し具体的に知りたいことを書いた方が答えやすい。

例えば動画エンコード用途に限ると「複数枚挿しはどうよ？」とか、「FermiとかATIとかの中でどれが一番速いか」とか。

812:デフォルトの名無しさん
10/04/04 00:38:10
十分具体的だろ･･･。

ソフトウェアによって、複数挿に対応しているかどうかは変わるので、
使いたいソフトについて調べよう。

メモリの速さは重要だけど、GPGPUでは、メモリにアクセスするときの遅延のほうが問題となっている。
ハードウェアの構造的にもGT200系のほうがメモリアクセスが柔軟なので、GTX260あたりを検討してはどうだろう。

813:デフォルトの名無しさん
10/04/04 01:19:30
具体的だろと言っておきながらソフトによって変わるとか意味不明

814:デフォルトの名無しさん
10/04/04 01:38:58
>>811-812
レスありがとうございます。

CUDAの使用目的：動画エンコのみ。使用するソフト：MediaCoder
使用するかもしれないソフト：TMPGEncKarmaPlus
現状：AVIUTLでロゴ消しとインタレ解除のプロジェクト→
TMPGEnc4で色γクロップ・リサイズしてHUFFYUVで出力→MediaCoderのx264で。
課題：Q6600でVGAでx264エンコが22fpsしか出ない。1080pだと4fps！orz
MediaCoderにCUDAでH.264エンコできる機能があるので使いたい。
GT240がGDDR3で6000円、GDDR5で7500円～なので、二台組むより二枚入れた
ほうがいいのかも？
GDDR3とGDDR5でＣＵＤＡエンコに殆ど差がないならGDDR3のほうにしたい。
複数枚挿しはどうです？
現状G43/G41/G31なので新しくマザー買わなきゃできないけど…。

>>812
GPGPUやメモリアクセスについて仕組みとか全く知らないのですが、
GTX260はGT240の倍以上の値段だけど、倍の性能あるんですか？
wikiに書いてあるSPとCUDAコア数がどう違うのか分からないので…
もし倍の性能（エンコが倍早くなりそう）ならGT240よりGTX260を選ぶかも
しれません。PXI-EX⑯が1つですむし。

815:デフォルトの名無しさん
10/04/04 01:42:45
>>810
素直にCorei7にしておけ。
GT240じゃ2枚さそうがCorei7の方がマシだ。

816:デフォルトの名無しさん
10/04/04 02:30:20
現状CPUを強化したほうがメリット多い
CUDA使うならGTX260以上じゃないとCPUの足を引張る可能性がある

817:デフォルトの名無しさん
10/04/04 04:58:16
aviutlでの処理時間考えたらCPU強化の方が妥当だな

818:巻添規制中(810=814)
10/04/04 06:04:59
>>815
URLﾘﾝｸ(www.techarp.com)
でみるとi7はQ6600の1.25倍くらい早い
URLﾘﾝｸ(www.katch.ne.jp)
でみるとCUDAはQ6600の3.7倍くらい早い
∴CUDAはi7より3倍近く早い…？？？　CUDAは実写向き？

X58+i7買いたいけど、LGA1155待とうかと。

819:デフォルトの名無しさん
10/04/04 09:47:48
>>818
あ～、俺もこれ使ってcudaエンコしてるけど、Bフレームが4までだったり2passできなかったり
画質はいまいちですよん。たしかにCPUよりは速いとはおもうけど・・・。

新しいバージョンだと改善されてる可能性はあるけどね。

820:デフォルトの名無しさん
10/04/04 11:55:03
>>814
GT240の3倍くらいの値段で売られているが、3倍速くなるとはいえないけど、
MediaCoderは複数差対応していなし、GT240を2枚買っても無駄になる。
あたらしくマザー買う予算が削れるならGTX260でもいいかと。

画質もとめるなら、i7ってのは合意。

821:810
10/04/04 14:18:33
みなさん色々有難うございます。ググりながら考えてるんですが難しいですね。

>>816 >>817
GTX260だと電源交換、i7はM/B&DDR3全部揃えないと…先立つものが…。(ToT)
URLﾘﾝｸ(www.katch.ne.jp) の人
は　GeForce9600GT(VRAM 512MB)Vista HomePremium(SP2)で実行、CUDAエンコ
でQ6600使用率83％と書いてあるけど、GT240のほうが高速ですよね？
URLﾘﾝｸ(pc.watch.impress.co.jp) によると
GeForce 9600 GTの1,800MHz/256bit メモリ帯域幅は57.6GB/sec、
GeForce GT 240のGDDR5/3,400MHz/128bit 54.4GB/sec、
GeForce GT 240のDDR3/2,000MHz/128bit 32GB/sec。
DDR2-667（5.3GB/s） DDR2-800（6.4GB/s）デュアルだと倍。
もしかしてDDR2がボトルネックになる？　
GT240 GDDR3とGDDR5でCUDAエンコの速さの違いどうなんでしょう？
そこらへんが一番気になります。

822:810
10/04/04 14:19:49
>>819
最新ではBフレームが16まで、Average/Variable/CBR/2pass/3pass できるみたいだよ。
x264ではAverage/Variableは何故かコマ落ちする。

>>820
SP216&DDR3のGTX260とCUDAコア数96のGT240だと、エンコ速度二倍差が出ます？
PHARAOH 500W電源だとGTX260+Q6600はギリギリかなぁ。

(Q6600+GT240)複数台にするほうが経済的かな? G41とDDR2が1組余ってるし…

823:デフォルトの名無しさん
10/04/04 15:38:15
URLﾘﾝｸ(hothardware.com)
doubleはfloatの1/2*9ってとこか。

Teslaでやって1/2とかだったら、ロックなんだろうな。

824:デフォルトの名無しさん
10/04/04 17:43:24
これは低すぎるのでOpenCLでDoubleがHWサポート
されてないのではないかと

825:デフォルトの名無しさん
10/04/05 00:43:36
>>821
GDDR3とGDDR5とでは、メモリ帯域が倍違うので、ストリーム系のアプリでは大きく変わります。
ていうか、このクラスのボードで2枚挿しとか意味がない。

826:デフォルトの名無しさん
10/04/05 01:09:55
>823－824
むしろ理論値で単精度の5分の1になるはずのRADEONの倍精度が半分程度で済んでる方が気になる

>822
GT240なんてゴミ買うぐらいならいっそ中古のQ9xxxのCPUでも買った方が良くね？

827:デフォルトの名無しさん
10/04/05 03:39:12
安物買いの銭失いとはこのこと

CUDAに大きな期待を抱かないほうがいい

828:デフォルトの名無しさん
10/04/05 19:17:53
>>823で、GTX295が285よりもスコア低いのはなぜ？

829:デフォルトの名無しさん
10/04/06 01:17:45
>>828
単純にGPUを一個しか使っていないからだと思う。
単一GPUなら285の方が速いからね。

830:デフォルトの名無しさん
10/04/06 08:54:53
>>825
CUDAエンコはストリームと違ってGDDR3もGDDR5殆ど関係無いってさ。
SP数(CUDAコア数)でほとんど性能が決まる。

>>827
最新のMediaCoderでVBRでやってみたらどう？

831:デフォルトの名無しさん
10/04/06 19:53:29
MLB オバマ始球式

832:デフォルトの名無しさん
10/04/07 09:15:06
HPC向けGPGPU終わりつつあるな

102 ：Socket774 ：sage ：2010/04/06(火) 23:24:12 ID:n4owrnuu

>>98
> HPC向けはどうなるんだろう？

マキーノの話だとこんなのが。
URLﾘﾝｸ(grape.mtk.nao.ac.jp)
> 一枚5万とかで買うのでない限り GPU は価格性能比では CPU に勝てなくなってしまった

以前はGPUの方が同コストのCPU比で10倍↑とか軽く叩き出してたけど、
CPUはマルチコア化が進みまくり値段下がりまくり…
ハイエンドGPGPU買うよりCPUの方がコスパが良くなってしまった。
基本直線番長のGPGPUよりCPUの方が扱いやすいし、プログラミングも先行きわからない
CUDAやらなくても、今までやってきた事そのままで走るし…

833:デフォルトの名無しさん
10/04/07 09:26:05
確かに、OpenMPとかでそれなりに性能出るならそっちの方が超簡単だもんな。

834:デフォルトの名無しさん
10/04/07 12:13:09
精度を削って性能を出したマシンで有名になったのにこういう時は倍精度の話だけか

835:デフォルトの名無しさん
10/04/07 12:54:34
>>832
マルチコア化が進みまくりって、↓か？当面CUDAエンコの半分にもならんだろう
URLﾘﾝｸ(akiba-pc.watch.impress.co.jp)
URLﾘﾝｸ(akiba-pc.watch.impress.co.jp)

836:デフォルトの名無しさん
10/04/07 15:29:03
>>835
CUDAエンコは実用性ゼロと言われているだろ
HPC以外の分野でCUDAを利用している人はいないだろ

837:デフォルトの名無しさん
10/04/07 15:31:47
>>834
そこ大事だよな。CPUと違って、倍精度・単精度の使い分けで性能違うもんな。
て、マキーノは昔、計算パスの場所によって計算精度が違う計算機を作ってたもんな

838:デフォルトの名無しさん
10/04/07 15:33:36
>>836
エンコの中の人が面倒くさがっているだけなんじゃないの

839:デフォルトの名無しさん
10/04/07 15:38:47
>>838
環境を作るのがめんどくさい。
コードを書き換えるのがめんどくさい。
最適化するのがめんどくさい。

840:デフォルトの名無しさん
10/04/07 15:45:24
>>838
まともなエンコを利用できないという事実が重要

841:デフォルトの名無しさん
10/04/07 18:57:43
たしかにOpteron12コアX4がFermiと同じ値段ならGPU終わるな。
既存のコードがそのまま動くし。
CUDAでこれ以上の性能が出るアプリは限られている。

842:デフォルトの名無しさん
10/04/07 19:05:29
fermiの場合ボッタクリなだけのような。
最終的にはfusionみたいな物に落ち着くだろうけど。
GPUのアーキテクチャとしては変に汎用に振るより
コンパクトな割に暗号解読みたいに得意なものが速い
と言う方が良いだろう。

843:デフォルトの名無しさん
10/04/07 20:15:16
>>838

正直エンコにCUDAを適応出来る処理が少なすぎる

844:デフォルトの名無しさん
10/04/07 21:02:20
x264の開発者が全員RADE愛好者だったとかいうオチなら面白い

845:デフォルトの名無しさん
10/04/07 21:05:12
>>839
ペガシスがKarmaPlusに導入したCUDAエンコをTXP4になかなか導入
しないのはそれが原因かｗ

846:デフォルトの名無しさん
10/04/08 00:28:04
>>841
メニーコア化が進展すればGPUは終わるよね
実際のところ、全然進んでないからNVは助かっているけど

847:デフォルトの名無しさん
10/04/08 00:33:02
メニーコアのメニーの次元が、GPUとCPUじゃ、全然違うしな

848:デフォルトの名無しさん
10/04/08 00:52:10
新しいものが出てくるときはチャンスだと思うんだが、このスレではそんな気配かけらもないな。
やっぱり日本人てダメなのかね

849:デフォルトの名無しさん
10/04/08 00:53:43
だって、HPC向けはコストパフォーマンス悪いし
GeForceは機能削られまくりだし、いまいちなんだよね

850:デフォルトの名無しさん
10/04/08 00:56:38
ATOM+IONチップセットで
エンコ爆速になったりしないか

851:デフォルトの名無しさん
10/04/08 01:25:40
>>850
動画データの転送には最低でもPenDは必要。

>>848
バカンスの概念が無い日本人はここぞって時に余力が無い。

>>841
4万のマザーに32,480円の8コア載せるより
5千円のマザーに1.6万円の4コア載せて数万のビデオカード挿す方が数倍早い
んだろうし、どっちもムーアの法則どうり進化すればGPUは当分優勢では？

852:デフォルトの名無しさん
10/04/08 06:07:48
GPUで縁故するとなんであんなに汚いの?

853:デフォルトの名無しさん
10/04/08 06:24:22
ソースみたいとわからん。

854:デフォルトの名無しさん
10/04/08 06:27:58
SpursEngineでエンコして汚いのはハードのせい
CUDAでエンコして汚い場合はソフトが成熟してないから

855:デフォルトの名無しさん
10/04/08 07:03:51
>>851
適材適所ってことだよなー
y=a*x+b を100万個×10万回　みたいな計算には巨大コアはいらない、
小さいコアがたくさんある方が速い　みたいな。

856:デフォルトの名無しさん
10/04/08 19:19:24
>>851
なぜ今頃ムーアの法則？
成り立たなくなってかなり経つんだが

857:デフォルトの名無しさん
10/04/08 19:46:55
え？

858:デフォルトの名無しさん
10/04/08 19:53:19
>>856

え？

859:デフォルトの名無しさん
10/04/08 21:00:18
>>856
　　　　　　　　 _......_
　　　 __　　／.::::::::::｀:.､
　　／, - ｒ, /::::i::::ﾊ:i:::::;::',
　 r-'ヽ./ｲ i::::|ｲ/'　'-ﾍl:::i
　｀ｰ､i　{ l::::l '"´　￣ l:::l　＜またまたｗご冗談を
　　　　l!　l l::::ﾄ､ r_っ ,ィ:::l
　　　 l　ﾄヽ::l弋ニ＜l::::l!
　　　　ゝ- イ`　　　ｲ^ｲ
　　　　　　　 | 　　　/-{′

URLﾘﾝｸ(wiredvision.jp)
URLﾘﾝｸ(www.itmedia.co.jp)

860:デフォルトの名無しさん
10/04/08 21:01:30
あと10年ぐらいはどうにかなりそうな気がするけど

861:デフォルトの名無しさん
10/04/08 22:27:03
>>856はfreelunchは終わった発言と混同しているに1000ペソ

862:デフォルトの名無しさん
10/04/08 22:27:35
>>860
どんだけ低クロックなんだよ、電算機系分野の１０年ってものすげぇ進歩するんだぞ

863:デフォルトの名無しさん
10/04/08 22:58:17
クロック？
ムーアの法則って集積密度の話じゃなかったっけ

864:デフォルトの名無しさん
10/04/08 23:03:27
ムーアの法則なんて、明らかに無理だと分かった時点で
定義の方を変えて無理やり存続させているだけだろ。

865:デフォルトの名無しさん
10/04/08 23:14:23
IntelはAMDの様子見して出し惜しみ＆殿様商売
「半導体の集積密度は18～24ヶ月で倍増する」ゆえ
CPUの性能は2年で倍近くになる。1年だと√2倍弱
GPUも同様。

866:デフォルトの名無しさん
10/04/08 23:19:44
集積密度≠性能ということをきちんと理解しましょう

867:デフォルトの名無しさん
10/04/08 23:53:15
GPUで無理矢理あれこれするより、
計算専用のユニットを別途開発した方がいいんじゃないの？と思う
GPUより効率よくできる部分もあるだろうし

868:デフォルトの名無しさん
10/04/09 10:42:33

　　∩＿＿＿∩　　　　　　　　｜
　　 | ノ＼　　　　ヽ　　　　　　　|
　　/　　●゛　　● |　　　　　　　|
　 |　∪　　( _●_)　ミ　　　　　　j
　彡､　　　|∪|　　 |　　　　　　Ｊ>>867
/　　　　 ∩ノ ⊃　ヽ
(　＼　／＿ノ　|　 |
.＼　“　　／＿＿|　 |
　　＼／＿＿＿／

869:デフォルトの名無しさん
10/04/09 12:48:00
x264がCUDA対応してないことと、AVIUTLでCUDA使えないこと、
MediaCoderのcudaH264Enc.exeの画質をx264並みにするにはビットレートを
何割増しにすればいいのか不明なこと、
PowerDirectorは設定がゴミなこと、

が問題かな

870:デフォルトの名無しさん
10/04/09 15:40:20
URLﾘﾝｸ(forums.nvidia.com)

Double precision is 1/2 of single precision for Tesla 20-series, whereas double precision
is 1/8th of single precision for GeForce GTX 470/480

871:デフォルトの名無しさん
10/04/09 17:18:50
倍精度だとteslaの1/4だけと、値段は1/5なんだよね

872:デフォルトの名無しさん
10/04/09 17:46:49
ノードの数がGTX480は480でteslaは442なんだよね

873:デフォルトの名無しさん
10/04/09 18:47:55
あれ、HD5870でよくね？

874:デフォルトの名無しさん
10/04/09 20:10:18
URLﾘﾝｸ(pc.watch.impress.co.jp)

AMDは単精度しかなかったみたいね

875:デフォルトの名無しさん
10/04/09 20:58:04
IEEE754準拠ではない64bit double floatはR7xxの頃からあった。
俺は使ったことないからわからないけど。
少なくともドキュメントには、Radeon HD4xxx を除外するような文言はなかった。

R8xxはIEEE754準拠の命令が結構揃ってるよ。

876:デフォルトの名無しさん
10/04/09 21:12:53
なんでラデはFFTのライブラリを出さないのか理由がわかりますか

877:デフォルトの名無しさん
10/04/09 21:15:33
つくれば？

878:デフォルトの名無しさん
10/04/09 21:23:09
ですよね

879:デフォルトの名無しさん
10/04/09 22:31:50
URLﾘﾝｸ(ascii.jp)
秋葉に出たみたいです。どうしようかな。

880:デフォルトの名無しさん
10/04/09 22:38:50
熱的にやめとけ。

881:デフォルトの名無しさん
10/04/09 22:53:30
売り切れたそうです。GTX480、3枚買った方がいるとか。

882:デフォルトの名無しさん
10/04/09 23:04:45
>>875
IEEE754準拠の精度になったのがRV770で
RV670のころからdoubleはサポートされているよ。

883:デフォルトの名無しさん
10/04/09 23:45:38
3枚とかアホとしかww

884:デフォルトの名無しさん
10/04/10 00:08:11
470なら3台行けるかなー

885:デフォルトの名無しさん
10/04/10 01:56:40
オークションで売るんじゃないか

886:デフォルトの名無しさん
10/04/10 02:23:45
PCI-EXｘ16　3つあるマザーでPCIと交互にあるマザーでCUDAエンコに
使うんだろう。

887:デフォルトの名無しさん
10/04/10 05:14:47
結局、倍精度は削られているのかね？
削られていなければ買いたいのだが。

888:デフォルトの名無しさん
10/04/10 06:32:49
まだ実測した人はいないみたいですね。スレの人が手に入れるのをまちましょう。

889:デフォルトの名無しさん
10/04/10 07:09:42
GTX480じゃ倍精度無効になっているだけで
sandraのベンチのやつはEMUですが

890:デフォルトの名無しさん
10/04/10 07:42:43
無効じゃなくて1/4ですよね
ベンチはOpenGLがそうなってるということで

891:デフォルトの名無しさん
10/04/10 07:47:12
OpenGLのなにが？

892:デフォルトの名無しさん
10/04/10 07:59:10
sandraのあれはOpenCLだろ>倍精度無効

893:デフォルトの名無しさん
10/04/10 08:04:30
sandraはOpenCLだろうがGLだろうがCUDAだろうがCSだろうがvideorenderingだろうが
ハードで使えなきゃエミュでだすよ

894:デフォルトの名無しさん
10/04/10 08:14:32
ｽﾚﾘﾝｸ(jisaku板:740番)
購入者

895:デフォルトの名無しさん
10/04/10 08:54:56
>>894
ゲーム目的だったらHD5970を買ったほうがよかったのにね

896:デフォルトの名無しさん
10/04/10 10:53:48
M/Bとか貧弱なんでゲーマでもないみたいでなんで２枚も買ったのか

897:デフォルトの名無しさん
10/04/10 11:38:52
480/470の倍精度演算削られたのか…
倍精度演算やる人はぼったくり価格のC2050/2070買えってか

898:デフォルトの名無しさん
10/04/10 11:45:47
>>897
そのソースはどこ？

899:デフォルトの名無しさん
10/04/10 13:34:59
>>897
まぁ、このスレ住人が実際にCUDAで試すのを待とうや。

900:デフォルトの名無しさん
10/04/10 13:57:02
米アマゾンはまだ発売前になってるね

901:デフォルトの名無しさん
10/04/11 10:27:23
これだけ出回ってるのに倍精度はおろか単精度の演算を流す人もいないとは

902:デフォルトの名無しさん
10/04/11 13:02:22
出来る人はこんな所に来ない、つまりここは無能の衆が集う所だから

903:デフォルトの名無しさん
10/04/11 13:11:46
みんな科研費で買うんじゃない？５月まで待たないと．

904:デフォルトの名無しさん
10/04/11 13:37:56
無駄遣いはやめてもらうようにこのスレのことも仕分け人に伝えとかないといかんね

905:デフォルトの名無しさん
10/04/11 13:48:15
科研費が無駄に物価を高騰させてるな
さっさと仕分けされろ

906:デフォルトの名無しさん
10/04/11 18:10:27
無駄な科学者・技術者は農業や林業にまわって効率を上げてやってほしい。

907:デフォルトの名無しさん
10/04/12 06:21:08
470ポチった。ついでにCUDAの入門書もポチった。
両方到着は14日予定。おまえらよろしく

>>897
倍精度のテストプログラムか何かあれば提示してくれないか？
手元にGeForce系列VGAが一切ないので一切やったことがないんだ

908:デフォルトの名無しさん
10/04/12 07:42:29
14日、期待してますよ。

909:デフォルトの名無しさん
10/04/12 09:50:33
人柱になってくれるのに情報薄くて申し訳ないが
このスレの上の方にあるCUDA公式での行列かけ算コードを倍精度化したものを走らせるのが一番簡単かな？
手持ちがあれば提供したいが

910:時々書いている人
10/04/12 13:40:47
未だELSAからボードが来ない……

911:デフォルトの名無しさん
10/04/12 14:48:20
480のCUDAのベンチマーク結果はどかでみられませんか？
ゲームのベンチだといくらでもみつかるのですが。

912:デフォルトの名無しさん
10/04/12 15:15:57
　　　　　　　　　　　　　_(こ＾)､_
　　　　　　　　　　　〃､__ﾉノ､__,ヽ
　　　　　　　　　 {.っ＞　＜っﾄ､
　　　　　　　 (⌒i　（千于`ｰ┴'───┐
　　　　　　　　　（O人　 `ー|　　　　　　　　 |
　　　　　　　　　　　/⌒ヽ(＾う　見せられ.　　　 |
　　　　　　　　　　　`ｧー─イ　　　　ないよ！　 |
　　　　　　　　　　　/　　（0::|＿＿＿＿＿_＿_＿_|
　　　　　　　　 /＼＿＿＿_/
　　　　　　　　／　　　/　　⌒ヽ
　　　　　　___／　／￣￣｀)　　ﾉ
　　　　　(__r＿__ノ　　　　 (.＿＿つ

913:デフォルトの名無しさん
10/04/12 18:54:31
URLﾘﾝｸ(www.anandtech.com)

914:デフォルトの名無しさん
10/04/12 19:10:50
おｋ、14日・・・はWin7のセットアップなどもあるから無理として、15日か16日にはテストする

915:デフォルトの名無しさん
10/04/12 19:23:43
あいかわらず倍精度のベンチはないもののNVIDIAがコンフォームしたって書いてあるね

916:デフォルトの名無しさん
10/04/13 08:17:19
マーケティングの理由から倍精度つぶすとかやってくれるぜ全く
くあどろも同じだったら本当に萎えるわ

917:デフォルトの名無しさん
10/04/13 08:20:01
やっぱり倍精度は1/4になっているのか。
Teslaだと高いしな。
Nehalemが6コア、8コアになってきて、Opteronは12コアになってきてしまったので、
CUDAの優位性がかなり下がってしまったな。

918:デフォルトの名無しさん
10/04/13 08:27:05
nvidiaは1世代分戦略を間違えた希ガス
社運をHPCに賭けるなら、Fermiは倍精度つぶさずにバーゲンするべきだった
CUDAがある程度スタンダードになったことを確認した上で、Fermiの次をぼったくり価格にすれば良かったはず
PCIExpress3.0対応にしてさ

いまならCUDA捨てるの間に合うしなあ　ユーザ側が

リネーム商法といい、nvidiaはほんと強気だ

919:デフォルトの名無しさん
10/04/13 10:20:40
まじか。書いてあるな。萎えたな。
「NVIDIA has confirmed it - the GTX 400 series' FP64 performance is capped at
1/8th (12.5%) of its FP32 performance, as opposed to what the hardware
natively can do of 1/2 (50%) FP32. 」

920:デフォルトの名無しさん
10/04/13 10:21:59
これまでの何倍速くなりました！というのがかなり限定されるのがわかって来たからね。メモリ帯域に関しても確かにCUDAが始まった頃は、CPUの10倍以上あって早かったけど、今はDual CPUだと大差無くなって来ているので、高価なTeslaを入れる意味も無いなあ。
前に誰かが書いていたけど、古いPCの延命のために使うのはありだと思うけど、ちょっと高いよなあ。
歩留まりが悪いのはわかるが。

921:デフォルトの名無しさん
10/04/13 10:29:35
結局、Fermiのほどまりは何％くらいで、普通は何％くらいなんですか？

922:デフォルトの名無しさん
10/04/13 11:55:56
>>921
不明
今後も確実なソースから数値が出る可能性はほぼゼロ

923:デフォルトの名無しさん
10/04/13 13:23:11
konozamaだったよ

orz

924:デフォルトの名無しさん
10/04/13 13:32:21
>>923
ｲ㌔

925:デフォルトの名無しさん
10/04/13 16:23:45
>>921
ほどまり？？？

926:822
10/04/13 17:12:13
MediaCoder
CUDAエンコ爆速ｗｗｗ
Q6600の6倍早いｗｗｗ
画質x264と変わらんｗｗｗ
GTX260でCPU45～51％使用ｗｗｗ

927:デフォルトの名無しさん
10/04/13 17:29:23
ふどまり

928:デフォルトの名無しさん
10/04/14 12:24:12
どうやらこのスレが世界初GTX480/470CUDA倍精度性能実測報告スレとなりそうですね

929:907
10/04/15 04:57:37
とりあえず470は明日到着予定。
けど、搭載予定のケースが明後日到着予定・・・
うきいいいいい

変な時間に起きてすることがない・・・

930:デフォルトの名無しさん
10/04/15 05:48:41
瞑想しろ