08/07/07 08:55:08
前スレ
Cellプログラミングしちゃいなよ2
スレリンク(tech板)
2:デフォルトの名無しさん
08/07/07 08:56:25
Cell Broadband Engine 技術情報公開
URLリンク(cell.scei.co.jp)
PLAYSTATION3 Linux Information Site
URLリンク(cell.fixstars.com)
The Cell Processor - PukiWiki
URLリンク(cell.fixstars.com)
developerWorks : Cell Broadband Engine resource center(IBMのCell技術情報)
URLリンク(www-128.ibm.com)
Cell Broadband Engine Architecture forum (Cellプログラミングの掲示板)
URLリンク(www.ibm.com)
Multicore Programming Primer: PS3 Cell Programming
(マサチューセッツ工科大学のPS3を使ったマルチコアプログラム演習。ソースコードなど有り)
URLリンク(cag.csail.mit.edu)
CellPerformance
URLリンク(www.cellperformance.com)
3:デフォルトの名無しさん
08/07/07 08:57:33
一応たててみたもののスレタイみすった/(^o^)\
4:デフォルトの名無しさん
08/07/07 17:47:02
>>1 乙。久しぶりに話題投下してみる。
あるshort値の配列があって、それをlog2()するような感じで指数が欲しい。
指数未満の値、つまり仮数部は四捨五入する。
また、マイナス値とプラス値は連続させて結果をコンパクトにしたい。
趣味で作ってるプログラムだから結果のフォーマットはこれ以外に変わっても構わない。
疑似コードで書くと、いまのところこんな感じの実装にしてある。
(short)round(log(abs(a))/log(2)) + (a > 0 ? 16 : 0);
で、これを最適化できないかなという話。
とりあえず2つ程考えてみたので貼ってみる。
5:デフォルトの名無しさん
08/07/07 17:48:46
vec_short8 log2_1(vec_short8 v) {
static const vec_uchar16 vPack = (vec_uchar16)
{ 2, 3, 18, 19, 6, 7, 22, 23,
10, 11, 26, 27, 14, 15, 30, 31};
vec_short8 v1 = spu_splats((int16_t)1);
vec_short8 v0x100 = spu_splats((int16_t)0x100);
vec_uint4 vEven = (vec_uint4)spu_convtf(spu_mule(v, v1), 0);
vec_uint4 vOdd = (vec_uint4)spu_convtf(spu_mulo(v, 1), 0);
vec_uint4 vExpE = spu_rlmask(vEven, -22);
vec_uint4 vExpO = spu_rlmask(vOdd, -22);
vec_short8 vExp = (vec_short8)spu_shuffle(vExpE, vExpO, vPack);
vExp = spu_rlmask(vExp + spu_and(vExp, 1), -1); // round
vExp = spu_add(spu_and(vExp, 0xff), -126)
+ spu_rlmask(spu_andc(v0x100, vExp), -4); // sign
vExp = spu_andc(vExp, (vec_short8)spu_cmpeq(v, 0));
return vExp;
}
6:デフォルトの名無しさん
08/07/07 17:50:12
vec_short8 log2_2(vec_short8 v) {
static const vec_uchar16 vPack = (vec_uchar16)
{ 2, 3, 18, 19, 6, 7, 22, 23,
10, 11, 26, 27, 14, 15, 30, 31};
vec_ushort8 v1 = spu_splats((uint16_t)1);
vec_ushort8 vIsPos = spu_cmpgt(v, 0);
vec_ushort8 vAbs = (vec_ushort8)spu_sel(-v, v, vIsPos);
vec_ushort8 vRound = (vAbs & ~spu_rlmask(vAbs, -2)) + spu_rlmask(vAbs, -1);
vec_uint4 vEven = spu_mule(vRound, v1);
vec_uint4 vOdd = spu_mulo(vRound, 1);
vec_uint4 vExpE = spu_sub(32, spu_cntlz(vEven));
vec_uint4 vExpO = spu_sub(32, spu_cntlz(vOdd));
vec_short8 vExp = (vec_short8)spu_shuffle(vExpE, vExpO, vPack);
vExp += (vec_short8)spu_and(vIsPos, 16); // sign
return vExp;
}
7:デフォルトの名無しさん
08/07/08 00:21:46
>>6
同時に32個以上突っ込めるなら後者の方が良いな
8:デフォルトの名無しさん
08/07/08 00:25:46
音声圧縮かな?
nop / lq
nop / shufb
csflt / shufb
csflt / shufb
nop / shufb
rlmaskbyte
とか妄想してみた
9:デフォルトの名無しさん
08/07/08 07:35:05
>>7
その心は?
>>8
鋭いです。
ところでそのコード、シャッフルが一回多いような気が。
アンパックx2、パック、後は何?
10:デフォルトの名無しさん
08/07/10 23:47:30
>>9
パック一回で十分だね
11:デフォルトの名無しさん
08/07/15 00:31:59
CUDA本格的になってなんたらエンジン窮地に立たされる
12:デフォルトの名無しさん
08/07/15 11:10:40
>>11
よくわかんねーよw
13:デフォルトの名無しさん
08/07/16 00:45:58
>>11
大丈夫、スパースエンジンなんて最初っから立場がないから。
14:デフォルトの名無しさん
08/07/17 05:09:34
Cell が GPU に敵う進化を続けられるかは別だが。
そもそもの HPC 的視点が、Cell は超並列プロセッサであり、GPU はハイパーSIMD/MIMD なわけだ。
それぞれに得意な分野があるから、どちらが滅んでどちらが栄えるという話ではない。
滅ばないとも言わないが。
15:デフォルトの名無しさん
08/07/17 14:44:19
実際問題、超並列プロセッサっていっても、ハイパーSIMD/MIMDと変わらないような用途でしか使ってないだろう。
プロセッサがいくつかあって、すごいことがいつできるんだ。LinuxがSPEに仕事割り振れるようにでもなればなあ。
16:デフォルトの名無しさん
08/07/17 15:29:40
ブロードバンドエンジンは内蔵されたホストCPUがPen4程度の低性能、
スパースエンジンは並列度が落ちた挙句にホストCPUが外付け。
某芝の目指す方向はどこなんだか。
17:デフォルトの名無しさん
08/07/18 00:24:09
>>15
> 実際問題、超並列プロセッサっていっても、ハイパーSIMD/MIMDと変わらないような用途でしか使ってないだろう。
俺には単に、GPU での処理に向いたアプリケーションの、並列コンピュータからの置き換えが、まだまだ進んでいないだけのようの思える。
そいういう意味で無いなら、俺の知らない分野のことを言っているようだから、教えてくれると有り難い。
18:デフォルトの名無しさん
08/07/18 01:41:44
つーか超並列はMIMDでしか作らない訳だが。
19:デフォルトの名無しさん
08/07/19 17:18:45
Cellプログラミングをやろうと思い
PS3にxUbuntuをいれSynapticパッケージマネージャでCell-sdkとbinfbinfmts-supportを入れました。
spu-gcc でhello world
20:デフォルトの名無しさん
08/07/19 17:21:01
途中で送信してしまいました
Cellプログラミングをやろうと思い
PS3にxUbuntuをいれSynapticパッケージマネージャでCell-sdkとbinfbinfmts-supportを入れました。
spu-gcc でhello worldを表示するプログラムをつくりコンパイルをするところまではできたのですが
いざ実行してみると
spu_create(): no such file or directory
spe_create_single: Bad address
とでてしまい実行できませんでした。
いろいろ調べても見たのですがこれといった解決策も見つからず途方にくれています。
原因をご存知の方がいらっしゃいましたら教えていただけないでしょうか。
21:デフォルトの名無しさん
08/07/19 17:28:49
素直にfedoraかYellowdogにしれ。
22:デフォルトの名無しさん
08/07/19 17:36:35
レス有難うございます
xUbuntuだと結局Cellやるのには問題多いんですかね・・・
軽いって話を聞いたんですけど。無理そうならFedoraにしときます。
23:デフォルトの名無しさん
08/07/19 20:07:23
PS3で開発って辺りが結構無茶っぽい。
いいクロス開発環境ないのかねぇ。
24:デフォルトの名無しさん
08/07/19 20:19:10
SPU用のバイナリのファイル名が違ってるか作られてないのでは?
俺のとこはxじゃないUbuntu7.10だけど問題なくセルフ開発できてる
25:デフォルトの名無しさん
08/07/19 22:21:43
>>23
そうだよな
開発成果をBDまたは仮想BDで出力する環境が欲しい
26:デフォルトの名無しさん
08/07/20 04:17:30
素直に一旦ゲーム屋に行けよw
27:デフォルトの名無しさん
08/07/21 14:59:52
>> 20
うちはxubuntuで上手く行ってる。24の指摘通りではないでしょうか。
28:デフォルトの名無しさん
08/07/21 16:22:12
>>24,27
レスありがとうございます。
はじめに実行したときcannot execute binary file と表示されたのでSPU用のバイナリが原因かもしれません。
それを解決するためにbinfbinfmts-supportを入れてみたのですが・・・解決にはなってなかったかもしれないですね。
SPU用のバイナリについて勉強不足であまりよくわからないので調べてみたいと思います。
29:24
08/07/21 19:54:53
SPU のは普通は直接起動できず,起動するのは PPU 用のバイナリ.
そこから spe_image_open と spe_program_load 使って load する.
さらに thread を 6つ創って spe_context_create, spe_context_run する.
SPU 用のバイナリを埋め込んじゃえば _open の方は要らない.
後,spu-gcc のオプションに -standalone を指定すれば,
直接起動できるプログラムを生成してくれたはず.
30:デフォルトの名無しさん
08/07/21 22:19:00
本当にSPUを活用したいなら、
使える立場にいるならSPURSとか、
MARS,Ctk,そのほかの
SPU自律カーネルみたいなのを立てて
それにジョブを投げた方が楽だよ。
31:デフォルトの名無しさん
08/07/22 17:07:48
仕事でやるんならそうだね
32:デフォルトの名無しさん
08/07/25 17:42:28
fURLリンク(ftp.infradead.org)
どうなんだい?
33:デフォルトの名無しさん
08/07/25 17:46:45
追記
fURLリンク(ftp.infradead.org)
34:デフォルトの名無しさん
08/07/25 20:04:08
自分も是非感想を聞きたい。
35:デフォルトの名無しさん
08/07/25 21:36:54
誰かファイル操作についてのCの制御文?(printfのようなもの)知らない?
知ってる分だけ伝授してほしいです
36:デフォルトの名無しさん
08/07/25 22:18:18
>>35
スレ違い。
37:デフォルトの名無しさん
08/07/25 22:20:24
MARSってコンテキスト量減らせるだけ?
38:デフォルトの名無しさん
08/07/26 16:27:04
MARSでやれるようなことは、GPGPUだとたぶん無理だと思う。こういうことにこそ、Cellの強みがあるんじゃないかな。
実際どれだけ使えるようになっているのかが問題だ。
39:デフォルトの名無しさん
08/07/26 17:09:50
データの入れ替えには対応してないみたいだな。(まだ)
40:デフォルトの名無しさん
08/07/26 18:03:22
CPUの省エネ、後編(CELL、BG/Lを参考に考える。)
URLリンク(www.ne.jp)
電力消費量的にLSはよいと。うまくつかえればの話だけど。
それじゃあ、キャッシュとLSを二つ持って、使い分ければいいのかとも思うけど、
2つの使い分けを把握しないといけないから、煩わしさが増えると。
41:デフォルトの名無しさん
08/07/31 11:56:30
「5年は追いつけないでしょう」─東芝が作るAVノートの新しい未来形・Qosmio G50の革新性とは
URLリンク(journal.mycom.co.jp)
通常
URLリンク(journal.mycom.co.jp)
supers engine
URLリンク(journal.mycom.co.jp)
これは結構いいな。
42:デフォルトの名無しさん
08/08/01 12:39:21
問題はノートでここまでの要求があるかだが
43:デフォルトの名無しさん
08/08/01 13:31:07
映画好きの人とか、結構、本気で欲しがるんじゃないか?
自宅で使うデスクノートとして。まあ、あくまでマニア需要かな。
でも、世間的に意外とこんなんで火がついたりとかありえそうな気もするが。
QosmioのSupersは直接いじれないらしから、すれ違いだけどね。
44:デフォルトの名無しさん
08/08/01 18:24:08
アプリは自作用のカードに乗らないから色々なメーカーに期待するって……
自作用カード出しても、エコシステムが回るほどアプリが出てくる思えないな。
45:デフォルトの名無しさん
08/08/09 21:36:42
Qosmio G50新兵器、SpursEngineがスゴすぎる件【前編】
URLリンク(ascii.jp)
NvidiaのGPUまわせば、SpursEngineいらないんじゃ…。
46:デフォルトの名無しさん
08/08/09 21:38:57
The Barcelona Supercomputing Center has a new prototype
to investigate the supercomputing of the future
URLリンク(www.bsc.es)
Roadrunnerを超えるCellスパコンができるらしい。
47:デフォルトの名無しさん
08/08/09 21:52:37
ついにベールを脱いだIntelのCPU&GPUハイブリッド「Larrabee」
URLリンク(pc.watch.impress.co.jp)
Intel版Cellといろんなところで騒がれていますな。Cellとがちだけど、GPUとして
登場するところは大きな違いであり、?でもある。
48:デフォルトの名無しさん
08/08/09 22:01:41
そろそろCellも次世代のバージョンの詳細がでてくるだろうか。2PPE+32SPEがでる
っていう情報はでてるけど、それ以上の話はまだなくて、今まさに検討中なんだろう。
Sonyが腰が引け気味で、Toshibaが違った方向に進みつつあり、IBMはHPC路線で突き進んでいる。
また、PS3の状況は、次世代Cellに大きく関わってくるんだろう。PS3の状況はよくなりつつあるが、
まだ厳しそうだ。次世代に向けて動き出すときこのときに、今のような不透明な状況であることが、
次世代のCellに一体どう作用するか…。Sonyの求心力が弱まることで、よりIBM主導のアーキテクチャに
進むのだろうか?果たして…。
49:デフォルトの名無しさん
08/08/10 01:51:45
>>45
> Qosmio G50新兵器、SpursEngineがスゴすぎる件【前編】
> URLリンク(ascii.jp)
>
> NvidiaのGPUまわせば、SpursEngineいらないんじゃ…。
GPUでまっとうなC/C++使える日が来たらそうかもね。
50:デフォルトの名無しさん
08/08/10 04:02:39
MSが次のXBOXにLarrabee使うんじゃ
51:デフォルトの名無しさん
08/08/10 09:51:21
>>49
CUDAでいいんじゃね。
52:デフォルトの名無しさん
08/08/10 10:02:33
>>51
> >>49
> CUDAでいいんじゃね。
「まっとうなC/C++」というのはCUDAへの皮肉だよw
Cellの方がはるかに作りやすい。
まぁ作りやすい以上の動機があるからCUDAが使われているわけだけど。
53:デフォルトの名無しさん
08/08/10 10:05:28
三角関数も全く使えなくても、最適化が馬鹿でも、メモリ転送命令が低レベルでしか実装されていなくても、
それでもCellの方がはるかに作りやすいんですね、判ります。
54:デフォルトの名無しさん
08/08/10 10:15:24
超越関数使えるのは便利だわな。
それ以外のツッコミは的外れ。
55:デフォルトの名無しさん
08/08/10 10:41:47
超越関数なんて(細かい注文付けなきゃ)簡単に実装できるだろ?
何が問題なんだ?
56:デフォルトの名無しさん
08/08/10 11:31:49
そりゃハードで超越関数の演算器持ってくれてた方がうれしいだろ。
57:デフォルトの名無しさん
08/08/10 14:27:13
ハードウェアの超越関数ってスループットが5サイクルくらいなんでしょ?
4要素計算しても20サイクル、馬鹿っ速いじゃないか。
58:デフォルトの名無しさん
08/08/10 15:16:58
超越関数つーかsqrtがあれば十分だな。1/sqrtでも良いけど。
59:デフォルトの名無しさん
08/08/10 16:28:14
>>52
LSの容量制限でC++はやりにくかろう。結果的にCellもCUDAもそんなに変わらんと思うが。
60:デフォルトの名無しさん
08/08/11 01:27:06
>>59
そういうことはどっちもやってみてから言ってくれ。
61:デフォルトの名無しさん
08/08/11 11:15:00
どっちもCとちょっとの拡張で書ける程度だからねえ。書くだけならどっちもそこまで大差ないさ。
問題は最適化の段階だな。でも、これもコツを覚えて、そこそこの最適化でいいんならそんなには苦労しないと思う。
個人的な感想では、CUDAのメモリ周りの最適化がちょっと難ありか。Cellは最初からアラインメントとらないとそもそも
DMA転送できないようになっているから、あんまり考える必要ないが、CUDAの場合は、スレッドごとのDRAMへのアクセスパターンを
考えないと駄目というのが、う~ん。あとshared memoryのバンクコンフリクトを考えないと、とんでもないことに
なるときがある。ここらへんを、コンパイラかハードでなんとかしてくれるといんだけど。
62:デフォルトの名無しさん
08/08/22 21:02:45
Qosmio G50新兵器、SpursEngineがスゴすぎる件【後編】
URLリンク(ascii.jp)
円弧職人の夢がここに
63:デフォルトの名無しさん
08/08/25 12:11:23
ググってたらこんなんめっけた
URLリンク(www.ibm.com)
第 1 回 asmVis を試してみよう
URLリンク(www.ibm.com)
第 2 回 パイプラインを最適化する
64:デフォルトの名無しさん
08/09/10 10:54:28
リードテック、東芝のメディアプロセッサ
「SpursEngine」搭載PCIe拡張カード
URLリンク(pc.watch.impress.co.jp)
65:デフォルトの名無しさん
08/09/10 23:28:57
(゚⊿゚)イラネ
66:デフォルトの名無しさん
08/09/19 18:29:04
いくらくらいになるんだ?
67:デフォルトの名無しさん
08/09/19 19:06:43
東芝、'09秋に発売のCell TVの高速映像処理をデモ
URLリンク(av.watch.impress.co.jp)
45nmを積むんだろな。
68:デフォルトの名無しさん
08/09/24 00:02:00
次世代CELLは4PPE+32SPEか
368: 2008/09/22 22:10:38 RPIGcU63O [sage]
>>364
MACオタソースですけど、次世代CELLのクロックは3.8GHz止まりです。
> 6/10のセミナー資料、もう少し掘っていたら次世代CELLについて言及した別のがあったす。
> URLリンク(www-06.ibm.com)
> ・従来型Cell/B.E.わ2009年に45nmプロセス化
> ・以前のロードマップにあった2*PPE + 32*SPEの"PowerXCell 32ii"わキャンセル。代わりに
> 4*PPE + 32*SPEの"PowerXCell 32iv"へ。
> ・PowerXCell 32ivの世代でPPEに手を入れる -> PPE' へ
> ・同じくSPEわ"eSPE"に進化
> ・クロックも上げる、~3.8GHz
> ・その他PowerXCell 32iv世代の特徴わ、下記の通り
> - 100% backward compatible
> - PPE性能わ大幅向上
> - SPEわ新命令追加以外わ現状並 (新命令セットを使用するソフトわ大幅に性能向上)
> - SPE間の通信レイテンシ削減
> - More on-chip memory (LS増量か?)
> - メインメモリアクセスの大域幅増強とレイテンシ削減
69:デフォルトの名無しさん
08/09/25 04:02:42
marsが微妙にバージョンUp
70:デフォルトの名無しさん
08/09/25 08:23:16
>>68
それ何時出るんだ?
何プロセスで作ったら現実的なんだよ。
んな金があったら、拡張ボードを出すか、現状のアレな点を修正した
マイナーアップバージョン出した方が良いと思うんだが。
71:デフォルトの名無しさん
08/09/25 11:45:22
拡張ボードってなんだ?
あれな点とは?
72:デフォルトの名無しさん
08/09/25 18:34:33
>>70
微細化が進んだら規模を拡大するのは当たり前の話。サーバ用のCPUなんだから。
それに従来のCellの改良版なら、既に製品化されてるよ。
73:デフォルトの名無しさん
08/09/25 19:21:37
>>68が出たらPS3みたいに不良コアをいくらか殺してくれて構わないから安く手に入らないかなあ。
74:70
08/09/25 20:43:25
ああ、初代 Cell.B.E は 90nm だったのか。
だったら、4倍増(+LS増量)+αならありえる話か。ごめん。
どちらにしろ、PS3 限定状態じゃ流行らんだろな。
Atom + GeForce の方がやりやすそう。
75:デフォルトの名無しさん
08/09/25 21:04:32
そりゃAtomの方が数は出るだろうけど、そもそも競合してないだろ。
URLリンク(www-06.ibm.com)
76:デフォルトの名無しさん
08/09/26 15:13:55
Cellの将来はSonyとIBMと東芝がそれぞれ違う分野での使い方を想定し
異なる開発計画を持ってるから、「どの会社の計画なのか?」を
指定しないと話がスレ違いしまくりなんだよな。
Sony:ゲーム機(PS3及びその後継)
東芝:家電(画像処理)&ノートPC用コプロセッサ(SpursEngine)
IBM:ブレードサーバー&HPC用CPU
77:デフォルトの名無しさん
08/09/26 16:25:38
BDエンコーダとか、BDエンコーダとか・・・
78:デフォルトの名無しさん
08/09/26 18:06:51
Cell触ってみたいな
仕事では絶対やだけど
79:デフォルトの名無しさん
08/09/26 18:40:58
>>78
仕事でSuperEngine触るかもしれん
80:デフォルトの名無しさん
08/09/26 21:15:49
そいつはSuperですね
81:デフォルトの名無しさん
08/10/16 14:54:02
helloworldプログラムを作ったのですが、実行させると。
spu_create(): Invalid argument
spe_context_create: Bad addressとでます。
プログラムソースはfixstarsのチュートリアルどおりで、
PS3にはFedora7、SDKは3.0を導入しました。
ここの>>20さんの質問とほぼかぶっているのはわかるのですが、解決策がわかりません。
>>24さんのいう、バイナリのファイルが違っている、もしくは作られていない場合はどうしたらよろしいのでしょうか?
82:デフォルトの名無しさん
08/10/16 19:08:19
>>76
> Sony:ゲーム機(PS3及びその後継)
SCEではなくSonyでなんでゲーム機限定?
音響も視野に入ってくるだろ。
83:デフォルトの名無しさん
08/10/18 00:24:16
ヒント: 事業部の壁
84:デフォルトの名無しさん
08/10/18 10:04:21
>>81
fixstarsのチュートリアルの3.2章にあるソース(PPE/SPE用)をコンパイルしたということですよね。
私の環境では、Fedora7 + SDK3(厳密には3.0.0.3ですが関係ないでしょう)、で問題なく実行できます。
PS3 linux上でmountを実行した際に、spufsはマウントされていますか?
Linux環境周りの問題のような気がします。
85:デフォルトの名無しさん
08/10/18 18:11:22
GT200とかLarrabeeとかのニュースもひと段落して、最近、新しい話がなくて退屈だ。
そろそろ、つぎのCellの話がでてきていいはずだよな。
86:デフォルトの名無しさん
08/10/18 18:40:44
初代Cellは出たころは、9コアをいきなり実現して、業界にそれなりのインパクト、影響を与えたと思う。
次のCellは2010年後半で36コアだけど、どうなるだろうか。
さすがに32個もSPEがあると、本質的に今までと変わってくることが出てくる。
まず、一番問題なのはメモリの帯域だろう。現状でも帯域は演算に追いついていないが、
そこまで厳しい要求があるアプリケーションばかりでないので、実用には問題ない。
しかし、次のCellではコア数増で、帯域不足がより問題になるんじゃないだろうか。
IBMはもちろんそこら辺は考えた上で設計してるから、解決してるのだろう。その解決の
仕方がどうやっているのかが聞いてみたい。
次に、性能のスケーラビリティは32SPEでも問題なく保てるのかどうかだ。
これはメモリの話とも関係してくることではあるけど。初代Cellでは8コアで
ほぼリニアにスケールするという話がよく聞かれ、Cellの一つの売りになっていた。
2Cellで16SPEでもスケールするなんて話もあったような気がするが、次のCellでは
どうだろうか。
これが、32SPEくらいまでだったらスケールしたから、32SPEに設計しました
とかっていうのか、もっと100くらいまでいけることを確認しているのか、20個くらいが
限界で、あとは別用途で同時実行してくださいっていうのか、非常に重要だ。
Cellのスケーラビリティがよいというのは、他の半導体メーカーも注目しているはずで、
30個ぐらいでも性能でるめどがあるとなったら、他も真似して追従したくてしょうがないだろう。
8コアくらいまでが実用の上限なんて話もあるから、ここら辺の見極めをしたいはずだ。
まあ、アプリケーションによるけど。でもMARSが32SPEで効果的に働くってなったら、ちょっと
いいんじゃないだろうか?
87:デフォルトの名無しさん
08/10/18 19:19:41
このCellのスケール性がLSのコヒーレンシを考える必要がないことが本質だったら、
次のCell、その次のCell(120コアくらい?)で、その効果が指数関数的に出てくるはず。
そうすると、LSの再評価みたいなのが起きてくるんじゃないだろうか。
このLSに相当するGPUのshared memoryはその先取りかもしれないし、もしくは
メニーコアの必然として同じアーキテクチャにたどりついたといえるのかもしれない?
まあ、スクラッチパッドなんて昔からあったから、そんなに偉いもんかわからないけど。
LSといえば、プログラマはみんな容量を増えることを、次のCellでは期待しているだろう。
Cellのスピードチャレンジで今年優勝した人は、LSの容量が本質的に計算の高速化
と関係するようなことをいってた。プログラムが楽とかいうことではなく。
LSの容量が許せば、SPEごとのローカリティの高いアルゴリズムに変更できることがある
というようなことらしい。
Cellがでてだいぶみなが人柱になることで、LSの容量はこれくらいあるべきというのが、
ユーザーからあがりつつある。LSの増加は当然トランジスタ予算を食うわけで、SPE数を増やす
ほうがいいのか、LSを増やすほうがいいのかの天秤につるして、次のLSの容量もきまるんだろう。
次世代のCellで面白いのは、競合するGPUが存在するなかでのデビューになり、Larrabeeとの競争は
激しいものになるだろうことだ。
88:デフォルトの名無しさん
08/10/19 02:08:02
PPE:3
SPE:21
LS容量:12MB
これくらいがいい。
89:デフォルトの名無しさん
08/10/20 17:17:47
>>84さん ありがとうございました。
エラーの原因は>>84さんの記述どおり、spufsがmountされていなかったためでした。
90:デフォルトの名無しさん
08/10/24 11:44:38
mars1.0.0にバージョンアップ
91:デフォルトの名無しさん
08/10/27 11:35:38
とりあえずロックフリーキューで全部差し替えないとmutex大杉
92:デフォルトの名無しさん
08/10/27 14:01:17
SDK3.1
URLリンク(www-128.ibm.com)
93:デフォルトの名無しさん
08/11/04 17:49:52
質問なんですが、SDK3.0を入れても、コンパイルエラーが出て、
gccはインストールされていませんとでたのですが、
どこで入手したらよいのでしょうか?
94:デフォルトの名無しさん
08/11/04 18:15:30
パスはちゃんと設定してあるのか? いずれにしても、cellプログラミングと関係ないじゃん。
95:デフォルトの名無しさん
08/11/05 07:30:28
何この態度でかそうな奴
96:デフォルトの名無しさん
08/11/05 08:11:16
お前が言うなw
97:デフォルトの名無しさん
08/11/08 00:31:51
Fedora9にSDK3.1とシミュレータをインストールしました。
SDK付属のeclipse上から、シミュレータを実行すると、カーネルを読み込んで
立ち上がったところで、コマンド入力待ちになり、先に進まなくなってしまいます。
何か設定しなければならない項目等があるのでしょうか?
98:デフォルトの名無しさん
08/11/08 01:34:37
コマンド入力待ちになるなら、コマンドを入力すればいいんじゃね?
99:デフォルトの名無しさん
08/11/08 01:46:11
Run→Open Run Dialog...ウインドウのTargetタブで、起動したシミュレータを指定すればいいですよ
100:デフォルトの名無しさん
08/11/10 08:20:40
URLリンク(www.ibm.com)
101:デフォルトの名無しさん
08/11/11 20:41:20
フィックスターズ、Yellow Dog Linuxの米Terra Softを買収
URLリンク(journal.mycom.co.jp)
102:デフォルトの名無しさん
08/11/12 10:16:13
URLリンク(www.ie.u-ryukyu.ac.jp)
URLリンク(www.ie.u-ryukyu.ac.jp)
こんなのあった
103:デフォルトの名無しさん
08/11/12 15:31:40
>>102
ワラタ。Cellの開発に東芝の名前が無い。
104:デフォルトの名無しさん
08/11/12 21:11:45
Hack the Cell 2009に参加しようかな
ほんとに図書券もらえるならやる気出すんだけど
105:デフォルトの名無しさん
08/11/12 21:17:07
社員乙
106:デフォルトの名無しさん
08/11/12 21:29:31
レス早いな
結局図書カードじゃね?って話なだけだったんだが
107:デフォルトの名無しさん
08/11/13 10:25:46
応募したらHack the Cell 2008に参加ありがとうって言われたけどいいのだろうか
108:デフォルトの名無しさん
08/11/13 11:34:08
>>102
揚げ足だけど、一つの文章内でCell Broadband Engineの説明がSPEが7つとか6個とか書いちゃってる時点でアイタタタ。
統一取れてない上にPS3に限定しない一般的な説明としてはどっちも間違ってるw
109:デフォルトの名無しさん
08/11/13 16:30:46
PS3をOpenCV on the Cellとして
顔認識のサンプルプログラムを動かしてみたいのですが、
fixstarsの通りにインストールしても巧く動作しません。
(SPEが動いている気配なし)
URLリンク(cell.fixstars.com)
たぶんパスがちゃんと通ってません。
どなたか解決法を教えてください!!!
110:デフォルトの名無しさん
08/11/14 02:08:31
Hack the Cell 2009ってこれのことか。
cellプログラミングのコンテンスか
URLリンク(cell.fixstars.com)
なんで>>107は2008に参加ありがとうって言われたんだw
学生と社会人で部門分かれてるけど・・
どちらにも当てはまらない場合にはどうなるんだ?
111:デフォルトの名無しさん
08/11/14 17:20:37
もりあがってまいりました。
112:デフォルトの名無しさん
08/11/15 20:53:05
最近C言語の勉強始めたばっかりだけど、Hack the Cellって参加して大丈夫かな?
PHPならかなり得意なんだけど。
でも、優勝しても一緒に海外旅行に行くような友人いないなぁ。
113:デフォルトの名無しさん
08/11/15 21:59:26
どーせなら ioccc で笑いをとれ
114:デフォルトの名無しさん
08/11/15 23:12:54
PHPが得意でCが出来ない人間ってオブジェクト指向とか知ってるのか気になる
115:デフォルトの名無しさん
08/11/15 23:38:33
Cellの知識っていわゆるトリビアだよね。
116:デフォルトの名無しさん
08/11/15 23:56:22
2年近く最先端でいられたのである意味役立った。
117:デフォルトの名無しさん
08/11/16 06:40:32
これ、家賃収入で食ってる人や無職でも参加できるんだろうか?
学生以外は全部社怪人部門ってなってるけど、会社名とか部署名とか必須項目を埋められないんだが。
素直に会社名「親の家」部署「自宅警備」って書いていいのか?
118:デフォルトの名無しさん
08/11/16 11:12:01
なぜおまえはそう卑屈なんだ
自宅警備員に誇りを持て
119:デフォルトの名無しさん
08/11/16 11:42:28
PHPならほんとかなり得意だよ
お前らのPCハックくらいは全然余裕
Cellも多分簡単に使いこなせると思う
120:デフォルトの名無しさん
08/11/16 14:43:10
釣りは他所でやれ
121:デフォルトの名無しさん
08/11/16 16:17:18
>>118
あの登録フォームみてると「何らかの組織に所属してる人間以外は参加禁止」って風に見えるんだ。
122:デフォルトの名無しさん
08/11/16 18:17:17
URLリンク(www.amazon.co.jp)
123:デフォルトの名無しさん
08/11/16 20:19:39
>>121
自宅警備員代表としてがんばってくれ。
時間が味方をしてくれるはず。
俺はだめみたいだ・・DMAとか良く分からん
124:デフォルトの名無しさん
08/11/17 00:53:39
>>110
>社会人部門
>
>学生部門に該当しない人すべての方が対象となります。
~~~~~~~~~~~~~~~~~~~
>個人もしくは2名でのチーム応募が可能です。
少しは説明読めよw
125:デフォルトの名無しさん
08/11/19 23:23:22
Cell2 Broadband Engine
・ 3PPE (Power Processor Element)
・4.2Ghz
・2 threads (can run at same time)
・L1 cache:32KB data + 32KB instruction
・L2 cache:512KB
・Memory bus width:64bit (serial)
・VMX (Altivec) instruction set support
・Full IEEE-745 compliant
・18 SPE (Synergistic Processing Element)
・4.2Ghz
・2 SPE disabled to improve chip yield
・1 SPE dedicated for hypervisor security
・256KB local store per SPE
・128 registers per SPE
・Dual Issue (Each SPE can execute 2 instructions per clock)
・IEEE-754 compliant in double precision (single precision round-towards-zero instead of round-towards-even)
PS4のスペック予想
URLリンク(www.edepot.com)
126:デフォルトの名無しさん
08/11/20 12:02:06
120%ありえない
127:デフォルトの名無しさん
08/11/25 22:47:41
>126
そう? Cellに関してはそんなにぶっ飛んでもいない、
むしろ穏当な予測だと思うが。
PPEを3つも積むかはちょっと疑問だけど。
SPEのローカルストアはやはり256KBが限界なのかなあ?
アーキテクチャ上はもっと増やせるように思うが、
ダイの面積的に苦しいだろうか?
128:デフォルトの名無しさん
08/11/25 23:59:01
>>127
●Cell B.E.にeDRAMの大容量メモリ搭載の道も開ける
URLリンク(pc.watch.impress.co.jp)
129:デフォルトの名無しさん
08/11/27 13:08:12
URLリンク(www.fixstars.com)
130:デフォルトの名無しさん
08/11/29 19:43:30
SpursEngineのSDKの解説があるらしい
SpursEngineのイベントを東芝が来週実施、SDKの解説やソフト各社のアピールも
URLリンク(www.watch.impress.co.jp)
131:デフォルトの名無しさん
08/12/02 23:47:15
XLC で行こう!: 第 3 回 いくらかの手入れはやっぱり必要
URLリンク(www.ibm.com)
132:デフォルトの名無しさん
08/12/06 01:55:30
ソニーからこんなん出てますな。
URLリンク(pc.watch.impress.co.jp)
URLリンク(www.ecat.sony.co.jp)
映像編集用機器扱いだけどどんな使い方を想定してるんだろうか? OS別だし。
こういうのも悪くは無いかも知れないが、PC用拡張ボードの形で
メモリ(XDR-DRAM)をある程度積めてそこそこ安い奴を早く出して欲しい。
PS3よりもっとメモリがたくさん欲しいと思うといきなり100万円コースに
なるのはそろそろ勘弁してください。
133:デフォルトの名無しさん
08/12/08 14:31:24
>>132 いまいち、わからんなぁ・・・・・・
結局それって幾らぐらいのしろもので、どの程度の事まで手が回せるんだろう???
なんか、情報がどうでもいい事しかでてなくてなぁ。
たんなるPS3の在庫処分としてなんだろうか?
134:名無し募集中。。。
08/12/08 17:27:13
Cell派生のSpursEngineのPCIeボードが発売されているがSDKを年内に無料配布するそうだ
なんだSpursEngineか、と思ったらSPEの開発環境(eclipse)ごとの提供でデバッガも付くらしい
URLリンク(www.watch.impress.co.jp)
ホスト側(PC側)はVisual Studioで日本語ドキュメントも用意されるらしい
URLリンク(www.watch.impress.co.jp)
SpursEngineのボード自体が3万くらいだからPS3買えよって話もあるけどね
135:デフォルトの名無しさん
08/12/09 00:19:00
>134
SpursEngine搭載カードはいろいろ出てきたが、肝心のCell搭載カードは
いくら待っても出て来ないな(100マソコースのボッタクリCardは除く)
XDR-DRAM容量を256MBから1GBくらいまで選べてついでにDDR2-DRAMを
1GBくらい搭載できて5万から20万程度のカードがなぜ出せん?
もちろんインターフェースはPCI-Express x 16で。
冷却ファンはゴツイ物が要りそうではあるな。
RSXは使いようが無いんで要らない。
アマチュアプログラマの関心はもっぱらGPGPUに向かってしまうぞ。
あらゆる実験をすべてPS3上でやれってか?FixStarsさん。
136:,,・´∀`・,,)っ-●◎○
08/12/09 00:27:49
URLリンク(cellbe-cygwin.cvs.sourceforge.net)
PPE側も含めてWindowsでクロス開発はできる状況になりつつあるんだけどね。
137:デフォルトの名無しさん
08/12/09 19:47:54
>>135
ごもっとも。PCにさせるということが、実は一番気軽な近い手段なんだと、実感させられる。
ゲーム機にインストールできるってのは、手軽そうで実はバリアがある。
Nvidiaはそこらへんを知ってか知らずか、かなり本気で環境出しているのがすごい。いくらサポート
がひどいとはいえ、WindowsPCで使えて、VCまで使える環境をそろえるだけで十分強力すぎる。
ひどい日本語とはいえドキュメントもそろえて、開発者用公式の掲示板も作って、やれることをやっている。
Cellはなぜ3社もあるのに、そういうのができないのか…。3社がねじれているからって気もするな。
138:デフォルトの名無しさん
08/12/09 22:13:19
nVidiaが必死なだけ
139:,,・´∀`・,,)っ-●◎○
08/12/09 22:48:12
成果は出てる分マシだろ。
140:,,・´∀`・,,)っ-●◎○
08/12/09 23:16:20
GPUで単精度で500GFLOPS出るビデオカードが2万程度で買えるご時世に
頑張っても200GFLOPS出るかでないかの代物に4万も出して買う奇特な人間もそうそういないからな。
SpursEngineだってMPEG2/H.264のエンコーダ・デコーダと既製ライブラリがあるからこそのもので
SPEだけだったらいくらSDK用意しても誰も食いつかなかったろうよ。
実際問題、リードテックのアレは食いつきがいいのかどうかは知らん。
言語処理系としてCUDAが優れてるのは、SIMDとマルチコアという概念をSPMDモデルにおける
スレッドの概念でうまく隠蔽してること。並列化言語としては非常にシンプルでわかりやすい。
141:デフォルトの名無しさん
08/12/09 23:41:14
最後の二行、残念ながら団子に同意。とは言うものの、スレ違いだなw
142:デフォルトの名無しさん
08/12/09 23:44:52
SCEはこれぐらいやってもいいんじゃね?
・PLAYSTATION公式ページで「PS3でできること」にLinuxのことをちゃんと書く
とにかく今だにPS3にLinuxをインストールできることがPS3ユーザーにすら知られてない。公式にアナウンスしないから。
サポート対象外の機能です、でいいから。「へーそんなこともできるんだ」と思ってもらったらそれだけで付加価値2万円分ぐらいアップすると思う。
フィックスターズはYDLのリリースに合わせてインストールDVD付きのムック本を出して欲しい。
定期的に。内容は毎回ほとんど同じでもいいから。そういうディスク付きのHOWTO本が出ないと新規ユーザーは増えていかない。
エンドユーザーが増えないとCellビジネスも加速しないよ?
東芝とソニーはCellパソコン作ってよOSはLinuxで。GPUはチップセット内蔵レベルでいい。グラフィックはSPEでやればいいから。ローコスト重視で、細く長く売るタイプの商品にして欲しい。
せっかくいいもん作ったんだから、どんどん前出していこうぜ。
143:デフォルトの名無しさん
08/12/09 23:59:02
nVidiaが頑張っている事もCUDAが良くできている事も同意なんだが
日進月歩で且つレンジの違うものにご時世とか言ってるのが痛すぎる。
Cellに未来があるかはともかく。
144:,,・´∀`・,,)っ-●◎○
08/12/10 00:24:27
>フィックスターズはYDLのリリースに合わせてインストールDVD付きのムック本を出して欲しい。
フィックスターズ(旧Terrasoft)としては有償サポートを売りたいだろうからこれは無いだろ。
ぶっちゃけ、【Linuxインストールディスクに広告付きの紙の束を売る商売】は今世紀始まって
2年くらいでビジネスモデルとして破綻した。
スポンサー不在というか、スポンサーに対する消費者不在。
Software Designみたいな硬派な雑誌とは違って、ノンサポートのLinuxのCD-ROM付録
楽しみにしてるのはせいぜい個人ユーザーくらいだった。
企業ユーザー向けのカラーを強めると、あくまでクライアントOSとして楽しみたい
個人が置いてけぼり食らう。はなから企業ユーザーはあまりついてきてなかった。
ルータとか仮想化ソリューションとか売りにしても消費者が付いてこないわけよ。
で、広告が取れないからどんどん薄く高くなっていった。
追い討ちをかけるようにブロードバンドやCD-Rが普及しちゃったから、雑誌で
買う意味もなくなっちゃった。
Linux Magagineのまつもとゆきひろ氏の連載は好きだったけどさ。
連載打ち切られてから買う楽しみもなくなったな。
まあPC雑誌全般に言えることだけど。
どういうわけかMac雑誌だけは根強い人気を誇ってる。あれだけは理解不能。
>>143
浮動小数の額面だけに注目した性能・コストパフォーマンスに関してはGeForce 8800シリーズ登場時点で
既に微妙だったよ。つまり初っ端から微妙。その上ゲーム事業がいまあの様だし。
厳密に言えばGPUでやれることはCellのSPEのそれよりも用途を選ぶしメモリの制約も厳しい。
だが言語処理系としてのとっつきやすさの面ではCUDAはそれなりには良いものだ。
要するにCellが訴求力弱いのはその辺だね。
まあ、OpenCLに対応したからっていまさらどうなるもんでもないがな。
145:,,・´∀`・,,)っ-●◎○
08/12/10 00:53:49
PS3も日進月歩で価格落ちてくれれば良かったんだがね。2万円台くらいに。
最初から製造原価割れ。
更にダンピング規制法ができて、無茶な値下げができなくなった。
ソフトメーカーがついてきてないのにハード売っても仕方ない面もある。
最近のNVIDIAもハード先行の感はあるが、なにげに昔からゲームソフト開発に対する支援は手厚かった。
機材やライブラリの提供とかな。
メジャーなPC向けゲームタイトルには必ずNVIDIAの広告があるだろ?
CUDAでも同じように技術支援やってるよ。それこそ個人開発のソフトにまで。
一方でSCEはPS3向けソフトの無料体験版をダウンロード数に応じてソフトメーカーに課金とか、
あり得ない資金回収法を実施中。
そういうことは市場掌握して有無を言わせない状態にしてからするもんだ。
DSとかWiiとか360とか他に逃げ場がある状態でやってるからな。これでは逃げるばかり。
打算的な悪行は他にもあるが。
「PS3を中心としたCellベースのエコシステム」の可能性を自ら潰してしまった。
146:デフォルトの名無しさん
08/12/10 01:14:53
ムック本自体で儲からなくてもいいんだよ。
エンドユーザーを増やすことが目的だから。
エンドユーザーが増えればCell自体の知名度や注目度も上がってビジネスでの採用も増えるだろうし、
将来の社員の養成、技術者のレベルの底上げもできる。
だからフィックスターズはやるべきだよ。
147:デフォルトの名無しさん
08/12/10 07:32:08
これぐらいだなやってるの
URLリンク(www.playstation.com)
URLリンク(cell.fixstars.com)
148:143
08/12/10 10:04:28
OpenCLの策定にはIBMもかなり入っててCellに対応するっぽいから生暖かく見守ってる。
149:デフォルトの名無しさん
08/12/10 18:47:23
OpenCLが正式にリリースされていつでも使えるようになった後でも
CellだけリーズナブルなPC用拡張カードが出なくて、誰もCell用
OpenCLを使えなかったとしたらなかなか笑える状況だな。
150:デフォルトの名無しさん
08/12/10 18:56:38
Cellが生き残るかはアレだけどIBMのOpteron+Cellってのは悪くないと思う。
それぞれ得意分野が全く違うわけで。
理想的にはCPU+Cell+GPUになるべき。
そのためのOpenCLだと思うしね。
CPUでもDSPでもGPUでも同じように記述できて、簡単に切り替え/同時使用出来るようになってる。
当然得意分野が違うわけだからフローまで同じように記述したら性能は生かせないが、
同じ言語で記述できて、とりあえず動くいうのは大きい。
151:デフォルトの名無しさん
08/12/10 22:11:42
今AMDとSTIって仲間なの?
152:デフォルトの名無しさん
08/12/10 22:43:37
STI?
スバルテクニカインターナショナルとAMDが何か関係があるとは
聞いた事無いな。
153:デフォルトの名無しさん
08/12/11 15:37:08
>>150
>理想的にはCPU+Cell+GPUになるべき。
この理想っていうのは何に使うつもりなの?たしかに、GPUで得意なところとCellで得意なところが
補えるという意味では理想かもしれないが、そんな複雑なシステムを使おうっていう人や状況は
本当に限られていると思う。
計算機センターで、いろんな人に対応する共有計算機ならまだわかるが、そんなん使う人いるかどうか…。
154:デフォルトの名無しさん
08/12/11 16:45:34
ATIはAMDが買った。良い買い物だったと思うよ。
155:デフォルトの名無しさん
08/12/11 22:05:49
>>151の言ってるSTIってちょにー・とーしば(笑)・IBMのことじゃ?
45nmプロセスの開発で協力とか何とかがなかったっけ。
156:デフォルトの名無しさん
08/12/11 22:47:09
Sony Toshiba IBMの三社をまとめてSTIと略すのは初めて聞くな。
AMDとIBM(他にも何社か)が半導体プロセス開発
(特にSOIプロセス)でアライアンスを組んでるのは有名だが。
157:デフォルトの名無しさん
08/12/11 22:54:11
URLリンク(en.wikipedia.org)(microprocessor)
Cell is a microprocessor architecture jointly developed by Sony Computer Entertainment, Toshiba, and IBM, an alliance known as "STI".
158:デフォルトの名無しさん
08/12/11 23:05:46
ヘーヘーヘー! 初めて知ったw。
159:デフォルトの名無しさん
08/12/11 23:40:05
そういえばSTIは今回の金融危機でかなりの痛手を負っててリストラを余儀なくされてるけど、
MicrosoftとIntelだけはなぜか不自然なほど傷が浅いんだ。。。
160:デフォルトの名無しさん
08/12/12 04:01:59
IntelはAtom馬鹿売れだったからな。小さくて歩留まりもいい製品だから、数さえ捌ければ儲かる。
MSのVista不人気は今に始まったことじゃない。
ソフト事業自体、もともと利益率がすさまじいし。
十分な利益率で十分な労働者を雇えるだけの貯蓄がある。
日本企業だと任天堂がリストラ知らずなのと同じ。
Xbox事業が今期から黒字計上してるのも大きいね(累積だとまだまだ赤だけど)
ドル安は短期的には外貨稼ぎにプラスに働く。
161:デフォルトの名無しさん
08/12/12 21:36:06
しかし、STIでも
一番おいしいところはIBMが持っていくと。PC部門の売り時もうまかったし
HDDも・・・IBMはすげーよ。
162:デフォルトの名無しさん
08/12/21 21:03:41
/proc/cpuinfoのtimebaseってsysctlとかで読めないのでしょうか?
163:,,・´∀`・,,)っ-○◎●
08/12/21 21:26:17
今更Cell用のコード書いてみたんだ
URLリンク(tripper.kousaku.in)
164:デフォルトの名無しさん
08/12/25 23:17:21
Hack the Cellの課題発表された
URLリンク(cell.fixstars.com)
課題はメルセンヌ・ツイスタの最適化
使用SPE1基、LS256KBのうち210KBが使用禁止。
165:デフォルトの名無しさん
08/12/26 08:25:47
あんまり工夫のしどころが無い気が…
166:デフォルトの名無しさん
08/12/26 12:45:53
URLリンク(ftp.uk.linux.org)
バージョン1.1
167:デフォルトの名無しさん
08/12/26 14:14:24
>>164
もち団子さんに期待
168:デフォルトの名無しさん
08/12/26 16:01:05
まるでだんごのために用意したような課題
前書いてたしな
だんご入賞したら尊敬してやる
169:,,・´∀`・,,)っ-●◎○
08/12/27 18:34:18
だが断る
170:デフォルトの名無しさん
08/12/27 21:03:06
さすが団子さん!
171:デフォルトの名無しさん
08/12/30 22:35:11
質問なのですが、Cell SDK のインストールされているFedora 9 にて、
SPE用のCソースプログラム上からpthread_create関数でスレッド生成出来ますか?
要するにSPEのプログラムはマルチスレッドが出来るかどうかと言うことなのですが、
手元にCell環境がないので教えてください。
172:デフォルトの名無しさん
08/12/30 23:28:20
>>171
SPEで、まともなプログラミングができると言う甘い幻想はとっとと捨てましょう。
POSIXはおろか、C標準の関数でさえ殆ど使えませんから。
つーか、なんでスレッド生成なんて発想に?
そんなのは、PPEにやらせてSPEは計算に専念するのがCBEの基本ですぜ。
173:デフォルトの名無しさん
08/12/31 00:01:37
>>172
ある処理を行う裏側で、SPEからPPEに書き込むデータが50区画ぐらいありまして、
tag番号が32までしかないので、別スレッドでデータを送ろうと思ったのですが・・・。
データの配置を連続的になるように考え直したいと思います。
174:デフォルトの名無しさん
08/12/31 02:34:46
>>173
DMAタグをローテーションさせて転送させたらいいと思う
175:デフォルトの名無しさん
08/12/31 02:45:01
>>173
あ、裏側でか。
関数を交互に呼んで疑似マルチスレッド、かな。
176:,,・´∀`・,,)っ-●◎○
09/01/02 18:37:45
そーいえばSPEで簡単なベンチマークとろうとしてtime.hがなくて吹いた
177:デフォルトの名無しさん
09/01/02 20:30:28
そりゃ当たり前だな。
パソコン上のCでtime関係の関数が普通に使えるのはPCが
ハードウェアでリアルタイム・クロックを持ってるからだ。
で、CPUから直接読める空間にレジスタを置いている。
ハードウェアのリアルタイム・クロックがなけりゃ
例えPCのCPUであってもどうしようも無い。
178:,,・´∀`・,,)っ-●◎○
09/01/02 20:57:46
まあ使いたいのは時刻よりは時間計測なんだけどな
そこはSPU Decrementerうまく使って代用して欲しかったね
PS3のCellはベースクロックが79.8MHzだっけ
いちおうLinux上からはとれてるみたいだけど
179:デフォルトの名無しさん
09/01/02 21:48:24
たかだか数分しか計測できないDecrementerを上手く使えとか。
180:デフォルトの名無しさん
09/01/02 22:31:32
clock()でも実装しておいてくれれば楽なんだけどねぇ。
まぁ、所要時間計測はどっちみち環境依存するものと思っているから未だいいのだけれど。
181:,,・´∀`・,,)っ-○◎●
09/01/03 07:42:35
>>164
ちょっと弄ったら4倍速くらいになった。
ここまでは当然として、締切ぎりぎりまで粘るかな
182:デフォルトの名無しさん
09/01/03 19:31:43
>>181
応募するには最低10倍速だな。さてさて。
183:,,・´∀`・,,)っ-●◎○
09/01/03 20:41:32
>>182
実行結果見せてみ?w
コードみせろとは言わない。
184:,,・´∀`・,,)っ-●◎○
09/01/03 23:48:52
どっちかというとコードサイズ制限の中でどれだけアンロールするかっていうテーマになりそう
185:デフォルトの名無しさん
09/01/04 00:22:09
いやいや、俺は参加してないよ。応募条件だったか、入賞の条件かが、Fixstarsのサイトに10倍速って書いなかった?
186:デフォルトの名無しさん
09/01/04 01:46:51
>>184
SFMTをそのまま移植してる?
187:,,・´∀`・,,)っ-●◎○
09/01/04 01:53:36
>>184
あれは生成式が別物だからそもそも使い物にならない。
しかし意外と並列化できるね。それこそアンロールしまくれば。
Makefileは弄っちゃ駄目だけど#pragmaは使っていいんだろ?
188:,,・´∀`・,,)っ-●◎○
09/01/04 01:55:14
>>186ね
189:,,・´∀`・,,)っ-●◎○
09/01/04 01:56:50
movdquみたいな気の利いたミスアラインデータを処理するユーティリティ関数がなくてうぜーと思いました
shufbですませたけど。
190:,,・´∀`・,,)っ-○◎●
09/01/04 05:48:26
7倍までいけた。
コンパイラの指定とかあるの?俺が使ってるのはSDK3.1
IBMが出してるトレースツールでも使おうかな
191:,,・´∀`・,,)っ-○◎●
09/01/04 05:50:39
乱数の種と生成する乱数列の長さを決めるseed_tableに含まれるデータは例です。 実際の計測時は変更する場合があります。任意の値で動作するようにしてください。
ただし、以下の二点は仮定して構いません。
- num_randは4の倍数
- num_randは10000以上
なーんだ、仮定して良かったのか
192:デフォルトの名無しさん
09/01/04 05:54:04
GCC4.3とXLCってどっちがはやいんだろう。俺はいろいろあってXLC派。
193:デフォルトの名無しさん
09/01/04 05:58:40
しかし、コンテストが2つもあるのにこの過疎りよう…。もうちょっと盛り上がっても
いいような気がするぜい。
194:,,・´∀`・,,)っ-○◎●
09/01/04 07:35:56
GCC4.3の吐くコードはたまに神がかった最適化をやってくれるんだけどピーキーだな。
速くなったり遅くなったり。
最適化フラグの指定方法によって変わるから、1関数毎に細かく最適化オプションを指定していく必要がある。
これはCellに限らずだけど。
195:,,・´∀`・,,)っ-○◎●
09/01/04 08:51:06
>>164
これの
>使用SPE1基、LS256KBのうち210KBが使用禁止。
ってどこに書いてある?
196:,,・´∀`・,,)っ-○◎●
09/01/04 08:53:09
あーなるほど、壊れるのか
197:デフォルトの名無しさん
09/01/04 15:04:23
>>193
もう一つのコンテストって何?
198:,,・´∀`・,,)っ-○◎●
09/01/04 16:36:14
やべー俺優勝しちゃうかも
199:デフォルトの名無しさん
09/01/04 17:00:49
Cell Challenge 2009
URLリンク(www.hpcc.jp)
こっちの方が〆切近いな
200:デフォルトの名無しさん
09/01/05 09:27:32
>>198
大丈夫、きっとみんながそう思っている。
201:,,・´∀`・,,)っ-●◎○
09/01/05 18:10:03
劇的ではないものの、ちょっと弄ってみただけでも1割くらい平気で性能伸びるな
202:デフォルトの名無しさん
09/01/06 20:14:22
一個目、7Mticks切った。
だんごさんに勝てる気はしないけど、準優勝を目指す。
203:,,・´∀`・,,)っ-●◎○
09/01/07 04:24:06
そこまでは軽くいけるのか。やっぱり。
俺も自分の変態テクニックがどこまで通用するのかはわからん。
本格的に壁にぶち当たったから使える命令がないか手当たり次第に探ってるところ。
収穫がないようならとりあえず提出一番乗りさせてもらうよ。
暫定だけどレポート書いちゃったし。
これ以上は時間かけても無駄かもと思っている。
マイクロ秒単位の勝負に持ってこられると正直きつい。いろいろ手抜きしてる部分が響いてきそう
204:202
09/01/07 10:31:32
>>203
なんかもう行き詰った。
>>202のあともいろいろやったんだけど、あれからどうしても 7M 切れない。
何を工夫しても逆に遅くなる。
アセンブラで書けば >>202 を超えられるかもしれないけど、そこまでする気力は無いや。
odd パイプがきついよね。 even パイプが add と shift だけでも受け付けてくれると助かるのに。
205:202
09/01/07 11:39:50
また7Mtics切れるようになった。
ループ一回をマクロにして十数個並べたりとか、お決まりだな。
こっちも、もうそろそろレポート書くか。
206:デフォルトの名無しさん
09/01/07 12:28:37
早く提出した方がいいとかあるの???
207:,,・´∀`・,,)っ-○◎●
09/01/07 13:00:22
ないね。
考えて答えが見つかるモンでもないし
考えすぎて仕事が手に付かなくなるくらいなら諦めた方がいい。
208:デフォルトの名無しさん
09/01/07 16:22:11
7Mticsていうと30倍以上かすげーな
アルゴリズムは基本のままでそこまでいけるの?
209:202
09/01/07 16:40:51
>>208
アルゴリズムはそのままだけど、生成した乱数をチェックサム計算だけして直ぐに
捨たりと、実用性を削って速度を稼いでる。
210:,,・´∀`・,,)っ-○◎●
09/01/07 16:50:59
いいこと思いついたぞ!
ビットスライスして処理すればいいんじゃね?
(混乱させようとしてるからあぼーん推奨)
211:デフォルトの名無しさん
09/01/07 17:11:43
ぶっちゃけCellって将来性はどうなの?
なんかPCのGPUでトリップ計算がCellの10倍の性能たたき出したとか
聞いたんだけど
212:,,・´∀`・,,)っ-○◎●
09/01/07 17:21:24
45nmで32コア+PPE2コアのCellが出てるね
自作の改良版Bitslice DESを使うと、PS3でSPE 6コアだけ使って12MTrips/sec程度はいける。
32コア全部使えば64MTrips/sec程度は出る
でもその32コアCellはアホみたいに高いおwwwwww
213:デフォルトの名無しさん
09/01/07 18:14:43
当分安くはなりそうもないしねぇ。
214:202
09/01/07 19:52:39
>>210
spu_sel() ?
もう使ってるよ (謎笑
7Mまで苦労したのに、「そこまでは軽く」とか言っちゃう人が、さらに速くなるのか・・・
ひょっとして6M切ってる?
215:デフォルトの名無しさん
09/01/07 19:58:30
>>202
ミスリードしているぞ。「そこまでは軽くいっちゃう」のはあんたのことだろ。団子は自分のことだとは書いてないぞ。
216:,,・´∀`・,,)っ-○◎●
09/01/07 20:08:47
流石にヒントはやれん
>>214
当然
217:202
09/01/07 20:09:16
>>215
だんごさんは、 1/4 に URLリンク(tripper.kousaku.in) までいってて、
1/5 に >>201 とかいってるから、 7M は切ってるハズ。
という前提の元に、 7M 切れた! と言ったら、「そこまでは軽く」と返されたので、
6Mまでいってるのかな、と。
6M逝かれると、逆立ちしても勝てる気がしない。
218:デフォルトの名無しさん
09/01/07 20:51:36
32コア版も新型GPUも8~10億トランジスタ、
ダイサイズは同じくらいになるだろ
歩留まり率はまあアレで同じとして、
SPEだけでも本当に5~6GHzで動かせるならアドバンテージになるな
メモリ帯域も拡張しないとあんまり意味ないけど
219:デフォルトの名無しさん
09/01/07 20:53:28
メモリ拡張した際の端子数考えるとXDRも広帯域実装向けなんだよな
220:,,・´∀`・,,)っ-○◎●
09/01/07 21:03:54
業界の問題児RAMBUS
221:デフォルトの名無しさん
09/01/07 21:25:09
>>218
それって本当?
じゃあ、32コアCellはGPUとトランジスタ資源は同じで、現行の周波数でも同性能になるの?
感覚的に、GPUのほうが単純な構造だから、同じトランジスタ数ならピークの性能はGPUが上かと思っていた。
もし同等なら、LSの容量の大きさが結構あるってだけで、Cellの強みはすでにあるよね。あと倍精度も上になる。
価格は全然だめだめだろうけど。
222:デフォルトの名無しさん
09/01/07 21:30:25
初代の改良ということで、LS1MBとか、SPEのスカラ性能アップとか、PPEの強化とか実現したら結構いいものになるだろうな。
でも、PPEが強化ぐらいしか現実的に無理だろうけど。
まあ、IBMのことだからそういう反省点はちゃっかりPowerに反映してくるだろうなと予測。
223:デフォルトの名無しさん
09/01/07 22:03:08
>>222
LSは256KBのままでその分SPE数を増やしてもらった方が嬉しいな。
LS増やしたら確実にSPE載せられる数減るし。
224:デフォルトの名無しさん
09/01/07 23:37:17
>>223
>>128
225:202
09/01/08 00:41:55
odd命令をeven命令に切り替えた。
というか、あの命令がeven命令だと知らなかった。
俺にも6Mが見えてきた。
226:デフォルトの名無しさん
09/01/08 02:12:54
spu-gcc43 に変更されてる & FAQ追加されとる。
227: ◆eZQcaIaFJs
09/01/08 02:30:19
oddとevenの違いが分かってきて、何とか7Mtick切れた@gcc43。
# 課題の再提出って出来るんだろうか…。フライングしすぎて失敗してもうたorz
228:,,・´∀`・,,)っ-●◎○
09/01/08 04:15:43
はやく提出して得することなんてあるのか?
フィックスターズからのスカウトでも狙ってるの?
229:,,・´∀`・,,)っ-○◎●
09/01/08 04:20:50
つーか、何の意図があってspu-gcc43なんだ?
おかげで50倍超えたおwww
なぜならオリジナルのほうが遅くなったから
230:202
09/01/08 10:27:46
spu-gcc43 にしたら、ORIGINALが遅くなって、40倍以上平気で出るなw
・・・よし、6M
231:デフォルトの名無しさん
09/01/08 11:20:52
再提出可になってる。@FAQ
っていうおいらはリモート開発環境に scp できない次元で奮闘中。
みんな出来てんのかなぁ???
232:デフォルトの名無しさん
09/01/08 11:34:07
>>228
フィックスターズからのスカウトでも狙ってるの?
233:,,・´∀`・,,)っ-○◎●
09/01/08 11:38:57
どっちにしろ再提出何度もできるなら、しないよりはした方が得だな
234:デフォルトの名無しさん
09/01/08 11:40:07
50倍超えたおwww
もう削れる気がしねぇ。だんごさんに並べてたら嬉しいな。
235:202
09/01/08 11:40:56
234=202
236:,,・´∀`・,,)っ-○◎●
09/01/08 12:05:25
そもそもORIGINAL側がコロコロ変わるからなぁ
まあ、やることはコンパイラの機嫌取りの作業だな
237:,,・´∀`・,,)っ-○◎●
09/01/08 12:47:32
次はCUDAに取りかかるかな
238:デフォルトの名無しさん
09/01/08 15:34:46
ところで顔と名前晒して表彰台に立つの?
239:デフォルトの名無しさん
09/01/08 16:33:45
ってか、社名も晒されるのかなぁ…
240:,,・´∀`・,,)っ-○◎●
09/01/08 18:21:39
>>239
会社名で申し込んだのか?
241:デフォルトの名無しさん
09/01/08 19:33:21
さすがに必須項目で嘘書くのも憚られるっしょ。
242:デフォルトの名無しさん
09/01/08 21:05:22
どうせだんごの50倍とかフカシだろ?
なんだかんだ理由付けて結局は提出しないと見た。
コンテスト終了後にだんごがソース公開しなかったらフカシ確定
243:,,・´∀`・,,)っ-●◎○
09/01/08 21:43:17
俺の中の人も本質を求める人間だ
たとえばさ、学生部門の優勝者って奨学金を年60万円もらえるでしょ。
社会人枠でたかだか42インチのテレビっていうか15万円相当のギフト券優勝狙うよりは、
より額が大きい学生枠で聞き分けのいい後輩に入れ知恵したほうが得
ってのは極論。しかし、特に勝つことには拘ってない。
ちなみに優勝候補は5x倍の圧倒的な性能をたたき出した上で既に提出済みって情報ならあるよ。
ビット演算の論理式レベルで最適化したレポートをひっさげて、ね。
#だんごやさんのマイミクにガチのフィックスターズ社員さんがいます。今回の出題者かもね?
244:,,・´∀`・,,)っ-●◎○
09/01/08 21:54:38
>>238-239はたぶんCell Speed Challengeのほうだろ。あれは大学・企業対決の意味合いが強いから当然だ。
フィックスターズのほうは会社の名義を書く必要がないので自宅警備員ですら応募可能です。
245:202
09/01/08 21:59:51
なんか心理戦になってるw
圧倒的な性能って、、、だんごさんも 5x倍でしょーに。
だんごさんが優勝候補でないとすると、俺は準優勝すらムリポだが、
一応50倍逝ったので終了後ソース公開するよ。
246:,,・´∀`・,,)っ-●◎○
09/01/08 22:06:44
っていうかIPC上限考えれば論理式レベルで手を入れない限り限界突破は不可能
247:,,・´∀`・,,)っ-●◎○
09/01/08 23:16:35
ちなみに「団子厨」は優勝云々以前に参加登録すらしてませんので。
偽名はまずいらしいからね。
2人までのチーム参加OKなの知ってた?
今回はだんごやさんではない代表名義で、実質俺だけでやってます。
優勝か準優勝になったらPS3を彼にあげるってことで手を打った。
248:,,・´∀`・,,)っ-●◎○
09/01/08 23:57:17
っていうか、優秀者のコードはBSDライセンスで公開されることになってるから
終了後に公開ってのも無意味だと思うんだ。
アセンブリ出力と実行形式一式を暗号化ZIPでアップロードして
コンテスト終了後にパスワード公開するってのはどうかな?
249:デフォルトの名無しさん
09/01/09 00:12:41
で、みんなで pikazip challenge ですね。わかります。
250:デフォルトの名無しさん
09/01/09 00:13:52
おいらまだ普通に並列化しただけで10倍の状態… orz
50倍はしんどそうだなぁ。あ、今 gcc 4.1 なんだけど、
4.3 にしたらどんくらい違うんだろ? 4.3 のオリジナルって
何 ticks くらい?
251:,,・´∀`・,,)っ-○◎●
09/01/09 00:16:43
4.3でやれ。
252:,,・´∀`・,,)っ-○◎●
09/01/09 00:17:14
一番上が29Mticksくらい
253:227 ◆eZQcaIaFJs
09/01/09 00:17:58
何とか6MTick突破。spu_timing 見る限りもっと詰められそうな気もする…。
これからドルアーガの中継見て寝る。
>>228
今は3Dプログラミングだけに集中したいと思っていたりもします。
254:デフォルトの名無しさん
09/01/09 00:21:06
spu_timing ってなんですか?とググらずに聞いてみるテスト。
255:,,・´∀`・,,)っ-○◎●
09/01/09 00:35:28
もっと画期的なモン使えよ
URLリンク(up2.viploader.net)
256:250
09/01/09 02:25:25
>>252
ども。29M って事は、50 倍だとやっぱとりあえずの目標が 6M なのね。
いま、ちょっとやったら 10M@gcc4.1 にはなった。さっきは 20M。
さらに半減かぁ。だんだん最適化できる所が減ってきたなぁ。
257:202
09/01/09 10:38:25
アンローリングしまくったら遅くなって、アセンブラ見るとローカル変数をLSに読み書きしてる・・・
コンパイラがバカなのか、レジスタ128個じゃパイプライン詰められないのか、よく判らん。
258:デフォルトの名無しさん
09/01/09 11:02:56
5.6M切ったよ
259:202
09/01/09 11:05:40
うぁー、5M台増えてきたな。
みんなすげー。
260:202
09/01/09 11:13:40
現在確認されている5M台は、だんごさん、俺、>>227、>>258 と、リーク情報の提出者か。
提出者 = >>258 だったりしないのかな?
261:202
09/01/09 11:18:35
トリップ付けて、コードのコメントにトリップパスつけるという手もあるな。
262:258
09/01/09 11:48:22
団子先生(笑)と同じチームだったりします。
263:デフォルトの名無しさん
09/01/09 11:58:18
>>262
名前貸してPS3をゲットを狙ってる人か
>>247の書き込みみると,学生部門じゃなく社会人部門で参加してるのね
ところでCellチャレやってる人はいないのかな
ここ学生少ないんかね?
264:デフォルトの名無しさん
09/01/09 13:47:18
トリップで mt_mine.c の sha1sum 書き込んどきゃいいじゃん
265:,,・´∀`・,,)っ-○◎●
09/01/09 17:17:15
証明する気など更々ないんだが
中の人は中の人名義で別の活動やってるからこっちの名前で技術的名声得ても何のメリットもないし。
だんごやさんとは所詮「記号」だ。tanasinnなみに退廃的な概念だ。
なによりでしゃばりすぎだ、だんごやさんは
266:202
09/01/09 22:38:08
>>264
一度トリップ付けたら、その後ソース改変できなくなるじゃん。
267:264
09/01/09 22:44:14
ん??改変したらまた新しいの書き込めばいんじゃん?
268:デフォルトの名無しさん
09/01/10 01:09:01
>212
「45nmで32コア+PPE2コアのCell」がどこかで発表されたの?
論理設計してみただけとか言う話じゃなく、試作チップくらい作られた?
検索したけど見つからなかったので差し支えなければソースを教えてくれ。
269:デフォルトの名無しさん
09/01/10 03:45:46
>>268
URLリンク(www-06.ibm.com)
270:,,・´∀`・,,)っ-●◎○
09/01/10 03:46:09
勘違いだった。投入は来年(2010年)ごろらしいよ。
271:227 ◆eZQcaIaFJs
09/01/10 04:50:14
今日と月曜休日出勤命令が出たと言うのに、こんな時間まで現実逃避して
しまって良いのだろうか…。
>>255
何この芸術的な画面。こっちは一画面分片側無しとか有るんですがw
>>258
ようやく追いつけた、けど次にやるべき事が見えてこない罠。
272:,,・´∀`・,,)っ-●◎○
09/01/10 07:05:00
一番綺麗なところ見せてるに決まってるじゃんか。
Odd側でレイテンシ1なのはlnopかhbrだと思っていいよ。
273:202
09/01/10 10:42:06
5.6M切ったところに壁があるのかな?
274:,,・´∀`・,,)っ-○◎●
09/01/10 13:16:46
なんで速くなったのかわかんねーが理論限界にまた一歩近づいた
275:,,・´∀`・,,)っ-○◎●
09/01/10 17:56:53
>>273
1%上げるのすら絶対無理な境地に達した。
276:202
09/01/10 18:13:37
>>275
mjd!? 優勝候補ブチ抜けるんじゃない?
俺も準優勝以上目指して頑張ろう。
プライベートがゴタゴタしまくってて、せっかくの休みなのに殆ど弄れねー。
277:,,・´∀`・,,)っ-○◎●
09/01/10 18:32:08
っていうかね
コアループの内側の片方パイプ側が全部隙間無く埋まっちゃって
これ以上どうしようもないんだよね
外側をどうにかするとかいうレベルでのチューンしかできない。
とはいってもTick数が10とか20変わるレベルなんだけど
278:,,・´∀`・,,)っ-○◎●
09/01/10 20:29:05
優勝候補ってのはオレのチームに決まってるだろ
279:202
09/01/10 22:05:00
>>278
ちょw、>>243の優勝候補って団子さん自身だったのかよwww
他人のスコアをリークするfixstars社員がいるのかと思ったよ。
280:,,・´∀`・,,)っ-○◎●
09/01/10 22:18:04
っていうか>>271見て焦った
だが、普通無理だろっていう境地に達した
敢えて言う
spu-gcc43の特性見切った
281:デフォルトの名無しさん
09/01/10 22:24:15
>>280
のちの団子氏によると、ここが真のスタートラインだったという。
282:,,・´∀`・,,)っ-○◎●
09/01/10 22:48:46
スタートラインに立ってる人間いくらいるんだろうな?
ループ内で片方のパイプ全部埋まってる状態なんだが。
埋めるのしんどかった。アセンブラ使わずにだからな。
283:デフォルトの名無しさん
09/01/10 23:00:01
というコメントを書き込み、団子氏はふと気付いた。
「アセンブラを使ったら…」
284:,,・´∀`・,,)っ-○◎●
09/01/10 23:05:56
じゃあ質問してきてよ。
アセンブラ使っていいかどうか
っていうか変数おっかけるのめんどくせぇ
285:デフォルトの名無しさん
09/01/10 23:16:34
というコメントを残しており、
動機は未だに不明。
では、次のニュースです。
286:デフォルトの名無しさん
09/01/10 23:17:57
まさか、そこまで普通しないだろう。
そう、普通はしない。
しかし、Cellをいじる様な人種に常識は通用しないのだ。
287:デフォルトの名無しさん
09/01/10 23:22:24
今までなんとなく、心にぼんやりとあった、疑問が脳裏をよぎる。
"なぜ、MTの限られた最適化で、LSの容量も制限するという、こんなにもきつい制限の課題なのか。"
そう。実は要求レベルは、その領域にあったのだ。
288:デフォルトの名無しさん
09/01/10 23:30:06
スタート地点に立てた人間は、そうは多くない。しかし、そこまで行きついたものは確実に、"次"に気づいた。
だが、それらの人間とは別に、ごく一部、初めからその道を進んでいたものもいた。
そして、その先には、さらなる波乱が待っていた。
289:デフォルトの名無しさん
09/01/10 23:48:48
ってかさぁ、1 tick って何 cycle くらいなの?
そっから逆算すると、5.6 M の時って平均何 cycle / 32bit 生成くらい?
290:268
09/01/11 01:37:26
>270
納得した。
291:202
09/01/11 01:58:42
>>289
知ってるが、教えたくない情報の一つだなw
ヒント: cpuinfo
292:202
09/01/11 02:06:51
ちなみに、壁を超える方法も思いついたぞ。
1.先に実行されたはずのORIGINALの結果をレジスタから探してくる
2. チャネルに書き込めないなら、関数呼び出し前に保存したデクリメンタの値を
書き換える。
だれかネタでやってくれないかなw
293:デフォルトの名無しさん
09/01/11 02:36:26
>>289, 291
40cycle/1tickだろ。5.6Mだと3.85cycle/32bitくらいか。
最低限SIMD化したとして15.4cycle/128bit。
unroll効いてるとして16~7cycle/128bitくらいか。
ホントにそんなんで出来るんか???
294:227 ◆eZQcaIaFJs
09/01/11 02:45:23
>>282
少ない方が100ぐらい空いてるので、全部詰められれば0.25MTickか…。
コンパイラが糞なら asm volatile を使って手動スケジューリングでも
しようかと考え中です。
>>292
while( spu_read_decrementer() < ~16384 ) rand();
295:,,・´∀`・,,)っ-●◎○
09/01/11 04:57:09
SPU_Decrementerは内部的にチャンネル使ってます。
296:,,・´∀`・,,)っ-●◎○
09/01/11 05:07:17
配列にマシン語記述ってのどうかな?
ありがちな方法だな。
いけないプログラマ丸出し
297:202
09/01/11 07:55:31
>>293
unrollするとってくだりからアレだが、そこまでの推測は正しいと思うよ。
15.4という数値がでてきたとすると、15cycle+0.4cycleで0.4がオーバーヘッドになる。
オーバーヘッドは1%くらいに抑えたいから、目標は5.51Mticksを切ること。
トップクラスはそのあたりにある壁にどこまで近づけるかというチキンレース中。
というところまで推測できちゃうから、みんなticks数は有効数字一桁しか出さなかったんだけど、
だんごさんが有効数字二桁の情報を出してきたのは、「cycle数で並ばれても壁までの近さなら
負けない」という意思表示かな。カッコイイ。
298:202
09/01/11 07:56:41
普段使ってるのと違うPCで書き込みしたらsage忘れた。スマソ。
299:,,・´∀`・,,)っ-●◎○
09/01/11 08:15:21
>unroll効いてるとして16~7cycle/128bitくらいか。
これが意味不明なんだけどね。
アンロールしようが何しようが演算ユニットが増えるわけじゃない。
演算ユニットの稼働率をいくらまで詰めるかって課題なわけで。
300:,,・´∀`・,,)っ-●◎○
09/01/11 08:29:36
っていうか
「15サイクル」って具体的な数字が出てきたけど、本当にそれでいいのか、そこから考えないといけない。
301:,,・´∀`・,,)っ-●◎○
09/01/11 08:42:54
128bitあたり、15サイクルのスループットで済むと仮定して、オーバーヘッド抜きのスループットは5.47M切るくらい?でいいのかな?
えーと、絶望させちゃっていいかな?
【とっくに切ってるよ】
逆にどこに限界があるのかわからなくなってきたよ。
302:デフォルトの名無しさん
09/01/11 10:45:57
だんごに勝つにはtemperingの命令数減らすことを本気で考えたほうが良い。
そこから道が開けると思う。
アンロールしてタイミング詰めるのはそれからでも遅くない。
303:202
09/01/11 10:55:24
>>301
底知れねーな。でも大丈夫、その程度で絶望しないよ。
5.5Mを切る戦いに参戦する敵を増やしたくなかったから、>>297では>>293の数値をもとに話してた。
まだgccの吐くコードに翻弄されてるけど、5.5の壁の先の世界があることは理解している。
・・・でも、俺より先に>>227がだんごさんに追いつきそうなんだよな・・・
昨日一日物件探しまくって、良い物件見つけたと思ったら今朝「もう申し込まれてました」と連絡がorz
早く休日を丸一日使ってだんごさんと同じ世界に行きたい。
304:202
09/01/11 11:06:10
>>302
敵増やしたくないから具体的な話はしたく無いんだけどさ。
俺もだんごさんも>>227さんも、とっくにそのレベルで出来る事はやってる。
その程度では勝てないよ。
305:,,・´∀`・,,)っ-○○◎
09/01/11 12:34:59
で、一位がこのスレからでるのは確定状態か
306:デフォルトの名無しさん
09/01/11 13:00:56
団子3兄弟
307:デフォルトの名無しさん
09/01/11 13:01:52
スレで情報をホイホイ書き込むような人がトップとれるんだろうか…
308:デフォルトの名無しさん
09/01/11 13:12:48
具体的な方法論は誰も公開してないんだぜ。
5M台叩き出してる人はアルゴリズムレベルでは殆ど同じコードになってると思う。必然的に。
あとは0.1パーセント単位のチューンってことになるわけだが
最後まで粘ったもん勝ちになりそうだな。
309:デフォルトの名無しさん
09/01/11 16:46:40
ってかさぁ、15cycle とかホントに出来んの?
ってか、みんなマジでこんなとこに書いてんの?w
310:デフォルトの名無しさん
09/01/11 17:22:25
とりあえず、良くも悪くもこのスレに書き込まれたことで、ここら辺の性能が
スタンダードになってしまったな。
まだ2か月近くあるしね。
311:,,・´∀`・,,)っ-○◎●
09/01/11 17:24:06
こうならないと面白くないだろ?
312:,,・´∀`・,,)っ-○◎●
09/01/11 17:33:15
ORIGNAL: sum=3c927c56, 294426736 ticks
MINE: sum=3c927c56, 5470853 ticks
ORIGNAL: sum=2e987a4d, 424726988 ticks
MINE: sum=2e987a4d, 7891991 ticks
ORIGNAL: sum=ef1b6aef, 312523179 ticks
MINE: sum=ef1b6aef, 5807115 ticks
ORIGNAL: sum=eedd2516, 290445788 ticks
MINE: sum=eedd2516, 5396877 ticks
ORIGNAL: sum=f7e967a8, 14386174 ticks
MINE: sum=f7e967a8, 267359 ticks
ORIGNAL: sum=1f37a7db, 214504754 ticks
MINE: sum=1f37a7db, 3985803 ticks
ORIGNAL: sum=c7d41f36, 295361550 ticks
MINE: sum=c7d41f36, 5488220 ticks
ORIGNAL: sum=aa9d2e9f, 259914712 ticks
MINE: sum=aa9d2e9f, 4829583 ticks
ORIGNAL: sum=8abd398a, 251182134 ticks
MINE: sum=8abd398a, 4667315 ticks
ORIGNAL: sum=a374bd58, 6118517 ticks
MINE: sum=a374bd58, 113731 ticks
このスコアをここに晒せるって意味を理解してくれ。
313:デフォルトの名無しさん
09/01/11 17:39:55
ちょっとそのソース晒してくれる?
嘘くさいから。
314:,,・´∀`・,,)っ-○◎●
09/01/11 17:43:14
晒せるかボケ
315:227 ◆eZQcaIaFJs
09/01/11 17:43:29
あれからパイプラインの空きを半分くらいまで詰められたけど、
コンパイラが糞でどうにもならない状態。
.L9: ; メインループの先頭
lqr $81,mt+X
lqr $84,mt+X
lqr $53,mt+X
lqr $41,mt+X
lqr $47,mt+X
lqr $48,mt+X
lqr $59,mt+X
lqr $68,mt+X
lqr $24,mt+X
lqr $71,mt+X
lqr $113,mt+X
lqr $42,mt+X
lqr $43,mt+X
lqr $45,mt+X
lqr $46,mt+X
lqr $58,mt+X
lqr $55,mt+X
lqr $93,mt+X
lqr $104,mt+X
shufb $106,$73,$81,$127
>>312
数日前のスコアですか?
316:202
09/01/11 17:43:33
>>313
ちょwwwそれはやりすぎだろw
>>312がスタンダードになってしまうw
>>312 なら追いつける自信があるけど、そっから先どこまで行ったんだろうね。。。
317:,,・´∀`・,,)っ-○◎●
09/01/11 17:46:08
>>316
自信あるのかよ!
ハッキリ言ってなんでこれで性能上がるのか理解不能っていう(デ?)チューンをしてる
318:,,・´∀`・,,)っ-○◎●
09/01/11 17:47:55
15clkが本当なら>>312は99%突破してるわけだが
319:デフォルトの名無しさん
09/01/11 17:51:59
虚虚実実ですなw
320:,,・´∀`・,,)っ-○◎●
09/01/11 17:53:24
再提出上等
スコア更新する度にフィックスターズに送りつけてやるぜヘヘヘ
321:デフォルトの名無しさん
09/01/11 17:58:41
このスレで期限前に最速コードを公開して、コンテストを無効化して、そして伝説へ…
なんてストーリーがあるのかなと妄想してたよ。2chっぽくさ。いやいや、全然勧めてないからやらないでね。
いや、でも、なかなか燃える展開だな。がんばれ、団子3兄弟。
322:デフォルトの名無しさん
09/01/11 18:18:54
58156364 / 4(SIMD) * 15(cycle) / 40(ticks) = 5452159.125 か。
だれか 15cycle の壁をやぶってくれw
323:,,・´∀`・,,)っ-○◎●
09/01/11 18:22:23
temperingをテーブル参照で・・・
って、数十GBメモリが必要になりますよ
324:デフォルトの名無しさん
09/01/11 18:34:45
じゃぁ、それを計算で求めるようにしよう!!!
ってのはおいといて、おいらも>>312が視野に入ってきたかな。。。
325:,,・´∀`・,,)っ-○◎●
09/01/11 18:40:19
9%→90%→99%→99.9$→・・・
ですね。わかります
326:202
09/01/11 19:36:49
>>322
だんごさんが15を破れることバラしちゃったから俺もバラすけど、
15は数日前にもう破ってるよ。
コンパイラの吐くコードがよろしくなくて、調整の時間が取れてないだけ。
>>325
99.9$ ・・・ 9000円くらい?
327:デフォルトの名無しさん
09/01/11 19:43:14
未だかつてこのスレでこんなにCellプログラミングが流行ったことがあっただろうか、いやない
328:デフォルトの名無しさん
09/01/11 19:51:07
きそう、この週末丁度暇になったのにPS3は会社のだから事務所に置きっぱなしだ……
尤も、半年以上放置しているから今更勘が戻らないけどね。
329:202
09/01/11 20:10:39
>>328
大丈夫、俺なんてCellプログラミングは初めてだ。
リモートの開発環境も用意してくれるよ。
・・・べ、別に誘ってるわけじゃないんだからねっ!
どっちかっていうとライバルが増えると困るんだからねっ!
330:,,・´∀`・,,)っ-○◎●
09/01/11 23:06:20
>>326
切ったのは16(っていうか18)じゃなくて?
どうせ4要素毎にspu_addして最後に合計を水平加算してるっしょ?
加算はEvenパイプだよ。
331:デフォルトの名無しさん
09/01/11 23:42:30
あんまり具体的な話をするのは、1~2人で参加という趣旨に反すると
思うよ。
332:,,・´∀`・,,)っ-○◎●
09/01/11 23:54:01
>>328
Cell SDKはx86のLinuxにも入れられるぞ
シミュレータもある。
333:322,324
09/01/12 00:47:51
あー、呑んだ。酔っぱらった。酔ったまんま unroll にとりかかるぜw
>>325,326
おいら今 unroll してない状態で 16cycle だから、近いかなぁ、と。
>>330
18ってなに?ともあれ、なんとか even をあと一つ縮めたいよなぁ…
>>331
どうせおいら申し込んでないしー。ってか名前&社名出せねぇw
334:202
09/01/12 00:50:14
>>330
あれ、だんごさんに言われると不安になってきた。
あとで数えなおし&理論限界の計算しなおししてみる。
335:322,324
09/01/12 01:05:26
>>334
ってか、even 15 切ってるのが居たら神な希ガス
>>322 に書いたけど、だんごさんも 15 は切ってないよ。
どれだけ論理限界(15)に近づけるかの勝負でしょ。
それか誰かが 15 を切るかw
336:322,324
09/01/12 01:07:46
あ、>>301 の 5.47M は間違いだと思われ
337:227 ◆eZQcaIaFJs
09/01/12 01:43:39
パイプラインの空き35位まで詰められたけど、理論性能の95%しか出てない。
>>312が99.6%出してる時点で勝てそうにないorz
338:,,・´∀`・,,)っ-○◎●
09/01/12 01:47:40
>>312は2日前の成果。日増しに(わずかながらではあるが)性能は伸びてる
339:,,・´∀`・,,)っ-○◎●
09/01/12 07:40:11
理論スループット15になる方法思いついたときは俺SUGEEEEEEEEEEって思ったけど
そこまでは案外みんな気づくの早かったな。
340:202
09/01/12 09:00:51
>>335
even? odd じゃね? tempering 的に言って。
>>339
てっきり15サイクル切ったと思ったけど、本気で15サイクルのコードで
そのスコアを超えたのか。すげーな。
341:,,・´∀`・,,)っ-○◎●
09/01/12 09:40:14
おいおい逆だ
URLリンク(pc.watch.impress.co.jp)
342:,,・´∀`・,,)っ-○◎●
09/01/12 09:41:24
>てっきり15サイクル切ったと思ったけど、本気で15サイクルのコードで
それは秘密。
ただ、部分的に式の変形はしてる。高速化のためにどうしても必要だった。
343:202
09/01/12 09:54:54
>>341
おおおおおおおお!
俺、v = mt[k] とかに //e って、 spu_and() とかに //o ってコメント付けてた!
恥ずかしー!
344:デフォルトの名無しさん
09/01/12 12:33:46
ど素人ですけど、CELLに悪戦苦闘してる方々に質問。
CELLのメモリ構成の扱いにくさって、将来LSの容量が増えて
各SPUが特定の仕事に専心するようになったら、それほど
大きな足かせにならない気がするんですけど、どうでしょうか?
今はLSの容量が少なすぎて、頻繁に書き換えが必要だから超面倒だけど。
クタはそこまで考えて、LSにしたんじゃないんでしょうか?
345:デフォルトの名無しさん
09/01/12 13:52:21
なんか書き込みがゲハ臭いから回答すべきか「帰りな」と言うべきか迷うが。
クタだけに焦点を当てるなら、PS3を設計している最中に「LSが増えたら」が無いのは考えれば分かる話だよな?
346:デフォルトの名無しさん
09/01/12 14:19:49
ほんとゲハ臭いなw
>>344
ここで Hack the Cell やるような人は扱いにくいとか思ってないんじゃん?
扱いにくいってなるのは、プロジェクトが大きくなって C# あがりの
へたれプログラマも使わなきゃいけなくなった時じゃないかな?
Hack the Cell やるような職人にとっては LS の容量が少なくて超面倒って
事はなくて(ちょっと面倒くらいw)、へたれにとっては LS の容量が増えても、
ヘテロだったり cache じゃなかったりの時点で超面倒なんだと思われ。
今だったら Larrabee みたいな方がいいに決まってるっしょ。
347:346
09/01/12 14:23:56
今だったら => 今から作るんだったら
348:デフォルトの名無しさん
09/01/12 16:55:22
LarrabeeってCell扱うのはマンドクセッと思ってる
ヘタレ(と言うよりPCのCPUのみ扱い慣れている)
プログラマに取ってはいかにも扱いやすそうに見えるが
キャッシュレベルで勝手に同期が取られる事を良い事に
ついスレッドのあちこちで頻繁に同期を取るプログラムを
書いてしまってそれがキャッシュ用リング?バスの帯域を
圧迫してパフォーマンスが出ないと言う罠に陥りそうな希ガス。
349:デフォルトの名無しさん
09/01/12 17:12:05
いいからゲハに帰れよ
350:デフォルトの名無しさん
09/01/12 17:14:32
>>348
何言っているんだか。まるでx86だけがPCのCPUみたいな言い方しなさんな。
つーか、LarrabeeとCellを同列で語ること自体がどうかしている。
351:348
09/01/12 17:19:15
>349
俺は残念ながら>344じゃないしゲハから来たわけでも無いよ。
352:デフォルトの名無しさん
09/01/12 17:30:51
>350
読解力無いね、アナタ。
353:デフォルトの名無しさん
09/01/12 19:15:57
しかし、今更ながら気づいたが現在、市場で売られている
PCのCPUはもはや、ほとんど全てx86なんだよな。
Apple(Macintosh)がIntel CPUの採用を始めてからは。
と言うかx86以外のPC用(と呼べる)CPUを思いつけない。
354:デフォルトの名無しさん
09/01/12 20:50:56
CBE
355:250
09/01/13 03:00:47
ふー、目標の 6M 突破。と思ったらすごい事になってんなw 5.47M ってwww
こっから先は spu-gcc43 の最適化特性との根比べっぽいなぁ… orz
っていうか最適化馬鹿過ぎw 不要な処理し過ぎ!! フルアセで書かせろ!!!!w
356:,,・´∀`・,,)っ-○◎●
09/01/13 08:21:08
>>355
いっそマシン語を配列に書いたら?www
SPUは厳密な実行属性管理とかしないから自己書き換えとか簡単に動いたりするよ。
実際問題オーバーレイって自己書き換えと似たようなもんだし。
いや冗談ですwww
357:202
09/01/13 12:50:07
どうしても0.3命令くらいはオーバーヘッドが消えない。
15.3 * 100 /15 = 102 だから、2%がオーバーヘッドか。
コンパイラに99%以上の効率のコードを吐き出させるだんごさんは神。
358:202
09/01/13 13:17:14
>>355
ちょっと待ってろ、fixstarsにインラインアセンブラ使って良いかどうか訊いてくる。
だんごさんに勝つにはもうそれしかない希ガス。
359:250
09/01/13 13:34:00
>>358
おぉ!よろしく頼むっす!でもさすがにダメな気がするw
おいら今 1.66% のオーバーヘッドまできた。5.54M
でもなんか全然本質じゃない事ばっかでちょっと虚しい… orz
360:デフォルトの名無しさん
09/01/13 13:45:11
これからチュートリアル読み始めるんだけど、10倍くらいならいけるかな
361:202
09/01/13 16:11:14
5M台何人いるのか判らなくなってきたな。
5.6M切ってるのがこのスレに4人くらい居るのかな?
362:202
09/01/13 17:30:57
>>322,324 さん、fixstars社員ですね、わかります。
363:,,・´∀`・,,)っ-○◎○
09/01/13 17:52:24
VISEO MDT243Wだったら2位も悪くないなと思ってるんだぜ。
ってか、42インチのテレビなんて使わねー
PCモニタとしてつかうにはでかすぎるし。
364:,,・´∀`・,,)っ-○◎●
09/01/13 21:17:18
15命令切る方法思いついたかも知れない
365:,,・´∀`・,,)っ-○◎●
09/01/13 21:27:21
うはwwww
みなぎってきたwwwwwwwwww
とりあえず目標修正
5Mな!
366:デフォルトの名無しさん
09/01/13 21:28:57
と思いきや、それをやるには spu_and が必要だから減らないんだなー
367:202
09/01/13 21:29:45
wwwwwwwwww
びびらせやがって!
368:デフォルトの名無しさん
09/01/13 21:31:56
いや、>>366 は適当に書いただけだってばw
369:202
09/01/13 21:32:43
試しにインラインアセンブラつかってみたんだけど、
asm("lqr $50, mt+16")
みたいにすると、コンパイラに怒られる。 mt+ って書式は使えない?
370:202
09/01/13 21:33:45
ちょっwww
だんごさんに追い抜かれる!
371:202
09/01/13 21:35:12
インラインアセンブラ無しでどうやって5M超えようか
372:デフォルトの名無しさん
09/01/13 21:35:43
202 さんは現段階で抜いてたの?
373:202
09/01/13 21:42:09
たぶんね。15cycle は少し前に突破してる。 >>326
だれも気づいてないっぽかったから、その後は 15cycle前提で会話してた。
gcc43に行く手を阻まれて、理論値に全然近づけてないけど、>>316 の時点で
>>312 は抜いてた。
374:デフォルトの名無しさん
09/01/13 21:57:26
って事は、>>357 は本当は 14.3 ってこと?
375:202
09/01/13 22:00:39
>>374
それ、実は、アセンブラを自動生成する簡単なプログラム書いて、
その出力したコード(未テスト)のサイクル数の話。15はウソ。
本当のオーバーヘッドは0.3どころじゃない。もっとデカイ。
んで、アセンブラ禁止された。
... 質問しなけりゃ良かったorz
376:,,・´∀`・,,)っ-○◎●
09/01/13 22:15:21
というわけで俺だけ次のステップに逝く予感
377:デフォルトの名無しさん
09/01/13 22:15:31
アセンブラ禁止意味不明。最早 Hack The spu-gcc43 じゃん。
378:,,・´∀`・,,)っ-○◎●
09/01/13 22:17:56
パイプラインを埋める方策考え直さないといけないな。
379:,,・´∀`・,,)っ-○◎●
09/01/13 22:19:54
方策は・・・あるんだなこれが。
380:デフォルトの名無しさん
09/01/13 22:25:49
>>377 うまいw まさしくそのとおりだとおも
381:,,・´∀`・,,)っ-○◎●
09/01/13 22:25:50
これは15cycleを切れないコードの最高スコアだ。もちろんアセンブラなど使ってない。
spu-gcc43 -std=gnu99 -O3 -g -c -o mt_mine.o mt_mine.c
spu-gcc43 -Wl,-Map,mt_kadai.map mt_kadai.o mt_mine.o mt19937ar.sep/mt19937ar.o -o mt_kadai
./mt_kadai
ORIGNAL: sum=3c927c56, 294035297 ticks
MINE: sum=3c927c56, 5466192 ticks
ORIGNAL: sum=2e987a4d, 424162315 ticks
MINE: sum=2e987a4d, 7885270 ticks
ORIGNAL: sum=ef1b6aef, 312107681 ticks
MINE: sum=ef1b6aef, 5802168 ticks
ORIGNAL: sum=eedd2516, 290059639 ticks
MINE: sum=eedd2516, 5392281 ticks
ORIGNAL: sum=f7e967a8, 14367047 ticks
MINE: sum=f7e967a8, 267131 ticks
ORIGNAL: sum=1f37a7db, 214219571 ticks
MINE: sum=1f37a7db, 3982409 ticks
ORIGNAL: sum=c7d41f36, 294968868 ticks
MINE: sum=c7d41f36, 5483545 ticks
ORIGNAL: sum=aa9d2e9f, 259569157 ticks
MINE: sum=aa9d2e9f, 4825469 ticks
ORIGNAL: sum=8abd398a, 250848188 ticks
MINE: sum=8abd398a, 4663339 ticks
ORIGNAL: sum=a374bd58, 6110381 ticks
MINE: sum=a374bd58, 113635 ticks
382:202
09/01/13 22:29:57
多分、もう、次のステップはない。
Hack the spu-gcc 4.3 '09
優勝争いのステージに、いま、俺とだんごさんが立っている。
このステージを制するのは、俺か、だんごさんか、はたまた新たなる
チャレンジャーか!!!
383:,,・´∀`・,,)っ-○◎●
09/01/13 22:33:16
我ながら恐ろしい。15clk/QWORDに対する実効効率99.74%の基地外スケジューリング
俺に勝てるかなククク
384:,,・´∀`・,,)っ-○◎●
09/01/13 22:43:37
ヒント:最適化が糞なら、無効にすればいいじゃない
385:デフォルトの名無しさん
09/01/13 23:46:28
今更?
386:デフォルトの名無しさん
09/01/13 23:58:15
この課題説明でインラインアセンブラ禁止なら、
pragma も使用禁止でしょうな。
387:デフォルトの名無しさん
09/01/14 00:03:42
それって、なんてコンパイラハッキングゲーム?w
388:227 ◆eZQcaIaFJs
09/01/14 00:41:47
わっちもようやく>>282のスタートラインに立てたので一応報告。
ちなみに、何故かコンパイラの最適化無効にしたらコードの質が良くなってるし、
コンパイラとの戦いの意味合いの方が強いような気がするなぁ…。
389:,,・´∀`・,,)っ-○◎●
09/01/14 01:01:21
ハッキングなどしてない
spu-gcc43 -std=gnu99 -O3 -g -c -o mt_mine.o mt_mine.c
spu-gcc43 -Wl,-Map,mt_kadai.map mt_kadai.o mt_mine.o mt19937ar.sep/mt19937ar.o -o mt_kadai
./mt_kadai
ORIGNAL: sum=3c927c56, 295486875 ticks
MINE: sum=3c927c56, 5093390 ticks
ORIGNAL: sum=2e987a4d, 426256300 ticks
MINE: sum=2e987a4d, 7347483 ticks
ORIGNAL: sum=ef1b6aef, 313648483 ticks
MINE: sum=ef1b6aef, 5406455 ticks
ORIGNAL: sum=eedd2516, 291491590 ticks
MINE: sum=eedd2516, 5024518 ticks
ORIGNAL: sum=f7e967a8, 14437972 ticks
MINE: sum=f7e967a8, 248913 ticks
ORIGNAL: sum=1f37a7db, 215277119 ticks
MINE: sum=1f37a7db, 3710802 ticks
ORIGNAL: sum=c7d41f36, 296425055 ticks
MINE: sum=c7d41f36, 5109559 ticks
ORIGNAL: sum=aa9d2e9f, 260850588 ticks
MINE: sum=aa9d2e9f, 4496367 ticks
ORIGNAL: sum=8abd398a, 252086563 ticks
MINE: sum=8abd398a, 4345293 ticks
ORIGNAL: sum=a374bd58, 6140545 ticks
MINE: sum=a374bd58, 105884 ticks
390:,,・´∀`・,,)っ-○◎●
09/01/14 01:02:58
やべぇwww笑いがとまんねーwwwww
391:202
09/01/14 01:17:46
抜かれた・・・完敗だorz
392:,,・´∀`・,,)っ-○◎●
09/01/14 01:19:03
ん?まだもう一段階いけたよ
393:202
09/01/14 01:23:53
5M切れそう?
394:202
09/01/14 01:25:36
ちがうか、5088682 が下限なんだな。
395:デフォルトの名無しさん
09/01/14 01:34:03
>>389
逆汗しないから、その実行ファイルうpして?
396:,,・´∀`・,,)っ-○◎●
09/01/14 01:34:04
ニヤニヤ
397:,,・´∀`・,,)っ-○◎●
09/01/14 01:35:32
>>395
優勝すれば公開されるんだからそのときに見ればいいじゃないか。
種も仕掛けもない
398:227 ◆eZQcaIaFJs
09/01/14 02:09:28
>>389
さっき98%超えたけどさすがにそれは神の領域だわ。
399:デフォルトの名無しさん
09/01/14 02:14:08
URLリンク(cell.fixstars.com)(3-3)_%E5%8C%BA%E5%88%86%E6%B1%82%E7%A9%8D%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%A0_(%E8%A7%A3%E7%AD%94)
400:デフォルトの名無しさん
09/01/14 02:17:55
途中で投稿してもうた・・・
URLリンク(cell.fixstars.com)
ここにあるプログラミングチュートリアルの演習3-3の回答で、SPEの個数を変えたいんですが
#define NUM_SPE * の*だけ変えてもだめですよね・・・
性能がどんなもんかみたいんですが…どの点を変更すればよいのかご教授いただけませんでしょうか
401:,,・´∀`・,,)っ-○◎●
09/01/14 02:20:52
2のべき乗ならいいんじゃないの?
テキトーに言ってみるけど。
402:デフォルトの名無しさん
09/01/14 09:07:02
>>400
そこだけでいいと思うけど・・・
PS3なら個数は1~6までSPEが利用できる
403:デフォルトの名無しさん
09/01/14 12:06:10
>>389
SFMTより速いんじゃね?
404:デフォルトの名無しさん
09/01/14 12:42:54
>>401-402
ありがとうございます。
変更箇所はこちらであっているみたいですね
タイム関数を利用して処理時間を測定しても、逆にSPEを利用したほうが時間が延びてしまいます。
理論上ではSPE1からSPE4にしたら1/4になるはずですよね?
ppeのメイン関数にあるresultをかこって測定しているのですが適切ではないのかな
すみません、出力に要した時間を測定するにはどこが適切なのでしょう
URLリンク(cell.fixstars.com) タイム関数はこれを使用しています