09/03/09 10:58:25
>>798
lapackはバイナリーのoctaveを入れた時に入ってるので
./configure --with-blas='-L/usr/local/lib -lgoto'
だけで拾ってくれました
それとMacで速かったのはAppleのBLASであるアクセラレーション・フレームワークが入っていたからで
GotoBlasを使うのなら、Cygwinで十分だと思います。
ちなみにGotoBlasは環境変数で
GOTO_NUM_THREADS=1
とすると、1coreだけで演算してくれますが、その場合は8GFlopsでした。
2coreで約15.5GFlopsですからスケーラビリティーはあると思います。
例えば、DELLのStudio Desktop Core2Quad(2.33GHz)・4GBメモリ搭載ハイエンドミニタワーが
販売価格 69,980円
こんななので、これで4core有効にすれば30GFlopsぐらい出るでしょう。
1GFlopsと30GFlopsの差はたぶんけっこうあって、体感的には30分かかる計算が1分で終わる感じでしょうか。
もしくは1GFlopsで1回に1分かかるベクトル演算を1万個のパラメータで計算すると1万分=1週間かかりますが
30GFlopsなら5時間半で終わります。まあとにかく差が大きいです。
Atlasで使う限りはその1/4以下の能力しか出せないと考えるとGotoBlasはなかなかいいです。