03/05/10 01:24 l+5fPsv8
>>180
L3に収まる大きさの問題では無いので,レジスターが多くて同時実行可能命令数が多いことによると思います.L3の効果もあるとは思いますが.
マトリクスの三角分解(skyline形式でブロック分解)の部分では某社のベクトル計算機より速かったです.
(平均ベクトル長がベクトル計算機の性能を十分引き出すには短いこともありますが...)
L3の大きさを考えたチューニングを行えば,もっと性能がでると見込んで,現在,アルゴリズムの検討中です.
IDFの最適化のセッションで行列積のチューニング例が有り,かなりの性能だったと記憶しています.
後日,IDFの記録CD-ROMが送られてくるので,数値がのっていたら報告します.