16/01/23 02:04:56.19 1jZeYbbM.net
もっとパフォーマンス上げてほしぃ。。
デコード数、実行ユニット数増加 (fpのスカラと128bit増えてほしい
低速8命令デコーダ追加 (denverもどき ループ専用?
複合命令追加 複合実行ユニット化 (FMA的な
madd以外もほしぃ add,mul,shift,mask,min,maxから2セット
デコード数同じでパフォーマンス上がる? よりCISCらしく
SIMT?ユニット追加 (コア毎にサブコア8個くらい追加
20~1000回のシンプルなループだと丁度いい並列実行方法がないので、、
SIMDしてもループ残るし スレッド起動遅いしで
なんでもいいから、、