CPUアーキテクチャについて語れ 23

CPUアーキテクチャについて語れ 23at JISAKU

CPUアーキテクチャについて語れ 23 - 暇つぶし2ch562:Socket774
13/05/21 21:31:26.94 9+MQPzwv
>>560
Sparc部分はただのおまけだな。
実態はintel機。
「京」関連のパーツを混ぜないと予算出さないよ、と文科省の役人に脅されたのかね。

563:Socket774
13/05/21 22:05:43.08 dIbniI9U
561TFLOPSのうちコプロセッサのXeon Phi 184台が368TFLOPSを出し、
残りの193TFLOPSを936ノードのSparcが出すんですね。

564:Socket774
13/05/22 01:54:46.60 eSbIv2GR
書きやすいのはXeon PhiよりSPARC FXかなと。

565:Socket774
13/05/22 02:50:50.20 w/s+feQY
大規模SMPじゃないとはかどらない研究もあるのでね

566:Socket774
13/05/22 12:29:34.06 Be88cXVD
>>562
Xeon phiの構成はだいたいどこも一般的なCPU＋Xeon phiだろう。
SPARCはおまけじゃないが、SPARCである必要は全くない、どころか不自然。

567:Socket774
13/05/22 12:38:10.87 Opq0TktK
いろいろ混ぜたところで性能をたたき出す研究とかじゃねえのん？

568:Socket774
13/05/22 16:16:54.39 k+gpcyAH
これ面白いがオラクルは文句言わないのかな

>OracleなどのデータベースはCPUやコア単位でライセンス料が決まっており，
>CPUやコアが増えるとそれに比例してライセンス料が高くなります。
>しかし，このvSMP Memory ExpansionならCPUカウントはCPUノードの
>サーバ分だけで，多数の安いサーバのCPUはアプリは走らないので，
>カウントに入らず，ライセンス料も安く上がります。
URLﾘﾝｸ(www.geocities.jp)

569:Socket774
13/05/22 16:18:38.33 k+gpcyAH
>名大
FX10はそのまま京で走るソースを準備するための演習場だろう。

570:Socket774
13/05/23 23:25:37.37 4e+uuGDu
>>566
本質は豆腐インタコネクタによる密な結合だろ
SPARCなのはそれ使ったスパコンがそれしかなかったからで

571:Socket774
13/05/24 09:03:55.71 PU330X3O
>>562
全然そんなことは無いよ
Intel部分はまさにベンチ番長、ノード間通信がしょぼくてもパフォーマンスが出るアプリ向け
SPARC部分は、高いノード間通信が必要な計算でも速い

572:Socket774
13/05/24 09:05:40.43 JKEKpXfU
日本のスパコンはどの段階から hardware transactional memoryを実装するのかね？
PS4はhardware transactional memoryを実装しているとの噂もあるが…

URLﾘﾝｸ(arstechnica.com)

573:Socket774
13/05/24 09:07:50.04 PU330X3O
そもそも、HPC分野でhardware transactional memoryでパフォーマンスアップする用途って何があるんだ？
RDBやらJava VMみたいなのをHPCで使うわけじゃないし

574:Socket774
13/05/24 09:14:12.70 JKEKpXfU
>>573
>572はIBMの最新スパコンBlueGene/Qの記事なのだが、読めば分かるよ。

575:Socket774
13/05/24 10:12:24.87 gGUCF9T7
>>572
PS4にそんなものはない。
スレッド数が16とか32超えるような世界でないと意味もない。
HPCはちょっと違う。

576:Socket774
13/05/24 10:55:55.05 aBMOp7Qa
URLﾘﾝｸ(news.mynavi.jp)
>この機構でトランザクションの衝突を検出できるのは同一チップ内の
>コアの間だけであり、何千、何万ものチップを使うシステムでの
>有効性は筆者には良くわからない。

1CPU　L2 32MB/16Core
Sequoia　98304CPU　1572864Core

577:Socket774
13/05/24 11:03:25.53 JKEKpXfU
>>575
メインメモリーからGPUのシェーダーコアに、直接データを受け渡せます。要は、
GPUのL1・L2キャッシュをバイパスできるんです。もちろん、データの読み込み
だけでなく書き込みもできます。
我々はL2キャッシュにちょっとしたタグをつけました。我々は「VOLATILE」タグ
と呼んでいます。キャッシュの中で、この属性を持つものとそうでないものを
マーキングしてコントロールできるようにしています。このタグを使った場合、
メモリーに直接書き込まれます。
URLﾘﾝｸ(av.watch.impress.co.jp)

IBM only implemented transactional memory within the confines of a single chip
using a tagging scheme on the chip's level-two cache memory.
URLﾘﾝｸ(www.electronics-eetimes.com)

メインメモリに直接読込・書込する場合に、ロックシステムに頼らないで効率
的に処理するのがhardware transactional memoryだからね。
transactional memoryの技術そのものがCellのSPUをHPC用途で活用させるため
にソフトウェアで開発されたようなもの。キャッシュコヒーレンシされている
既存のCPUと、隔離メモリを使うGPUにはこのような方法はいらないが、
SPUは爆速CPUだがメインメモリにDMAで直接読み書きするのが問題だった。
URLﾘﾝｸ(www.lsc.ic.unicamp.br)

このシステムが最も効果を発揮するのはGPUではなくて、CPUのSPUなのだが…

578:Socket774
13/05/24 11:19:57.15 aBMOp7Qa
HPCってことならトランザクションメモリよりこちらの方が気がかり

>PGAS(Partitioned Global Address Space)
URLﾘﾝｸ(news.mynavi.jp)

579:Socket774
13/05/24 11:27:08.04 aBMOp7Qa
>>577
ゲーム関係者は動作予測が困難なキャッシュハードウェアの
裁定に丸投げするのが好きじゃないんだろうな。

方向性はこれに似てる気がする
URLﾘﾝｸ(news.mynavi.jp)

580:Socket774
13/05/24 11:44:18.23 PU330X3O
CellのSPEは、コアごとに独立したローカルメモリっていう構造なおかげで、
小さいコアなのに結構性能があった
とくにローカルメモリで完結する演算に関しては爆速だったからな

581:Socket774
13/05/24 14:34:17.80 QnAlUu2H
>>577
なんというデタラメ
TMは投機的なメモリへの書き込みをロールバックする仕組みだよ

582:Socket774
13/05/24 14:49:41.81 SgQu/nOu
TMは、すごく使いにくそうなテクノロジだね。
よくよく考えて作らないと、発生頻度が低いが重大なデータ壊れが発生するバグが出そうで怖い。

583:Socket774
13/05/24 16:09:27.42 QnAlUu2H
BGのTMでは同一のメモリアドレスを複数のキャッシュラインに割り当ててバージョニングする
あるバージョンが捨てられる際には持ち主のスレッドには通知がいくようになっている

584:Socket774
13/05/25 00:52:28.34 ohV/r7oZ
トランザクションなのでデータ破壊は起きないが
TMの実装等によっては任意回のロールバックがありえるので
適切にバックパスを設計しておかないと

一定回数HTMで投機実行してみて、うまくいかない場合は
ロックに切り替えるようなアルゴリズムがいる

585:Socket774
13/05/26 09:28:09.92 pmsP/bx/
このスレは難解なCPUアーキテクチャについて話すスレで、英文読めない人
お断りのスレで、新聞程度のニュースソースでは触れられない専門情報を
扱う所のように思っていたが、IntelがHaswell以降のCPUにhardware
transactional memoryを導入することを知らないということはないよね？

Haswell のトランザクション同期
URLﾘﾝｸ(www.isus.jp)

586:Socket774
13/05/26 10:24:26.02 T0n0DRYp
>>585
211 ：Socket774 sage ：2012/07/08(日) 11:47:26.86 ID:BliILcdQ
graph500でBG/Qがぶっちぎりみたいだけど、理由はなんだろう。
トランザクションメモリ型のL2 とか関係してるのかな。
URLﾘﾝｸ(www.graph500.org)

Hot Chips 23 BG/Qチップ L2キャッシュでトランザクションメモリをサポート
URLﾘﾝｸ(news.mynavi.jp)

BG/Qと関係ないけど
トランザクションメモリのサポートが明らかとなったIntelのHaswell
URLﾘﾝｸ(news.mynavi.jp)

587:Socket774
13/05/26 10:49:51.78 DFM4SyiU
HPC分野でトランザクションメモリをHWサポートしたからといって
それによって性能は伸びるとは思えないけどね

588:Socket774
13/05/26 11:26:43.37 pmsP/bx/
>>587
「トランザクションメモリはマルチプロセサ時代のプログラム作成を容易にする
切り札の1つと見られている。」
URLﾘﾝｸ(news.mynavi.jp)
と言われているのに、

＞HPC分野でトランザクションメモリをHWサポートしたからといってそれによって性能は伸びるとは思えない

その理由を教えてくださいなw

589:Socket774
13/05/26 11:27:13.10 ZpbIPepr
プログラミングの煩雑さが緩和されるなら意義があるんだけど、どうなんだろう？

590:Socket774
13/05/26 11:55:39.21 mr0bH61H
>>588
HPC分野では最大限のスループットを得るためにアルゴリズムによってデータ競合そのものを避けるから。

>>589
Haswellでの実装は、さらなる煩雑さと引き換えに多スレッド(8コア以上)環境でのスケーラビリティを得るもので、
今のコードが簡易になったりする効果はないかと。

591:Socket774
13/05/26 12:33:39.40 D8BAR7QF
確かにプログラミングモデル的にはロックよりトランザクションのほうが優れているが
実際の所HTMはハードウェア的な制限があったり、
競合が激しい場合はロックベースのアルゴリズムのほうがスループットが良かったりと
問題点もあるから、切り札はちょっと言い過ぎな感じも無くはない

トランザクショナルメモリがあればみんな幸せっていう単純な話にはならないだろう
もちろん無いよりあったほうがいいけど

592:Socket774
13/05/26 12:35:22.95 0bsFtm0e
IBMは、ハードウェアトランザクションメモリの効用を、JVMのパフォーマンスアップっていってたな
サーバサイドJavaを高速に動かすのに役に立つって感じ

593:Socket774
13/05/26 12:36:09.94 T0n0DRYp
トランザクションメモリが威力を発揮するケースはこんな感じか？
・並列化の可否を左右する依存データについて、受け渡しのタイミングを
　完全に掌握していなくても並列処理のソースを書くことができる。
・タイミングが動的に変化するプログラムの場合、手書きだと
　最悪ケースを基準にしなければならないが
　ハードウェアトランザクションメモリがあれば、
　実動作時に最悪よりもましな動作になるようなソースを書くことができる。

594:Socket774
13/05/26 12:44:27.19 pmsP/bx/
意外と英文を読まないみたいなので、日本語で…

世界最速スパコン、セコイア(IBM Blue Gene/Q)の凄さの秘密に迫る
URLﾘﾝｸ(sssslide.com)
45頁にSoftware Innovationsが書いてある。

595:Socket774
13/05/26 12:45:10.33 eme8vsco
HTMが導入されても計算機の動作を把握しないで並列プログラムを書くのは依然として不可能。

596:Socket774
13/05/26 13:12:37.66 ZpbIPepr
英語とか全然読めん。
英語スラスラ読める人、尊敬する。

597:Socket774
13/05/26 15:05:28.41 pmsP/bx/
トランザクションメモリがそもそも必要なのは共有メモリ方式の時であって、
大規模実データを一体として取り扱う必要がある場合、例えば大規模災害等で
突発的に発生してリアルタイムに状況が変化し早急な解決が望まれる問題など。
たんぱく質折りたたみのように単純に足せばよいものは分散処理で十分。
(例)大規模グラフ最適化アルゴリズム
ベクトル・スカラープロセッサから成る不均質でかつ分散共有メモリから成る
大規模並列環境において高性能なグラフ最適化を実現する必要あり
大規模グラフ格納基盤：ペタバイト級の大規模グラフデータ
•高速なグラフ解析に不可欠なランダムアクセスや細粒度I/O処理を提供
URLﾘﾝｸ(imi.kyushu-u.ac.jp)

598:Socket774
13/05/26 15:06:09.78 pmsP/bx/
(>>597続き)
共有メモリでは多数のコアが作業するので、データにハッシュタグを付けてDB化。
あるコアがDBで読み書きする時に他のコアが使えないようにDB全体(粗粒度の)
ロックをかけると、1スレッドで処理遅い。DBを多数に分割して(細粒度の)
マルチスレッド化して高速化すると、容易にDB間で多重ロックになりフリーズ多発。
はい、プログラマーさん頑張って仕事してねと言われても、大規模になると無理ゲー。
なら、ハードウェアがプログラマーの代わりに処理しましょうというのがHTM。
URLﾘﾝｸ(www.isus.jp)
URLﾘﾝｸ(news.mynavi.jp)

599:Socket774
13/05/26 15:08:08.08 ZpbIPepr
安藤先生の記事は他と一線を画すな。

600:Socket774
13/05/26 15:19:38.99 5Avt4dxd
他と違って某有名なプロセッサ設計を実際にやってた人だからね

601:Socket774
13/05/26 18:02:20.97 T0n0DRYp
Haswell-xがサポートする「干渉」の範囲って、広くてもQPIでつながってる
プロセッサまで、狭かったらプロセッサ内コアまでだよね。
大規模なHPCはほとんどE5 DP の多ノードだが
どれだけ影響あるのかな

602:Socket774
13/05/26 18:10:26.99 T0n0DRYp
NUMAlink のSGIなら256ソケット（現行UV2000）以上を
干渉範囲にできるのだろうか

603:Socket774
13/05/26 18:50:54.48 pmsP/bx/
Cool Chips 16 - 富士通がハイエンドプロセサSPARC64 Xを発表
URLﾘﾝｸ(news.mynavi.jp)

SPARC64 Xは28nm CMOSプロセスで作られ、16コアと24MBのL2キャッシュを集積している。
倍精度浮動小数点のピーク演算性能は382GFlops、メモリバンド幅は102GB/s。
メモリバンド幅が律速となるStreamでは17倍の性能向上。
10進浮動小数点演算(104倍速)と暗号処理用の新命令(29倍速)のサポートが追加。

604:Socket774
13/05/26 20:14:27.09 N676A10G
10進浮動小数点演算のハードウェアサポートは、そのうちIntelもXeonプロセッサとかでやるんじゃないかな？

605:Socket774
13/05/31 16:26:49.15 rAnZKfDU
L2でかくね？

606:Socket774
13/05/31 16:59:51.70 QVWVomMH
キャッシュのトポロジーが違うと考えればいいんじゃないか。
XeonはL3が20MBだし。

607:Socket774
13/05/31 22:37:59.62 sSc6MdeR
10進浮動小数点演算なんて何に使うんだよ。

608:Socket774
13/06/01 00:33:14.11 lp7cCz5w
そりゃ十進演算だろ

609:Socket774
13/06/01 01:52:13.40 WecnSN1b
>>607
金勘定では普通

610:Socket774
13/06/01 04:10:48.19 sPJSfaHE
新しめの言語やCOBOLに10進数型FPが存在したり端数の丸め指定入ってるのは無いと困るからだ

611:Socket774
13/06/01 04:19:59.79 lp7cCz5w
小数が入ってくると二進数と十進数では誤差が出てくるからな
もちろん無限桁使えれば数学上等しいようにはできるんだけど（1=0.99999……みたいに）
実際には有限桁でやらなきゃいけないので誤差が出る、と。

612:Socket774
13/06/01 09:42:52.22 bX97KTg6
2進数では0.1を正確に表現することができないから一切の計算誤差が許されない金勘定に2進数の浮動小数点実数は使えない。
昔のPCソフトでは1万倍した整数の形でdoubleの箱に保持する一種の固定小数点型とかもやっていたが、乗除算で誤差が出ないようにするのが面倒くさいので今は10進実数の通貨型がサポートされる処理系を使ってライブラリに丸投げする。
ただ計算が遅いからハードウェアサポートが欲しいという要求がでる。計算過程で随時指定の桁数で丸め処理が必要だったりするので単純な計算でも案外演算量は多かったりする。

613:Socket774
13/06/01 12:03:56.77 s+FU9WyX
doubleじゃねえだろ

614:Socket774
13/06/01 12:22:14.59 WecnSN1b
doubleだろ。
単精度で4桁を小数点以下に割り当てたら
3桁しか残らないぞ。

615:Socket774
13/06/01 12:29:07.43 da9m/vIr
浮動少数点で格納したら意味ないじゃん
普通は4バイトとか8バイトの整数型に入れる

616:Socket774
13/06/01 12:36:23.24 bX97KTg6
>>615
お前の月給じゃないんだから10000倍して4バイトに収まる訳がなかろうに。
ちなみに64bit整数は昔の処理系では使えない。

617:Socket774
13/06/01 12:38:49.01 da9m/vIr
10000倍じゃないけど、100倍して4バイト整数という処理系はある
というつもりで書いた

618:Socket774
13/06/01 12:40:05.29 WecnSN1b
ごめん、1万倍した64bit integerだった。

619:Socket774
13/06/01 14:09:29.86 QOXMkgH9
それならば納得です。

620:,,・´∀｀・,,）っ-○○○
13/06/03 13:17:00.10 4KZ1rlFJ
.NETにも独自のDecimal(128ビット10進浮動小数点型）がある

621:Socket774
13/06/03 15:14:01.10 hOF5O3dh
Jaguarのバックエンド、単精度乗算のレイテンシが2サイクル(加算が3なのに)だったり
水平加減算のスループットのペナルティが無かったり
2パイプしかないのにシャッフルユニットが2つだったり
無駄に力が入ってるな

キャッシュ含めてメモリシステム周りが貧弱なので相殺されそうだが

622:Socket774
13/06/03 15:29:25.96 L6/dA0Jg
お金の計算は計算方法が異なると困るから、規格ができたら右にならえでは。
「IEEE754-2008規格では10進の浮動小数点形式が規定」

623:Socket774
13/06/03 16:15:01.89 hcWixZJg
>>622
統一規格でも現在の運用に合わないものは使えないし、合っていれば規格が違っても相互運用できる。

624:Socket774
13/06/03 20:34:34.16 05B5Gxjq
>>621
独特の設計だなｗ

625:Socket774
13/06/03 22:51:55.97 BNh0TYhZ
SilvermontがFPをそこまで重視していないのとは対照的だが……

626:Socket774
13/06/04 00:38:27.58 KDX8wf26
目指す所が違うから名

627:Socket774
13/06/04 11:10:22.95 PBRqjwV5
>>625
そのへんの割り切りはIntelは得意だよね
デコーダーもComplex 1基とSImple複数って構成だし
LoadとかStoreも非対称（過去形？）だったりするし

628:Socket774
13/06/04 11:15:17.37 Y6v5PD0x
正直モバイルでFPは用途が
？

629:Socket774
13/06/04 12:49:32.44 xDRLwVCt
>>622
そもそもIEEE754-2008でやっと2進数FPの厳密な丸めかたが決められたけど
10進FPは一緒に規定されるまえに主要言語は軒並みDecimal型として実装してたよ

630:Socket774
13/06/04 14:32:31.50 +JB+ZOA8
>>627
非対称なデコーダはAMDもBulldozerで採用した

631:Socket774
13/06/04 14:42:33.92 wIgqTCTt
むしろプロセスで劣る（つまり素子数や熱の制限がきつい）AMDのほうが「割り切り」って面では強いられてると思うんだよなあ

632:Socket774
13/06/04 15:36:10.20 lfdSYQ0o
>>612
もうちょっと詳しく説明お願い！

一切の計算誤差が許されないのなら固定長浮動小数点演算なんか使えないと思うのだが。
加減乗除だけでも多倍長の有理数表現が必要なはず。
10進浮動小数だから誤差が無くて、2進数浮動小数だから誤差があるって処理って、
ごくわずかしか思い浮かばないんだけど、それってハードで実装しなくてはならないほど頻繁に必要なの？

金融独自で、さらに金融の中でもいろいろな丸め方が存在する演算は、
ハードなんかで実装しない方が良いと思うんだけど。

633:Socket774
13/06/04 15:57:12.63 +JB+ZOA8
>>631
たぶん開発リソースが少ない分、リスクの小さい(ウィークポイントの少ない)実装にするのだと思う
Intelはそういう部分の見切りが上手いというか、上手くサボるんだよねえ
たぶんそういう差の積み重ねがワットパフォーマンスの差になっているのだと思うけど

634:Socket774
13/06/04 16:12:00.51 wIgqTCTt
10進で計算が前提になってるんだよ金勘定は
だから10進だと「定義どおりなので」誤差はない
2進だと誤差が出る
どの桁でどうやって丸めるとかはまた別の話

CPUの面積が余り気味で、多コアにしたりGPU乗せたりとかしてる一環で
クソ重い10進演算を補助する回路をつけようって話なんじゃないの
「実装しなきゃいけない」というより「実装したらもっと魅力的な商品になる」と。

635:Socket774
13/06/04 16:19:34.12 lfdSYQ0o
>>634
10進浮動小数点演算もサイズや実装によって誤差は異なるけど。

636:Socket774
13/06/04 16:29:55.09 lfdSYQ0o
>>634
ほんの少しのハードの追加ならそんな非常に特殊な用途用の命令が存在しても良いとは思うけど、
10進浮動小数のハードは2進演算ハードと同レベルの非常に巨大な回路が必要だぞ。
そんなニッチな命令よりは128bit浮動小数点演算の方が先だな。

637:Socket774
13/06/04 18:04:11.16 wIgqTCTt
>>635
よくわからないんだが、10進演算での誤差って何？
「10進演算が前提で、それに基いてどういう計算するか決まってる」んで
何桁まで計算してあとは切捨てとか切り上げ、四捨五入とかいう話はあっても
誤差はないと思うんだが？

638:Socket774
13/06/04 18:21:23.72 oiMleJsg
処理系によって異なるパターンの内部演算に分解されちゃうようなザル仕様だと
丸め誤差がでちゃう可能性はあるが、処理系による実装差が出ないように個々の
演算をきっちり仕様化してあれば一意な結果が出る

639:Socket774
13/06/04 18:33:38.53 L9YR0ENa
>>632
丸めの方法も含めて規定されている計算方法で得られる結果に対して一切の誤差は許されないということに何か疑問でも？
処理系の仕様で勝手に丸め処理されては困るので普通は丸め処理は明示的に行うのでデータフォーマットとしては無理に統一しなくても必要な範囲と精度が実現できるものであれば何でも良いということなんだが。

640:Socket774
13/06/04 19:26:10.12 BwjFU6Ay
104 10進浮動小数点演算
URLﾘﾝｸ(news.mynavi.jp)

641:Socket774
13/06/05 00:12:19.01 emICwLz8
>>537
商業丸めとか数学丸めとか丸め方にも指定があるがそれらも規格化されるまでは実装がバラバラだったんだ

642:Socket774
13/06/05 01:01:21.63 V0hB5HRr
>>638
その「仕様」がいろいろ存在するけど、それらすべてにハードで対応するの？
ハードに仕様を合わせるの？

>>639
明示的にしか丸めないなら、四則演算だけでも多倍長有理数演算が必要になるけど。
金融は加減乗算しか使わないの？

643:Socket774
13/06/05 01:06:56.73 NiTPP8Cs
世の中には有効桁数というものがあってだな

644:Socket774
13/06/05 09:23:25.27 +SKThwOg
>>642
四則演算と指定桁での丸めだけ使って累乗計算なんかは自前でやる。計算途中の一時データに統一性の無い丸め処理を施す場合があるから、お手軽な組込関数は大体使えない。
多倍長計算はいらないが計算途中で10進で小数点の上25桁、下15桁位は表現できると何に考えずに計算式通りに定数を処理できるので嬉しい。

645:Socket774
13/06/05 12:48:21.24 +o3xM8mf
>>642
IEEE754-2008準拠って名乗るなら演算器もコンパイラも仕様に沿った動作するように実装されなきゃならん
多倍長みたいにハードウェアが対応してなくてもソフトウェア側で処理するのもあり

646:Socket774
13/06/05 18:29:07.48 V0hB5HRr
>>644
10進40桁って128bitでも足りないじゃん。
そんなのがハードで実装されるわけが無いと思う。

あと、除算は何進数だろうが浮動小数点演算であれば丸めが発生する。
2進数とか10進数とか関係なく。

>>645
それは10進数じゃなくて2進数も同じ。
10進数だとすべての金融ソフトの丸め処理と一致するとでも言うのか？

647:Socket774
13/06/05 18:39:47.61 NiTPP8Cs
>>646
> 10進40桁って128bitでも足りないじゃん。

レンジと有効桁数の区別がつかないのか

648:Socket774
13/06/05 18:40:24.42 3TizW2pY
だからさ、除算のときを含めた「誤差」をどう処理するかの定義が10進でされてるんだよ
コンピュータ使ってない時代もあるんだ、そういう時代に手やソロバンや手回し計算機とかで
計算するために、きっちりどうやるか決めてある。ここはわかるな？

簡単に言うと
数学的な絶対正しい解　と、10進で計算する金勘定的に正しい解は別物
必要とされているのは、数学的に正しい解じゃなく、金勘定的に正しい解
だから10進で計算すれば誤差はない、2進だと誤差が出る

649:Socket774
13/06/05 19:21:39.28 V0hB5HRr
>>648
> それは10進数じゃなくて2進数も同じ。
> 10進数だとすべての金融ソフトの丸め処理と一致するとでも言うのか？

650:Socket774
13/06/05 19:28:04.40 NiTPP8Cs
>>649
> > 10進数だとすべての金融ソフトの丸め処理と一致するとでも言うのか？

まさにその通り
なぜならそう実装するから

651:Socket774
13/06/05 19:30:05.34 V0hB5HRr
そもそも個人のパソコンで行うような金融の計算が、
ソフトウェア演算ライブラリじゃ問題ある程重いか？
日本人全員のローンの利息計算だって普通のPCで一瞬でできるレベルな気がするが。
金融計算より重い処理なんて山ほどあるよ。

>>650
すべての金融ソフトの丸め処理を把握してると？

652:Socket774
13/06/05 19:30:57.63 NiTPP8Cs
>>650
誰かが仕様を決めた以上、そいつが把握している

653:Socket774
13/06/05 19:42:28.63 3TizW2pY
>>651
少なくともメーカーは市場調査くらいやってるだろうから、お前よりは必要性わかってるだろ

654:Socket774
13/06/05 21:56:46.68 V0hB5HRr
>>652
世の中にある多くの金融システムの仕様を同じ人が決めたと？

>>653
必要性が薄いから今現在実装されていない。

655:Socket774
13/06/05 21:58:18.29 NiTPP8Cs
>>654
なぜ同じ人が決める必要が？

656:Socket774
13/06/05 22:13:22.10 3TizW2pY
>>654
で、そろそろ10進積もうかって話になってるから、ここで話題に上ったんだよな('A`)

657:Socket774
13/06/05 22:17:24.62 5m755TQP
10進ALUって、IBMのPOWERプロセッサ (PowerPCではない)に載ってるよね。

658:Socket774
13/06/05 22:25:37.66 V0hB5HRr
>>655
ん？
話がかみ合ってない。

> まさにその通り
> なぜならそう実装するから

現状のシステムがすべてIEEE754-2008準拠なわけでは当然無い。
それらのシステムすべてが、わざわざ動作仕様を変えてまでハードを使うことを望んでいるのか？
それをなぜあなたが知ってるのか？

>>656
intelからそういう発表はないけど、そういう話になってるの？ソースは？

659:Socket774
13/06/05 22:29:18.45 NiTPP8Cs
>>658
今使っている(ソフトで実装されている)10進浮動小数点ライブラリをIEEE準拠のハードウェアを使うように書き換えるだけだよ
インターフェースはそのままで

660:Socket774
13/06/05 22:40:09.97 3TizW2pY
>>658
富士通がSPARCに積むってのがこのスレで話題に上ったきっかけだろ。ソースも>>603で挙げられてる
POWERの例もついさっき出たしな('A`)

661:Socket774
13/06/05 22:41:04.70 V0hB5HRr
>>659
すべての金融システムがコストをかけてIEEEに準拠するよう動作仕様を変えるって？
まったく話にならん。

662:Socket774
13/06/05 22:47:32.47 V0hB5HRr
>>660
intelやARMが積まないうちは、個人レベルだと需要は少ないってことだよな。
金融計算でCPUパワーが足りないなんて人はほんの一握り。
映像系音声系の処理の方がはるかに需要は多い。

まあ、要らないって人が要らないって主張してもしょうがないからこの辺で消える。

663:Socket774
13/06/05 22:51:59.04 NiTPP8Cs
>>661
仕様は変えずに実装だけ変えるんだよ
あとライブラリは普通はベンダーが供給する

664:Socket774
13/06/05 22:55:38.16 3TizW2pY
>>662
みんながSPARCの話をしてたのに、お前だけインテルの話してたんだな('A`)

665:Socket774
13/06/06 07:12:57.00 4cKTRa+G
だいたい、10進計算は大型汎用機で普通に実装されてたんだよ。
別に新しいものでも何でもない。
COBOLなんて使ったこと無いだろうから、知らんのだろうが、普通に10進計算が実装されてんだよ。
つか、これがないと金融系のソフト開発やってらんねーんだわ。

オープン系が汎用機の領域にきてて、機能拡張に使えるシリコンに
余裕が出てきてるから、実装するんだよ。
今までライブラリでソフト実装してたもんを、ハードにするだけだ。

666:Socket774
13/06/06 08:35:30.72 WWYqazsl
金融だとコンパックの電卓が業界標準なんだっけか。

667:Socket774
13/06/06 08:48:59.14 Y7eBwphs
多倍長が必要になるほど儲かってみたい

668:Socket774
13/06/06 09:30:59.35 8ptgtkaI
ヒューレットパッカードの電卓かっこいいよな、使ったことないけど

669:Socket774
13/06/06 12:19:19.35 u0I3Ibss
第104回 10進浮動小数点演算
URLﾘﾝｸ(news.mynavi.jp)
第105回 10進数の演算ハードウェア
URLﾘﾝｸ(news.mynavi.jp)

Intelが10進ハードウェアをもしも載せるとしても
なんちゃら-EX だけになるだろう。EXにはRAS機能を順次載せて来てるが、
それより下に下りてくる気配はない。

さしものIntelもEXの更新間隔はメインストリーム向けよりも広いが
次のEXはいつ予定だっけ

670:Socket774
13/06/06 12:26:40.27 u0I3Ibss
>>665
去年NECが復活させたメインフレームのプロセッサNOAH-6も
10進ハードウェアは積んでるんだろうな。
Itanium路線でやってた時はライブラリで処理してたのかな

671:Socket774
13/06/06 12:37:56.05 OgDrlubA
そもそも今までソフト実装だったのをハード実装にしたらJavaで10倍、C#で5倍ぐらい性能伸びたから10進数FP対応くるね
って話だったのにハードウェア対応とソフト実装、IEEE754-2008とそれ以外の仕様
ついでに数学丸めと商業丸めと演算上のビット精度誤差までごちゃごちゃにしてる残念な子が一人で暴れてんなあって感じが…

672:Socket774
13/06/06 14:45:02.79 5ItfWPGG
MSX BASICの実数もBCD

673:Socket774
13/06/06 15:48:14.09 8ptgtkaI
FP1100だって

674:Socket774
13/06/12 03:15:17.89 9YyN4IPQ
Power8はMacro fusionみたいなことをやる
URLﾘﾝｸ(gcc.gnu.org)

675:Socket774
13/06/12 03:30:12.01 fPuZUB3w
インデックスの計算か

これでx86はまた一つ劣勢に立たされる
とかいう

676:Socket774
13/06/12 04:54:49.98 KVmy8iav
>>674
>7) Hardware transactional memory support;

BG/QのMulti-Versioned Cache（L2）と同じなのかな
URLﾘﾝｸ(news.mynavi.jp)

677:Socket774
13/06/18 17:23:31.47 McFoqs6d
CPUとしての利用も可能に - Intel、次世代Xeon Phi製品の概要を公開
URLﾘﾝｸ(news.mynavi.jp)

>一方のKnights Landingは、Intel MICアーキテクチャに基づいて設計された製品で、
>第2世代の3次元トライゲートトランジスタを特徴とする同社の14nmプロセス技術が採用される。

14nmの最初にXeon Phiがきた。

678:Socket774
13/06/18 20:43:36.49 Fb7DsfnU
うほ～！！
14nmマンセー！！
Intelのプロセス技術は史上最強なりぃ！！

679:Socket774
13/06/18 21:33:20.37 TqXLOrP6
Core i7 4770Kは、Haswellの目玉機能のTransactional Synchronization拡張命令(TSX)が付いてないんだね
4770Kはフラッグシップモデルだから付いているのかと思ってた。specificationsの表をよ～く見て買わないといけないね

680:Socket774
13/06/18 21:35:45.54 m0q93vRk
mjd!

681:Socket774
13/06/18 21:58:46.42 ydN4OYxe
マーケティング関連でわざと制限をかけてるだけなのか、それともそのへんがクロック的にやばいのか

682:Socket774
13/06/18 22:10:33.02 b7SKqonz
XeonのHTT有無とかi7のVT-dの有無とか
実機チェック必須で表記を鵜呑みにできない件が続くなぁ

683:Socket774
13/06/18 22:24:59.22 TqXLOrP6
4770K TSX無 VT-d無 HD4600 84W 4core 3.5GHz 8MB cache
4770 TSX有 VT-d有 HD4600 84W 4core 3.4GHz 8MB cache
4770R TSX無 VT-d有 Iris5200 65W 4core 3.2GHz 6MB cache
4770S TSX有 VT-d有 HD4600 65W 4core 3.1GHz 8MB cache
4770T TSX有 VT-d有 HD4600 45W 4core 2.5GHz 8MB cache
4770TE TSX有 VT-d有 HD4600 45W 4core 2.3GHz 8MB cache
4765T TSX有 VT-d有 HD4600 35W 4core 2.0GHz 8MB cache

こうして見ると、4700 desktopシリーズの中では4770Kと4770Rが特色があるね
グラフィックスは4770RだけがHD4600 GPUの2倍速いIris5200 GPUを積んでいるが、
4770RだけCPUのラストレベルキャッシュのサイズが他の4分の3になっている

684:Socket774
13/06/18 22:47:47.04 SGKvgFgr
ivyも制限無かったっけ？＜Kシリーズ

685:Socket774
13/06/19 05:42:36.61 Y/mR7fKu
マーケティング上の理由じゃないの？
KなんてOCして遊ぶ用で、ベンダーが業務用に採用することないし。

686:Socket774
13/06/19 13:02:31.04 H/tch5NX
URLﾘﾝｸ(blogs.nvidia.com)

NVIDIAがGPUコア (Kepler) のIPをライセンスする事業を始める

687:Socket774
13/06/19 13:07:02.91 nnkgg47H
mobile soc向けかねPC,HPCなら単体ですでにあるし

688:Socket774
13/06/19 13:34:15.06 FaEhH85S
AMDはモバイル用GPU作ってたけどQualcommに売ってしまったんだよなぁ
売らずに取っておけば今頃はPowerVRやmaliのようにそれなりの地位を築けたと思うんだけど

689:Socket774
13/06/19 13:51:27.57 nnkgg47H
intelが使ったら面白うございますな
eDRAMつきで

690:Socket774
13/06/19 14:16:20.82 /0G3svaA
>>686
もうちょっと早くやってれば、家庭用ゲーム機がnvidiaのGPU積んでたかもしれないのにね

691:Socket774
13/06/19 15:23:55.35 nnkgg47H
power系とkeplerのSoCですか

692:Socket774
13/06/19 21:14:58.22 qZjQtIBa
>>683
4770RはL4キャッシュがついてるだろう。L3 6MB L4 64MBだ。
GUIアプリじゃまったく無意味だが、使いようによってはかなり強力。

693:Socket774
13/06/19 21:42:09.36 i45nogX+
4770RはTSXなしという時点でI'll passだな

694:Socket774
13/06/19 21:54:21.49 52+bh1t0
現時点では一般的なクライアントPC用途じゃ、VT-dもTSXも不要だけどな
そもそもTSXは対応ソフトが無いし

695:Socket774
13/06/20 05:45:14.42 NX9zoQnw
KにGT3載った全部入りでない時点で

696:Socket774
13/06/20 11:02:50.47 oZGinq0x
GT3は乗らなくていいから、eDRAMによる巨大L4のせた
ハイパフォーマンスデスクトップCPUは欲しい

697:Socket774
13/06/20 11:44:03.34 dVRATuST
>>696
禿同