07/02/21 07:04:36 HQwtrrHc
>>315
311 316が書いてるように、エラーをどうやって検知できるのか先ずそれを考えるんだ。
メモリが信用できないなら何を基にして調査するのかといえば、分かりやすいのはファイル破損という話かと。
I/Oやディスクまわりのエラーもあるから、ECC積んでてもやった方が良いけどね。
で、ECCがメモリ化け防止にどのくらい役立つかと言われたら、
サーバ機運用してBIOSのECCエラーLogを時々チェックすれば分かる。
少ない筐体ならCrrectableが年1程度だし、多い物は月1くらい出てるな。かなりばらつくよ。
ECC無ければ検知もできない。Uncorrectable出して強制停止したらサポートにTELして交換。
が、ECCがシステムの安定性に実際どれぐらい貢献するのかってのは
マシンごと冗長化してあったりStaticなWeb鯖だったりすりゃほぼ問題にならんだろうし
巨大なプログラムが多いシステムなら暴走しやすいんじゃない? システムってのが曖昧。
計算機として使うとか、DB動かすとか、真面目なファイル置くとかなら、
安定云々以前にデータが壊れるほうが問題なんだけどね。
だから壊れそうって検知したらその場でハングアップさせる。
HDDのRAIDしてても、知らないうちに少しずつデータ化けたら実質全部破棄でしょ。
障害復旧向けじゃなくて、障害検知が出来てついでに自動修正もしてくれると思った方が。