02/09/10 19:08 UYaZcFQU
良ければ ia64, 2.4.18 のソース見てね。
arch/ia64.kernel/mca.c
特に CMC/CPE (ハードが自動訂正する NON-FATAL な CPUや Platform(メモリ) の障害の事)。
イベントログとしてレジスタダンプして元のコンテキストに戻るだけ。
CPUコアに埋め込まれたキャッシュや、メモリの1ビット ECCエラーなんて
インターミッテントに起こるか?
数回の前兆の後、壊れる時は固定的に壊れちゃうモンだよ。
するってーと、どうなる?
ログ吐くためのオーバーヘッドでシステム性能ガタ落ち。
他の商用 UNIX は、ある閾値をもって、障害割り込みに蓋をして。
今度は一定時間に障害があるか否かチェックするモードに切り替えて
ログ吐きを少なくして。
それでも尚且つ障害が起き続けるのなら、ログ吐きを止めて。
尚起き続けるのならシステムダウンに繋がる固定障害なんで
早めに管理者に気付かせて、次回のリブート時には
ハード交換してもらうよう促す。
或いはクラスタリングで、他の装置に切り替わるようにするとか。
俺がハックしてポストしたいよ。
どっちかというとミドルウェアの方かも知れないが。