20/10/23 18:22:39.10 /wJRlkOk0.net
そもそも
今回起こった「メモリ障害」だけが取り上げられてるけど
cf.takeover.on_panic
っていう問題のパラメータの名前だけ見ると
他ノードが検知できなくなるなどのノード障害(panic)を起こしうる障害のほとんどが
OFFのままだと"takeover"できずにこけてた、
というおそろしい状態で5年間運営されてたっていうふうに見受けられる
なお、ついでにざっとマニュアル見たら
cf.takeover.on_network_interface_failure
というネットワークだけ見てそうなパラメータが他にあった
※別に関係者でなく同業他社経験者ならあたりがつく話ってだけです