08/05/04 15:54:56 .net
AIXとは関係ないのでここには書きのはちょっとと思うが....すみません。
現象
あるサーバーとサーバーとの間でftpを使ったファイル転送が大量に(と言っても約60GB/day)
おこなわれている。ファイル転送は1個も失敗しないが転送している途中で一瞬止まる。
これは何故か?これを調べてくれ。と言われてしまった。
解析するとL4でACKが戻ってこないでTCPがTimeoutして再送していることが判明。
驚いたことに問題を報告してこない別の組織でも同じネットワーク機器とサーバー
の組み合わせを使っている所があり、同じ現象が発生していた。
(つまり問題に気がついていない。)
Timeoutを検地しているのはftpdがファイルを送信しているときに送信側で発生している。
次はL3でチェック。サーバー側で送信したハズのパケットが受信側に届いていないことが判明。
(これじゃL4でTimeoutする訳だ。)
パケットはネットワーク機器でdropしている。原因を調べるとネット機器のInputでCRCエラー
1つは140171833中2845CRC Error 0.002%。もう1つは276601434中61117CRC Error 0.022%
僅かなCRC Errorなので運用上は問題がないと思われるが何故かが気になるし、
報告書を書かなければならない。CRC Error 0が普通の環境なのに....
つまりL2での問題。救えるのは両者が同じ組み合わせで発生しているということ。
同じ型番のネットワーク機器で同じ型番のサーバーと同じOSの同じバージョンで
ノミ問題が発生していること。
この手のトラブルは原因を解析しやすい。アナライザーをつないでCRC Errorを
拾えばいいからだ。
さて原因はネットワーク機器なのか?デバイスなのか?OSのドライバーなのか?
これを探すのも1つの楽しみである。AIXとはまったく関係ないのでこれでオシマイ。