10/05/04 21:09:15
俺はwgetやperlじゃなく、Cでsend/recvしてやってるけど。
3月中の変更のgzip化は、gzip本家のソース組み込んで逃げた。
ソースコードだけgzip化されている。レスポンスヘッダー\r\n\r\nの後のデータをgzipでデコードすればいい。
目的のアドレスの中にamp;が含まれている場合があって、むしろこっちに引っかかってた。
3末だったか4月頭にも、もう一度修正来たけど、これはダミーのアドレスが大量に含まれているバージョンで
正しいアドレスを抽出する仕方は人それぞれ。俺はaltとファイル名でマッチした奴を選んでる。
jpg.jpg, png.png, gif.gifを例外にしてる。
Cでやる場合は、webサーバーのレスポンスコードに注意する必要があるよ特に400系。
1月頃までは300系レスポンスとかもやっていたサイトなので当然対応できるようにしておいた方がいい。
せっかく画像のアドレスゲットしても、こっちが光でも当の画像サーバー糞重い場合もあるので
レジュームリクエストにも対応しておいた方がいい。