08/10/06 18:17:34 eO1CMKz50
wgetで試行錯誤してみたらうまくいきました。
wgetで一旦htmlのみを取得し、
Rubyのスクリプトで画像サーバーのURLを列挙して(↓な感じの)
urls = []
Dir.glob("hogehoge.blog45.fc2.com/*.html") do |file|
puts file
urls += File.read(file).scan(/blog-imgs-[^\.]*\.fc2\.com/).uniq
end
puts urls.uniq
以下の様に、-D でダウンロードするホストを限定したらうまくいったようです。
wget -rH -l 3 --convert-links -o log.txt -Dhogehoge.blog45.fc2.com,blog-imgs-21.fc2.com,blog-imgs-30.fc2.com,blog-imgs-1.fc2.com,blog-imgs-12.fc2.com URLリンク(hogehoge.blog45.fc2.com)
--convert-linksなどをつけないとリンクが相対リンクならないので注意というのと、
あと、fc2は.htmlとなっていてもどうやら動的生成なようで
カレンダーのリンクのせいか、-l 0にすると無限にダウンロードしつづけるため注意です。
(一回やらかしました)