連番のＨ画像/動画を一気にダウンロードする2

連番のＨ画像/動画を一気にダウンロードする2at UNIX

連番のＨ画像/動画を一気にダウンロードする2 - 暇つぶし2ch250:名無しさん＠お腹いっぱい。
10/01/21 11:43:11
197 名前：名無しさん＠ピンキー[] 投稿日：2009/12/28(月) 17:04:38 ID:a4+zYW5n0
E-Hentaiって、有料なんですか？
freeとあるから無料なのですか？

251:名無しさん＠お腹いっぱい。
10/01/26 22:07:41
>>189
再うｐおねがします
本当頼みます

252:名無しさん＠お腹いっぱい。
10/01/27 14:39:42
>>251

244 ：名無しさん＠お腹いっぱい。：2010/01/18(月) 09:27:43
>>189のツール使ってるんだけど、急に弾かれるようになっちゃった…
Your IP address is not allowed to access that
Your IP address has been temporarily banned for using automated mirroring/harvesting software and/or failing to heed the overload warning. The ban expires in 56 minutes 23 seconds
だって…
WIN向けだからここで聞くのも間違っている気もするんだけど、何か対策されたのかな？

246 ：名無しさん＠お腹いっぱい。：2010/01/18(月) 17:25:43
>>244
俺も弾かれるようになった
おそらく対策されたんだろう
いままで対策されなかったのが不思議だったし

前レス読んだ？急に真剣になってバカじゃないの？？

253:名無しさん＠お腹いっぱい。
10/01/27 22:39:27
別人に何を言ってるんだ

254:名無しさん＠お腹いっぱい。
10/02/02 00:50:57
誰かこれ頼む。もう3日なやんどる
URLﾘﾝｸ(jappygal.blogspot.com)

255:名無しさん＠お腹いっぱい。
10/02/02 13:00:37
cookieとjsでガチガチになってるわけでもなし。簡単じゃないか
URL=URLﾘﾝｸ(jappygal.blogspot.com)
wget -O- "$URL" | grep -o "URLﾘﾝｸ([^\)"']*.jpg" | sed -ne "/s1600-h/s/s1600-h/s1600/p" >LIST
wget -i LIST

256:名無しさん＠お腹いっぱい。
10/02/02 14:02:53
2スレ目でそろそろ「基本テク」をおさらい・まとめて
おかないといけないんじゃないかな…

ページソースや直URL確認
wget --referer オプションやら -r -l などなど
zsh の連番技法 {001..052}.jpg とか

>255
html 解析から a href= 抽出するのは grep -o が使えたのか

257:名無しさん＠お腹いっぱい。
10/02/02 14:14:57
前スレを見てみたい
方法の改良論とかもありそうだし

258:名無しさん＠お腹いっぱい。
10/02/02 14:26:46
URLﾘﾝｸ(2se.dyndns.org)

259:名無しさん＠お腹いっぱい。
10/02/02 17:20:47
前スレみたらこんなのがあった
ＵＲＬにはつながらず……

952 ：950：2005/11/05(土) 18:30:02
>>950
テキトーにつくってみました。
URLﾘﾝｸ(seizen.dyndns.org:8080)

ちなみにおいらはperl+sh派です。

260:名無しさん＠お腹いっぱい。
10/02/07 06:27:04
先ほど509になってびっくりしてググったらここに来ました
何だか知らないけどよろしくお願いします
とりあえずスレ見たらアク禁解けるまで待てと書いてあるので待ってみます

261:名無しさん＠お腹いっぱい。
10/02/07 10:57:35
そういや157のツールでe-hentaiの古い画像が見れないのってどうなった？

262:名無しさん＠お腹いっぱい。
10/02/08 20:25:53
e-hentaiの画像を簡単に多く取れるツール作って欲しい

263:名無しさん＠お腹いっぱい。
10/02/12 20:58:02
作った…

264:名無しさん＠お腹いっぱい。
10/02/13 02:49:10
おめでとう。

265:名無しさん＠お腹いっぱい。
10/02/14 19:08:52
欲しいと言われると腕がなるのでおいらも挑戦してみた。
千枚保存するのに20分掛かったが帯域制限には引っ掛からなかったよ。
これが >>262 の想いに届いたなら幸せだ。

URLﾘﾝｸ(www1.axfc.net)

スクリプト起動したら"URL>"のプロンプトにギャラリートップのURLを入力してくれ。
複数のURLをテキストファイルに書いてリダイレクトで食わせてもOK。
後は放っておくだけでギャラリーIDのサブディレクトリを掘って画像を保存するよ。

266:名無しさん＠お腹いっぱい。
10/02/14 21:43:09
GPの増やしかた教えてくれ

267:名無しさん＠お腹いっぱい。
10/02/15 15:13:12
e-hentaiってgzip転送しているように見えるけど
phpスプリクトは対応してますか？
負荷掛けるのはいくない

268:名無しさん＠お腹いっぱい。
10/02/15 16:22:00
リファーとクッキー設定してないけど
いいのだろうか

269:名無しさん＠お腹いっぱい。
10/02/15 17:10:20
リファラー？

270:名無しさん＠お腹いっぱい。
10/02/15 17:31:45
サムネイルしか保存出来ないんだが対策されたのだろうか

271:名無しさん＠お腹いっぱい。
10/02/15 20:12:26
そもそもphpの開き方がわからない俺orz

272:263
10/02/15 21:12:03
クッキーないと画像は落ちないよ。
wget なら --keep-session-cookies 併用して表示ページを経由する。
オリジナルをダウンロードする場合はログインスクリプト書いて
そのクッキー使う。DL数に厳しい上限あり。
ログインしておけば通常の画像も帯域が増えるよ。

273:名無しさん＠お腹いっぱい。
10/02/15 21:39:22
>>270
俺もサムネしか落ちないな

274:名無しさん＠お腹いっぱい。
10/02/15 22:01:39
>>262は「e-hentaiの画像を簡単に多く取れるツール作って欲しい」と言ってるんだから
あながち嘘ではない。ソースあるんだから、なんとかしたい人ならこれをベースになんとかする。

275:名無しさん＠お腹いっぱい。
10/02/15 22:57:20
この過疎地で1日のレスがこんなに付くとは思わなんだ>>265だが
一週間の掲載期間は長かったかしら。
まぁ洒落なんだからそんなに突っ込まないでくれ。
こんなところでそのまんま自前のソース広げて使われ
まくった挙句に変な対策でもされたら面倒だからね。
>>267 phpはgzip展開圧縮も普通に出来るよ。

276:名無しさん＠お腹いっぱい。
10/02/18 13:16:01
リファラーってどうやってせっていすんお？

$ua->agent("Mozilla/5.0 (Windows; U; Windows NT 6.0; rv:1.9.2) Gecko/20100115 Firefox/3.6 (.NET CLR 3.5.30729)");
$ua->proxy('http', 'URLﾘﾝｸ(127.0.0.1:65536)');

277:名無しさん＠お腹いっぱい。
10/02/19 02:08:37
get.plでダウンロードできなくなってるんだが…

対策されたか？

278:名無しさん＠お腹いっぱい。
10/02/19 15:36:48
確かにget.pl使ってもエラー吐かれるな

279:名無しさん＠お腹いっぱい。
10/02/19 16:21:20
どんなエラーでてんの？
こっちも対策するぞ

280:名無しさん＠お腹いっぱい。
10/02/19 17:21:23
こんなん

** make directory **
the list name is 0f9cd89d5b.list.
the directory name is 0f9cd89d5b.
0f9cd89d5b does exist.
doesn't make a directory.

** get 98 pics **

get pic's html file (1/98).
get html : success. (200 OK), [dummy.html]
get [0] ...:
HTTP::Response=HASH(0x2fd6994)->status_line, [0] : failed to download pic. try a
gain (5/5).
wait/sleep 3 sec : [***]

これを5回繰り返して止まる

281:名無しさん＠お腹いっぱい。
10/02/19 18:19:24
対策っていうか,　多分画像が貼ってあるページの構造が変わって,
scrapeimgname()　と　scrapeimgurl()　がファイル名と　url　を
抽出できなくなっただけ.　これらの関数は　getpics()　から呼び出され,
抽出できなかった場合に　return　0　するが,　getpics()　側で特にエラー処理
してないので,　エラーにならず　get　[0]　...　とかなって走りつづけてる
(本当は　0　のとこに　scrapeimgname()　の戻り値であるファイル名が入る).

モジュールに依存しないように　html　の　parse　を自前でやってるが,　
俺は面倒なので,　HTML::TreeBuilder::XPath　使って書き直した.

あと　HTTP::Response->status_line　がメソッド呼び出しなのに　
double　quote　で文字列展開しようとしてるので,　status_line　が
正しく表示できてないのもバグっぽい.　
"@{[　$res->status_line　]}"　とかしといた方がいい.

282:名無しさん＠お腹いっぱい。
10/02/19 18:51:06
bandwidthがperlだとブラウザより高いのけ？

QoSでperlへの帯域絞るしか無い？

283:名無しさん＠お腹いっぱい。
10/02/19 22:35:10
img id.*でマッチングするようにscrapeimgnameとscrapeimgurlを書き換えたら動いたよ。
オリジナルは画像鯖のドメインでマッチングしてたんだけど、ドメインが変わったからマッチしなくなったんだね。

>>282
オリジナルだと4秒ぐらいで取りに行っちゃうから、間隔を10秒以上とるようにsleepを書き換えるとけっこう快適になるよ。

284:名無しさん＠お腹いっぱい。
10/02/19 23:06:49
>>283
サブルーチンを書き換えればいいのかな

285:名無しさん＠お腹いっぱい。
10/02/19 23:17:33
$t=（rnd（$base1000)）+10

とか？

286:名無しさん＠お腹いっぱい。
10/02/19 23:19:13
>>284
そうそう。waitpとかいう名前だったはず。

287:名無しさん＠お腹いっぱい。
10/02/19 23:21:06
私も、img idでマッチする様に書換えて、動きました。
書出すファイル名は、altタグから引っぱればいいかな。

288:名無しさん＠お腹いっぱい。
10/02/19 23:23:28
>>283
便乗して悪いけど
img id.* ってのはscrape～の
if ( m|src="URLﾘﾝｸ(r.e-hentai.org)"| )
の部分のことでいいのかしら

289:名無しさん＠お腹いっぱい。
10/02/19 23:25:00
$t=（rnd（$base1000)）+10

とか？

290:名無しさん＠お腹いっぱい。
10/02/19 23:26:00
うあ
base/1000の間違い
すまぬ

291:名無しさん＠お腹いっぱい。
10/02/20 01:13:58
perlの記述がよく分からないんだけども正規表現とかimgタグとかは他の言語とかと一緒なのかな

292:157
10/02/20 01:54:50
URLとイメージ名のスクレイパの正規表現の手直しと
waitpの時間延長を施した新ヴァージョンができました

URLﾘﾝｸ(www1.axfc.net)

293:名無しさん＠お腹いっぱい。
10/02/20 11:01:04
157さんサンクス！
ちゃんと動いてます。

294:名無しさん＠お腹いっぱい。
10/02/20 17:10:24
use LWP ;
my $ua = LWP::UserAgent->new;
$ua->agent("User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.0;rv:1.9.2)
");
$ua->timeout(180);
$ua->proxy('http', 'URLﾘﾝｸ(127.0.0.1:80)');

295:157
10/02/20 21:05:59
上のバージョンで>>281氏のstatus_lineのデバッグ入れるの忘れてました
すいません

296:名無しさん＠お腹いっぱい。
10/02/21 13:12:16
今スクリプトのデバッグ中にふと思いついたしょーもない
むしろ '常識知らねーな' と言われそうな変更を試してる。

これで4ページ/分のペースで14冊330ページ99MBまで落としたが
一向に帯域制限がやって来ない。昨夜は引っ掛かりまくりだったし
今まで3日の間を空けたってこんなこと無かったんだがな。
サーバのプログラムが変わったばかりらしいがバグを突けたのか？
それとも今日は感謝デーなのか？

297:名無しさん＠お腹いっぱい。
10/02/21 13:21:48
>>296
変更前と後のスクリプトで試してみて
両方とも帯域制限が来ないなら
今日は感謝デー

後の変更済みスクリプトだけに帯域制限がこないなら
その変更は大当たり

298:名無しさん＠お腹いっぱい。
10/02/21 13:35:43
>>297
おぉ、そりゃそうだ。舞い上がって変化点検証の基本を忘れてた。やってみる。

299:名無しさん＠お腹いっぱい。
10/02/21 14:56:32
すまん。サービス期間中だったようだ。
変更前のコードでも222ページ75MBまでスルスル落とせた後に 509 がやってきた。
その直後に変更後のコードを掛けてみたがやっぱり 509 だった。
多分週末メンテナンスで俺のカウンタがリセットしたとかなんだろうな。

クッキーなくなってるね。リダイレクトもなし。img id=xxx は相変わらず付いてるけど
肝心の id の値はHTML本文中に見つからない。

300:名無しさん＠お腹いっぱい。
10/02/21 16:34:57
157さんのツールで、DLするページによってサムネイルページで400エラーを吐くのは何故でしょうか？

301:名無しさん＠お腹いっぱい。
10/02/21 20:17:10
>>300
オレもそういうページあるけど多分複数ページじゃなくて単独ページの場所だと
動かないっぽい。
ベースページを解析するルーチンで1ページしかないページだと構文解析できずに
終わってるっぽいな。

直すのめんどいんで手作業でやってるけどね。

ついでだけど500枚くらいのやつだとエラー途中までしかDLしないのは仕様？