連番のH画像/動画を一気にダウンロードする2at UNIX
連番のH画像/動画を一気にダウンロードする2 - 暇つぶし2ch82:名無しさん@お腹いっぱい。
06/09/22 18:59:58
>>80
例えばこんなところで↓
URLリンク(geocities.yahoo.co.jp)
URLリンク(photos.yahoo.co.jp)
URLリンク(briefcase.yahoo.co.jp)
>>81
それを昔していましたがzip以外でしたいです。

83:名無しさん@お腹いっぱい。
06/09/23 08:49:55
>>82
lha

84:名無しさん@お腹いっぱい。
06/11/15 13:15:50
JavaScript で window.navigator.appName 見てるとこって
どうすればいいの?


85:名無しさん@お腹いっぱい。
06/11/15 23:46:36
どうしたいの?

86:名無しさん@お腹いっぱい。
06/12/24 18:16:39
今までcurlのお世話になってきたけど、今日LWP::UserAgent使って書き直した。
ステータスが200でtext/html返してきた時にリトライするようにしたかった。

87:名無しさん@お腹いっぱい。
06/12/25 01:56:18
完璧だ。対artemisweb最終兵器かもしれない。

88:名無しさん@お腹いっぱい。
06/12/25 02:02:00
次はHTML::Parser使ってwget相当のも作るか。夢が広がりんぐw

89:名無しさん@お腹いっぱい。
06/12/25 02:21:00
ヒント:今日はクリスマス

90:名無しさん@お腹いっぱい。
06/12/25 02:38:41
plagger のプラグインをきぼん。

91:!dama
07/01/02 04:02:34
てすてす

92:名無しさん@お腹いっぱい。
07/01/04 01:35:38
HTML::Parser使ったwget相当のも出来た。

93:名無しさん@お腹いっぱい。
07/01/04 01:43:48
それ Plagger でできるお

94:名無しさん@お腹いっぱい。
07/01/04 02:40:27
主目的はアルテミス対策の姑息なリトライ判定の導入ですから
それとHTML::*やHTTP::*やLWP::*のお勉強

95:名無しさん@お腹いっぱい。
07/01/20 03:39:43
test

96:名無しさん@お腹いっぱい。
07/04/02 19:34:19
連番ではないんですが、
imepita.jpなんかにうpされた画像を自動巡回して拾い集めたいなと思っています。
例えばこんなのとか URLリンク(imepita.jp)
このurlをブラウザーで開くと普通にみれるのですが。
curlやwgetでこのURLを開くと404になってしまい、
htmlが取得できず困っています。
うpされた画像のアドレスと表示用のURLに相関関係がないのでhtmlを調べないと画像が取得できません。

どなたか偉い方よろしくおねがいします




97:名無しさん@お腹いっぱい。
07/04/02 20:05:08
>>96
お約束の User-Agent: とか Referer: あたりはどうよ。

98:名無しさん@お腹いっぱい。
07/04/02 20:39:36
ブラウザーで直接開いてみれたので、Refererは試していませんでした。
User-Agent:は試したのですが変わらず・・・。
ちょっとRefererもやってみます。

99:名無しさん@お腹いっぱい。
07/04/02 20:44:05
refererいれても変わりませんでした

100:名無しさん@お腹いっぱい。
07/04/02 23:23:17
>>96
Accept-Language: ja
とかは?

101:96
07/04/03 08:31:48
>100
神!
ありがとうございました

102:名無しさん@お腹いっぱい。
07/04/10 23:16:28
みなさんが、
連番のH画像/動画を一気にダウンロードしたものを僕に下さい(>_<)(>_<)

103:名無しさん@お腹いっぱい。
07/04/21 16:02:05
>>96とはべつの人なのですが、imepitaの画像をダウンロードできません。
ブラウザでは保存可能でした。

wget --referer='URLリンク(imepita.jp)' -U='Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)' --header='Accept-Language: ja' 'URLリンク(imepita.jp)'

としています。
指摘よろしくおねがいします。


104:名無しさん@お腹いっぱい。
07/05/01 13:54:45
imageFAPの画像を wgetでおとすのは難しい? 落としかた教えてください

105:名無しさん@お腹いっぱい。
07/05/01 19:01:17
>>104
とりあえずURLを書きなさいよ

106:名無しさん@お腹いっぱい。
07/05/05 09:35:29
結構難題(というか出来なかった)

URLリンク(infostore.org)
URLリンク(img44.imagevenue.com)


107:名無しさん@お腹いっぱい。
07/05/05 10:51:18
lynx -dump 'URLリンク(infostore.org)' |
grep -o 'URLリンク([^#]*)<)' |
grep '/loc[0-9][0-9]*/'
done

108:名無しさん@お腹いっぱい。
07/05/05 11:08:02
ああ、ここUNIX板だから grep -o はまずいか。perl -ne 'print $& if m{pattern}' とかで。
あとは sleep もいれたほうがいいかも

109:名無しさん@お腹いっぱい。
07/05/05 12:23:56
俺んとこlynx入ってなかったのでsedとcurlで

$ cat hoge.sh
#!/bin/sh

curl -s "$1" |
grep imagevenue |
sed -n -e "s/href='\\([^']*\\)'/\\
HREF=\\1\\
/gp" |
sed -n -e "/HREF=/s/HREF=//p" |
while read URL
do
dir="`dirname \"$URL\"`"
file=`curl -s "$URL" | sed -n -e '/thepic/ {N; s/.*SRC="\([^"]*\)".*/\1/p;}'`
curl -s --referer "$URL" -O "$dir/$file"
done

$ ./hoge.sh 'URLリンク(infostore.org)'

110:名無しさん@お腹いっぱい。
07/05/05 15:07:32
勉強になるなぁ(何の???)

111:名無しさん@お腹いっぱい。
07/05/05 19:36:37
URLリンク(www.imagefap.com)
>>105


112:名無しさん@お腹いっぱい。
07/05/05 23:32:55
>>111
imagefapは
(1) ギャラリーページから全てのギャラリーページのURLを抽出
(2) 各ギャラリーページから画像ページのURLを抽出
(3) 画像ページから画像ファイルのURLを抽出

という手順になると思う。(3) のURLはJavaScriptでブラウザに生成させてるのでwgetとかでは無理っぽい。

113:名無しさん@お腹いっぱい。
07/05/06 09:10:45
ギャラリーページサムネイルのURLを置換してやればいいんでないの?
URLリンク(images.imagefap.com)
URLリンク(images.imagefap.com)

114:名無しさん@お腹いっぱい。
07/05/06 21:18:14
get_links_from_url() { lynx -dump -image_links "$1" | grep -o 'URLリンク([^#]*)<)' 0 8`; do
echo get: $URL >&2
get_links_from_url $URL | sed -n '/thumb/s/thumb/full/p'
done

115:名無しさん@お腹いっぱい。
07/10/23 21:46:50
最近ぐっと来るネタがないっすねぇ

116:名無しさん@お腹いっぱい。
07/10/27 02:27:20
最近のエロ画像はZIPで固めてrapidshareだからなあ

117:名無しさん@お腹いっぱい。
07/12/30 00:22:46
こういうアドレスが長く、不規則なのってどうやればいいでしょうか

URLリンク(g.e-hentai.org)

118:名無しさん@お腹いっぱい。
08/01/02 21:10:52
こういう別サイトの画像ディレクトリを参照している場合って、うまい方法ありますか?

URLリンク(exgirlfriendmarket.com)

119:名無しさん@お腹いっぱい。
08/01/02 22:24:46
curl -O --referer 'URLリンク(exgirlfriendmarket.com)' 'URLリンク(content1.nudeparadisehotel.com)'

120:118
08/01/03 01:46:07
>>119

さっそくの助言、ありがとうございます。
とりあえず curl をインストールして試してみました。拝見したところ、外部リンクになっているのを直接指定していますね。

これを Unix のコマンドの組み合わせで
 ・画像一覧ページから
 ・個別の画像、もしくは画像表示ページへのリンクを辿り
 ・自動で巡回して、一定サイズ以上の JPG はダウンロードする
ということはできませんでしょうか? 趣味と実益を兼ねて、こんな感じの Blog を巡回することが多いのです。

だめだったら Win のダウンローダーでも探しますが、やはり Unix で覚えたいので。
お手数ですが、よろしかったらお知恵を拝借させてください。m(_ _)m

121:名無しさん@お腹いっぱい。
08/01/03 09:38:02
wget -r -l 2 とかで。あとは wget --help の↓に気をつける:
再帰ダウンロード時のフィルタ:
-A, --accept=LIST ダウンロードする拡張子をコンマ区切りで指定する
-R, --reject=LIST ダウンロードしない拡張子をコンマ区切りで指定する
-D, --domains=LIST ダウンロードするドメインをコンマ区切りで指定する
--exclude-domains=LIST ダウンロードしないドメインをコンマ区切りで指定する
--follow-ftp HTML 文書中の FTP リンクも取得対象にする
--follow-tags=LIST 取得対象にするタグ名をコンマ区切りで指定する
--ignore-tags=LIST 取得対象にしないタグ名をコンマ区切りで指定する
-H, --span-hosts 再帰中に別のホストもダウンロード対象にする
-L, --relative 相対リンクだけ取得対象にする
-I, --include-directories=LIST 取得対象にするディレクトリを指定する
-X, --exclude-directories=LIST 取得対象にしないディレクトリを指定する
-np, --no-parent 親ディレクトリを取得対象にしない


122:名無しさん@お腹いっぱい。
08/02/27 14:12:00
以前に別スレで質問を投げたことがあるのですが、うまい解決方法に行き当たらなかったのと、
今やそのスレが消えてしまったため、もう一度ここで質問させてください。

例えばここに置いてある松金洋子のデスクトップ用壁紙画像をターゲットとします。
URLリンク(www.sexydesktop.co.uk)
ここには全部で4ページ分48種類の松金洋子の画像があります。

このサイトの画像はすべてデスクトップ用の壁紙を目的としているので、
一つの画像に関して数種類の解像度・縦横比の画像が用意されており、
アクセスしてきた人の使っているディスプレイ解像度を検出しては、
最適な解像度のものを優先的にプッシュするようになっています。

また、画像ファイルの命名ルールは非常に単純かつ形式的で、
たとえば例に挙げた松金洋子の画像の場合、
まず画像の名前を表す youko1 から youko48 までの48種類の画像が用意されています。

さらにそれぞれの解像度を表す 1280x800 や 800x600 の文字列が続き、最後に拡張子 .jpg が付いています。
注意する点は、例えば youko48 に対して youko01 だとか、1280x1024 に対して 0800x0600 といった、
命名上の「桁数合わせ」が一切行われていないという点です。

123:122-123
08/02/27 14:12:23
ここから先が質問です。やりたいことは、

1). サイトがプッシュしてくるこちらのディスプレイ解像度に関係なく、
すべての画像に関して、より解像度の大きい物を、
番号の一番若いものから古いものまで全種類取って来たい。

2). その際、取って来た画像のファイル名を修正して、
youko48 に対しては youko01 、1280x1024 に対して 0800x0600 など、命名上の「桁数合わせ」をしたい。

3). さらに、ファイル名の中の画像名を表す文字列と、解像度を表す文字列とを _ で結ぶようにしたい。
具体的には、youko11600x1200.jpg と名付けられた youko1 という画像の 1600x1200 版のファイル名を、youko01_1600x1200.jpg としたい。同様に、youko481280x1024.jpg と名付けられた youko48 という画像の
1280x1024 版のファイル名を youko48_1280x1024.jpg としたい。

以上をまとめると、参考例の松金洋子の画像で言えば、
youko11600x1200.jpg から youko481280x1024.jpg までの画像を、
youko01_1600x1200.jpg から youko48_1280x1024.jpg として保存したい。

これを実現するスクリプトをどう書けばいいでしょうか?

なお、好みのタレントの画像が何種類用意されているか(松金洋子の場合は48種類)については、
ダウンロードを開始する前に手作業で調べることとします。

124:名無しさん@お腹いっぱい。
08/02/27 14:31:38
>>123
コントンジョノイコ

スレタイを読んでからスクリプトスレに行け

125:名無しさん@お腹いっぱい。
08/02/27 14:43:56
>>122
>これを実現するスクリプトをどう書けばいいでしょうか?
変な書きかたをせずに普通に書けばいいと思うよ

126:名無しさん@お腹いっぱい。
08/02/27 18:52:00
>ダウンロードを開始する前に手作業で調べることとします。

むしろここをやりたいのかと思った… :-P

127:名無しさん@お腹いっぱい。
08/03/01 03:23:35
とりあえず自分で書いたとこまでうpすればみんなが添削してくれる
まず自分で書くんだ

128:名無しさん@お腹いっぱい。
08/03/03 14:00:03
wgetでダウンロードすると同名のファイルだと.1, .2とsuffixがついてしまいますが
これを-1.拡張子とすることはできないでしょうか?

通常は hoge.html, hoge.html.1, hoge.html.2 とファイルが出来て行くものを
hoge.html, hoge-1.html, hoge-2.html と名付けられて欲しいのです。

129:名無しさん@お腹いっぱい。
08/03/03 14:45:41
zsh 記法なら

for i in *.1 *.2
do
j=${i:r}
mv -i ${i} ${j:r}-${i:e}.${j:e}
done


130:名無しさん@お腹いっぱい。
08/03/03 19:01:42
ありがとうございます。ダウンロードした後でリネームするのがいい方法ということですね。

なるほど、-iをつけて重複したものに上書きするのを防ぐというわけですか。
自動でユニークなファイル名をつけるにはもうちょっとシェルスクリプト書けば良さそうですね。

wgetでダウンロードする時点ではでないんでしょうか。

for i in *.1 *.2
は *.整数 なもの全てに対応するには *.[0-9]* でいいのだろうか。
でもこれだと .3g2 もひっかかるか。


131:名無しさん@お腹いっぱい。
08/03/03 19:04:22
ああ*.222.htmlなんかも引っかかってしまうから全くだめですね。

132:名無しさん@お腹いっぱい。
08/03/22 13:38:18
#!/usr/bin/perl
@tmp=("Alina-G", "Anastasia-S", "Anna-T", "Anna-Z", "Iryna-M", "Kateryna-V", "Larisa-H", "Oksana", "Olga-S",
"Olha-D", "Sasha-D", "Sasha-L", "Svetlana-T", "Ulyana-A", "Ulyana-M", "Valeriya-L", "Victoria-D", "Victoria-S", "Yuliya-S", "Yuliya-Z");
$baseurl = "URLリンク(www.candydoll.tv)";
foreach $f(@tmp){
for ($i=1 ;$i < 7;$i++){
$imgname = sprintf"%s-images%02d", $f, $i
$url = sprintf "%s/%s.jpg",$baseurl,$imgname; system "wget " . $url;
$cnvcmd = sprintf "jpegtopnm %s.jpg > %s.pnm",$imgname,$imgname; system $cnvcmd;

}

$a = "pnmcat -lr ". sprintf "%s-images01.pnm ",$f; $a .= sprintf "%s-images02.pnm ", $f; $a .= sprintf "> %s-images_a.pnm", $f;
system $a;
$a = "pnmcat -lr ". sprintf "%s-images03.pnm ",$f; $a .= sprintf "%s-images04.pnm ", $f; $a .= sprintf "> %s-images_b.pnm", $f;
system $a;
$a = "pnmcat -lr " . sprintf "%s-images05.pnm ",$f; $a .= sprintf "%s-images06.pnm ", $f; $a .= sprintf "> %s-images_c.pnm", $f;
system $a;
$a = "pnmcat -tb ". sprintf "%s-images_[abc].pnm |pnmtojpeg > %s-image.jpg",$f,$f; system $a;
}
system "rm *.pnm";


133:名無しさん@お腹いっぱい。
08/03/23 09:03:53
なんでpnm介してるの?

134:名無しさん@お腹いっぱい。
08/03/23 20:41:11
Webには
12
34
56
といった形で分割されてあげられてるんだけど、
これをうまく結合する方法を思いつかなかったんで一旦pnmに変換したんですよ。

なにかいい方法はないもんでしょうか。

135:名無しさん@お腹いっぱい。
08/03/23 21:13:20
よくわからんが、ImageMagick で
convert -append / +append かな?

136:132
08/03/24 02:21:15
>>132の8行目の末尾にセミコロンがないのを今更見つけたのもありますが、
>>135さんの助言のおかげで無駄な変換をしないように修正したものをあげておきます。

#!/usr/bin/perl
@tmp=("Alina-G", "Anastasia-S", "Anna-T", "Anna-Z", "Iryna-M", "Kateryna-V", "Larisa-H", "Oksana", "Olga-S",
"Olha-D", "Sasha-D", "Sasha-L", "Svetlana-T", "Ulyana-A", "Ulyana-M", "Valeriya-L", "Victoria-D", "Victoria-S", "Yuliya-S", "Yuliya-Z");
$baseurl = "URLリンク(www.candydoll.tv)";
foreach $f(@tmp){
for ($i=1 ;$i < 7;$i++){
$imgname = sprintf "%s-images%02d", $f, $i;
$url = sprintf "%s/%s.jpg", $baseurl, $imgname; system "wget " . $url;
}

$a = sprintf "convert +append %s-images01.jpg %s-images02.jpg %s-images_a.ppm", $f, $f, $f;
system $a;
$a = sprintf "convert +append %s-images03.jpg %s-images04.jpg %s-images_b.ppm", $f, $f, $f;
system $a;
$a = sprintf "convert +append %s-images05.jpg %s-images06.jpg %s-images_c.ppm", $f, $f, $f;
system $a;
$a = sprintf "convert -append %s-images_[abc].ppm %s-image.jpg", $f, $f;
system $a;
}
system "rm *.ppm";


137:名無しさん@お腹いっぱい。
08/03/24 06:00:07
10才とか12才とかって部分には誰もつっこまないのね

138:単なるスクリプト練習道場
08/03/24 09:38:42
必ずしも皆サイトの方を見ているとは限らないって



139:名無しさん@お腹いっぱい。
08/04/20 01:18:07
双葉ちゃんねるの画像をまとめてDL出来るローダーってありますか?
僕の使ってるやつだとサムネイル画像しか落とせないんですが。

140:名無しさん@お腹いっぱい。
08/04/20 02:24:42
双葉ちゃんねるってものすごく見にくいんだけど
2chブラウザみたいなやつでもあるの?
流れにまかせて適当に見るのが筋なのかな。

141:名無しさん@お腹いっぱい。
08/05/06 23:35:44
すんませんH画像じゃないんだけど、NHKニュースの動画の落とし方分かる人いませんか
URLリンク(www3.nhk.or.jp)
最近リニューアルしてから、ダウンロード出来なくなりました。
ブラウザのキャッシュにも残りません。swfを間にかましてるみたいです。
宜しくお願いします。

142:名無しさん@お腹いっぱい。
08/05/07 17:28:51
ちょいと面倒だけど
まず見てるページのソースコードを見ると
wmvHigh = "URLリンク(cgi2.nhk.or.jp)
てなことが書いてある。次に
view-source:URLリンク(cgi2.nhk.or.jp)
でさらに見ると
<REF HREF="mms://a669.v90561.c9056.g.vm.akamaistream.net/5/669/9056/48216095/1a1a1ad74ec5f82d5bc9319cca39abd943b3e250b52c9f/K10044234611_0805071619_0805071653_mh.wmv"/>
とか書いてある。こいつを録画すればおk

143:名無しさん@お腹いっぱい。
08/05/10 21:01:38
>>142
うまくいきました。丁寧に教えてもらって感謝です。

144:名無しさん@お腹いっぱい。
08/05/31 18:03:17
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)
URLリンク(jp.youtube.com)

鉄道をこよなく愛する人たち

145:名無しさん@お腹いっぱい。
08/05/31 20:16:44
なんだこりゃ。ひどいな。

146:名無しさん@お腹いっぱい。
08/07/05 00:14:43
今の最新のダウンロードスクリプトは何ですか?

147:名無しさん@お腹いっぱい。
08/07/05 05:41:53
やっぱzshのスクリプトじゃね?

148:名無しさん@お腹いっぱい。
08/07/05 23:27:08
グロ画像対策ってどうしてます?

149:名無しさん@お腹いっぱい。
08/07/06 00:20:47
グロ画像好きになればいいんじゃないかな?

150:名無しさん@お腹いっぱい。
08/09/21 11:29:13
ウイルスにじゃから内容にね

151:名無しさん@お腹いっぱい。
08/09/27 21:48:19
Hな動画ならここURLリンク(click-bb.com)人気サイトです

152:名無しさん@お腹いっぱい。
08/11/13 19:08:26
梶谷秀

153:名無しさん@お腹いっぱい。
09/01/06 01:43:12
双葉がjavascript有効じゃないと落とせなくなった。
なんかいいツールはない?

154:名無しさん@お腹いっぱい。
09/01/10 17:41:50
Firefoxと赤福使ってる。スクリプトでの取得はあきらめた。


155:名無しさん@お腹いっぱい。
09/01/23 02:38:56
URLリンク(jp.youtube.com)
URLリンク(www.nicovideo.jp)

156:名無しさん@お腹いっぱい。
09/03/26 19:55:23
>>151
コラア!いてまうど!

157:名無しさん@お腹いっぱい。
09/04/17 11:58:35
g.e-hentai.org スクリプト

(knoppix 5.1.3)
original file name : getimgs.pl.txt
約5354.4日間保存

URLリンク(www1.axfc.net)
pass : vip

158:名無しさん@お腹いっぱい。
09/06/04 14:58:19
>>157
222行目と223行目逆じゃない?

159:名無しさん@お腹いっぱい。
09/06/05 01:47:51
>>158
うん、逆だな。
その他にも、幾つかバグがあるようだ。
でも、転送制限があるサイトなので、あんまり使う気しない。
※だいたい160枚前後で、転送休止ってどうなのよ?

160:名無しさん@お腹いっぱい。
09/07/21 01:34:07
壁紙の配布サイトがあるのだが、1枚1MB程度の壁紙が2000枚近くある。
これを一気にダウンロードすると、相当な負荷をかけると思うので数秒おきにダウンロードするようにしたいのだけど、そんなことできる?

161:160
09/07/21 01:35:29
追加情報で、サムネイル画像はthumbという文字列がファイル名に入ってるのでそれも除外することで、ちょっとは負荷をへらせると思う。

162:名無しさん@お腹いっぱい。
09/07/21 01:59:57
>>160
よくわからんが
>数秒おきにダウンロードするようにしたい
っていうのが要件であるのならsleepでもかませればいいんでないの。
固定時間で、ダウンローダ使っているのを推測されるのが嫌なら
(そういうサイトがあるかはしらないけど)
sleepの引数を範囲絞って乱数にすりゃいいし。難しくはないだろ

163:157
09/08/18 23:34:32
g.e-hentai.org スクリプト

get.pl
readme.txt
をzipにて同梱。

URLリンク(www1.axfc.net)


164:名無しさん@お腹いっぱい。
09/08/20 00:41:03
>>163
解凍してみたが、readme.txt ehg.txt
しか見当たらない。
get.plはいづこに?

165:名無しさん@お腹いっぱい。
09/08/20 10:00:11
現在特許申請中です

166:157
09/08/20 15:44:14
非常に失礼しました。
g.e-hentai.org スクリプト

get.pl
readme.txt
require_url.png

をzipにて同梱。

URLリンク(www1.axfc.net)

167:名無しさん@お腹いっぱい。
09/08/20 22:14:50
>>166
おお、サンキュー
早速、ゲット開始。
なんか色々新しくなってるね。きちんとエラー処理してあって
便利になってる。
スクリプトいぢって遊んでみるわ。ありがとう。

168:187
09/08/20 22:41:18
355行目の mkdir ("$dirname", 777) or die $! ;
のmaskを、0777に変更しないとうまく動作しなかった。
デレクトリィは、できるけど書込み出来ない。

perl, v5.8.6 built for darwinでの動作報告

169:167
09/08/20 22:42:18
未来へ、小パス

170:157
09/08/21 09:25:11
>>168
報告ありがとうございます

直すかreadmeに入れておきます

171:157
09/08/25 22:42:42
imageFap スクリプト

fap.pl
readme.txt
require_url.png
を同梱。

使い方は、>>166のスクリプトと全く同じです。

URLリンク(www1.axfc.net)


172:名無しさん@お腹いっぱい。
09/08/29 20:29:53
>>171
動いたずら。
fap.plの改行コードがCR+LFだった。

173:名無しさん@お腹いっぱい。
09/09/12 12:14:31
>>166>>171
ありがてぇありがてぇ


174:名無しさん@お腹いっぱい。
09/10/04 23:34:23
つーるのつかいかたがわかんないです><

175:名無しさん@お腹いっぱい。
09/10/09 19:12:20
>>174
readme.txt 嫁

176:名無しさん@お腹いっぱい。
09/10/09 20:50:01
>>166
ありがたいです

しかし、100枚超えると普通にはじかれますね・・・
串どうやって刺そうかな

177:名無しさん@お腹いっぱい。
09/10/09 22:49:02
携帯専用ですが
無料のおかず画像サイト集めてみました
URLリンク(s12.smhp%2ejp)

178:157
09/10/10 17:32:40
>>176
待つ時間を長くすればするほど
単位時間のダウンロードの大きさが減るので、
730行目あたりの関数 waitp を

sub waitp {
# wait process and random sleep.
# process sleeps while ??? seconds, not "msec".
#
# if you want to use "msec" unit, use "select".
# same effect of 'sleep' while 250 msec is,
# "select(undef, undef, undef, 0.25) ;".
# but, can't use progress bar.
my $base = 10000 ; # random sleep from 1 sec to $base/1000 sec.
my $t = int ( rand ($base) / 1000 ) ;
progbar (++$t) ;
return 1 ;
}

などと書き換えてみてください。
帯域制限がかかりにくくなります。


179:名無しさん@お腹いっぱい。
09/10/12 10:05:00
>>178
やるじゃん

180:名無しさん@お腹いっぱい。
09/10/13 02:45:36
>>178
thx!
ここへは検索でたどり着いた他所者で申し訳ないが助かるわ
昔入社直後にならったプロンプト程度の知識でもいけるもんだな・・・使う分には

181:名無しさん@お腹いっぱい。
09/10/13 05:57:36
g.e-hentai.orgのスクリプトの使い方がよくわからなくて困っています
付属のReadmeを読んでみて自分なりに試してみたのですがうまくいかず
本体を起動すると黒い窓と文字が一瞬表示されるのですが
すぐに消えてしまうためなんとかプリントスクリーンで撮影して
そこに書いてあったリストの作成などもしてみたのですけどダメでしたorz
プログラムなどの知識皆無なのでそもそも場違いとも思うのですが、
どなたか教えていただけないでしょうか?

182:名無しさん@お腹いっぱい。
09/10/13 06:47:37
>>181
g.e-hentai.orgからアクセス制限がかかってる現在の状況下で
さらに自分で調べもしない人間達にでも使えるように説明しろと?

正気ですか?

お前の目の前にある箱はなんだよ?飾りか?


>自分なりに試してみたのですが
もっとやれ
もっともっとやれ
救いな事に>>157氏のファイルはインチキじゃない
自分で勉強すれば必ず結果が伴う


183:名無しさん@お腹いっぱい。
09/10/14 12:55:49
黒い窓とか釣りだろ。
>>181 Linux勉強してLinuxで実行するといいよ

184:名無しさん@お腹いっぱい。
09/10/20 09:36:45
e-hentaiの制限が2日ほど続いているのですが、
皆さんはどれくらいの期間、制限かかってます?

初めのころは1・2時間程度だったのになあ。

185:名無しさん@お腹いっぱい。
09/10/21 21:16:44
URLリンク(blogwatcher.pi.titech.ac.jp)

186:名無しさん@お腹いっぱい。
09/10/23 04:59:37
>>157氏のe-hentaiのダウンロードスクリプトに串を噛ませようと思ってるんだけど
串の設定項目が無いのでDL専用の仮想マシンを作ってシステム全体に串を噛まそうと思う

yumとかで実践されてるこの方法が一番かな
URLリンク(blog.livedoor.jp)

187:名無しさん@お腹いっぱい。
09/10/23 05:29:17
と思ったらTor串焼かれまくってて笑った
これだけ神経質だとISPごとアク禁とか何のためらいもなくやりそうで怖いなw

188:名無しさん@お腹いっぱい。
09/11/16 09:44:27
ちくしょーーーー!実行してもスクリプト弾かれちまう…なんとかならないかなぁ

189:名無しさん@お腹いっぱい。
09/11/17 02:10:06
He_252405.zip
ぱす chinko

E-Hentaiからダウンするなら最近これ使ってるけどな。
転送制限もなぜかかかりにくい。600枚位連続で落としたが、まだいけそうだ。
どやって回避してんのかな。
Win用だからスレチかもしれんが。


190:名無しさん@お腹いっぱい。
09/11/17 21:28:52
帯域制限かかってからはや3日が過ぎた
いつ解除されんのかな

191:名無しさん@お腹いっぱい。
09/11/17 22:46:25
>>189
ちょっと、試してみた。
結局おれんトコでは、150枚くらいで転送制限になった。
転送制限中ですよ画像も、ダウンロードしちゃうよ。w

>>190
もう、そろそろじゃない?
五日くらい制限喰らった時も有ったような。


192:名無しさん@お腹いっぱい。
09/11/18 01:16:26
509 bandwidth exceeded

you have temporarily reached the limit for how many images you can browse

-if you haven't already, you can double
your daily quota simply by signing up for
an absolutely free forums account at,
URLリンク(forums.e-hetai.org)

- you can run the hentai@home distributed image server to help us serve more images.
this will give you points which can be used to increase your page view limit,
and cache files locally so they are ready when you wish to view them.

(check the news dorum for moredetails and signup information)

please understand that e-hentai galleries is a free service, and to keep it free we
must limit the amount of images anyone person can view.
if you come back in a few hours, you will be able to download more.

暇だから写した
157氏のスクリプト試したら4枚で…
閲覧や手作業での保存も出来ず悶悶
解除されたらチンコの試そう

>>191
そんなにかかるのか
確認に行って509返されて期間延長とかないよな

193:名無しさん@お腹いっぱい。
09/11/18 01:56:14
>>189
再うpキボンヌ

194:名無しさん@お腹いっぱい。
09/11/19 02:05:56
>>192だけどいつの間にか制限解除きてた

195:名無しさん@お腹いっぱい。
09/11/30 23:57:45
>>189
はどんなツールだったの?

196:名無しさん@お腹いっぱい。
09/12/01 21:27:46
>>195
画像ダウンロードアプリですよ。
ダウンする時に、サムネイルプレビューが見えるのが親切設計。
転送制限回避は、どうも環境によるとしか胃炎。つーか、分からん


197:名無しさん@お腹いっぱい。
09/12/02 01:30:52
うpしてちょ…

198:名無しさん@お腹いっぱい。
09/12/03 14:41:23
tumblrのRSSフィードから画像をダウンロードするスクリプトとか
誰か作ってませんか?



199:名無しさん@お腹いっぱい。
09/12/03 16:08:22
157氏のスクリプト、この前までは順調に使えてたが、
今日また使おうとしたら、

Invalid argument at get.pl line 438.

って吐き出して止まってしまう・・


200:名無しさん@お腹いっぱい。
09/12/04 03:35:56
>>171はURLチェックの部分にwwwを加えないと初っ端で失敗
作成したときはwwwがなかったのかな

それと、それでも

the list file name is URLリンク(www.imagefap.com)
the directory name will be URLリンク(www.imagefap.com)
URLリンク(www.imagefap.com) does not exist.
Invalid argument at C:\Documents and Settings\-----\fap.pl line 239.
make a directory:

ってエラー出て止まるんだけどどうすればいいべさ

201:名無しさん@お腹いっぱい。
09/12/06 07:39:36
e-hentaiのちょっと古めのCGが見れないぜー

202:157
09/12/06 20:01:16
>>200
239行目でもwww無しでURLチェックしてるので
そこにもwwwを加えてください

作成した時は多分wwwが無かったのだと思います

>>201
原因不明です
URLお願いします

203:名無しさん@お腹いっぱい。
09/12/06 21:34:25
201じゃないけどなぜか見れないのがあるぜ
数日前は大丈夫だったはずなのに・・・

URLリンク(g.e-hentai.org)

204:200
09/12/06 22:50:08
エディタによって行数が変わってしまって239行目がどこか分からず
秀丸使ってるんだけど239行目はmakedir中のprint~でURLチェックとは無関係だす

とりあえず数箇所URLでimagefap.comがあるところの前(cache.imagefap/com除く)
にwww.をつけたらエラーなしで動いたけど今度は指定URLとは関係ないギャラリーの画像を取得した
保存されたフォルダは指定URLと同じ番号なのに中身が別物、別のギャラリーとか思って調べてみたけど
同じファイル数のギャラリーが存在してなかった、なんぞこれ

205:名無しさん@お腹いっぱい。
09/12/06 23:36:02
e-hentaiの件
見れるのと見れない画像の差を理解した。
ヒントはおまいらの好きなタグだw
そのタグに入ってたのは一切見れなくなってて
やっぱりなーと思った。

206:名無しさん@お腹いっぱい。
09/12/07 02:17:49
P2Pが仕様できないわが身としてはe-hentaiが頼りの綱だったのだが
困ってしまうなぁ

207:名無しさん@お腹いっぱい。
09/12/07 19:24:25
何個か上げりゃポイントでDL出来るんだからそれで妥協すりゃいいじゃん

208:名無しさん@お腹いっぱい。
09/12/07 20:16:39
どのくらいのポイントでどのくらいダウソできるの?

209:名無しさん@お腹いっぱい。
09/12/08 01:04:08
必要なポイントはファイルサイズとファイル数によるし、
もらえるポイントは他人の閲覧数とDL数で決まるからサムネイルで食いつきそうなの上げればいい

長くお世話になる気ならいつ使えなくなるか分からん上に更新も期待出来ないツールより、
いくつか定期的に提供して数クリックで快適にDL出来る方が俺にとっては便利だからそうしてる

210:名無しさん@お腹いっぱい。
09/12/08 15:30:16
ロリ系が全く開かんなっとる…(´・ω・`)

211:名無しさん@お腹いっぱい。
09/12/08 23:29:14
復帰しないのかねえ

212:名無しさん@お腹いっぱい。
09/12/10 17:56:06
規制が反発をより強くするだけだと
なぜ分からないのか・・・愚か過ぎる

213:名無しさん@お腹いっぱい。
09/12/10 21:30:24
趣味でやってるようなもんに何言ってるんだ
向こうはいつでも閉鎖できるんだし

214:名無しさん@お腹いっぱい。
09/12/10 21:41:52
上の神スクリプトでさ、
例えば100枚落として弾かれたら、次は101枚目からDL開始するとかは出来ないんでしょうか。

215:名無しさん@お腹いっぱい。
09/12/11 05:49:50
e-HENTAIの制限は、要は短期間に複数の画像ファイルにアクセスするのを制限してるんですよね?
だったらスクリプトが一枚画像にアクセスしたらインターバルを置いて(手作業で開いて保存するくらいの時間?)、
次のファイルにアクセスするようにすれば良いんじゃないでしょうか?
時間はかかるかもしれませんが、一枚一枚手作業で保存する手間を考えれば妥協できると思うんですが…

216:名無しさん@お腹いっぱい。
09/12/11 06:53:55
>>215
>>178で既出の話題だな
とはいえそのインターバルがどれほどなのかは興味があるな

217:名無しさん@お腹いっぱい。
09/12/12 01:18:04
同じものを同じ条件でダウソしてもダウソ可能数が変動するから
インターバルとかダウンロード容量以外の影響も受けてると思う
そうなると全く分からん

そもそも各IPで制限してるのかすら分からないんだよ
串かましてダウソできてもダウソ可能数がまた違う

218:名無しさん@お腹いっぱい。
09/12/12 18:14:10
へたれプログラマの俺でも永久動作のEHGダウソソフト作れたよ
既に公開されている素晴らしいツールらを組み合わせて何とかなった
ヒマがあったら作ってみたりゃ良い

219:名無しさん@お腹いっぱい。
09/12/13 12:33:46
永久動作のヒントだけでも教えてくだされ神さまよ

220:名無しさん@お腹いっぱい。
09/12/14 21:54:13
avtokeiのプロフを落とすために24時間のスクリプト仕掛けた。
画像は一気に落とせたんだがなあ。

221:名無しさん@お腹いっぱい。
09/12/16 00:36:08
E-hentai以外で似たようなサイトはないものかね

222:名無しさん@お腹いっぱい。
09/12/16 02:05:03
まぁいろんなところからかき集めれば同じなんだけどね

223:名無しさん@お腹いっぱい。
09/12/16 20:31:50
規制無くならないのかねぇ・・・
サムネでロリっぽい画像使ってるやつも入れなくなってるみたいだし

224:名無しさん@お腹いっぱい。
09/12/19 02:10:14
509 BANDWIDTH が 出ちまった・・・
1枚1枚ダウソしてたが 150枚くらいで。どうにかならないか…泣

225:名無しさん@お腹いっぱい。
09/12/29 02:15:45
E-hentaiに10個ほどうpして、
最初の数日はどんどんポイントが溜まっていった。
しかしこの頃は一日に100P入るかどうか、
日がたつにつれてgalleryごとにもらえる
ポイントのレートが下がってるのかな

226:名無しさん@お腹いっぱい。
09/12/31 14:31:42
E-hentaiの画像をまとめて保存出来るツール教えてください

227:名無しさん@お腹いっぱい。
09/12/31 14:43:51
半年ROMれ

228:名無しさん@お腹いっぱい。
09/12/31 17:11:06
rapidshare のものを(スピードは遅くてもいいので)
batch 処理で落とすためのスクリプトってないのかな?

最初の URL を wget でもってきて html を覗いて
<form action="URLリンク(...) " method="post"> がそれっぽいんだけど
それを直接 wget しても×なんだよね…

229:名無しさん@お腹いっぱい。
09/12/31 19:35:56

IP代わんないと連続では無理

230:名無しさん@お腹いっぱい。
09/12/31 23:29:48
freerapidがjavaで出来てるからひょっとしたら動くのかも

231:名無しさん@お腹いっぱい。
10/01/07 11:31:14
e-hentaiって解除確認に行って509だったら期間延長とかされんのかな。

232:名無しさん@お腹いっぱい。
10/01/08 04:03:40
それは関係なし

233:名無しさん@お腹いっぱい。
10/01/08 16:28:13
>>189
再うpお願いします。

234:名無しさん@お腹いっぱい。
10/01/11 04:18:01
e-hentaiブラウザが縦に長くなってどれも見れなくなっちゃった
これが規制なのかな

235:名無しさん@お腹いっぱい。
10/01/13 23:24:43
どーなってんだろうね。
サムネまでは見れるが、そこから画像にアクセスしている気配すらない。
原因はなんなんでしょ。

236:名無しさん@お腹いっぱい。
10/01/14 15:03:58
e-hentaiはUpしてもいちいち既出だ既出だと騒いでくるから鬱陶しい

237:名無しさん@お腹いっぱい。
10/01/14 15:30:19
e-hentaiはダウソする場所ではなく、どういうものがあるのか確認する場所だと思ってる
必要ないもの集めても仕方ないし、特定のものだけでも手間かかりすぎる

238:名無しさん@お腹いっぱい。
10/01/14 18:36:03
rapidshare

1. 最初のページ内の action="URLリンク(hogehoge)<)" を抽出
2. 次のターゲット
% wget --post-data="dl.start=Free" URLリンク(hogehoge)
3. 100秒とか待つ(カウントダウンタイマー分)
4. (2. から最終ターゲットを抽出して)wget

1.~4. を 30分間隔(容量次第?)とかでぐるぐる

239:名無しさん@お腹いっぱい。
10/01/14 18:41:46
perl WWW::Mechanize の練習にちょうどいいかもしれないな


240:名無しさん@お腹いっぱい。
10/01/16 15:10:54
e-hentai用のスクリプトを書いたけど
リファラ,user-agentとクッキーを設定してやったら
スレッドは1つだけど退避時間もなしで、
509でなくなったよ。


241:名無しさん@お腹いっぱい。
10/01/16 16:19:36
あまりえげつないことやると向こうも対策してくるからほどほどにするようにw

242:名無しさん@お腹いっぱい。
10/01/16 21:45:19
*.listファイルを作ります。

これの作り方わかんないだけど、どうやんの?

243:名無しさん@お腹いっぱい。
10/01/16 22:25:27
>>242
うpされてから半年間はそんな質問はなかったな
他と比較して自分の理解力を身をもって知るべきだ
短く言えば "アホは来るな"


244:名無しさん@お腹いっぱい。
10/01/18 09:27:43
>>189のツール使ってるんだけど、急に弾かれるようになっちゃった…


Your IP address is not allowed to access that
Your IP address has been temporarily banned for using automated mirroring/harvesting software and/or failing to heed the overload warning. The ban expires in 56 minutes 23 seconds
だって…

WIN向けだからここで聞くのも間違っている気もするんだけど、何か対策されたのかな?

245:名無しさん@お腹いっぱい。
10/01/18 14:42:55
元々運が良かっただけとか
てか再うpきぼんぬ

246:名無しさん@お腹いっぱい。
10/01/18 17:25:43
>>244
俺も弾かれるようになった
おそらく対策されたんだろう
いままで対策されなかったのが不思議だったし


247:名無しさん@お腹いっぱい。
10/01/18 19:17:53
やはり対策されたのか…
もともと発祥のちんこロダもなくなっちゃったし、ばーうpの方法もないし、対応難しいかなぁ

248:名無しさん@お腹いっぱい。
10/01/19 19:01:43
>>245
なんとも図々しい。
頼み方も知らないのか。

249:名無しさん@お腹いっぱい。
10/01/21 03:38:16
e-hentaiって有料なの?
あれだけのデータをただで見れるとか怖くなっちゃうんだけど

250:名無しさん@お腹いっぱい。
10/01/21 11:43:11
197 名前:名無しさん@ピンキー[] 投稿日:2009/12/28(月) 17:04:38 ID:a4+zYW5n0
E-Hentaiって、有料なんですか?
freeとあるから無料なのですか?


251:名無しさん@お腹いっぱい。
10/01/26 22:07:41
>>189
再うpおねがします
本当頼みます

252:名無しさん@お腹いっぱい。
10/01/27 14:39:42
>>251

244 :名無しさん@お腹いっぱい。:2010/01/18(月) 09:27:43
>>189のツール使ってるんだけど、急に弾かれるようになっちゃった…
Your IP address is not allowed to access that
Your IP address has been temporarily banned for using automated mirroring/harvesting software and/or failing to heed the overload warning. The ban expires in 56 minutes 23 seconds
だって…
WIN向けだからここで聞くのも間違っている気もするんだけど、何か対策されたのかな?

246 :名無しさん@お腹いっぱい。:2010/01/18(月) 17:25:43
>>244
俺も弾かれるようになった
おそらく対策されたんだろう
いままで対策されなかったのが不思議だったし

前レス読んだ?急に真剣になってバカじゃないの??

253:名無しさん@お腹いっぱい。
10/01/27 22:39:27
別人に何を言ってるんだ

254:名無しさん@お腹いっぱい。
10/02/02 00:50:57
誰かこれ頼む。もう3日なやんどる
URLリンク(jappygal.blogspot.com)

255:名無しさん@お腹いっぱい。
10/02/02 13:00:37
cookieとjsでガチガチになってるわけでもなし。簡単じゃないか
URL=URLリンク(jappygal.blogspot.com)
wget -O- "$URL" | grep -o "URLリンク([^\)"']*.jpg" | sed -ne "/s1600-h/s/s1600-h/s1600/p" >LIST
wget -i LIST

256:名無しさん@お腹いっぱい。
10/02/02 14:02:53
2スレ目でそろそろ「基本テク」をおさらい・まとめて
おかないといけないんじゃないかな…

ページソースや直URL確認
wget --referer オプションやら -r -l などなど
zsh の連番技法 {001..052}.jpg とか

>255
html 解析から a href= 抽出するのは grep -o が使えたのか


257:名無しさん@お腹いっぱい。
10/02/02 14:14:57
前スレを見てみたい
方法の改良論とかもありそうだし


258:名無しさん@お腹いっぱい。
10/02/02 14:26:46
URLリンク(2se.dyndns.org)

259:名無しさん@お腹いっぱい。
10/02/02 17:20:47
前スレみたらこんなのがあった
URLにはつながらず……

952 :950:2005/11/05(土) 18:30:02
>>950
テキトーにつくってみました。
URLリンク(seizen.dyndns.org:8080)

ちなみにおいらはperl+sh派です。


260:名無しさん@お腹いっぱい。
10/02/07 06:27:04
先ほど509になってびっくりしてググったらここに来ました
何だか知らないけどよろしくお願いします
とりあえずスレ見たらアク禁解けるまで待てと書いてあるので待ってみます

261:名無しさん@お腹いっぱい。
10/02/07 10:57:35
そういや157のツールでe-hentaiの古い画像が見れないのってどうなった?

262:名無しさん@お腹いっぱい。
10/02/08 20:25:53
e-hentaiの画像を簡単に多く取れるツール作って欲しい

263:名無しさん@お腹いっぱい。
10/02/12 20:58:02
作った…

264:名無しさん@お腹いっぱい。
10/02/13 02:49:10
おめでとう。

265:名無しさん@お腹いっぱい。
10/02/14 19:08:52
欲しいと言われると腕がなるのでおいらも挑戦してみた。
千枚保存するのに20分掛かったが帯域制限には引っ掛からなかったよ。
これが >>262 の想いに届いたなら幸せだ。

URLリンク(www1.axfc.net)

スクリプト起動したら"URL>"のプロンプトにギャラリートップのURLを入力してくれ。
複数のURLをテキストファイルに書いてリダイレクトで食わせてもOK。
後は放っておくだけでギャラリーIDのサブディレクトリを掘って画像を保存するよ。

266:名無しさん@お腹いっぱい。
10/02/14 21:43:09
GPの増やしかた教えてくれ

267:名無しさん@お腹いっぱい。
10/02/15 15:13:12
e-hentaiってgzip転送しているように見えるけど
phpスプリクトは対応してますか?
負荷掛けるのはいくない

268:名無しさん@お腹いっぱい。
10/02/15 16:22:00
リファーとクッキー設定してないけど
いいのだろうか

269:名無しさん@お腹いっぱい。
10/02/15 17:10:20
リファラー?

270:名無しさん@お腹いっぱい。
10/02/15 17:31:45
サムネイルしか保存出来ないんだが対策されたのだろうか

271:名無しさん@お腹いっぱい。
10/02/15 20:12:26
そもそもphpの開き方がわからない俺orz

272:263
10/02/15 21:12:03
クッキーないと画像は落ちないよ。
wget なら --keep-session-cookies 併用して表示ページを経由する。
オリジナルをダウンロードする場合はログインスクリプト書いて
そのクッキー使う。DL数に厳しい上限あり。
ログインしておけば通常の画像も帯域が増えるよ。

273:名無しさん@お腹いっぱい。
10/02/15 21:39:22
>>270
俺もサムネしか落ちないな

274:名無しさん@お腹いっぱい。
10/02/15 22:01:39
>>262は「e-hentaiの画像を簡単に多く取れるツール作って欲しい」と言ってるんだから
あながち嘘ではない。ソースあるんだから、なんとかしたい人ならこれをベースになんとかする。

275:名無しさん@お腹いっぱい。
10/02/15 22:57:20
この過疎地で1日のレスがこんなに付くとは思わなんだ>>265だが
一週間の掲載期間は長かったかしら。
まぁ洒落なんだからそんなに突っ込まないでくれ。
こんなところでそのまんま自前のソース広げて使われ
まくった挙句に変な対策でもされたら面倒だからね。
>>267 phpはgzip展開圧縮も普通に出来るよ。

276:名無しさん@お腹いっぱい。
10/02/18 13:16:01
リファラーってどうやってせっていすんお?

$ua->agent("Mozilla/5.0 (Windows; U; Windows NT 6.0; rv:1.9.2) Gecko/20100115 Firefox/3.6 (.NET CLR 3.5.30729)");
$ua->proxy('http', 'URLリンク(127.0.0.1:65536)');


277:名無しさん@お腹いっぱい。
10/02/19 02:08:37
get.plでダウンロードできなくなってるんだが…

対策されたか?

278:名無しさん@お腹いっぱい。
10/02/19 15:36:48
確かにget.pl使ってもエラー吐かれるな

279:名無しさん@お腹いっぱい。
10/02/19 16:21:20
どんなエラーでてんの?
こっちも対策するぞ


280:名無しさん@お腹いっぱい。
10/02/19 17:21:23
こんなん

** make directory **
the list name is 0f9cd89d5b.list.
the directory name is 0f9cd89d5b.
0f9cd89d5b does exist.
doesn't make a directory.

** get 98 pics **

get pic's html file (1/98).
get html : success. (200 OK), [dummy.html]
get [0] ...:
HTTP::Response=HASH(0x2fd6994)->status_line, [0] : failed to download pic. try a
gain (5/5).
wait/sleep 3 sec : [***]

これを5回繰り返して止まる


281:名無しさん@お腹いっぱい。
10/02/19 18:19:24
対策っていうか, 多分画像が貼ってあるページの構造が変わって,
scrapeimgname() と scrapeimgurl() がファイル名と url を
抽出できなくなっただけ. これらの関数は getpics() から呼び出され,
抽出できなかった場合に return 0 するが, getpics() 側で特にエラー処理
してないので, エラーにならず get [0] ... とかなって走りつづけてる
(本当は 0 のとこに scrapeimgname() の戻り値であるファイル名が入る).

モジュールに依存しないように html の parse を自前でやってるが, 
俺は面倒なので, HTML::TreeBuilder::XPath 使って書き直した.

あと HTTP::Response->status_line がメソッド呼び出しなのに 
double quote で文字列展開しようとしてるので, status_line が
正しく表示できてないのもバグっぽい. 
"@{[ $res->status_line ]}" とかしといた方がいい.

282:名無しさん@お腹いっぱい。
10/02/19 18:51:06
bandwidthがperlだとブラウザより高いのけ?

QoSでperlへの帯域絞るしか無い?

283:名無しさん@お腹いっぱい。
10/02/19 22:35:10
img id.*でマッチングするようにscrapeimgnameとscrapeimgurlを書き換えたら動いたよ。
オリジナルは画像鯖のドメインでマッチングしてたんだけど、ドメインが変わったからマッチしなくなったんだね。

>>282
オリジナルだと4秒ぐらいで取りに行っちゃうから、間隔を10秒以上とるようにsleepを書き換えるとけっこう快適になるよ。

284:名無しさん@お腹いっぱい。
10/02/19 23:06:49
>>283
サブルーチンを書き換えればいいのかな

285:名無しさん@お腹いっぱい。
10/02/19 23:17:33
$t=(rnd($base1000))+10

とか?

286:名無しさん@お腹いっぱい。
10/02/19 23:19:13
>>284
そうそう。waitpとかいう名前だったはず。

287:名無しさん@お腹いっぱい。
10/02/19 23:21:06
私も、img idでマッチする様に書換えて、動きました。
書出すファイル名は、altタグから引っぱればいいかな。

288:名無しさん@お腹いっぱい。
10/02/19 23:23:28
>>283
便乗して悪いけど
img id.* ってのはscrape~の
if ( m|src="URLリンク(r.e-hentai.org)"| )
の部分のことでいいのかしら


289:名無しさん@お腹いっぱい。
10/02/19 23:25:00
$t=(rnd($base1000))+10

とか?

290:名無しさん@お腹いっぱい。
10/02/19 23:26:00
うあ
base/1000の間違い
すまぬ

291:名無しさん@お腹いっぱい。
10/02/20 01:13:58
perlの記述がよく分からないんだけども 正規表現とかimgタグとかは他の言語とかと一緒なのかな

292:157
10/02/20 01:54:50
URLとイメージ名のスクレイパの正規表現の手直しと
waitpの時間延長を施した新ヴァージョンができました

URLリンク(www1.axfc.net)


293:名無しさん@お腹いっぱい。
10/02/20 11:01:04
157さんサンクス!
ちゃんと動いてます。

294:名無しさん@お腹いっぱい。
10/02/20 17:10:24
use LWP ;
my $ua = LWP::UserAgent->new;
$ua->agent("User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.0;rv:1.9.2)
");
$ua->timeout(180);
$ua->proxy('http', 'URLリンク(127.0.0.1:80)');

295:157
10/02/20 21:05:59
上のバージョンで>>281氏のstatus_lineのデバッグ入れるの忘れてました
すいません


296:名無しさん@お腹いっぱい。
10/02/21 13:12:16
今スクリプトのデバッグ中にふと思いついたしょーもない
むしろ '常識知らねーな' と言われそうな変更を試してる。

これで4ページ/分のペースで14冊330ページ99MBまで落としたが
一向に帯域制限がやって来ない。昨夜は引っ掛かりまくりだったし
今まで3日の間を空けたってこんなこと無かったんだがな。
サーバのプログラムが変わったばかりらしいがバグを突けたのか?
それとも今日は感謝デーなのか?

297:名無しさん@お腹いっぱい。
10/02/21 13:21:48
>>296
変更前と後のスクリプトで試してみて
両方とも帯域制限が来ないなら
今日は感謝デー

後の変更済みスクリプトだけに帯域制限がこないなら
その変更は大当たり


298:名無しさん@お腹いっぱい。
10/02/21 13:35:43
>>297
おぉ、そりゃそうだ。舞い上がって変化点検証の基本を忘れてた。やってみる。

299:名無しさん@お腹いっぱい。
10/02/21 14:56:32
すまん。サービス期間中だったようだ。
変更前のコードでも222ページ75MBまでスルスル落とせた後に 509 がやってきた。
その直後に変更後のコードを掛けてみたがやっぱり 509 だった。
多分週末メンテナンスで俺のカウンタがリセットしたとかなんだろうな。

クッキーなくなってるね。リダイレクトもなし。img id=xxx は相変わらず付いてるけど
肝心の id の値はHTML本文中に見つからない。

300:名無しさん@お腹いっぱい。
10/02/21 16:34:57
157さんのツールで、DLするページによってサムネイルページで400エラーを吐くのは何故でしょうか?

301:名無しさん@お腹いっぱい。
10/02/21 20:17:10
>>300
オレもそういうページあるけど多分複数ページじゃなくて単独ページの場所だと
動かないっぽい。
ベースページを解析するルーチンで1ページしかないページだと構文解析できずに
終わってるっぽいな。

直すのめんどいんで手作業でやってるけどね。

ついでだけど500枚くらいのやつだとエラー途中までしかDLしないのは仕様?


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch