連番のH画像を一気にダウンロードするat UNIX
連番のH画像を一気にダウンロードする - 暇つぶし2ch504:名無しさん@お腹いっぱい。
02/11/24 05:06
>>502

wget -N -q -O /dev/fd/1 "$url" \
| nantoka "$url" \
| grep hogehoge \
| sort -u \
| while read tmp; do
wget -N -q --referer="$url" -O /dev/fd/1 "$tmp" \
| nantoka "$tmp"
done \
| grep '\.jpg$' \
| sort -u \
> list

ちなみに、nantoka は、argv[1]をbase url として標準入力から
リンクを抜き出すフィルタね。

nantoka を、lex か何かで作っとくと便利だよ。

505:502
02/11/24 23:26
>>504
サンクスです。
wgetのオプション等多々、わからないことが多いですが、時間のあるときに
調べて挑戦してみたいと思います。新境地に達っしたいっす。

お礼URL
URLリンク(asiangirls.bphosting.com)

506:名無しさん@Emacs
02/11/25 00:24
>>502
$url が与えられてるとして、
wget --accept=jpg -c -t 0 -r -l 1 --span-hosts \
-nd --user-agent=Mozilla --referer=$url $url
とかで落とせないかい?

507:名無しさん@お腹いっぱい。
02/12/03 22:49
Yahoo! Groupsからファイル落とせるようにできないかなあ。
ユーザー認証ディレクトリの中にあるからダメかなあ。

508:名無しさん@お腹いっぱい。
02/12/24 02:54
クリスマス・プレゼントあげ
URLリンク(www8.kinghost.com)

509:名無しさん@お腹いっぱい。
02/12/24 07:10
俺はいつもHTMLをwgetでとってきて、sed かましてwgetに流してる。楽だし。
このスレを見てると、なんか職人魂を感じるな。
それはそうと、このスレは画像限定?rezファイルも連番になってるけど…アリかね?

// 誰か、Unixでラブマを結合する方法教えてくれ。

510:名無しさん@お腹いっぱい。
02/12/29 03:22
wine Lovema.exe


511:名無しさん@お腹いっぱい。
02/12/29 03:24
ついでに、takehost が最近 cookie を見るようになった。
wget で --save-cookies, --load-cookies 初めて使ったよ。

512:名無しさん@お腹いっぱい。
03/01/01 03:21
ここで一句
 元旦にエンジン全開エロパワー

513:名無しさん@お腹いっぱい。
03/01/01 20:22
>>507
ふつーにできるだろ、と思って今ちょっとやってみたができんな(w

514:ftr223
03/01/03 15:44
でででででぇぇーっ!


515:名無しさん@お腹いっぱい。
03/01/04 01:00
半角文字列/アップローダーはここだ!6 【半角板】
スレリンク(ascii板:163番)

From: [163] 名無しさん@Emacs <>
Date: 02/12/30 00:06 ID:U6t76zEY

2chのためのアップローダだったら、2ch自身をアップローダとして使えばいいのでは?
帯域も十分だし、他のアップローダや回線に要らぬ迷惑もかけないし、、
アップロード時は、gzipとかbzip2で圧縮した後、base64とかでencodeしたも
のを、1スレに収まるように分割し、それらを適当な板とスレッドにランダム
に分散して投稿する。ただ、前の分割ファイルがわかるようにそのURLを各レ
スの最初に埋め込む。最後のレスには復元後のファイル名とチェックサム、ファ
イルの説明を書くようにする。
ダウンロード時は、最後のレスから次のレス、その次のレスと追っていき、最
初のレスまで辿り着いたら、全部のデータ部を結合、decode、解凍をする。
もちろん、以上の動作は専用プログラムを使う。もしくは、2ch専用ブラウザ
にそういった機能を組み込んでもらう。
まあ、こういった使い方が2ch側からabuseだったらあぼんですが、、


516:名無しさん@お腹いっぱい。
03/01/07 03:55
最近、AOLのサーバーってデリが早くないか?
あとラブマ偽装も増えたなぁ・・・

517:名無しさん@お腹いっぱい。
03/01/07 05:05
ラブマ偽装はもうしょうがないだろうねー
海外にガンガン晒される様になって来てるらしいし

そのうちcgiに日本語パスワードとかになるんじゃねーの?

518:名無しさん@お腹いっぱい。
03/01/07 08:27
>>515
URLリンク(dempa.2ch.net)

> 帯域も十分だし、
おいおい。

519:名無しさん@お腹いっぱい。
03/01/07 11:28
パラパラマンガみたいに、微妙に動いている写真を、
アニメーション表示させるプログラムを書いてみた。

使う?


520:名無しさん@お腹いっぱい。
03/01/07 22:00
>>519
とりあえずうぷしる!

521:名無しさん@お腹いっぱい。
03/01/07 22:24
URLリンク(f4.aaacafe.ne.jp)
実際は tar.bz2 なので注意。
コンパイルに SDL と SDL_image が必要です。

./morphanim image-1.jpg image-2.jpg ... image-n.jpg
で引数の画像を疑似アニメーション表示。

ドラッグで画像移動。ホイールスクロールで速度変更。


522:名無しさん@お腹いっぱい。
03/01/08 00:03
wineで動く猫缶偽装解除ソフトあったら教えて!!
Melt it!は駄目みたい.


523:名無しさん@お腹いっぱい。
03/01/10 15:36
age

524:あぼーん
あぼーん
あぼーん

525:山崎渉
03/01/15 12:56
(^^)

526:名無しさん@お腹いっぱい。
03/01/16 17:28
wgetでpostってできないですか?

527:名無しさん@お腹いっぱい。
03/01/16 21:10
wpost: Command not found.

528:名無しさん@お腹いっぱい。
03/01/19 18:58
クッキーもSSLもつかってる会員制サイトの画像を落とすにはどうすればいいんだろう・・・
スクリプトじゃもうだめな域か?

529:名無しさん@お腹いっぱい。
03/01/19 21:50
なんていいスレなんだ!!!感動した。
rezがcatでできるなんて、しらんかった...
よく考えてみればあたりまえだな
おれも昔延々とbinaryのぞいてました。
rez fileは、crc16だったような、source perlで作ったようなきが
すんですけど、defualtのuni* commandじゃ作れなかったようなきがします...
fread(),fwrite(),dirent.h使ってた俺って一体何?
>>498
フォーマット調べずとも、wine APIでdll直接叩くってのはどでしょうか?

530:名無しさん@お腹いっぱい。
03/01/20 02:47
>>528
最近の wget なら HTTPS も Cookie も喋れるよ。
がんがればなんとかなるっしょ。

531:528
03/01/20 18:48
>>530
そうなんですか・・・
でもWebMailのような方式(Web上でIDとパスワードを打ち込む方式)だと太刀打ちできなさそうで???

532:うひひ
03/01/20 18:55
>>531
telnetで打ち込むとかLynxで自動に打ち込むのはどーよ


533:名無しさん@お腹いっぱい。
03/01/20 18:55
>>531
curl なら POST 使えるんでない?

534:名無しさん@お腹いっぱい。
03/01/21 22:58
相手のサーバが anonymous-ftp だったりすると、単純に wget を
ループさせるのはよろしくねいですよね。コネクションの都合上。
その辺りは考慮しますか? 漏れの場合には、

lftp fURLリンク(server)
mget ero[0-9]*.jpg

です。って外出ですね。


535:名無しさん@お腹いっぱい。
03/01/22 05:41
/dev/urandom を使って、とってきた画像をランダムスライドショー
Linux以外のOSで動くかどうか知らん。
* #!/bin/sh
* set -x
*
* case "$1" in
* start)
* PHOTOS=$(wc -l `pwd`/ero.list | awk '{ print $1; }')
* if [ "$PHOTOS" -lt "1" ]; then
* echo "エロ画像がない"; exit 1;
* fi
*
* if [ -x $(which wmsetbg) ]; then
* PROG="wmsetbg -a";
* elif [ -x $(wich display) ]; then
* PROG="display -window root -geometry $(xdpyinfo | grep dimensions | awk '{ print $2}')";
* elif [ -x $(which xloadimage) ]; then
* PROG="xloadimage -onroot -fullscreen";
* else
* echo "ビューアがない"; exit 1;
* fi
*
* find `pwd` -type f | egrep "jpg$|JPG$" | nl -n ln > `pwd`/ero.list
*
* while [ $0 ]; do
* RAND=$(cat /dev/urandom | od -t uS | head -n 1 | awk '{print $2;}');
* if [ "$RAND" -le "$PHOTOS" ]; then
* ERO=$(egrep "^$RAND " `pwd`/ero.list | awk '{print $2;}');
* $($PROG $ERO); sleep 5s;
* fi
* done
* ;;

536:名無しさん@お腹いっぱい。
03/01/22 05:43
* stop)
* xsetroot -solid black;
* if [ -e `pwd`/ero.list ]; then
* rm -f `pwd`/ero.list;
* fi
* ps aux | grep "/ero.sh" | awk '{ print $2; }' | xargs kill -KILL
* ;;
* *)
* echo "あぼん"
* exit 1
* ;;
* esac

537:535 訂正
03/01/22 05:49
find `pwd` -type f | egrep "jpg$|JPG$" | nl -n ln > `pwd`/ero.list
の行を start) の直後にもってこないと動かないですね。
どうも失礼しました。

538:535 訂正2
03/01/22 05:59
- ps aux | grep "/ero.sh" | awk '{ print $2; }' | xargs kill -KILL
+ ps aux | grep $0 | awk '{ print $2; }' | xargs kill -KILL
蛸スクリプト荒しでした。ではさようなら。

539:名無しさん@お腹いっぱい。
03/01/29 19:10
クッキー・REFERER・エージェント名チェック対策から始まり、
ベーシック認証・SSLといった障害を乗り越え、再帰探索ロボット化。
更新チェック機能を設け、MIMEチェックで無駄なデータを排除したり、
サイズチェックでサムネイル画像を捨てたり、連続アクセスに対して
帯域制限で反撃してくるサーバのためにインターバル調節やリトライ機能を追加し、
無限階層地獄なサーバ対策機能を追加し、効率を追求するためにマルチプロセス化したら、
某社が結構な値段で買ってくれました。
もちろん、開発動機がアダルト画像ダウンロードだったのは企業秘密です。

540:名無しさん@お腹いっぱい。
03/01/29 22:38
>>539
売り込み文句のほうが気になるんだが…

541:うひひ
03/01/31 10:36
アメリケンかなんかのYahoo! Briefcase のファイルを
すかっと落とすスクリプト誰か作ってないかなぁ?
うぃん用のNetDupeExなんてのは見つけたんだけど

loginとpass入れないとファイルのURL抜けないんだけど
抜けちゃえばwgetでとれる
スクリプトあんま良くわかんないんだよなぁ


542:名無しさん@お腹いっぱい。
03/01/31 12:18
UNIX はこんなことをやらないと連番画像すら落とせないのですか。
悲惨ですね。unixは。普及しないわけだ。

543:名無しさん@お腹いっぱい。
03/01/31 19:41
まあね。でも楽しいからいいんよ。

544:名無しさん@お腹いっぱい。
03/01/31 21:32
マジレスしていい? 専用統合ツールもないことないです。Aria
とか。ただ Windows ものの方が、数とユーザが多いぶん洗練され
てる感じはする(見ただけなのでなんとも言えんけど)

まぁ毎日に使うもんじゃないし、汎用的に使える wget ですませちゃえ
ってのは自然な発想じゃないかと。

545:名無しさん@お腹いっぱい。
03/01/31 23:00
aolってファイル消えるの早すぎ
YahooのBriefcaseって1KB/秒以下で全然落ちてこん・・・
最近はiijとかのモザイク入り巨乳動画で我慢してるが。

以上、愚痴でした。

546:うひひ
03/02/03 09:21
>>544
ありがとう。はじめて知ったよ
パチョを含めこの手のツールは全く使ったことないので
ちょっと見聞してみる

なんかYahoo! Briefcase って最終的にファイルのURLを
URLリンク(us.f1.yahoofs.com)
なようになってるんだが?以降の文字がコロコロ更新されるみたいなんだよなぁ
モタモタしてると変わっちゃうようみたいな気がする

ファイルリストページのソースを編集するのは何となくできたっぽいが
初期ページからファイルリスト全表示までの作戦がワカラン
Lynxとexpect で組む位しか作戦が

当座はしのいだから研究してみますわ


547:名無しさん@お腹いっぱい。
03/02/03 20:16
>>546
どうでもいいが,すごい URI だな。
思わずアクセスしてしまったじゃないか(w

548:名無しさん@お腹いっぱい。
03/02/04 14:58
>>546
例示にはアクセスできるURIを示してください。
でないと抜けない。


549:うひひ
03/02/04 15:28
>>547-8
すまんこってす。
本物のlogin,passwdとページのほうが情報が集まるとは思ったんだけど
アレの元はAVじゃなくておねーちゃんのPVなのよ。つまんないだろ?
丁寧に1M分割で4アカウント100ファイル以上だったので
結局ブラウザからLoginしてソース落としてsedしてみたいな



550:名無しさん@お腹いっぱい。
03/02/17 22:51
リファとクッキーでそれらしきモノが落ちてくるけど表示されない。
というよりも mozilla でもエラー有りとして表示出来ない。
どうして?
URLリンク(comp278.takehost.com)

551:名無しさん@お腹いっぱい。
03/02/18 15:41
>>550
漏れもそこで少し悩んだ
結局、RefererとCookieだけでよかった

552:名無しさん@お腹いっぱい。
03/03/18 02:59
連番で集めた裏本やPGFをディレクトリーごとに整理していても、増えていくと
どんな奴の写真だったかわからなくなってしまう。で、各ディレクトリから一
枚目だけを抜き出して、ブラウザーで表示するためのlist.html作成スクリプト
を書いてみたよ。評価してくれ。

#!/bin/sh
DIR=`pwd`
FN=`basename $PWD`
echo "<html><head><title>$FN</title><head><body>" > list.html
for i in `ls`
do
if [ -d $i ] ; then
cd $i
n=`ls | grep "[jJ][pP][gG]" | head -1`
cd $DIR
echo "<IMG SRC=\"$i/$n\" HEIGHT=\"120\" WIDTH=\"80\"><a href=\"file:///$DIR/$i/\" target=\"_blank\"><font size=1>$i</font></a>" >> list.html
fi
done
echo "</body></html>" >> list.html


553:名無しさん@お腹いっぱい。
03/03/21 09:10
それにしても、勉強になるスレだ(w


554:名無しさん@お腹いっぱい。
03/03/21 12:31
ファイルの保管で悩んでるのよ。長いけど聞いてくれ。

たまった画像および動画を外部メディアに保存する。でその時に、暗号化…
というか、めくらましをしときたい。また、取得は Unix、鑑賞は Win の
パターンが多いので、両方で使えるのが望ましい。

win and unix>手軽さ>速度>>>>暗号強度(>圧縮)

で、なるべく透過型なのがいい。ふつーのファイルみたいに見えるやつ。

PGP disk (仮想ファイルシステム)はほとんど理想なんだけど、残念な
ことに RO media からの mount ができない。DVD-R への保存ができない。
# でもこれはこれでいい。万人に薦める。

zip による暗号化はファイル名がばっちりなので意味がない。また、伸長
処理が一段階入っちゃうのがとても気に入らない。

君たちはどうしてるかね。つーか Win で loop device が使えればばっちり
なのだがー。意見求む。

555:名無しさん@お腹いっぱい。
03/03/21 23:13
>>554
暗号化うんぬんとズレるけど、ファイル名を機械的に変更するのはどう?
実は漏れ、ファイルの整理の為に、md5 の結果をファイル名にしてるのだ。

#! /bin/sh

IFS="
"
for i in `find $1 -type f -print`; do
mv "$i" `dirname "$i"`/`md5sum.exe $i | sed -e "s/ \*.*$//"`.`echo $i | sed -e "s/^.*\.//"`
done


556:555
03/03/21 23:18
cygwin 上で動かしてるので md5sum.exe になってたりするが気にしないようにw。
後、md5 の表示形式によって微妙にスクリプト変えないといけないのも注意。


557:名無しさん@お腹いっぱい。
03/03/22 16:30
透過型というか、先頭32K部分とかに XOR でもかけて、
% xor 32000 <ファイル名> | mediaplayer とかできるとありがたい。
もしくは先頭部分にダミー放りこんで、32K後から読み込むようにするとか。

これと >>555 の md5 作戦を組み合わせれば DVD そこらに置きっ
ぱなしにしたりしても(まぁ)安全。扱いも楽。
しかし、 Unix ならまだしも Windows でこゆことできるのかな。

子供さんがおられるひととかいない? お父さんなにこれ、とか言われ
る前に備えが必要では? などと不安を煽ってさらにアイデア募集。

558:山崎渉
03/04/17 12:16
(^^)

559:名無しさん@お腹いっぱい。
03/04/17 17:00
いつのまにか*nixでラブマ結合出来るソフト公開されてるのね。
感謝感謝。

560:名無しさん@お腹いっぱい。
03/04/18 09:13
>>559
詳細キボンヌ

561:名無しさん@お腹いっぱい。
03/04/18 10:06
>>559
さんくす。
>>560
Google

562:あぼーん
あぼーん
あぼーん

563:1
03/04/23 19:21
URLリンク(xxx.xxx.com)
URLリンク(xxx.xxx.com)
と書かれたlistファイルから
URLリンク(xxx.xxx.com)

URLリンク(xxx.xxx.com)
と展開したnewlistファイルを作るスクリプト。とりあえず[]内二桁までしか対応していない。
誰か改良してくれ。

#!/bin/sh
exec < list
while read URL
do
n=`echo $URL | awk -F[ '{print $2}' | awk -F- '{print $1}'`
if [ $n -lt 10 ]; then
n=`echo $n | sed 's/^0//'`
fi
LAST=`echo $URL | awk -F[ '{print $2}' | awk -F- '{print $2}' | awk -F] '{print $1}' `
while [ $n -le $LAST ]
do
if [ $n -lt 10 ] ; then
echo $URL | sed "s/\[[0-9][0-9]-[0-9][0-9]\]/0$n/" >> newlist
else
echo $URL | sed "s/\[[0-9][0-9]-[0-9][0-9]\]/$n/" >> newlist
fi
n=`expr $n + 1`
done
done



564:名無しさん@お腹いっぱい。
03/04/23 20:21
誤爆しちまったい。これでどないだ
perl -ne 'chop; ($base, $first, $last, $ext) = m@(URLリンク(.+))/\[(\d+)-(\d+)\]\.(\S+)@; for($first..$last){printf "$base/$_.$ext\n"}' list

565:名無しさん@お腹いっぱい。
03/04/23 21:36
>>564
誤爆先を見つけてしまったよ……
ていうかなんであんなところに誤爆してるんだYO!(w

566:名無しさん@お腹いっぱい。
03/04/23 21:51
unix でラブマ教えてプリーズ

567:名無しさん@お腹いっぱい。
03/04/23 22:20
unlov を使いたまえ

568:名無しさん@お腹いっぱい。
03/04/23 22:23
>>567
サンクスコ!

569:名無しさん@お腹いっぱい。
03/04/23 22:46
Linuxバイナリかよ。
unixじゃないじゃn

570:名無しさん@お腹いっぱい。
03/04/23 22:53
偽装の仕様は公開してくれないの?
あれば自分で作りたいんだけど。

571:名無しさん@お腹いっぱい。
03/04/23 23:26
>>570
「偽装」の目的を考えれば、公開する訳がない気がする…

572:名無しさん@お腹いっぱい。
03/04/23 23:33
偽装の目的ってなんなのかな。
jpg ファイルに埋め込めればいいとかじゃなくて?
結合ツールが出回ってるのに公開しない理由とわ?

573:名無しさん@お腹いっぱい。
03/04/24 00:23
>>572
安全保障上の理由とおもわれ。

574:名無しさん@お腹いっぱい。
03/04/24 12:14
>>563
これじゃだめなのか?
#!/bin/sh
len=2
fmt="%s%0${len}d%s\\n"
IFS='[]-
'
cat list | while read base beg end sfx; do
i=$beg
while [ $i -le $end ]; do
printf $fmt $base $i $sfx
i=`expr $i + 1`
done
done >newlist


575:名無しさん@お腹いっぱい。
03/04/24 18:47
>>570
ハックという言葉は知っているかね?

576:名無しさん@お腹いっぱい。
03/04/24 19:43
ハックの大事なものを知ってるよ
友達どうしの約束と涙の止まるおまじない

577:名無しさん@お腹いっぱい。
03/04/25 01:38
>>575
ロリ.hackハァハァ

578:名無しさん@お腹いっぱい。
03/04/25 20:09
日替わりに動画を更新するエロサイトでは、URL はほぼ固定で日付に相当する
部分だけを変えるところも多い。

で、そういうサイトの動画を楽にまとめて落とすスクリプトを書いてみた。date の書式を
利用しているので手抜きができる。使う種類は限られていると思うが、例えば %m は月に
%d は日にそれぞれ置換される。

以下のような感じで、データの追加も簡単だし、一時的にチェックから外したければ、
END 以下に移動させてコメントアウトしておけばいい。単純な割にはめちゃ便利かも

#!/bin/sh

cat <<END | while read i; do wget $(date "+$i"); done
URLリンク(www.nantoka)
URLリンク(www.kantoka)
URLリンク(www.doko)
URLリンク(www.kasiko)
END

579:名無しさん@お腹いっぱい。
03/04/26 06:19
このスレは素晴らしいですね!
ところで、上の方でもつぶやいていた方がいましたが、
yahoo groops(eGroup)の記事や画像を自動ダウンすることは可能なのでしょうか?

winのオートパイロットソフトなども試したのですが、認証が越えられずダメでした・・。
wgetでもダメならば、cygwinのlynxならば認証を受けることができるので、
lynxをスクリプトで自動で操作してダウンする、などということは可能なのでしょうか?

wgetはwinのIEのクッキーではダメなんですよね?

580:あぼーん
あぼーん
あぼーん

581:名無しさん@お腹いっぱい。
03/04/26 06:45
$ wget --help|grep cookie
--cookies=off don't use cookies.
--load-cookies=FILE load cookies from FILE before session.
--save-cookies=FILE save cookies to FILE after session.


582:名無しさん@お腹いっぱい。
03/04/28 01:37
>552
このスレのちょっと前に出てた、ディレクトリ以下のインデックス一覧表示を
追加して使わせて貰ってます。
ディレクトリの中に.jpgがない場合のエラー処理が要るような気もするけど
まぁいいや。

#ソースの折り返しとかについては勘弁ね。

#!/bin/sh
DIR=`pwd`
FN=`basename $PWD`
URL_HEAD='URLリンク(www.)漏れのティンコ.co.jp'
echo "<html><head><title>$FN</title><head><body>" > index.html
echo "<div align=center><font size=4>$FN</font></div>" >> index.html
for i in `ls`
do
if [ -d $i ] ; then
cd $i
ls |grep "[jJ][pP][gG]"| sed 's%\(.*\)%<a href="\1" alt="\1"><im
g src="\1" height=120 width=80></a>%' > index.html
n=`ls | grep "[jJ][pP][gG]" | head -1`
cd $DIR
echo "<IMG SRC=\"$URL_HEAD/$i/$n\" HEIGHT=\"120\" WIDTH=\"80\"><
a href=\"$URL_HEAD/$i/\" target=\"_blank\"><font size=1>$i</font></a>" >> index.
html
fi
done
echo "</body></html>" >> index.html

583:名無しさん@お腹いっぱい。
03/04/28 03:14
うーむ。

index.html あたりからリストを生成して、wget を 10 個くらいで一気に
fetch してくる perl スクリプトってない?

584:名無しさん@お腹いっぱい。
03/04/28 03:51
何を取ってきたいのか判らんのにどうしろと

585:583
03/04/28 03:58
HTML::LinkExtor URI::URL LWP::UserAgent HTTP::Request

でリスト作って、2chJpgGetter の wget_down を回してやればいいことに
気がついて、ほぼ実装完了。



586:名無しさん@お腹いっぱい。
03/04/28 04:33
>>582
grep -i .jpg を使わない理由があるんだろうか

587:583
03/04/28 05:28
ヘタレな index 作るより、thumbnail_index を回せば
何も苦労しなくていいわけだが。

588:名無しさん@お腹いっぱい。
03/04/29 02:20
Yahoo! Groupsにコマンドラインからログインする方法を試行錯誤してたら
ログイン失敗しすぎてアカウント一時停止された…半日おあずけ。

もしかしてhttpsでコマンドラインからLynxとかでpostするときは
コマンドラインに渡す文字列の時点で暗号化されてないとダメだったんだろうか…
いや、そんなことしなくてもいちどLynxでSSLログインして
そのクッキーをwgetに流用すればよかったんではないだろーか…

とか(w

589:名無しさん@お腹いっぱい。
03/04/29 16:32
Yahoo! groupsのメーリングリストアーカイブからファイルを持ってくるPerlScriptならあった。
URLリンク(www.lpthe.jussieu.fr)
ログインと年齢チェックのとこを借りればfilesやalbumsは問題なさげ。
つーかLynxやw3mでのpostとwgetを組み合わせようとするのは漏れには難しいよママン…

590:579
03/04/30 02:01
ヤフーグループのことを質問したものです。
おぉ!いろいろ試してくださったんですね!!情報をくださった方まで!
超感謝です!

アルバムはgethttpというプロクシサーバーを立てて、
スライドショーにすると、そんなに手間がかからず保存できます。
ファイルはなぜかダウンロードマネージャーでダウンできることも多いんですよ。
それなんで、一番大きな問題はメッセージだったのです。
紹介していただいたスクリプトを使ってみます。

591:579
03/04/30 02:49
うーん・・。なぜかダウンロードが始まらない・・。
0kbのファイルができるだけで・・。


592:582
03/05/03 00:28
>586
>grep -i .jpg を使わない理由があるんだろうか

いや、grep -i の方が正しいと思いやす。


593:名無しさん@お腹いっぱい。
03/05/06 04:06
>>589のやつ、うまくいった人いますか?

594:あぼーん
あぼーん
あぼーん

595:あぼーん
あぼーん
あぼーん

596:名無しさん@お腹いっぱい。
03/05/22 08:43
自分にとっては、今までのスクリプトのなかで>>578が実用度が一番高い。
単純な割にいいね

597:名無しさん@お腹いっぱい。
03/06/02 18:44
質問があります。javaなどのScriptがアクセスするページの画像をダウンロードできるソフトって
ありますか?
できれば連番で・・・

598:名無しさん@お腹いっぱい。
03/06/02 18:46
>>597
具体的にどこよ。

599:名無しさん@お腹いっぱい。
03/06/02 21:14
>>598
「みてみて」っていうサイトです

600:名無しさん@お腹いっぱい。
03/06/02 21:31

URLリンク(www.mitemite.ne.jp)

601:名無しさん@お腹いっぱい。
03/06/03 17:52
↑無理?

602:名無しさん@お腹いっぱい。
03/06/03 17:55
>>589
市販のオートパイロットではエラーがでちゃうんです


603:名無しさん@お腹いっぱい。
03/06/14 22:39
ごぶさたあげ

604:名無しさん@お腹いっぱい。
03/06/17 20:47
外出かもしれんが、ワードのマクロで連番のアドレス書いているのは俺だけだろうか?
www.xxxx.001.jpg
なら←×4・BS・数を入力を繰り返して・・・・で、100位までつくってあるんだが
そしてIriaにはりつけ

605:ななす
03/06/17 21:20
>>604
言ってる意味が理解できないが
ワードのマグロ?なんか青いオサカナ泳ぐういんどーずのヤシか
イチリアとか言うヤシは張り付けのクリップボードなのか
この板の香具師は概ねwgetのjpg狩りで
最悪連番必要でもwgetと好みのシェルの機能で[0-9]連番指示をだすわけで
wget -c URLリンク(www.eroero.uhiuhi.com)



606:名無しさん@お腹いっぱい。
03/06/26 09:43
連番生成・・・cygwin上でシェルスクリプト
ダウンロード・・・Irvine
POSTを喋らしたりcookie食わせるなら、perlでUAつかって書く

やっぱWindows上じゃないとねこーいうのは。


607:名無しさん@お腹いっぱい。
03/06/26 09:55
連番生成 : jot
ダウンロード : wget
POST や Cookie : Perl でも Ruby でも Python でも何でも

なんで Windows?

608:名無しさん@お腹いっぱい。
03/06/26 18:31
>>606
>>607
>>605 の方法が漏れには一番簡単に見えるんだが。
というか,プログラムを書く必要ってあるのか?
Cookie を食べる必要があるなら w3m でやればいいし。

609:名無しさん@お腹いっぱい。
03/06/26 20:58
>>607>>606 に突っ込んでみたかっただけだよん

610:名無しさん@お腹いっぱい。
03/06/30 19:18
unlov が Google から消えた…誰か詳細きぼんぬ。

611:名無しさん@お腹いっぱい。
03/07/02 00:01
Googleから消えた理由は知らんが、サイトはまだあるよ。

612:名無しさん@お腹いっぱい。
03/07/02 00:48
jot って BSD 用なの?

613:610
03/07/02 08:32
>>611
URL きぼんぬ。

614:名無しさん@お腹いっぱい。
03/07/07 07:47
takehost が Accept-Language: も見るようになったような気配を感じる。

615:名無しさん@お腹いっぱい。
03/07/07 08:14
>614
拙者の記憶によると日本時間で4日の昼間からでござる。
入れ替わりにcookieを見なくなったように思わるれ。

616:あぼーん
あぼーん
あぼーん

617:名無しさん@お腹いっぱい。
03/07/22 06:57
.


618:610
03/07/22 10:30
誰か教えてくれぇ~(´Д`)

619:名無しさん@お腹いっぱい。
03/07/22 11:43
>>618
作れ。

620:名無しさん@お腹いっぱい。
03/07/22 18:36
>>610
まず誠意をみせろ。おれが自宅に戻れる22:00以降に。
話はそれからだ。

621:610
03/07/23 19:58
誠意っヽ(`Д´)ノ
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(homepage2.nifty.com)
URLリンク(homepage2.nifty.com)
URLリンク(homepage2.nifty.com)
URLリンク(www.kk.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(www.nn.iij4u.or.jp)
URLリンク(www.ff.iij4u.or.jp)
URLリンク(www.ff.iij4u.or.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.kk.iij4u.or.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.nn.iij4u.or.jp)


622:きっと騙されているに一票
03/07/24 03:00
>>621
ゴチ

623:名無しさん@お腹いっぱい。
03/07/27 23:48
>>621
落ちてこないよ~

624:名無しさん@お腹いっぱい。
03/07/28 00:31
こんなん動ナビとか動画普及委員会チェックしてれば毎日ゲットできるぞ。

625:名無しさん@お腹いっぱい。
03/07/28 17:52
>>620 に騙された哀れな >>610 がいるスッドレはここですか?


626:名無しさん@お腹いっぱい。
03/07/28 23:40
動ナビ死んでませんか

627:名無しさん@お腹いっぱい。
03/07/29 05:38
動ナビは死んでないが、iij を使った結構な数のエロサイトから
ファイルが落とせなくなっているな

628:名無しさん@お腹いっぱい。
03/07/29 14:45
>>626-627
ほかでやれ

629:ぼるじょあ ◆yBEncckFOU
03/08/02 05:03
     ∧_∧  ∧_∧
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
  = ◎―――◎                      山崎渉&ぼるじょあ

630:名無しさん@お腹いっぱい。
03/08/04 13:20
wget の --timeout って、
相手がファイアウォールでパケットを捨ててるときには機能しないような気がする。
というか、そもそもそういう目的で使うオプションではないのか?
まあ、squidを経由すれば問題ないんだけど。


631:620
03/08/04 13:38
>>610
遅くなって正直スマンかった。

望みのモノだよ。
URLリンク(saeto.deep-ice.com)

632:名無しさん@お腹いっぱい。
03/08/04 14:13
>>610
おめ

633:名無しさん@お腹いっぱい。
03/08/04 14:58
動ナビURLはこっちに
URLリンク(www.i-like-movie.com)

634:名無しさん@お腹いっぱい。
03/08/13 12:19
2ちゃんで話題になった「みーほ」女子○学生 B86 W57 H88(○5歳)
がこのHP内のギャラリーで何を考えているんだか、衝撃的なセルフのヌードを晒してます!!
削除される前に早めに見ておいた方がいいとおもいます!マジでやば過ぎ!!

URLリンク(neeez.com)

635:名無しさん@お腹いっぱい。
03/08/13 16:58
不覚にもワロタ

636:あぼーん
あぼーん
あぼーん

637:あぼーん
あぼーん
あぼーん

638:名無しさん@お腹いっぱい。
03/08/27 02:13
{from..to}

639:名無しさん@お腹いっぱい。
03/08/27 02:15
{10..20,30..40}
みたいにはできないの?

640:名無しさん@お腹いっぱい。
03/08/27 03:38
>639
zsh: {{10..20},{30..40}}


641:名無しさん@お腹いっぱい。
03/08/27 08:40
( ・∀・)つ〃∩ ヘェーヘェーヘェー

642:639
03/08/27 19:15
>>640
ありが㌧ごぜいます

643:名無しさん@お腹いっぱい。
03/10/26 18:10
そろそろ2ヶ月もカキコがない…。


おまえら満足してますか?

644:名無しさん@お腹いっぱい。
03/10/26 22:21
>おまえら満足してますか?

してねぇっす・・・。

ダウンロード成果物をいかにユニークに保存するかってトコロで
頭痛めてたりする。
とりあえず、ファイルのMD5をpostgres上のテーブルにinsertしといて、
ダウンロード成果物をそいつとチェックして適宜ハネるって運用してるん
だけど、どうしても明らかに重複する奴が出てくる。

理由はいくつかあるんだけど、この辺が泥臭くかつ難しいね・・・。

最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか?
誰か「漏れはコレだ!」って奴を教えてくれぃ。

645:名無しさん@お腹いっぱい。
03/10/27 02:18
>>644
> 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか?
> 誰か「漏れはコレだ!」って奴を教えてくれぃ。
今まで何を試したか書いてくれ。
例示した後で「それはもう使ってみた」って言われるのはやだ。

646:名無しさん@お腹いっぱい。
03/10/27 04:18
おれは単純に時間とディレクトリで分類してる。
ファイルのタイムスタンプとユニークなID,簡単なメモを
名前に付けてリネームするスクリプト書いて、
適当なディレクトリにとりあえず放り込む。ここまではほぼ自動。

あとは実際に見てる時に必要なら分類し直す。
おれ的にはファイル名がユニークであれば、それで足りてる。
全ての画像に等しい価値がある訳でないので、
必要な時の手作業の分類で間に合う。

647:名無しさん@お腹いっぱい。
03/10/27 04:30
俺はディレクトリと連番だな。もちろんスクリプトで。

648:login:Penguin
03/10/27 14:31
>>610
再うpきぼん

649:名無しさん@お腹いっぱい。
03/10/27 20:36
>>644
wget -x で URL のまま保存してる。


650:名無しさん@お腹いっぱい。
03/10/28 00:30
>>648
> >>610
> 再うpきぼん

>>631
> >>610
> 遅くなって正直スマンかった。
>
> 望みのモノだよ。
> URLリンク(saeto.deep-ice.com)



651:644
03/10/28 12:03
>今まで何を試したか書いてくれ。
少しずつ積み重ねてるから、そんないろいろな方法試してるわけでも
ないんだわ。
で、今のところこんな仕組み。

前提:ファイルはすべて.jpg。
対象は、ディレクトリごとにファイルがまとまっていると想定。
(ディレクトリひとつに1ファイルは無視)

-- 日々。
(1) wget -x でディレクトリごとdownload
(2) jpeginfoで壊れたファイルを削除

-- 月次。
(3) ディレクトリ階層をn階層 -> 2階層へ変換
(4) 指定バイト数以下のファイルやディレクトリを削除
(サムネイル対策)
(5) 過去にダウンロードしたファイルのmd5と比較し、新規ファイルが
含まれているディレクトリは保存用ディレクトリへ移動。
(6) 保存用ディレクトリへ移動したものは、md5をpostgres上のテーブルへ
insertする。
(次からのダウンロード重複チェック用)

--適当なタイミングで。
(6) そこそこたまってきたら、CD-Rを使ってお掃除。

上記(6)以外はすべて自動実行。
で、こうやってて素朴に思うのが、「ここまでやらないかんのか?」てところ。
これという方法も無いような気がするんだけどね。

652:644
03/10/28 22:21
続き。

重複する理由ってのが、だいたい
(a) jpgファイルが壊れてて、md5が違ってる。
(b) 見た目おんなじ画像で壊れてもいないjpgファイルだけど、何故かmd5が違う。
(c) 素材はおんなじだけど、画像ファイル化したヒトが違うヒト
といったところかなと。
んで、(a)はjpeginfoでどうにかなるとして(といっても再度ダウンロードで補うことが
できればだけどね)、(b),(c)はどうしたものかなと。

完全自動化を目指してるんで、この辺クリアできないかなと考えてます。

653:名無しさん@お腹いっぱい。
03/10/29 00:51
そこまでしてローカルにあらゆる画像を保存したいの?

画像の類似性を判別するソフトがあったような気もするけど。

654:名無しさん@お腹いっぱい。
03/10/29 02:28
GQview とか

655:名無しさん@お腹いっぱい。
03/10/29 02:29
>>653
よく web 上から消えるじゃん。

656:うひひ
03/10/29 09:36
>>644
素人考えなんだが
同じエロ画像でも大きさっていうか画質とかが違ってたりすんじゃん
例えばイメージマジックとかで同じ様な仕様になるように
小さくサムネイルのように同じファイルサイズとかにフィルタしてから
binary diffみたいのを使って差分をとって差分比率を読みとりながら
画像を比較できないのかなぁ?


657:名無しさん@お腹いっぱい。
03/10/29 14:12
昔は連番ファイル落とすためにwgetやshを駆使して頑張ってた時期もあった。
たとえばこことか。
URLリンク(www.taiwankiss.com)
(白石ひより、藻無し、556MB + 567MB、ラブマ分割、パス未発表)

今は各種P2Pがあるから手間いらずで外付け120GBもエロで満杯だよ。

658:名無しさん@お腹いっぱい。
03/10/29 22:59
>>658
どのP2P使ってるか教えれ

659:644
03/10/31 23:42
レスありがとさんです。

>GQview とか
フリーでこのテのツールがあるとは知りませんでした。
別のツールでは、作者が「コマンド実行で類推するようにしたいな」って
書いてたんで、もう少し様子見かなと。
もしくは、これらツールから該当コードをぶっこぬいて、コマンドラインで
実行できるようデッチ上げるのも手かなと。

>binary diffみたいのを使って差分をとって差分比率を読みとりながら
>画像を比較できないのかなぁ?
#漏れも画像関係まったくの素人なんですが・・・。
jpegを一度bitmapか何かに展開してからゴリゴリ比較って動きかな?
暇を見てちょっと試してみます。

時間を見つけて、いずれかの方法をちょっとやってみます。
ありがとうございやした。

660:名無しさん@お腹いっぱい。
03/11/13 05:03
俺は半角板を自動巡回して URI 拾って wget のリクエスト作る Ruby スクリプト書いた
落ちてきた画像は一通り見てお気に入りの奴はお気に入りディレクトリに入れて
それ以外は全部ファイル名を MD5 にリネームするスクリプトで変換してから
画像置き場ディレクトリに放り込んでる

画像的には同一なんだけどデータとしては違うというケースはうちでも発生してるな
ちゃんと判定する方法なんて無いような気がしてたから諦めてたけど
ここらへん研究してみると面白いかもな

>>652
(b)(c)のケースなんだけど、もし画像サイズが同じなら、
jpeg のエンコード時の特性の違いがあるのかもな
もしそうなら jpeg のエンコードに特化した画像判別があればいいのかも


661:名無しさん@お腹いっぱい。
03/11/14 22:06
>>660
JPEGは符号化時のクオリティ設定で出力がまったく違います。
また、どこかのwebで拾った同じJPEGファイルに端を発した画像でも
デコード・エンコードを繰り返して劣化したもの、コメントが変わった
・取り除かれたもの、huffmanコードを最適化したものなどいくらでも
バリエーションがありますので、結局デコード後の画像として比較する
しかないのではないかと。

662:名無しさん@お腹いっぱい。
03/11/22 23:24
エロ画像とかよか普通の女の子画像をダウンロードしたくなりました。
で、
URLリンク(avbuzz.com)
を見つけたわけですが。
ここのを大きい画像だけ上手にダウンロードしたいんだけど、難しいです。
良い方法、なんか思いつきませんか?

663:名無しさん@お腹いっぱい。
03/11/23 00:16
うーむ。
% w3m -dump_source 'URLリンク(avbuzz.com)' | sed -n 's@ *<img src=\(.*\) vspace=10><br>@\1@;s@^u@URLリンク(avbuzz.com)'


664:名無しさん@お腹いっぱい。
03/11/23 03:04
>>663
出きたよー。
ありがと。

665:名無しさん@お腹いっぱい。
03/11/25 15:58
wgetを使ってあるディレクトリ以下にある(cgiソース含)ファイルを無差別にDLする方法ありませんかね。

666:名無しさん@お腹いっぱい。
03/11/25 16:00
man wget

667:名無しさん@お腹いっぱい。
03/11/25 16:08
>>666
やったけど詳しく書いてないみたいだけど、、、

wget -r --ignore-length <URL/>

で良いかな?

668:名無しさん@お腹いっぱい。
03/11/25 16:16
info wget

669:名無しさん@お腹いっぱい。
03/11/25 17:19
cgiファイルらしきもんはダウンロードできたけれど、やっぱソースが見れないです。
ソースの形でまるごとやりたいんですけど。

670:名無しさん@お腹いっぱい。
03/11/25 17:25
ソースが見れないように設定してあるHTTP鯖から、
ソースを落とすことはできませんヨ。当たり前だろ。

671:名無しさん@お腹いっぱい。
03/11/25 17:31
やっぱ、そうだったか。
たまたま、ソースもまるごと落せたこともあったけど、それはそこの管理者が
物凄くアホだったってわけね。

俺もな、、、涙;

672:名無しさん@お腹いっぱい。
03/11/25 17:35
そもそも、読み出し権限無いかもしれないし。

673:名無しさん@お腹いっぱい。
03/11/25 22:14
>>671
というかCGIとして実行されるように設定されてるファイルは、絶対にGETできんよ。
そのファイルを指定したリクエストが来たらCGIとして実行するようになってる
訳だから、(そのWebサーバ経由では)ファイルを取りようが無い。
ソースを落とせたことがあるんなら、多分それは、CGI実行設定されてない
ディレクトリに物置のように置いて有ったのだろう。逆に言うとそれは
「動いていない」プログラムだから、正しいという保証はどこにも無い。

674:名無しさん@お腹いっぱい。
03/11/26 00:38
jpeginfo でこわれているjpegファイルの判定を十分にできますか?
なんか、xv で表示できないファイルがだいぶ残るのですが。


675:名無しさん@お腹いっぱい。
03/11/26 01:21
XVの設定が古いせいではないかと…

ImageMagickとかなら表示できたりしない?

676:名無しさん@お腹いっぱい。
03/11/26 01:53
そうですか。もうすこしいろいろためしてみます。


677:名無しさん@お腹いっぱい。
03/11/26 14:35
% perl slodziutka.erospace.pl

ドゾー



678:名無しさん@お腹いっぱい。
03/12/17 20:51
最新のwgetって~を%7Eに変換しないのか…

679:名無しさん@お腹いっぱい。
04/01/02 16:41
「げっとぴっく」ってやつ使ってるんだが
「指定のURLには画像が存在しません」とかいうエラーが出てきてdlできん

680:名無しさん@お腹いっぱい。
04/01/02 16:44
>>679
板違い。

681:名無しさん@お腹いっぱい。
04/01/05 09:57
URLリンク(gallery3.pure-angel.net)

なんだけど、wget が使用不能です(downloaderとして弾かれる)。
猛者の皆様、お助け下さい。

682:名無しさん@お腹いっぱい。
04/01/05 10:22
>>681
あんま好きなおなごじゃないな

wget --user-agent=Mozilla --referer URLリンク(gallery3.pure-angel.net) URLリンク(gallery3.pure-angel.net)


683:名無しさん@お腹いっぱい。
04/01/05 14:01
> wget --user-agent=Mozilla --referer URLリンク(gallery3.pure-angel.net) URLリンク(gallery3.pure-angel.net)


ありがとうございます!!
--refererの使用まで思い至りませんでした。

684:名無しさん@お腹いっぱい。
04/01/08 07:39
>>578の方法につての質問です。
ディレクトリが同じでその中のファイルの例が
img20031113192714.jpg 13 Nov 03 19:27 6.2Kb
img20031113210116.jpg 13 Nov 03 21:01 7.4Kb
img20031113210157.jpg 13 Nov 03 21:01 22.1Kb
・・・
こんな感じになってます。これを一気に落としたいのですが
いかんせん時分秒まで回してたらやばいことになりそうなので
wget URLリンク(~)<)
2003xxxxxxxx.jpg
...
END

の足りない部分を埋めていただきたく思います。
Solaris9でインストールしたときのsh使ってます。

それ以前にwgetでディレクトリサービスONの
アドレスから.jpg .png .gifの絶対パス取って
まとめてゲット~なんて出来ればなお良いんですけど
私にはさっぱりひらめきがないのでもし良かったら
ご教示願います

685:684
04/01/08 07:53
あーん最悪。wget -r URLリンク(www.nantara)
だけでぜーんぶおとせた。ディレクトリサービスオンだとこんなことになるのね。
って書き込んでる間に396filesオチター

686:名無しさん@お腹いっぱい。
04/01/08 09:52
何が最悪なんだ?

687:名無しさん@お腹いっぱい。
04/01/08 13:32
684がhelpもinfoも読まずにカキコしちゃった自身の
ソコツさ加減を最悪と称しているのでせう

688:名無しさん@お腹いっぱい。
04/01/09 02:37
echo "wget URLリンク(www.hoge.he.jp)" | zsh -s

689:名無しさん@お腹いっぱい。
04/01/09 13:54
>>685
URL希望


690:名無しさん@お腹いっぱい。
04/01/17 18:58
あの、awkでしかも汚いですが一応動きます。
baseurl と files 変えたら他の女の子のもいけます。
よければ添削してやってください。

BEGIN{
baseurl="URLリンク(www.tokyo-247.net)"
files = 55

split(baseurl,url,"1/")
url[2] = substr(url[2],1,index(url[2],"0"))

for(i=1; i<=files; i++){
path = url[1] int((i-1)/15)+1 "/"
if(i<10){ number = "0" i }else{ number = i}
file = url[2] number ".jpg"
print file
wgetcmd = "wget -nc " path file
system(wgetcmd)
}
}


691:名無しさん@お腹いっぱい。
04/01/18 00:35
wgetのオプションでquotaを指定すると取得するファイルの上限をきめられるそうですが
逆に下限を決める事はできないのでしょうか?
HDDがすげー遅いので、ディスクアクセスをできるだけ減らしたいっす

692:名無しさん@お腹いっぱい。
04/01/18 00:39
>>690
わざわざ変なスクリプトかいて暇ですな。

693:名無しさん@お腹いっぱい。
04/01/18 00:45
>>690
ファイルごとに wget を起動するんでなく
URL を一括で wget に食わせてやる方がよいと思う。
あとせっかく wget 使うなら便利なオプションがいろいろあるので調べるが吉。

694:690
04/01/18 08:09
ご意見ありが㌧。
>692
九段のサイトでは画像を小出しにしてまして
定期的に巡回して、うp分を一括ダウソする必要があり
まぁ暇だったこともあってこうなりまつた。
>693
その向きでまたチャレンジしまつ。

695:名無しさん@お腹いっぱい。
04/01/18 11:26
> ご意見ありが??。
まともなunixerならまず使おうとは思わん記号だな

696:名無しさん@お腹いっぱい。
04/01/18 11:53
>>695
というか、入力方法がわからんよ
emacsでctrl-q hoge fuga とかするの?

697:名無しさん@お腹いっぱい。
04/01/18 11:55
そういえば、どこかのスレに
「(・∀・)イラネ」って書いてあったのを見たことあるよ

698:名無しさん@お腹いっぱい。
04/01/18 15:40
>695
わざわざ使おうとは思わんけど、
unixでは読めないのがあたりまえみたいな
書きかたをされると( ´゚д゚`)

699:名無しさん@お腹いっぱい。
04/02/08 02:27
連番のH画像じゃないんですが、
URLリンク(celeb.goldengate.hu)
ここの MPEG全部落したいんですが、あれこれやっても
うまくできないのです。お知恵を貸していただければ、
嬉しいのですが。

700:名無しさん@お腹いっぱい。
04/02/08 03:24
"あれこれ"やったことを書け。

701:名無しさん@お腹いっぱい。
04/02/08 14:32
リンクを解析して辿り、目的の拡張子だけをダウソするPerlスクリプトを書いたんですが・・・再発明ですか?
個人的には十分楽しんだからウマーだけど。


702:あぼーん
あぼーん
あぼーん

703:名無しさん@お腹いっぱい。
04/02/08 15:29
先生!!>>702の頭の悪さが直っていません!


704:名無しさん@お腹いっぱい。
04/02/08 15:50
HTML::LinkExtor とか使えばいいのに。
出力は、fork しまくって wget を同時に走らすスクリプトに渡すと。

まあ、手元にあるんだが、希望者がいれば公開してあげます。

705:名無しさん@お腹いっぱい。
04/02/08 17:50
>>704
公開希望

706:名無しさん@お腹いっぱい。
04/02/08 18:24
今痔が出来て痛くてたまらないからAA貼り付けようかな

707:名無しさん@お腹いっぱい。
04/02/08 22:22
僕もがんばってみた。「はじめてのC言語」とそれから「関数の使いかた」少しよんだ。


#include <stdio.h>
#include <string.h>
#include <math.h>
#define MAXSTRING 255

struct address{
char preaddr[MAXSTRING];
char scope[MAXSTRING];
char aftaddr[MAXSTRING];

int statnum;
int endnum;
int digit;
};

/* 続く */

708:名無しさん@お腹いっぱい。
04/02/08 22:23
void numaddr( struct address *p )
{
char cset[] = "-";
p->digit = strcspn( p->scope, cset );
p->statnum = atoi( strtok( p->scope, cset ));
p->endnum = atoi( strtok( NULL, cset ));
}

void printaddr( struct address *p )
{
int i, n, t;
for ( n = p->statnum; n <= p->endnum; n++ )
{
fprintf( stdout, "%s", p->preaddr );
if ( n == 0 ) i = 0;
else i = log10(n);
for ( t = i; t < p->digit - 1; t++ )
fprintf( stdout, "0");
fprintf( stdout, "%d%s\n", n, p->aftaddr );
}
}

/* 続く */

709:名無しさん@お腹いっぱい。
04/02/08 22:24
int main( int argc, char *argv[] )
{
int i;
char cset[] = "[]";
struct address multiaddr[argc];

if ( argc <= 1 ) fprintf( stdout, "%s [word]...\n", argv[0] );
else
{
for ( i = 1; i < argc; i++ )
{
strcpy ( multiaddr[i].preaddr, strtok( argv[i], cset ));
strcpy ( multiaddr[i].scope, strtok( NULL, cset ));
strcpy ( multiaddr[i].aftaddr, strtok( NULL, cset ));

numaddr(&multiaddr[i]);
printaddr(&multiaddr[i]);
}
}

return 0;
}

/* おしまい */

710:707
04/02/08 22:28
math.h をつかうと
#gcc -o getopai getopai.c -lm
と -lm つけるのなんでだろ?

711:707
04/02/08 22:35
>>709 やっぱこう↓しとく
"s/\[word\]/opai\[001-100\].jpg/"

712:699
04/02/08 23:49
700さん
ここむずかしいですね。どういう仕組みなんだろう、このHP。
画像もたくさんあるみたいなんだけど、すぺてPHPで開いてきます。
wget -r --user-agent=Mozilla --referer URLリンク(celeb.goldengate.hu)<)
当然 これでは無理ですね
だめぽ…

713:名無しさん@お腹いっぱい。
04/02/09 12:51
難しくはない。ただ、ファイル名が結構適当なので面倒臭い。
wget URLリンク(celeb.goldengate.hu)


714:名無しさん@お腹いっぱい。
04/02/09 13:03
>>712
動画ウィンドウの表示にはJavaScriptを利用してるみたいなので
wgetだけでは無理かと

715:699
04/02/09 23:45
うん どうやってするのがスマートな解決なんでしょうか。
僕には皆目検討もつきません。
やっぱ 一つ一つ落すしかないのかな。


716:名無しさん@お腹いっぱい。
04/02/10 03:47
--user-agentの指定ってどういうとき必要になるの?

717:名無しさん@お腹いっぱい。
04/02/10 03:56
偽装したい時

718:名無しさん@お腹いっぱい。
04/02/10 08:30
>>716
指定しないと落とせないとき。

719:名無しさん@お腹いっぱい。
04/02/10 10:44
アクセスログ読んでる奴に嫌がらせしたいとき。

720:名無しさん@お腹いっぱい。
04/02/11 12:14
>>718
--user-agentを指定しアクセス制限を回避することは
不正アクセス禁止法の第3条2項2号に違反するため、
一年以下の懲役又は五十万円以下の罰金に処されます。

721:名無しさん@お腹いっぱい。
04/02/11 13:22
>>720
user agentは不正アクセス禁止法の識別符号には該当しない。

722:名無しさん@お腹いっぱい。
04/02/11 15:23
詳しい人100人集めたら90人くらいまではそう言うと思うけど、裁判所的にはどうだろね。
URLと一緒で意図絡んでるからトチ狂った判断出される可能性はなきにしもあらずげ。

723:名無しさん@お腹いっぱい。
04/02/11 20:32
>>721
MS的にはおもしろくないだろうよ?

724:720
04/02/11 23:11
>720はネタなんで無視してくれて構いません。
ただ、一応補足しておくと…

>>721
識別符号を使用した不正アクセス行為を規定しているのは第3条2項1号。
第3条2項2号は識別符号以外の情報を使用した不正アクセスについて
規定しています。
URLリンク(www.ipa.go.jp)

725:名無しさん@お腹いっぱい。
04/02/12 00:07
もしかして、厳密にいうと違反なわけ?

726:名無しさん@お腹いっぱい。
04/02/12 01:51
>>725
誰かがUA偽装のみで訴えられて裁判所が何らかの判断下すまで違反だとは誰も断言できない。

条文にアクセス方法についてもうちょい具体的に書いておいてくれりゃよかったんだけどね。

727:名無しさん@お腹いっぱい。
04/02/12 05:09
telnetしたり自分でUA組んだ時、
打ち間違えたりリテラル書き間違えてたらタイーフォか。ありえねー。
標準で偽装可能な Opera はタイーフォだな。(w
大体、クライアント側が偽装してるかどうかを立証する方法がないわな。

ただ裁判官はこの手の知識は絶無だし、腐った弁護士は少なくないからなぁ。
やな世の中だ。

728:名無しさん@お腹いっぱい。
04/02/12 15:31
なんか変な人が。

>>727
UserAgentを普段書き換えることや書き換え機能がついてること自体は問題ない。
* UserAgentでアクセスの制限をしているサイト * へ、UserAgentを書き換えて
アクセスしたことが問題(になるかもしれないのはやだなあ)という話。

729:名無しさん@お腹いっぱい。
04/02/12 19:11
なる可能性はあるな。国内の法律では不正アクセス行為の禁止等に関する法律の
第3条3項に以下の記述がある

>三 電気通信回線を介して接続された他の特定電子計算機が有するアクセス制御機能に
>よりその特定利用を制限されている特定電子計算機に電気通信回線を通じてその
>制限を免れることができる情報又は指令を入力して当該特定電子計算機を作動させ、
>その制限されている特定利用をし得る状態にさせる行為


ここの「制限を免れることが出来る情報」にuseragentが含まれるかどうかが争点だろう。

俺としてはUAはそもそも信憑性にないものだし,UAによるアクセス制御自体が
無効だと思ってる。ケータイのサイトなんかでよくあるけど,CDMAなんかopenwave.com
からブラウザ拾ってきて使えばPCでMobile Browserのagentが出せる。
この場合は有罪?無罪?

アクセス制御にはIPアドレスなどを使うべきだろう。

俺の結論 合法と解釈する。


730:名無しさん@お腹いっぱい。
04/02/12 22:13
アクセス制限とは認証のことであり、UAのチェックは認証としての要件を満たさない

以上終了

731:名無しさん@お腹いっぱい。
04/02/13 00:28
>>730
前提を示す必要があるな。

732:名無しさん@お腹いっぱい。
04/02/13 02:39
もまえら暇だなぁ。

733:名無しさん@お腹いっぱい。
04/02/13 03:27
そんなことより違法なエロ画像の URL 下さい。

734:名無しさん@お腹いっぱい。
04/02/13 04:16
「うらぼん」でぐぐればいいのでは?

735:名無しさん@お腹いっぱい。
04/02/13 07:56
これですか??
URLリンク(www.chuouji.or.jp)
ありがとうございます!

736:名無しさん@お腹いっぱい。
04/02/13 08:48
おお、これは本当にありがたい。ありがたやありがたや (一人一) ナムー

737:名無しさん@お腹いっぱい。
04/02/13 12:12
これどうやっておとすのでしょう
wget --referer では落とせません
URLリストをテキストに出力して別のGUIダウンローダにコピペすれば落とせるのですが。
ちなみにwget -iでは無理でした
URLリンク(www.free-adult-hosting.net)
の真ん中右Sampleってやつです01~41
お願いします

738:名無しさん@お腹いっぱい。
04/02/13 12:25
user-agentだろどうせ

739:名無しさん@お腹いっぱい。
04/02/13 12:34
cookie利用の可能性も

740:名無しさん@お腹いっぱい。
04/02/13 12:40
% wget --user-agent=Mozilla URLリンク(www.free-adult-hosting.net)

741:名無しさん@お腹いっぱい。
04/02/13 14:27
連番の蓮画像を一気にダウンロードする
スレに見えた。

742:名無しさん@お腹いっぱい。
04/02/13 14:34
>>741
3年前から同じスレタイですが。

743:741
04/02/13 15:02
ようするに見る側の問題ってこった。

744:名無しさん@お腹いっぱい。
04/02/13 15:11
>740
ありがとぉ

745:名無しさん@お腹いっぱい。
04/02/14 00:51
URLリンク(kawaii.clawz.com)
ここってどうやって巡回すればいい?
ヘッダがないからwgetじゃエラーになるんだけど

746:名無しさん@お腹いっぱい。
04/02/14 03:58
よ~するに、M$IEもMozillaを騙っているので偽装であると...φ(.. )

747:名無しさん@お腹いっぱい。
04/02/14 04:25
              ,. -‐-
          「`Y´|    ヽ ~
           Y⌒ソノノリ)) )〉
          i (ll (〔i ,i〕{ノ
     __    リ从ゝ~ (フ/
     {{゙ァ‐  、  '⌒ T
      `ーへ ヽ ィ   !
         ー' ,ノ  ,
           , ´   '/
.     ,.、     !   ヽ'
    /   ヽ. /ヽ.   ヽ
      ー'´\ '  /ヽ  ヽ
         ー'   \  ヽ   _
              ヽ. ヽ'´ /
                 \ _/

【小学6年】山手線(渋谷駅)で全裸の少女が補導 part12【昼間から(画像有り)】
スレリンク(pcnews板)l50

748:名無しさん@お腹いっぱい。
04/02/14 04:28
urlがpcnewsでは開いて見る気もせんが、
AAは良い出来だから今回だけは許してやろう。

749:名無しさん@お腹いっぱい。
04/02/14 12:30
pcnewsに飛ばすならせめて
ネットで公開して本人補導とかそういうのにしてくれないとな。

750:名無しさん@お腹いっぱい。
04/02/15 04:28
>>735
功徳は生きてるうちに

751:名無しさん@お腹いっぱい。
04/02/17 17:54
URLリンク(smmonkey.pwp.blueyonder.co.uk)
H画像ではない (連番ではある) けどこれはむっ、と思った。
この手で対処されたらお手上げっぽくね?

# ちなみに違法ページではないよ。Amstrad社のケツの穴はデカいなあ

752:名無しさん@お腹いっぱい。
04/02/18 23:10
URLリンク(www.macromedia.com)
一応仕様は公開はされてるけどな。

753:名無しさん@お腹いっぱい。
04/02/20 04:08
あんまりサーバに負荷かけちゃ駄目だよ。

#!/bin/bash

if [ ! -d ./OUT ]; then
mkdir OUT
fi

URL="URLリンク(thebbs.jp)<)"
done


でもここから選別するのが大変な罠。


754:753
04/02/20 04:40
あ、そうそう。
急に変なアクセス増えて何かの対策とられたりしないように次の事くらいは守って使って。
UAは絶対変える。
GETNUMは増やさない。
-w は減らさない。
--random-waitは外さない。

管理者に迷惑かからないようにしてな。まじで。
一晩くらいかけてマターリ落して細く長く楽しむのが吉だべよ。
つっても楽しめる画像があんまり無いんだけど。


755:名無しさん@お腹いっぱい。
04/02/21 01:23
自分で生HDDをつけるということは、少なくてもパーティションの作成から
ファイルシステムやswapの作成というところから始めなきゃいけない訳だし
unix未経験者にはハードル高いんじゃないかな、少なくてもvi使えないと話にならんし。
でもこれから勉強したい人には良いかもね。


756:名無しさん@お腹いっぱい。
04/02/21 01:38
↑なかなか上品なレスだけど、頭の中ではエロエロなことばかり考えているんですね。

757:名無しさん@お腹いっぱい。
04/02/21 16:20
誤爆かと思った罠

758:名無しさん@お腹いっぱい。
04/02/22 07:14
エロは*習熟の源です

759:名無しさん@お腹いっぱい。
04/03/12 00:34


760:名無しさん@お腹いっぱい。
04/03/15 03:48
ほしゅ

761:名無しさん@お腹いっぱい。
04/04/16 21:19
ほしゅほしゅ

762:名無しさん@お腹いっぱい。
04/04/22 20:59
hosyu

763:名無しさん@お腹いっぱい。
04/05/07 11:36


764:名無しさん@お腹いっぱい。
04/05/07 23:19
hosyu

765:名無しさん@お腹いっぱい。
04/05/08 00:26
なんかネタ無いの?
wgetで複数ファイルの同時ダウンロードするシェルスクリプト書いてたまに使ってるけど、
curlを使うperl,ruby,python等のスクリプトの方がよくない?
shは遅いし、wgetは終了時のエラーコードとか細かい部分がダメぽい。

766:名無しさん@お腹いっぱい。
04/05/08 05:48
エロには飽きた。

767:名無しさん@お腹いっぱい。
04/05/08 06:19
画像に飽きた奴が小説に流れるパターンだな

768:名無しさん@お腹いっぱい。
04/05/23 11:48
もう一度、エロのパワーを!!!

769:名無しさん@お腹いっぱい。
04/05/28 13:14
保守

770:sage
04/06/21 21:23
誰か俺が使ってるスクリプト見たい人いる?汚いけど。

771:名無しさん@お腹いっぱい。
04/06/21 21:30
参考にしてみたいな

772:770
04/06/21 22:09
こんなかんじ。
urlをテキストに並べておいて、ファイル名を引き数に指定して使ってます。
urlにリンクされているjpgを勝手にフォルダ掘ってそこにdlしていきます。
フォルダ名はurlから拾ってます。

#!/usr/bin/perl

use LWP::UserAgent;
use HTML::LinkExtor;
use URI::URL;
use strict;
use POSIX ":sys_wait_h";

$| = 1;#OUTPUT_AUTOFLUSH

my $iframe_ref='';
my $base_tag = '';


773:770
04/06/21 22:09
while(!eof()) {
my $url = <>;
$iframe_ref = '';
my %downloads = ();
chomp $url;
next unless $url;
print "Checking $url¥n";
if ( map{ $downloads{$_} = 0 } getlinks($url) )
{
$url = $iframe_ref if $iframe_ref;
dl2( $url,[sort keys %downloads] );
print "¥n";
} else {
print "there are no JPG¥n";
}
}

774:770
04/06/21 22:10
my @imgs = ();
my $iframe = '';
sub callback {
my($tag, %attr) = @_;
$iframe = $attr{"src"} if $tag eq 'iframe';
$base_tag = $attr{"href"} if $tag eq 'base';
return if $tag ne 'a';
push(@imgs, $attr{"href"});
}

775:770
04/06/21 22:10
sub getlinks
{
$base_tag = '';
@imgs = ();
$iframe = '';
my $url = $_[0];
my $ua = LWP::UserAgent->new( Agent => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;)");
my $p = HTML::LinkExtor->new(¥&callback);
my $res = $ua->request(HTTP::Request->new(GET => $url),
sub {$p->parse($_[0])});
my $base = $base_tag || $res->base;
if ($iframe and !@imgs) {
print "Found iframe. recheck >> $iframe¥n";
$_ = url($iframe,$base)->abs;
$iframe_ref = $_;
$iframe = '';
return getlinks($_);
}
@imgs = map { $_ = url($_, $base)->abs; } @imgs;
@imgs = grep{/.[jJ][pP][gG]$/} @imgs;
return @imgs;
}

776:770
04/06/21 22:11
sub dl {
my $uri = $_[0];
my $ref = $_[1];
my ($dummy,$dir) = ($uri =~ /.*¥/([^¥/]+)¥/([^¥/]+)¥/[^¥/]*$/);
opendir(A,$dir) || mkdir $dir;
closedir A;
chdir $dir;
`curl -s -O $uri -e $ref`;
chdir "../";
}

777:770
04/06/21 22:12
sub dl2 {
my $max = 4;#プロセス数

my $ref = shift;
my @str = @{shift(@_)};
my($pid, @slot);
my $tick=0;

while(@str){
for(0..($max-1)){
if($slot[$_] != 0 and waitpid($slot[$_], &WNOHANG)!=0){
$slot[$_] = 0;
}
}


778:770
04/06/21 22:12
for(0..($max-1)){
if($slot[$_] == 0){
my $url = shift(@str);
last unless defined $url;
chomp($url);
if($pid=fork()){
$slot[$_] = $pid;
} elsif (defined $pid) {
print "Start Download >> $url¥r";
dl($url,$ref);
exit;
} else {
die "Can't fork: $!¥n";
}
}
}

sleep(1);
}

for(0..($max-1)){
waitpid($slot[$_], 0);
}
}


779:770
04/06/21 22:13
以上です。

780:770
04/06/21 22:29
余計なのはいってた;
my $tick;
を削除してください;

バーが回るヤツつけようと書き換えている最中の貼ってしまいました;

781:名無しさん@お腹いっぱい。
04/06/22 14:41
wget -r -A .jpg
に URL を渡して回せば良いのでは? と言ってみるテスト。


782:名無しさん@お腹いっぱい。
04/06/22 17:35
wgetの--page-requisitesを使ってお絵かき掲示板の絵をコメントごと収集しようと思ってます。
しかし、しぃアプレットを使っている掲示板からは--page-requisitesで画像を持って来れませんでした。
例として、どこでもいいんですが思い切り無関係なところでこことか↓
URLリンク(www15.big.or.jp)

  1) wgetの設定がまずい
  2) こっちのネットワークの何かがまずい
  3) CGI側で何かしてるのでwgetでは無理

なにがよろしくないんでしょう。wgetがHTMLを解析してくれてない感じなんですが。

783:名無しさん@お腹いっぱい。
04/06/22 18:03
>>782
1) -p option ついたの最近よ? あと実装始めのころのはバグってた気もした
2) これっぽい。君のサイトが撥ねられてるとか、proxy とか
3) んなこたー、ない

% wget --page-requisites URLリンク(www15.big.or.jp)
(略)
% ls www15.big.or.jp/~baroque/nharuna/oekaki/data/
IMG_003579.jpg IMG_003582.jpg IMG_003585.jpg IMG_003587_2.jpg
IMG_003581.jpg IMG_003584.jpg IMG_003586.jpg IMG_003588.jpg
% wget --version
GNU Wget 1.9.1

784:名無しさん@お腹いっぱい。
04/06/22 18:06
ゼンゼン関係あるけどこのサイトは感動した
URLリンク(www.geocities.jp)

785:名無しさん@お腹いっぱい。
04/06/22 18:18
>>782-783
漏れも画像のダウンロードができなかった
-m -l1オプションでもダメだった

% wget --version
GNU Wget 1.8.2

wget 1.9は~の処理が変わったので使ってない

786:782
04/06/22 18:33
でも、infoseek.co.jp にあるのも candybox.to にあるのも x-beat.com にあるのも駄目。指定ファイルしか落ちてこない。
Webブラウザでは普通に見れるし… --recursive とかもこのサイトに効かないんだよなあ。

$ wget -nv --page-requisites URLリンク(www15.big.or.jp)
18:15:34 URL:URLリンク(www15.big.or.jp) [28106]
-> "www15.big.or.jp/%7Ebaroque/nharuna/oekaki/bbsnote.cgi" [1]

終了しました --18:15:34--
ダウンロード: 28,106 バイト(ファイル数 1)
$ wget --version
GNU Wget 1.8.1

Windows版。
>wget -nv --page-requisites URLリンク(www15.big.or.jp)
18:15:20 URL:URLリンク(www15.big.or.jp) [28106]
-> "www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi" [1]

FINISHED --18:15:20--
Downloaded: 28,106 bytes in 1 files
>wget --version
GNU Wget 1.9.1

なんででしょね?

787:770
04/06/22 21:39
>781
おお。スマートだし。自分が恥ずかしくなってきた。
でもこれ、サムネールとか広告まで保存しちゃいますね。
保存先も深くなっちゃうし。


788:770
04/06/23 05:05
>782
wget --page-requisites --follow-tags=IMG
でいけました。

あと自己レスなんですが
wget -r -A.jpg -nd -np -I 1 -H --ignore-tags=img -P dir
でやりたかった通りに出来ました。


789:名無しさん@お腹いっぱい。
04/06/23 10:56
>>788
でもあんま根本的な原因究明にはなってないな(w
解析が難しいHTMLの書き方にでもなってるのか?

790:名無しさん@お腹いっぱい。
04/06/23 11:48
wgetよりcURLの方が便利だ。

791:名無しさん@お腹いっぱい。
04/06/23 16:46
使い方キボン.

792:770
04/06/25 09:06
>789
CGIが吐くHTMLの最初の方に
<META name="ROBOTS" content="NOINDEX,NOFOLLOW">
とあり、wgetがこのタグのNOFOLLOWを理解して探索をやめてしまうから。


793:名無しさん@お腹いっぱい。
04/06/29 18:13
がーん。wget って --timestamping と --no-clobber を同時指定ってできないんだ…

 「ローカルより新しいファイルならサーバからダウンロードするが
  ファイルは上書きせずに通し番号などをつけて区別して保存する」

という芸はできないのか。

794:名無しさん@お腹いっぱい。
04/06/30 13:09
>>793
サーバー上のファイルと比較すべきローカルのファイルを
どれにするのが適当なのかがよくわからない、というのが原因なんだろうね。

--timestampingで更新ダウンロードした時に
スクリプトでリネーム退避しておく、という手くらいしか思いつかないや。
…wgetが更新ダウンロードしたことを検知する方法ってなんかあるっけ。
ログを書き出す設定にしてgrepする以外にあるかな?

795:名無しさん@お腹いっぱい。
04/07/04 16:58
優秀なポマエラに質問でつ

このサイトの画像を自動で保存するにはどうすればいいでつか?
URLリンク(www.sweetnote.com)

ページの最後にCSSで隠した画像があって、
その画像にアクセスするとアクセス禁止になってしまうので
wgetだと保存できません

ちなみに、巡回ソフト対策みたいなのですが、
CSSに対応してないブラウザで見ると表示されてしまうし、
Operaでスペース押していくと画像を順番に表示していくので
CSSで隠した画像にもアクセスしてしまいます

796:名無しさん@お腹いっぱい。
04/07/04 17:14
そういえば、昔作ったスクリプトには
grep -v BBLhGdTS
何ていうのが入っていたな。

797:名無しさん@お腹いっぱい。
04/07/04 17:18
ん? えーと、コレは単に

……。しまった。CSS云々ってコレか。繋ぎ変えよう


798:795
04/07/04 17:23
>>797
面倒なことさせてしまってすみません

FirefoxなどでCSSを無効にすると
一番下に同じサムネイルが2枚表示されていて
その下の画像のリンクにアクセスするとアクセス禁止になってしまいます

799:名無しさん@お腹いっぱい。
04/07/04 17:30
う、うまく書けない。まあいいや。
えーとね、Lynxかなにかで全リンクを抽出して、grepで/images/を含む行を取り出す。
これは「1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の順番になってるので
偶数行目だけ削除するフィルタを何かで書いて(初心者が急いでるので挫折)、
そのURLリストをUserAgentがIEでrefererが当該ページなwgetで回せばいい。はず。たぶん。

800:名無しさん@お腹いっぱい。
04/07/04 18:10
URLリンク(bbs.coolnavi.com)
↑のようにcookie強制する画像サイトは難しい。

801:名無しさん@お腹いっぱい。
04/07/04 18:36
wget --load-cookies --save-cookies .... でOKでは。

802:799
04/07/04 19:13
適当に書いてみた。LynxだとIEのフリができずアクセス解析でバレそうなのでHTMLソースをwgetして解析。
>>799の「リンクを抽出した1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の仕様が崩れるとアウト。

#/bin/sh
wget $1 -q -nv --user-agent=="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" -O - |\
sed -n 's/<a href="\(..*\)" target="_blank">.*/http:\/\/www.sweetnote.com\1/p' |\
awk 'NR%2 == 1' | wget --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" \
--referer=$1 -nv -P ${2:-gazou} -i -

上記の5行をget.shとかで保存して適当に実行可能にして
$ ./get.sh URLリンク(www.sweetnote.com)
とするとカレントディレクトリにgazouディレクトリを勝手に掘って画像を保存。
(5行目の -P ${2:-gazou} を消すとデフォルトでカレントに保存するようになる)
$ ./get.sh URLリンク(www.sweetnote.com) test
とするとカレントディレクトリの下にtestという指定ディレクトリを勝手に掘って画像を保存。

IEだと思わせてるので画像の更新はあえて見てない(毎回6ファイルを強制ダウンロード)。
鯖負荷のかけすぎで気取られないように注意。

803:795
04/07/04 21:35
>>802
ありがとうございます

ダミーのリンクは最初と最後の画像だけみたいなので
偶数行を削除という発想をヒントに2行目と最後の行を削除したらいけました

sed -e '2 d' | tac | tail +2

> 仕様が崩れるとアウト。

以前は各画像のあとにコメントアウトされた
ダミーの画像がふたつずつありました

> (毎回6ファイルを強制ダウンロード)。

いつもはwgetに-xオプションをつけてダウンロードしています
あとは "`echo url | cut -d/ -f3-`" というファイルが
存在するかどうかでダウンロード済みかどうかを判断しています
URLエンコードが必要な場合は適当に処理してます

804:名無しさん@お腹いっぱい。
04/07/04 22:27
IEでもHEAD投げてサイズを見てダウンロードするかどうかを決めるってのはやってるんじゃないかな。
別にそれでバレることはないと思うぞ(w

805:名無しさん@お腹いっぱい。
04/07/04 23:52
>>801
いやね、>>800は半角板に張ってあったりすると、URI中のセッションIDとcookieのセッションIDが一致しないとダメなのよ。
そのサイトから直で落とすなら問題ないんだけどね。

806:名無しさん@お腹いっぱい。
04/08/14 11:43
保守

807:名無しさん@お腹いっぱい。
04/08/22 21:52
wget使ってdlするスクリプトを書いてるんだけど、どうもcookieの処理が上手く出来
ないんだけど、だれか解決方法知らない?

index取得時にUIDとSIDをsetされるので、imageをgetする際にその両方を送れば
いいだけなんだけど、なぜかwgetだとUIDしか送ってくれない。

808:名無しさん@お腹いっぱい。
04/08/27 11:56
URLリンク(office-lady.net)
ここの画像ってどうすればgetできますか?
wgetプロの方、おながいします。

809:名無しさん@お腹いっぱい。
04/08/27 12:28
wget で適当な --referer を指定して、zsh で
URLリンク(office-lady.net)
あとは自分でいろいろ調べてみてください。

810:名無しさん@お腹いっぱい。
04/08/27 13:47
>>807
指定するときにセミコロンでパラメータをセパレートするんじゃないの?
ひょっとしたらwgetの場合cookieなんかだと、複数のパラメータセットが
あった場合、全部追加されるのかもしれないけど。
#まあキャプチャすれば直ぐ判ることだが。

811:名無しさん@お腹いっぱい。
04/09/09 01:30
保守

812:名無しさん@お腹いっぱい。
04/09/10 11:16
>>808
こんな感じ。
wget --header=REFERER:URLリンク(office-lady.net) URLリンク(office-lady.net)

813:名無しさん@お腹いっぱい。
04/09/10 17:38:03
>>812
--header=REFERER:と等価な--refererが最近のヤツだと使えるようになってる。
{}の展開、以前上手く動かなくて使ってないのだが、俺の勘違いだったのかな。
今度試してみよう。

814:名無しさん@お腹いっぱい。
04/09/10 20:32:43
>>813
cshが勝手にはぎ取っているという落ちでないの?
echo {01..18}
の結果は?

815:名無しさん@お腹いっぱい。
04/09/10 22:49:45
>>814
ああ、やっぱりシェルの展開機能なのね。
普通にsh(bash)でした。

816:名無しさん@お腹いっぱい。
04/09/10 23:05:16
このスレのあちこちで、しつこく zsh って書いてあるのに…

817:名無しさん@お腹いっぱい。
04/09/10 23:36:51
curlにはそういうiriaライクな構文があるよね。

818:名無しさん@お腹いっぱい。
04/09/10 23:48:35
>>816
いや、zshに展開機能があるのは知ってるんだけど
wget自身にパラメータの展開機能が盛り込まれたのかと思ったんだよ。
シェルにあるような機能を取り込む必要もないのかもしれんが、
ある意味zshって特殊(スタンダードではない)だから。
まあログインシェルぐらい時々で変えれば、つう考えもあるな。

819:名無しさん@お腹いっぱい。
04/09/10 23:59:20
>818
展開は shell が面倒見てその結果をアプリケーションに渡すのが Unix 的思想。

820:名無しさん@お腹いっぱい。
04/09/11 01:05:09
>>819
んじゃ、もう一方のUnix的な思想で
展開機能のないシェルで展開させるために使うフィルタで
お勧めなのは何かある?今はawkでやってるんだけど。
(zshのスクリプトでというのは取りあえず無しで)

821:名無しさん@お腹いっぱい。
04/09/11 02:16:47
>>820
おまえ アホ だろ.

822:820
04/09/11 03:06:57
>>821
多分指摘のとおりアホなんだと思うけど、
アホ故に、どの辺りをもってしてアホなのかが判らん。
ズバっと明確に切ってくれ。

823:名無しさん@お腹いっぱい。
04/09/11 03:09:28
zshのスクリプトでいいじゃん。
車輪の再発明はイラネ

824:名無しさん@お腹いっぱい。
04/09/11 05:25:12
url を切り出すスクリプトと
wget を 50 個くらい平行して走らせるスクリプトだけで
オナニーするには困ってない.


825:名無しさん@お腹いっぱい。
04/09/11 06:07:50
>>820
まったくスレ読まないで書くから外してるかもしれないけど。
curlは自前で展開してくれる。そっち使えば?

826:名無しさん@お腹いっぱい。
04/09/13 15:03:30
えっと、aria は4系でも動かないの?

827:名無しさん@お腹いっぱい。
04/09/18 13:54:18
もう疲れました。自分なりにwgetのオプションを色々と試してみたんですが。
URLリンク(bbs.coolnavi.com)の中の画像をwgetで落とすことが
できません。

どうか、先生方のお知恵をお貸しください。お願いします。


828:名無しさん@お腹いっぱい。
04/09/29 02:14:03
被写体が♂だったらやったんだけどな・・・

829:名無しさん@お腹いっぱい。
04/09/29 02:21:56
工エエェェ(´д`)ェェエエ工

830:名無しさん@お腹いっぱい。
04/09/29 02:26:40
苺きんたまの画像をゲットした時は

#!/bin/sh
cat input |grep "URLリンク(v.isp.2ch.net)" >output
sed 's/http/ttp/' output > tmp
sed 's/ttp/http/' tmp > tmp2
sed 's/JPG/jpg/' tmp2 > tmp3
awk '
{print "wget " $1}' tmp3 >temp
chmod 700 temp
./temp
mv *.jpg images

こんな感じ。お好みでwhileして?p=1・・・p25までゲットとか。
無限roopで問題なかった。1つのcgi落とすのに10分以上かかったから。
sedが冗長な感じだが足りない頭じゃこんなものしか書けなかった。
誰かもっと簡潔な「よい見本」きぼんぬ。

831:名無しさん@お腹いっぱい。
04/09/29 02:30:11
あーごめん。これじゃなかった。

#!/bin/csh
@ i = 1
while ($i <= 2)
date >>history
wget "URLリンク(up.isp.2ch.net)"
cat "index.cgi" |grep jpg >list
awk -F\" '{print "wget -U hiroyuki URLリンク(v.isp.2ch.net)" $2}' list >test
cat test |grep jpg >test2
chmod 770 test2
./test2
awk '{print $4}' test2 >>listtmp
sort -i listtmp |uniq >getlist
mv *.jpg jpg3
rm "index.cgi"
@ i = 1
end

こんなん。これも良い見本きぼんぬ。

832:名無しさん@お腹いっぱい。
04/10/22 13:36:38
age

833:名無しさん@お腹いっぱい。
04/11/05 19:21:13
保守!

834:名無しさん@お腹いっぱい。
04/11/05 19:23:59
なんて息の長い祖レッドなんだ。

835:833
04/11/05 19:45:55
見つけてしまいました、こんなスレ。今からzsh入れます!

836:名無しさん@お腹いっぱい。
04/11/05 20:09:10
すげー。ありがとみなさん!ノシ


837:名無しさん@お腹いっぱい。
04/11/09 13:04:12
このスレ21世紀の始まりから生きてるのか

838:名無しさん@お腹いっぱい。
04/11/11 21:10:37
エロは性器を超える

839:名無しさん@お腹いっぱい。
04/11/11 21:37:36
URLリンク(page11.auctions.yahoo.co.jp)
このダウンロードソフトって使った人います??

840:名無しさん@お腹いっぱい。
04/11/25 23:08:39
wgetに画像だけ-ncの動作をするオプションを追加して使ってる。
時間の入った連番画像が主の時には、-N使うよりは動作は速いし鯖負荷も多少は減るんじゃ無いかな。
wget --no-clobber-imageで。

begin-base64 644 -
H4sIAN3lpUEAA7VXaW/bRhD9LP2KqYDakiXRJHXLMGoHkQsjTh04aYECAViK
XInbkLsEd+kDaf57Zw8dtCTXCVDBMMXZ92aPeTM7iuliAd2iBMc5fVgS2fWc
ieOdiiI6TaTMnQj2Wuvdbvcgpea7bq/ruV1vAO542vOn3sBxVx9ouxPXrbfb
7f2uFbvf9byuPwDfnw5GU7fvjPqD0WCLfXEBXW/Y9zpDaOunN4GLizqYT0Fk
WTC4m326u313Zqzf6lBvA9AFNHkuHcajlM/npKBZuCRwdARJKAL9EohysaCP
QQ7Nk0TIUDopj8I0WNCUtBRSfQnIIxVS7Ae11EwAX80D4PQErhdQmRaoALVI
EgNnELJYe4UwLUgYP4Hx3oGYA+Oy3q6pPRWU3BOQCTHYk9OV/5Qv84IyiXu7
uf01+GN29+b246wDQbPxud6+1jv862dxvHaPPgrSgQeapsr/2rnzmTVaHdjd
0Vl1K+s1qF1YXwREmedcoFEei7XLGG7fObC12JNYwj/nNjhX6Hg1cHU3mwXv
L/98M4NmXGbZ02bWZwFtm4C2VWRLQQIp4BxcHehVfCXNCG4iyylbtowCvtbj
w2KnjMpdsRvrAbGbwY3YPStXz3uN2DdsI3YPvOHUH0y9oTMcDP0dsY98rXV8
jKzSv0Ijo0XBi0anVvvt95sbfNSiLA5ETqLADMG3joUyjEekkEdah+qtY+Bz

841:名無しさん@お腹いっぱい。
04/11/25 23:09:17
zlMSsi3oSqQIP6qodpfRrjJ0Au3QtLVzaLI8LAiTm6XxwFgOLy8v+ONThaAM
Fn9PIlnZeJkpJYoNXhYrLI7h8gLKFohHacckL0gUShKjXl9QSxZStqsWYz2g
FjP4o2rZsLfVMpz2Rs544hq5bKnFH0+UWtRjtK6LeBZ0yXhBuilhS5k0Opj7
QVgsy0ydNmgJgdcb27OrKGwf9Dg73oYy3l3rZq/nvmcV8wzetarZSxp7z+aI
aaEjrEO6f57RM0rChXwNb7yPl3L+pcwPUAauoqgjH/aG6siHvVHHXEW1KMRa
6I3dKX4HEESi+O7DFJqNiDOGa1E1ipeofHU1oGusdwo5xxr9BYvcyoE3VfW/
4uB5vkGDY+E+0zhLt/MfXx7vzh9GEckPzfuC7BFOORNO8lye64ED4l+P/6j+
Kw62u4Ph1HWd/mS3OxgMVDjw/9gmAN6PEMZxoIKKWjir1TDh33J1caEZlJmF
GYGVTp5+UZeWJa4P3NKoCOcpEbAKA1sCX5hbG7/jceIHqXEoQ8fefRU3Om6v
89W2vjTFsWuKkrDAm5QWWPoINivG1Se8ljHKir7eBciCkAorVTe32qoh3fAl
rCwVHGV5KYMq+FrZKvAX5FJKmordMmnNB6RiR9dC8Xvge1NV7V4llC16VSa9
seP6owpdyWTi9ZVO1MNfKcV2G6qh0F0jRq7e3tceYh4LaU9roQ4EGz/d9BkT
Am17o7qSJr5im2LY0DT4Fpyf61piW8bN1Jb1k8CLGhM5ynA+5GKq/50vG60q
3nsZT/5nQs6+D7+ki+/Cz7N8P37ruHQ7iAq9wwYXQkgpwxa14BlcfdDttYWq
zjXnGFFswSVHBBFJ+oSNsWp28d7X5V9g4uhk0xll30DkYaQ7Xj6XeB1jZyuT
gpfLBDJNb7b0RCLhZWr8zNUSCAIfqEz0V8Q8JIRhi6wcMY6tO1viUhiiSOz8
dzbtlF5rfjGbfrjsbtG3+g78c7FLNT1qJZvGOpnwv0mlui56KnMSmaWbxPlw
eXf5/iOmxHYCtdQ1pJNt30+xgxSMunlRv2yChwSbxUAHf824ur6ZWfcorTIy
9SvISKbKo+HpHzOHl3XPqVKQBQYqkhv0PqeK9S+tiE0GWw8AAA==
====

842:名無しさん@お腹いっぱい。
04/12/08 14:39:01
hoshu

843:名無しさん@お腹いっぱい。
04/12/10 13:48:48
ちょっと保守しますよ。

844:名無しさん@お腹いっぱい。
04/12/19 02:35:17
ほっしゅっしゅ

845:名無しさん@お腹いっぱい。
04/12/26 03:27:28
初心者です。
URLリンク(aurelie.no-ip.info)
を196まで一括で落としたいんですが。
なるべくわかりやすい方法を教えて下さい。
すみません。


846:名無しさん@お腹いっぱい。
04/12/26 03:34:13
$ zsh
% wget -c -w 5 URLリンク(aurelie.no-ip.info)


847:名無しさん@お腹いっぱい。
04/12/26 03:49:49
zsh、wgetはどこでインストールできますか?
あの・・・zsh、wgetって何ですか?
ほんとにすみません。






848:名無しさん@お腹いっぱい。
04/12/26 04:10:46
URLリンク(www.zsh.org)<)

あとは自分で調べてください。


849:名無しさん@お腹いっぱい。
04/12/26 04:16:58
>>847
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
URLリンク(aurelie.no-ip.info)
196まで全て手作業で作ってみたが2分40秒で出来た
メモ帳でやった
01-02-03-04-05-06-07-08-09-00
これをひとかたまりに9セットコピペ
んで数字 - ←↓(同時押し)
001-002-003
011-012-013
021-022-023

わからんのなら手作業しかあるまい、がんがれ

850:名無しさん@お腹いっぱい。
04/12/26 04:30:24
>>848
ありがとうございます。

>>849
ありがとうございます。地道にやってみます。
ちなみに同時押しって何ですか?

851:名無しさん@お腹いっぱい。
04/12/26 12:46:52
curl -O URLリンク(aurelie.no-ip.info)

852:名無しさん@お腹いっぱい。
04/12/26 12:55:45
>851
それだとシェルが展開しようとして変なことが起きるから、適当にクォートすべきだな。


853:名無しさん@お腹いっぱい。
05/01/03 08:02:28
おまいら御用達のwgetの
URLリンク(www.st.ryukoku.ac.jp)
って、まだ直ってないんでしょうか。


854:名無しさん@お腹いっぱい。
05/01/05 01:31:19
>>853
はい。

855:名無しさん@お腹いっぱい。
05/01/10 20:09:44
4周年記念日
でもsage

>>380
URLリンク(search.mse.co.jp)
エロサイトじゃないけど、何なのかもよく分からん。


856:名無しさん@お腹いっぱい。
05/01/29 14:47:08
URLリンク(hp.vector.co.jp)

857:名無しさん@お腹いっぱい。
05/01/29 16:18:15
>>856
デムパ キタ━━━(゚∀゚)━━━ !!!!!

858:名無しさん@お腹いっぱい。
05/01/30 03:32:28
phpとか使われるとわけわからん。落とせん

859:名無しさん@お腹いっぱい。
05/02/02 12:00:08
perlスクリプト使え

860:名無しさん@お腹いっぱい。
05/02/02 16:27:08
( ゚д゚)ポカーン

861:名無しさん@お腹いっぱい。
05/02/03 05:11:11
URLリンク(www.melon-peach.com)

ここの画像、どうにかしてぶっこ抜けませんか?

862:名無しさん@お腹いっぱい。
05/02/03 16:27:47
ネトラン厨(・∀・)カエレ!!

863:861
05/02/06 13:01:24
ネトラン厨じゃないのに・・・
(つД`)・゚・

864:名無しさん@お腹いっぱい。
05/02/06 19:39:21
>>863
>>41,578 とか参考にならない?

865:名無しさん@お腹いっぱい。
05/02/07 00:09:17
>>861
重杉

866:名無しさん@お腹いっぱい。
05/02/13 22:56:14
wgetかcurlで
URLリンク(nylon.hostfuck.com)
の画像を落とすスクリプトを書いてください


867:名無しさん@お腹いっぱい。
05/02/13 23:25:32
>866
ちょっとは自分で勉強することも覚えてはいかがですか。

868:名無しさん@お腹いっぱい。
05/02/15 01:00:48
>>866
#!/bin/sh
wget -r -l1 "URLリンク(nylon.hostfuck.com)"
mkdir gazou
mv *.jpg *.bmp *.tif* *.x*m *.gif *.rgb *.psd *.eps *.wmf gazou
rm ./

無保証。



869:名無しさん@お腹いっぱい。
05/02/15 02:57:21
403喰らう悪寒。-Uでしっかりと騙るのがベターかも。。。
二次元には興味なし。でも

870:名無しさん@お腹いっぱい。
05/02/15 03:59:53
2次元か

871:名無しさん@お腹いっぱい。
05/02/15 17:58:19
while(<>){
 m/num=([0-9]+)&type=([a-zA-Z]+)[^0-9]*([0-9]+)/ and system "wget".
  " --output-document='$3.$1.$2'".
  " --header='Cookie:num=$1;type=$2'".
  " URLリンク(nylon.hostfuck.com)".
 "\n";
}

872:名無しさん@お腹いっぱい。
05/02/15 18:02:22
×&
○&amp;

873:名無しさん@お腹いっぱい。
05/02/15 20:12:36
Perl?

874:名無しさん@お腹いっぱい。
05/02/15 20:39:49
漏れはこんなスクリプトでやってみた
for n in {28672..32767}; do
[ -f $n.jpg ] && continue
wget --header="Cookie: num=$n; type=jpg" --output-document=$n.jpg \
URLリンク(nylon.hostfuck.com)
done

ほんとは連番じゃないので
ちゃんとやりたかったら番号はこんなかんじで抜き出せばいいかも
w3m -dump_source \
URLリンク(nylon.hostfuck.com) |\
ruby -e 'while gets; $_.sub(/image.php\?num=(\d+)/) do puts $1; end end' |\
sort | uniq

875:名無しさん@お腹いっぱい。
05/02/15 23:04:47
無駄が多いな、このサイト。

876:名無しさん@お腹いっぱい。
05/02/16 03:26:14
                 l           l
                 J           l
                           J

さわったら負けかなと思ってる。

877:名無しさん@お腹いっぱい。
05/02/16 19:57:30
成功した?

878:名無しさん@お腹いっぱい。
05/03/01 08:03:13
セルフプレジャー保守

879:名無しさん@お腹いっぱい。
05/04/04 23:44:21
初心者スレから誘導されてきました。
連番のzipファイルを一気に解凍する方法はありますか?
001.zip 002.zip 003.zip
今はひとつひとつunzipしてます。既出だったらすみません。
教えてくれたら、こころを入れ替えてスクリプト勉強します。

880:名無しさん@お腹いっぱい。
05/04/04 23:45:58
unzip {001..100}.zip

881:名無しさん@お腹いっぱい。
05/04/04 23:53:44
for i in *.zip; do unzip $i; done
でもいいんでないかい?

882:名無しさん@お腹いっぱい。
05/04/05 00:14:01
echo *.zip | xargs -n1 unzip


883:名無しさん@お腹いっぱい。
05/04/05 00:42:16
unzip は自前でワイルドカードを処理するのでほかに zip ファイルがなければ

unzip \*.zip

でどうでしょう。

884:名無しさん@お腹いっぱい。
05/05/30 16:25:28
うほ

885:名無しさん@お腹いっぱい。
05/06/14 20:55:22
altemisweb.jpから落とせる方法をご存知の方、いますか?
そもそも普通にw3mとかでも開けないのですが。

たとえばURLリンク(s1.artemisweb.jp)
からいけるページなど。


886:名無しさん@お腹いっぱい。
05/06/14 21:12:18
wget -m --cookies=on --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)"

とかじゃだめなの?




887:名無しさん@お腹いっぱい。
05/06/14 21:15:53
>>886
UAとrefererは指定してもだめです
cookieはためしてないけど、w3mでさえページを開けないってことはcookieじゃなくて
JavaScriptが効いてないとだめなのかもしれない希ガス


888:名無しさん@お腹いっぱい。
05/06/14 21:45:27
>>887
リファラ送ったら普通に落ちてきたぞ?
wget --referer="URLリンク(s1.artemisweb.jp)" \
URLリンク(s1.artemisweb.jp)

889:名無しさん@お腹いっぱい。
05/06/14 21:52:29
>>888
そうすか?
私のところでは、w3mでもwgetでも、特定のバイト数を読み込んだところで
ブロック状態になります。で、しょうがないからctrl-Cで終了させると、
IEで取得可能な全てのファイルは落とせていない。

そっからもぐってたどれる画像に関してはまったく無理です。


890:名無しさん@お腹いっぱい。
05/06/14 21:53:16
> IEで取得可能な全てのファイルは落とせていない。
わかりにくい言い方でした。
当然ですが割り込みで入力を停止させてるので、partialなファイルに
なっちゃってるってことです。


891:名無しさん@お腹いっぱい。
05/06/14 21:54:53
Referer以外チェックしてないみたいだけど

% wget --referer=URLリンク(s1.artemisweb.jp) \
URLリンク(s1.artemisweb.jp)

HTTP による接続要求を送信しました、応答を待っています... 200 OK

% wget URLリンク(s1.artemisweb.jp)

HTTP による接続要求を送信しました、応答を待っています... 403 Forbidden

Refererを送るにはm(r?)オプションをつければいいので
これで全部ダウンロードできると思う

wget -m -np -L URLリンク(s1.artemisweb.jp)



次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch