連番のH画像を一気にダウンロードするat UNIX
連番のH画像を一気にダウンロードする - 暇つぶし2ch400:名無しさん@お腹いっぱい。
02/07/15 05:18
はー気分最悪。

URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)


401:名無しさん@お腹いっぱい。
02/07/19 06:36
FreeBSD厨房なヲレ

%jot -w "URLリンク({URL})" 99 | xargs -n1 fetch

ex.
URLリンク({URL})URLリンク({URL}) 取得

402:名無しさん@お腹いっぱい。
02/07/19 07:48
あまり関係ないかも知らんが、こう言うのを使ってキャッシュ内のファイルを・・・
って出来ればいいんだけどな。

URLリンク(kasumi.sakura.ne.jp)

403:名無しさん@お腹いっぱい。
02/07/29 22:29
dirs=`find . -type d` とかしたあとに、
$dirsの中のディレクトリをランダムに並びかえるにはどうしたら良いでしょうか?

qivでエロ画像を見るのに必要なんです。(;´Д`)ハァハァ


404:名無しさん@お腹いっぱい。
02/07/29 22:37
>>403
qiv じゃないの使う、とか。

405:名無しさん@お腹いっぱい。
02/07/29 22:38
素直にインターネットニンジャ使ってます
画像も縮小表示されるしDL失敗したら指定回数リトライしてくれるしラクチン

406:名無しさん@お腹いっぱい。
02/07/29 23:03
>>403
qiv の --random とか --shuffle オプションは
使っちゃだめなの?

407:403
02/07/29 23:40
>>404
fehが susieに似ているらしいと聞いたので使ってみましたが、
ダメダメでした。(なんでダメダメだったのかは忘れた。)

>>406
私の場合はディレクトリで被写体(?)を分けているので、
そのオプションはこの場合使えません。
'find . -name "*.jpg"'の結果を qivしてもいいんだけど、
被写体がごちゃごちゃになっちゃうでしょ?

↓この時、qivに渡すディレクトリをランダムにしたいのさ。(;´Д`)ハァハァ

dirs=`find . -type d`
for dir in $1; do
echo $dir/* | xargs qiv -f -s -d 5
done


408:403
02/07/29 23:41
>>407
ミスった。
for dir in `find . -type d`; do
echo $dir/* | xargs qiv -f -s -d 5
done


409:名無しさん@お腹いっぱい。
02/07/30 11:24
漏れはInternet Ninjaの連番取込でやってるよ。ちょうかんたん。
UNIXと関係ないのでsage

410:名無しさん@お腹いっぱい
02/08/01 03:41
最近はエロ動画をダウンロードするスクリプトでがんばっています。
スクリプトほしい?

411:名無しさん@お腹いっぱい。
02/08/01 03:48
スクリプトの出来次第だな。
とりあえずさらしてみそ。


412:名無しさん@お腹いっぱい。
02/08/01 04:30
長く、細く続くスレ

413:名無しさん@カラアゲうまうま
02/08/01 05:37
>>403
NetBSD由来のshuffle(1)というのもある。
URLリンク(cvsweb.netbsd.org)
URLリンク(www.jp.FreeBSD.org)

ちなみに漏れはこんな感じ
$ find . -type f -name '*.{jpg,gif}' | shuffle -f - | xargs xv -maxpect -smooth &

414:410
02/08/01 07:57
>>411
dogaloというHなサイトから最新動画を取り込むスクリプトです。
zshって知らないのですけど、これ使うともっと楽になるんでしょうね。
ご指導ください

----- get_dogalo.sh ----
#! /bin/sh -v
#
HPDIR=URLリンク(www.hentaiplay.com)
HP=newdogalo.html

LIST=dogalo.list
SAVE_DIR=dogalo.d
touch $SAVE_DIR

/bin/rm -f $HP
wget -o /dev/null $HPDIR/$HP

getext gif $HP > $LIST
getext png $HP >> $LIST
getext jpg $HP >> $LIST

cd $SAVE_DIR; /bin/ls | sed -e 's,\(.*.\),g/\1$/s/.*//,' > ../ed.cmd; cd ..
echo w >> ed.cmd
echo "g/^$/d" >> ed.cmd
echo w >> ed.cmd
echo q >> ed.cmd
ed $LIST < ed.cmd
cd $SAVE_DIR; wget -o dogalo.log -D members.aol.com -c -t 0 -i ../$LIST

----- getext -------------
#! /bin/sh -v
EXT=$1
tr '<' "\012" < $2 | tr '>' "\012" | grep href | \
tr = "\012" | grep http | grep $EXT | sed -e "s/.*\(http.*$EXT\).*/\1/"


415:名無しさん@お腹いっぱい。
02/08/01 14:51
wget -c -t 0 -S -nd -np -r -l 1 --accept=jpg URLリンク(urabon.site)

落ちてこなければ、--span-hosts をつける。

416:名無しさん@お腹いっぱい。
02/08/01 16:06
>414
perl とか zsh を使うとそういうのはとても簡単に処理できるけど、
とりあえず、シェルスクリプトで自分の知っているコマンドの組み合わせで
処理を書いてみるのも、きっかけは何であれ、いろいろと勉強にはなるな。
次の課題は、もう少しいろいろなサイト用にも応用ができるようにするのと、
処理をもう少し洗練させてみると良いのでは。
そのうち、JavaScript 使って変なことしているのや、Referer とか Useragent
見てアクセス制限しているサイトへの対応も簡単だからチャレンジしてみるといい。
さらにスキルがついたら、クリッカブルマップとCGI使って画像を直接見えない
ようにしているサイトとか、ヤフブリみたいに変なことしているサイトは
個別対応になるけど、それなりにやり応えはあるだろう。
まあ、先は長い。がんばれ。


417:名無しさん@お腹いっぱい。
02/08/01 23:49
URLリンク(j2ch.free-city.net)
「2ちゃんJPGマニアックス」

これ作ったのここらへんのひとだったりする? わけないか。

418:bash (linux厨だから)
02/08/02 12:04
wget -r -A .jpg,.gif -nd -nc --user-agent='Mozilla/4.06 [en] (Win95; I)' URLリンク(www.hogefuga.com)

419:名無しさん@お腹いっぱい。
02/08/03 00:16
>>413
'gcc shuffle.c'すると、以下のエラーが出ます。
getprogname()はいいとして、fgetln()ってどこにあるんでしょうか?
RedHat7.2、gcc-3.0.4 です。

shuffle.c: In function `get_lines':
shuffle.c:161: warning: assignment makes pointer from integer without a cast
/tmp/ccyouD03.o: In function `usage':
/tmp/ccyouD03.o(.text+0x145): undefined reference to `getprogname'
/tmp/ccyouD03.o: In function `get_lines':
/tmp/ccyouD03.o(.text+0x1f7): undefined reference to `fgetln'
collect2: ld returned 1 exit status


420:名無しさん@お腹いっぱい。
02/08/03 01:33
>>417

多分、このスレじゃなく、
スレリンク(unix板)
のほうのスレッド関係者じゃないかな

421:名無しさん@お腹いっぱい。
02/08/03 05:21
>>417
$ grep ^http girls_list.html | while read i; do wget $i; done

グロ画像多過ぎて鬱。


422:名無しさん@お腹いっぱい。
02/08/03 14:41
>>421
虹板のリストを使ってみた。
6415のURLがリストアップされていて、実際にゲトできたのが2368。
うち、画像ファイルが2339、グロ画像(自分基準)が15。
容量は249746KB、所要時間が72分、平均転送レートが57.8KB/sでほぼ帯域いっぱい。

% du -sk * | sort -rn | head
68814 www.angelfire.com
20252 www.floralia.org
11720 www.42ch.net
7478 members15.tsukaeru.net
5375 www.moemoe.gr.jp
4640 www.momo-bbs.com
4637 210.153.100.60

NAT箱のテーブルがあふれるかと思った(w

423:名無しさん@お腹いっぱい。
02/08/03 17:22
wget 1.8.2 のwindows版
URLリンク(all-your-base.kicks-ass.net)


424:名無しさん@Emacs
02/08/04 15:46

>>421

よさげだと思って半角板のリスト使ってみたが、ろくなもんないなあ。
ってかグロ多すぎ。
NNTPからごそっと落してきた方がいいや。

てか、そういう用途にはみなさん何使ってます?
FreeBSDのportsでいくつか探してるけど、
「これっ」ていうやつがない....



425:名無しさん@お腹いっぱい。
02/08/04 15:49
>424
努力を惜しむ奴には、いいところその程度だろう。

426:383
02/08/05 13:14
>424 「これっ」
世間一般に出回ってるのって、大抵リンクを追いかける奴だからねぇ。
漏れは手作りでcsh使ってやってたけど、質が揃わないため最近やる気が
失せた。
やっぱり>425の言うと降り、努力した方がいい物揃うというのは確かで、 
URL生成するだけでは絶対たどり着けない鉱脈があちこちにあるから、
それ考えるとまぁスクリプトでの遊びだな、って思いますね。

427:421
02/08/05 16:24
>424
(A): URL だけ抜き出すスクリプト
(B): 行をランダムで並べ返るスクリプト
(C): fork & exec で 10 個くらい並列で D するスクリプト
(D): wget or /usr/bin/fetch(FreeBSD)

A-C を Perl で前に自作したんだけど、B がどっかいっちゃった。

>421 やる時に B 作り直そうと思ったら無限再帰 fork して...
面倒なのでさじなげますた。


428:名無しさん@お腹いっぱい。
02/08/05 16:50
で、端子さわって壊れる

429:421
02/08/06 07:48
>427 の (C) つくった。
OS によっては waitpid(PID, WNOHANG) ができないかも、
と perlfunc(1) に書いてありますた。

どなたか採点してもらえると幸せです。


#!/usr/bin/perl

use strict;

# FreeBSD -CURRENT の場合。他は知らん。
use POSIX ":sys_wait_h";

my $fetch_cmd = "wget -x";
my $max = 10;


main();

sub main
{
my($pid, @slot);

while(!eof()){
for(0..($max-1)){
if($slot[$_] != 0 and waitpid($slot[$_], &WNOHANG)!=0){
$slot[$_] = 0;
}
}

for(0..($max-1)){
if($slot[$_] == 0){
my $url = <>;
last unless defined $url;
chomp($url);
$pid = fork();
if($pid==0){
exec("$fetch_cmd $url");
}
else {
printf("Proc %d(%10d) fetching %s\n", $_, $pid, $url);
$slot[$_] = $pid;
}
}
}

sleep(1);
}

for(0..($max-1)){
waitpid($slot[$_], 0);
}
}


430:名無しさん@お腹いっぱい。
02/08/06 08:37
>429

常に10並列にはならずに、
10個まとめて起動しては、それらが全部終わるのを待ってから
次の10個を起動するというのは効率が悪いので、
空いたところからどんどん次のプロセスを起動するようにしてはいかがか。

私は、逆に、フリーのサーバにアップされた画像だと、
サーバーに負担をかけるとすぐに消されてしまうので、
wget -w 5 -i url-list
みたいなのを、異なるサーバーの分を並列に走らせるのを好む。


431:430
02/08/06 10:56
すまん、前半は私の誤解だった。 WNOHANG とはそういうものなのね。

432:399
02/08/06 21:32
はぁ、今日も最悪。なのでプレゼント。

URLリンク(www.rr.iij4u.or.jp)
URLリンク(www.nn.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(www.rr.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(www.dd.iij4u.or.jp)
URLリンク(www.fhjp.net)
URLリンク(www.fhjp.net)
URLリンク(www.fhjp.net)
URLリンク(www.fhjp.net)
URLリンク(www.fhjp.net)
URLリンク(www.fhjp.net)
URLリンク(www.fhjp.net)
URLリンク(www.kk.iij4u.or.jp)
URLリンク(www.rr.iij4u.or.jp)
URLリンク(www.dd.iij4u.or.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.ff.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(www.jp-move.com)
URLリンク(www.nn.iij4u.or.jp)
URLリンク(www.dd.iij4u.or.jp)
URLリンク(www.ff.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(www.rr.iij4u.or.jp)
URLリンク(www.ff.iij4u.or.jp)
URLリンク(www.kk.iij4u.or.jp)


433:399
02/08/06 21:33
ちなみにfhjp.net上のはrefererが必要かな。

434:名無しさん@お腹いっぱい。
02/08/07 01:19
wgetで女、食べれますか?

435:名無しさん@お腹いっぱい。
02/08/07 02:28
>>426
> 世間一般に出回ってるのって、大抵リンクを追いかける奴だからねぇ。
> 漏れは手作りでcsh使ってやってたけど、質が揃わないため最近やる気が
> 失せた。

半角で話題になる画像掲示板をまわっていたら、適当に話題の画像
が切れ切れながら、あつまってきませんか? script で画像データの
URI 拾ってきて、それを wget に喰わせておくとかすると、なんか見
もしない data がわさわさと…。

436:名無しさん@お腹いっぱい。
02/08/07 02:40
>>427の(B)は、perlfaq4の"How do I shuffle an array randomly?"を
参照されたし。
管理者にスクリプト使ってるの気が付かれてアク禁くらうのもいやだし、
鯖の負荷を無駄にあげないためにもURLは必ずシャッフルすべきと思うんだがどうだろう。
連番で落す場合であっても、いかにも人間が見てるかのように
wget --random-waitを使うとか。
いや、ちと考え過ぎか。そんなマメな管理者もいないだろうし…

437:名無しさん@お腹いっぱい。
02/08/07 02:54
>>429
最近思うんだが、虹板あたりに
URLリンク(www.foo.com) -rf $HOME;/bin/true ero.gif
とか書き込まれたらすごいイヤな気分だ。

438:名無しさん@お腹いっぱい。
02/08/07 03:58
>>437
しーっつ、しー。

というわけでみなさんちゃんとエスケープしましょう。

439:437
02/08/08 01:02
きちんとエスケープするのって面倒くさいので、

my $fetch_cmd = "wget -x";

my @fetch_cmd = qw(wget -x);

exec("$fetch_cmd $url");

shift(@fetch_cmd, $url);
exec(@fetch_cmd);

とやってる。
シェルのメタ文字を一切気にしなくていいので気分は楽だけど、
リダイレクトを自分でしなければならなくなる。

440:437
02/08/08 01:58
おっと、
shift(@fetch_cmd, $url);
じゃなくて
push(@fetch_cmd, $url);
ね。

441:名無しさん@お腹いっぱい。
02/08/08 07:05
"wget -i -" で動かして URI はパイプで突っ込めば?


442:名無しさん@お腹いっぱい。
02/08/09 00:50
>>441
パラレルに落さなくていいのなら…

まあ、あらかじめURLのリストを等分しておいて、
wget -iを並行実行すればいいんだけどね。

443:421
02/08/09 11:00
ご意見サンクス。エスケープは >429 書いた直後に気づきました。
"exec" と書く前に気づかなきゃだめか...

>430
$ while read url; do t=${url#URLリンク(};) echo "$url" >> ${t%/*}.list; done
$ echo *.list | 429を $fetch_cmd = "wget option -i"; に変更

で、できるかな。シェルスクリプト大好き。

>436
>437
やってみた。shuffle はパイプに繋げてたけど、一緒にしても大したこと無いね。

my($pid, @slot, @url);

@slot = (0) x $max;
chomp(@url = <>);

outloop:
for (;;) {
foreach (@slot) {
if ($_ != 0 and waitpid($_, &WNOHANG)!=0) {
$_ = 0;
}
}

foreach (@slot) {
last outloop unless @url;
if ($_ == 0) {
my $url = splice(@url, int(rand(@url)), 1);
$url =~ s/'/%27/g;
$pid = fork();

if ($pid==0) {
exec("$fetch_cmd '$url'");
} else {
$_ = $pid;
}
}
}

sleep(1);
}

foreach (@slot) {
waitpid($_, 0);
}

M-x indent-region したら条件文の丸括弧にスペースがぁ...


444:421
02/08/09 11:02
>443
うげ。echo じゃだめだ

$ while read url; do t=${url#URLリンク(};) echo "$url" >> ${t%/*}.list; done
$ ls -1 *.list | 429を $fetch_cmd = "wget option -i"; に変更


445:名無しさん@お腹いっぱい。
02/08/10 00:03
>>435
最初は結構ジャンル固まってるけどね。

ただ、その後が問題で、重複しないように過去のURLとコンペア
しながら日々ダウンロードしてると、どうしても最新の画像を
全ジャンルまんべんなく、という状態でのダウンロードになるんだわ。てなもんで、最近はURLの処理に時間がかかる(Mobile Gear)割に
実入りが少ないこともあって、やってないっす。

まぁ、現在は努力を惜しまずディープなURLを辿って集めてます。

そういえば、最近の虹板って、いわゆる2バイト文字でURL書くのが
流行ってるのか我々への嫌がらせなのか、目につくね。
http://ティンコ.co.jpみたいな。

446:名無しさん@お腹いっぱい。
02/08/10 02:14
URLの抜き出し部分で、
s,URLリンク(,\nhttp:)
s,URLリンク(ime.nu)
s,URLリンク(pinktower.com)
とか
next if(m(名無しさん\[1-30\]\.jpg));
などという処理が結局は必要なわけでしょ。こういう部分に単に
s/天使炎(\.com)?/angelfire.com/g;
s/性塊(\.com)?/sexblock.com/g;
などを追加していけばいいんじゃないかなあ。
それよりもUNIX屋としては、ファイルを偽装されるのがいちばん面倒…

447:名無しさん@お腹いっぱい。
02/08/10 02:22
>>443
$urlの最後の文字が\だったら?
全てのシェルのメタ文字をURLエンコーディングしないとダメだと思う。

448:445
02/08/10 12:42
まぁ、置換すりゃあいいんだけどね。

漏れの場合は、過去のコンペアは件数が膨大になっててcshで回せなくなって
いた関係もあって、文字列置換というかURL文字列補正もCでロジック組んで
捌いていたよ。

ファイルの偽装、ZIPについては最初っからあきらめてるから無問題(;_;)。
対応策は面倒というか、かなり困難。 
分割してひとつひとつGIFファイルに偽装する奴とか、フォーマット
調べると偽装くらいはなんとか判定できそうな気もするけど、結局
結合したらzipファイルだろうからパスワード無いとどうしようもない。

パスワードなんて今のところ収集対象外だしねぇ。

でも、パスワードだけ何らかの規則に基づいて収集して、ソレでZIPファイル
に対して総当りするというのも結構面白いかも。

449:名無しさん@お腹いっぱい。
02/08/10 12:47
ぽこにゃん、ラブマ、ぶったぎりあたりは wine でOK。rez は cat。

450:名無しさん@お腹いっぱい。
02/08/11 15:17
>>447
sh のシングルクォート中のメタ文字は ' のみ。

$ echo '\'
\

# いまWindowsなので確認してないけどあってるはず


451:448
02/08/13 01:48
パスワードつながりで。

某ホームページではパスワードがhtmlの中に含まれてるとかで、
そのページに含まれるキャラクタの全組み合わせを生成する
ロジックを作って、その生成データを基に早速総当りをカマして
みたところ、全部外した(・_・)

ひょっとしてUNIX版unzipのパスワードって、8bit通らないのかな。
その某ホームページではパスワードがいわゆる2バイト文字の可能性
もあるから、それなら納得・・・できないぞ。

452:名無しさん@カラアゲうまうま
02/08/13 07:18
>>451
大丈夫。
# むしろWin用の解凍ソフトの方が
# 普通には日本語が入らないことが多い罠。

文字コードを確認しれ。
大抵はSJISでないとダメでそ。

453:451
02/08/14 08:35
>>452
あんがと。

とりあえずs-jisで取り込んでから処理はしてるけどね。
パス付きでzipした奴、テスト的に作ってみて検証しますわ。

ちなみに、日本語のパスワードが入るWin版のunzipって
どういったのがあるのでしょうか?てスレ違いか。

454:名無しさん@お腹いっぱい。
02/08/30 06:29
www.gaultier-x.com/bbs/board1.htm
ここって優秀な画像があつまってるけど、
どうやって攻略する?
bbsに貼られている画像だけを取得するうまい方法が
思いつかなくて、手動でwget動かしちゃってるんだが。


455:名無しさん@お腹いっぱい。
02/08/31 11:07
URLリンク(annaohura.japannudes.net)
素人な質問スマソ。zsh+wgetではねられるにょ。攻略法伝授してくんろ

456:名無しさん@お腹いっぱい。
02/08/31 11:32
referer

457:名無しさん@お腹いっぱい。
02/09/03 11:52
たいていはreferer。
まれにUA名で蹴ってるところも。
どっちもwgetのオプションでつけられる。
man wget
httpの勉強もしる。

458:名無しさん@お腹いっぱい。
02/09/07 13:48
man wget もいいけど、wget --help の方が安易なので最初はそれを読むといい。
うちの wget 1.8.2 だと全部日本語ででてくるし。
http 勉強せよ、といのは同意。
実験用の httpd をあげて自分でいろいろ嬲ってみるのも勉強になるよ。
もちろん、いきなりサーバーをインターネットに晒したりしないでね。

ついでなので、あんなさんも全部貰っときました。


459:名無しさん@お腹いっぱい。
02/09/07 14:21
--refererをどこにすればイイか分からなかった…修行が足りないな…俺。

460:名無しさん@お腹いっぱい。
02/09/07 14:53
基本はブツのあるディレクトリだよ。
まあぶっちゃけあそこはドメインしか見ていないけど。

461:名無しさん@お腹いっぱい。
02/09/07 15:19
referer なんて、たいていはその画像自体を指定しておけば問題ない。


462:名無しさん@お腹いっぱい。
02/09/07 18:52
>>459
みんなはじめはそうだよ。
みんなそこから、獲ろパワー(二つの意味)で大きくなった。

さ、1から読みなおそう。

463:459
02/09/07 19:08
あー…やっと落せた…(もちろん、仕事はチャンとしたぞ!)。
RefererじゃなくてUser-Agentで引っかかってました…(笑)。

464:C_sugar
02/09/08 02:39
>>379

PGFの中では彼女がいちばん良いな。

465:名無しさん@お腹いっぱい。
02/09/08 04:58
エロパワーの壁がここに…w
スレリンク(ascii板)

466:名無しさん@お腹いっぱい。
02/09/08 07:55
>>459 >>462
微笑ましいな・・・これでエロでさえなければ。
ガンバレ>>459

467:名無しさん@お腹いっぱい。
02/09/08 11:13
URLリンク(homepage.mac.com)

ここのseqimgというシェルスクリプト使ってます。(curl使用。)
refererも設定できるし重宝してます。
スクリプトの内容は私には理解できません。(w

468:名無しさん@お腹いっぱい。
02/09/08 21:26
>>457-458
今時、manやhelpなんてしなくてもググったほうが使用例が見つかるので速い。
それに鯖の公開は別問題。

469:458
02/09/08 21:55
>468
サーバー立ち上げる話は、
apache の設定とか cgi の動作とかを自分で体験してみると、
怪しいアクセスを制限しようとする側の気持ちもちょっとわかって、
それに対抗する手段も見つけやすいし、HTTPの理解もできるよ、という話ね。
別に公開せよというつもりは全くない。

man や help じゃなくて google といのは、
自分で情報を見つけられるようなら別に何でも構わんよ。
せっかくUNIX版にあるんだから、ノウハウだけじゃなくて
ちとは技術も身に付けて欲しいのよ。

470:名無しさん@お腹いっぱい。
02/09/08 22:11
UNIX版じゃなくてUNIX板ね。すまそ。

471:名無しさん@お腹いっぱい。
02/09/08 23:25
あずまんが。

URLリンク(www4u.kagoya.net)

472:名無しさん@お腹いっぱい。
02/09/08 23:40
とりあえず089までいただいておきました。
でも、本当は生身の方がいいです。

473:名無しさん@お腹いっぱい。
02/09/08 23:49
refererチェックもUAチェックしてないやん!
…って真っ先に思った漏れはもうダメですか?

474:名無しさん@お腹いっぱい。
02/09/09 11:20
>>471
どこがあずまんがだゴリュア!!!
ハァハァ言いながら3回もコピペミスっただろうが!!!


475:名無しさん@お腹いっぱい。
02/09/14 08:11
連番のH画像じゃないのですが

pl09_1.zip
pl09_2.zip

これを展開すると

pl09.001
pl09.002
CF_M.bat

が出てきます。DOS 用の bat ファイル は無視して cat すればいいのですが
1度に 展開 → cat → rm 残骸 とできるように奮闘中

476:名無しさん@お腹いっぱい。
02/09/14 10:10
おれさ、厨だからさ、パールなんてわかんないんですよ。
だからいつもページのソースを見て、連番のURLをみつけては
wget -i url.list してるんです。
で、url.listを作る際に一所懸命 sed を使って整えて
いるんです。そこで hoge.sed なるもを作ってみたんだが、
これって、url.listの1行ごとに hoge.sed が実行されるのか、
それとも hoge.sedが1行ずつurl.listに実行されるのか、
どっちなのか教えて下さい。

自分で読み返してみましたが、かなり日本語がおかしいかも
しれませんが、みなさん想像力豊かにして教えて下さい。

477:名無しさん@お腹いっぱい。
02/09/14 10:12
>>476
かなり日本語がおかしいです。
hoge.sed ってどんななの?

478:名無しさん@お腹いっぱい。
02/09/14 10:16
>>476
>>url.listの1行ごとに hoge.sed が実行される
こっち。

479:476
02/09/14 10:30
>>476
さっそくのレスありがとうございます。
すっきりしました。なんか自分の意図する働きをして
くれなかったんで、かなりすっきりしました。
で、気分を改めて作りなおしてみたら、下記のように
きれいにできあがりました。

URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)
URLリンク(members.aol.com)

最後に cat * > hoge.rm でもしてみてください。

480:476
02/09/14 10:31
上のレスは>>478へでした

481:名無しさん@お腹いっぱい。
02/09/14 15:25
>>479
ごちそうさまでした。

482:名無しさん@お腹いっぱい。
02/09/14 20:08
おなじく、使わせていただきました(なにに

483:名無しさん@お腹いっぱい。
02/09/15 16:46
522 名前:名無しさん@お腹いっぱい。 投稿日:02/09/06 14:56 ID:???
#include <iostream>
using namespace std;

int main(void)
{
int hajime, owari, i;
string url;
cout << "ルートディレクトリのURLを入力してください: ";
cin >> url;
cout << "最初の番号を入力してください:";
cin >> hajime;
cout << "最後のの番号を入力してください:";
cin >> owari;

for (i=hajime; i<=owari; i++) {
if (i < 10) cout << url << "0" << i << ".jpg" << endl;
else cout << url << i << ".jpg" << endl;
}
return 0;
}

貼ってみるテスト

484:名無しさん@XEmacs
02/09/15 22:41
そんなことをして何に役立つんだよ、と言ってみるテスト。


485:名無しさん@お腹いっぱい。
02/10/11 15:49
ほしゅあげ

486:名無しさん@お腹いっぱい。
02/10/12 12:46
>>483
そんなのUNIXじゃねぇ。


487:名無しさん@お腹いっぱい。
02/10/13 00:02
がんばれage

488:名無しさん@お腹いっぱい。
02/10/28 02:28
#!/bin/sh

while true
do
 echo "hoshu age"
done

貼ってみるテスト

489:名無しさん@お腹いっぱい。
02/10/28 12:20
>>488
どうでもイイけど、
while true; do
echo "hoshu age"
done
と書く派なので、そういう書き方だと式の後のコロンを省けるのを知らなかった…。


490:名無しさん@お腹いっぱい。
02/10/28 16:46
>>488
shell script使わなくても
yes "hoshu age"


491:名無しさん@お腹いっぱい。
02/10/28 17:21
保守でageる方はDQNでございます

492:名無しさん@お腹いっぱい。
02/11/16 02:20
最近さ、AOLからwgetでダウンロードできないんだけどさ。
もしかして俺だけ?へんなhtmlファイルがおちてくる。
いつもは、オプションなんて設定しないで大丈夫だったんだが。

あくまでも例えばだが、zshで
wget -nd URLリンク(members.aol.com)
wget -nd URLリンク(members.aol.com)
wget -nd URLリンク(members.aol.com)

で、 cat * > hoge.rm ってしたいんだけど。

なんかオプションで指定しないとだめなんですかね?
おしえてください。


ちなみに今日はIrvineで(゚д゚)ウマーしたんだがさ…。
これのためだけにWindows起動してIrvineをつかうのは辛いです。

493:名無しさん@お腹いっぱい。
02/11/16 02:41
>>492
--referer='URLリンク(members.aol.com)' とか -U 'Mozilla/4.0 (compatible)' とか
は試してみた?

494:名無しさん@お腹いっぱい。
02/11/16 04:29
>492
っていうか場所によって仕掛けが違うから「あくまでも例えば」とかいう偽URIじゃ意味ないよ。
そのものズバリを書きなって。

フツーはその「へんなhtml」を読めば済むことも多いし。

495:名無しさん@お腹いっぱい。
02/11/16 12:39
wgetの書式をいじるのもいいけど、リジュムとかラブマみたいな分割偽装
ツールが欲しいところだね。Wineでやるのもいいけど、エロ動画を結合
するだけのためにCPUにムチ打つのはつらい。


496:名無しさん@お腹いっぱい。
02/11/16 12:57
>>495
フォーマット公開されてるの?

497:名無しさん@お腹いっぱい。
02/11/16 15:57
フォーマット公開されてたら偽装じゃないと思う…

498:名無しさん@お腹いっぱい。
02/11/16 16:34
リジュム(漢字わすれた)って本体のfileはcatでくっつくよね。
.rez fileはファイル名とCRCが入ってるだけっぽいし…
フォーマット誰かしらべてないかな?

499:495
02/11/16 17:04
>>498
ああ、リジュムの場合はlonginus.dll(他にもあるのかな)で偽装して
あるとだめだろう。
*BSDのpeaceって、*BSDのプログラムからWin32 DLLの関数を呼んだりは
できないのかな。


500:名無しさん@お腹いっぱい。
02/11/16 18:33
>>491
このスレのローカルルールとして、
保守ageするやつはついでにエロ画像へのリンクを貼る
てのはどうですか


501:492
02/11/17 00:27
すみませんでした。激しく自分がミスを犯してました。(;´Д`)
URLが間違ってました。つーか、とくに自分が手を加えていないから、
リンク切れだったようです。

>>492の訂正
s/missnuts555/missnuts5555/g
s/missnuts666/missnuts6666/g
s/missnuts777/missnuts7777/g




502:このスレの1
02/11/24 04:09
URLリンク(www.scghun.com)
上記のようなサイトにある画像を全て、簡単に落すテクニックってなんかありませんか。

とりあえず、ここで鍛えたテクニックを使って連番のリストファイルを一つ作り、それを
パターンにそって少しずつ変形させるスクリプトなぞを作り、最後にwgetで一挙に落そ
うという手で攻めてみたが、何分、微妙にパターンが変えられていたりして、四苦八苦し
てしまった。そのためAmateur Schoolgirls Gallery とAmateur Teens Galleryの画像を全
て落すための手はずを整えるのだけで週末を使いきってしまったよ。トホホ。

識者の方々、よい知恵をお貸しくだされ。

503:名無しさん@お腹いっぱい。
02/11/24 04:44
いやーどう見ても、というかちょっとしか見ていないが、
SchoolgirlsでもなければTeensでもないような気が…。
そういうもんなのか?


504:名無しさん@お腹いっぱい。
02/11/24 05:06
>>502

wget -N -q -O /dev/fd/1 "$url" \
| nantoka "$url" \
| grep hogehoge \
| sort -u \
| while read tmp; do
wget -N -q --referer="$url" -O /dev/fd/1 "$tmp" \
| nantoka "$tmp"
done \
| grep '\.jpg$' \
| sort -u \
> list

ちなみに、nantoka は、argv[1]をbase url として標準入力から
リンクを抜き出すフィルタね。

nantoka を、lex か何かで作っとくと便利だよ。

505:502
02/11/24 23:26
>>504
サンクスです。
wgetのオプション等多々、わからないことが多いですが、時間のあるときに
調べて挑戦してみたいと思います。新境地に達っしたいっす。

お礼URL
URLリンク(asiangirls.bphosting.com)

506:名無しさん@Emacs
02/11/25 00:24
>>502
$url が与えられてるとして、
wget --accept=jpg -c -t 0 -r -l 1 --span-hosts \
-nd --user-agent=Mozilla --referer=$url $url
とかで落とせないかい?

507:名無しさん@お腹いっぱい。
02/12/03 22:49
Yahoo! Groupsからファイル落とせるようにできないかなあ。
ユーザー認証ディレクトリの中にあるからダメかなあ。

508:名無しさん@お腹いっぱい。
02/12/24 02:54
クリスマス・プレゼントあげ
URLリンク(www8.kinghost.com)

509:名無しさん@お腹いっぱい。
02/12/24 07:10
俺はいつもHTMLをwgetでとってきて、sed かましてwgetに流してる。楽だし。
このスレを見てると、なんか職人魂を感じるな。
それはそうと、このスレは画像限定?rezファイルも連番になってるけど…アリかね?

// 誰か、Unixでラブマを結合する方法教えてくれ。

510:名無しさん@お腹いっぱい。
02/12/29 03:22
wine Lovema.exe


511:名無しさん@お腹いっぱい。
02/12/29 03:24
ついでに、takehost が最近 cookie を見るようになった。
wget で --save-cookies, --load-cookies 初めて使ったよ。

512:名無しさん@お腹いっぱい。
03/01/01 03:21
ここで一句
 元旦にエンジン全開エロパワー

513:名無しさん@お腹いっぱい。
03/01/01 20:22
>>507
ふつーにできるだろ、と思って今ちょっとやってみたができんな(w

514:ftr223
03/01/03 15:44
でででででぇぇーっ!


515:名無しさん@お腹いっぱい。
03/01/04 01:00
半角文字列/アップローダーはここだ!6 【半角板】
スレリンク(ascii板:163番)

From: [163] 名無しさん@Emacs <>
Date: 02/12/30 00:06 ID:U6t76zEY

2chのためのアップローダだったら、2ch自身をアップローダとして使えばいいのでは?
帯域も十分だし、他のアップローダや回線に要らぬ迷惑もかけないし、、
アップロード時は、gzipとかbzip2で圧縮した後、base64とかでencodeしたも
のを、1スレに収まるように分割し、それらを適当な板とスレッドにランダム
に分散して投稿する。ただ、前の分割ファイルがわかるようにそのURLを各レ
スの最初に埋め込む。最後のレスには復元後のファイル名とチェックサム、ファ
イルの説明を書くようにする。
ダウンロード時は、最後のレスから次のレス、その次のレスと追っていき、最
初のレスまで辿り着いたら、全部のデータ部を結合、decode、解凍をする。
もちろん、以上の動作は専用プログラムを使う。もしくは、2ch専用ブラウザ
にそういった機能を組み込んでもらう。
まあ、こういった使い方が2ch側からabuseだったらあぼんですが、、


516:名無しさん@お腹いっぱい。
03/01/07 03:55
最近、AOLのサーバーってデリが早くないか?
あとラブマ偽装も増えたなぁ・・・

517:名無しさん@お腹いっぱい。
03/01/07 05:05
ラブマ偽装はもうしょうがないだろうねー
海外にガンガン晒される様になって来てるらしいし

そのうちcgiに日本語パスワードとかになるんじゃねーの?

518:名無しさん@お腹いっぱい。
03/01/07 08:27
>>515
URLリンク(dempa.2ch.net)

> 帯域も十分だし、
おいおい。

519:名無しさん@お腹いっぱい。
03/01/07 11:28
パラパラマンガみたいに、微妙に動いている写真を、
アニメーション表示させるプログラムを書いてみた。

使う?


520:名無しさん@お腹いっぱい。
03/01/07 22:00
>>519
とりあえずうぷしる!

521:名無しさん@お腹いっぱい。
03/01/07 22:24
URLリンク(f4.aaacafe.ne.jp)
実際は tar.bz2 なので注意。
コンパイルに SDL と SDL_image が必要です。

./morphanim image-1.jpg image-2.jpg ... image-n.jpg
で引数の画像を疑似アニメーション表示。

ドラッグで画像移動。ホイールスクロールで速度変更。


522:名無しさん@お腹いっぱい。
03/01/08 00:03
wineで動く猫缶偽装解除ソフトあったら教えて!!
Melt it!は駄目みたい.


523:名無しさん@お腹いっぱい。
03/01/10 15:36
age

524:あぼーん
あぼーん
あぼーん

525:山崎渉
03/01/15 12:56
(^^)

526:名無しさん@お腹いっぱい。
03/01/16 17:28
wgetでpostってできないですか?

527:名無しさん@お腹いっぱい。
03/01/16 21:10
wpost: Command not found.

528:名無しさん@お腹いっぱい。
03/01/19 18:58
クッキーもSSLもつかってる会員制サイトの画像を落とすにはどうすればいいんだろう・・・
スクリプトじゃもうだめな域か?

529:名無しさん@お腹いっぱい。
03/01/19 21:50
なんていいスレなんだ!!!感動した。
rezがcatでできるなんて、しらんかった...
よく考えてみればあたりまえだな
おれも昔延々とbinaryのぞいてました。
rez fileは、crc16だったような、source perlで作ったようなきが
すんですけど、defualtのuni* commandじゃ作れなかったようなきがします...
fread(),fwrite(),dirent.h使ってた俺って一体何?
>>498
フォーマット調べずとも、wine APIでdll直接叩くってのはどでしょうか?

530:名無しさん@お腹いっぱい。
03/01/20 02:47
>>528
最近の wget なら HTTPS も Cookie も喋れるよ。
がんがればなんとかなるっしょ。

531:528
03/01/20 18:48
>>530
そうなんですか・・・
でもWebMailのような方式(Web上でIDとパスワードを打ち込む方式)だと太刀打ちできなさそうで???

532:うひひ
03/01/20 18:55
>>531
telnetで打ち込むとかLynxで自動に打ち込むのはどーよ


533:名無しさん@お腹いっぱい。
03/01/20 18:55
>>531
curl なら POST 使えるんでない?

534:名無しさん@お腹いっぱい。
03/01/21 22:58
相手のサーバが anonymous-ftp だったりすると、単純に wget を
ループさせるのはよろしくねいですよね。コネクションの都合上。
その辺りは考慮しますか? 漏れの場合には、

lftp fURLリンク(server)
mget ero[0-9]*.jpg

です。って外出ですね。


535:名無しさん@お腹いっぱい。
03/01/22 05:41
/dev/urandom を使って、とってきた画像をランダムスライドショー
Linux以外のOSで動くかどうか知らん。
* #!/bin/sh
* set -x
*
* case "$1" in
* start)
* PHOTOS=$(wc -l `pwd`/ero.list | awk '{ print $1; }')
* if [ "$PHOTOS" -lt "1" ]; then
* echo "エロ画像がない"; exit 1;
* fi
*
* if [ -x $(which wmsetbg) ]; then
* PROG="wmsetbg -a";
* elif [ -x $(wich display) ]; then
* PROG="display -window root -geometry $(xdpyinfo | grep dimensions | awk '{ print $2}')";
* elif [ -x $(which xloadimage) ]; then
* PROG="xloadimage -onroot -fullscreen";
* else
* echo "ビューアがない"; exit 1;
* fi
*
* find `pwd` -type f | egrep "jpg$|JPG$" | nl -n ln > `pwd`/ero.list
*
* while [ $0 ]; do
* RAND=$(cat /dev/urandom | od -t uS | head -n 1 | awk '{print $2;}');
* if [ "$RAND" -le "$PHOTOS" ]; then
* ERO=$(egrep "^$RAND " `pwd`/ero.list | awk '{print $2;}');
* $($PROG $ERO); sleep 5s;
* fi
* done
* ;;

536:名無しさん@お腹いっぱい。
03/01/22 05:43
* stop)
* xsetroot -solid black;
* if [ -e `pwd`/ero.list ]; then
* rm -f `pwd`/ero.list;
* fi
* ps aux | grep "/ero.sh" | awk '{ print $2; }' | xargs kill -KILL
* ;;
* *)
* echo "あぼん"
* exit 1
* ;;
* esac

537:535 訂正
03/01/22 05:49
find `pwd` -type f | egrep "jpg$|JPG$" | nl -n ln > `pwd`/ero.list
の行を start) の直後にもってこないと動かないですね。
どうも失礼しました。

538:535 訂正2
03/01/22 05:59
- ps aux | grep "/ero.sh" | awk '{ print $2; }' | xargs kill -KILL
+ ps aux | grep $0 | awk '{ print $2; }' | xargs kill -KILL
蛸スクリプト荒しでした。ではさようなら。

539:名無しさん@お腹いっぱい。
03/01/29 19:10
クッキー・REFERER・エージェント名チェック対策から始まり、
ベーシック認証・SSLといった障害を乗り越え、再帰探索ロボット化。
更新チェック機能を設け、MIMEチェックで無駄なデータを排除したり、
サイズチェックでサムネイル画像を捨てたり、連続アクセスに対して
帯域制限で反撃してくるサーバのためにインターバル調節やリトライ機能を追加し、
無限階層地獄なサーバ対策機能を追加し、効率を追求するためにマルチプロセス化したら、
某社が結構な値段で買ってくれました。
もちろん、開発動機がアダルト画像ダウンロードだったのは企業秘密です。

540:名無しさん@お腹いっぱい。
03/01/29 22:38
>>539
売り込み文句のほうが気になるんだが…

541:うひひ
03/01/31 10:36
アメリケンかなんかのYahoo! Briefcase のファイルを
すかっと落とすスクリプト誰か作ってないかなぁ?
うぃん用のNetDupeExなんてのは見つけたんだけど

loginとpass入れないとファイルのURL抜けないんだけど
抜けちゃえばwgetでとれる
スクリプトあんま良くわかんないんだよなぁ


542:名無しさん@お腹いっぱい。
03/01/31 12:18
UNIX はこんなことをやらないと連番画像すら落とせないのですか。
悲惨ですね。unixは。普及しないわけだ。

543:名無しさん@お腹いっぱい。
03/01/31 19:41
まあね。でも楽しいからいいんよ。

544:名無しさん@お腹いっぱい。
03/01/31 21:32
マジレスしていい? 専用統合ツールもないことないです。Aria
とか。ただ Windows ものの方が、数とユーザが多いぶん洗練され
てる感じはする(見ただけなのでなんとも言えんけど)

まぁ毎日に使うもんじゃないし、汎用的に使える wget ですませちゃえ
ってのは自然な発想じゃないかと。

545:名無しさん@お腹いっぱい。
03/01/31 23:00
aolってファイル消えるの早すぎ
YahooのBriefcaseって1KB/秒以下で全然落ちてこん・・・
最近はiijとかのモザイク入り巨乳動画で我慢してるが。

以上、愚痴でした。

546:うひひ
03/02/03 09:21
>>544
ありがとう。はじめて知ったよ
パチョを含めこの手のツールは全く使ったことないので
ちょっと見聞してみる

なんかYahoo! Briefcase って最終的にファイルのURLを
URLリンク(us.f1.yahoofs.com)
なようになってるんだが?以降の文字がコロコロ更新されるみたいなんだよなぁ
モタモタしてると変わっちゃうようみたいな気がする

ファイルリストページのソースを編集するのは何となくできたっぽいが
初期ページからファイルリスト全表示までの作戦がワカラン
Lynxとexpect で組む位しか作戦が

当座はしのいだから研究してみますわ


547:名無しさん@お腹いっぱい。
03/02/03 20:16
>>546
どうでもいいが,すごい URI だな。
思わずアクセスしてしまったじゃないか(w

548:名無しさん@お腹いっぱい。
03/02/04 14:58
>>546
例示にはアクセスできるURIを示してください。
でないと抜けない。


549:うひひ
03/02/04 15:28
>>547-8
すまんこってす。
本物のlogin,passwdとページのほうが情報が集まるとは思ったんだけど
アレの元はAVじゃなくておねーちゃんのPVなのよ。つまんないだろ?
丁寧に1M分割で4アカウント100ファイル以上だったので
結局ブラウザからLoginしてソース落としてsedしてみたいな



550:名無しさん@お腹いっぱい。
03/02/17 22:51
リファとクッキーでそれらしきモノが落ちてくるけど表示されない。
というよりも mozilla でもエラー有りとして表示出来ない。
どうして?
URLリンク(comp278.takehost.com)

551:名無しさん@お腹いっぱい。
03/02/18 15:41
>>550
漏れもそこで少し悩んだ
結局、RefererとCookieだけでよかった

552:名無しさん@お腹いっぱい。
03/03/18 02:59
連番で集めた裏本やPGFをディレクトリーごとに整理していても、増えていくと
どんな奴の写真だったかわからなくなってしまう。で、各ディレクトリから一
枚目だけを抜き出して、ブラウザーで表示するためのlist.html作成スクリプト
を書いてみたよ。評価してくれ。

#!/bin/sh
DIR=`pwd`
FN=`basename $PWD`
echo "<html><head><title>$FN</title><head><body>" > list.html
for i in `ls`
do
if [ -d $i ] ; then
cd $i
n=`ls | grep "[jJ][pP][gG]" | head -1`
cd $DIR
echo "<IMG SRC=\"$i/$n\" HEIGHT=\"120\" WIDTH=\"80\"><a href=\"file:///$DIR/$i/\" target=\"_blank\"><font size=1>$i</font></a>" >> list.html
fi
done
echo "</body></html>" >> list.html


553:名無しさん@お腹いっぱい。
03/03/21 09:10
それにしても、勉強になるスレだ(w


554:名無しさん@お腹いっぱい。
03/03/21 12:31
ファイルの保管で悩んでるのよ。長いけど聞いてくれ。

たまった画像および動画を外部メディアに保存する。でその時に、暗号化…
というか、めくらましをしときたい。また、取得は Unix、鑑賞は Win の
パターンが多いので、両方で使えるのが望ましい。

win and unix>手軽さ>速度>>>>暗号強度(>圧縮)

で、なるべく透過型なのがいい。ふつーのファイルみたいに見えるやつ。

PGP disk (仮想ファイルシステム)はほとんど理想なんだけど、残念な
ことに RO media からの mount ができない。DVD-R への保存ができない。
# でもこれはこれでいい。万人に薦める。

zip による暗号化はファイル名がばっちりなので意味がない。また、伸長
処理が一段階入っちゃうのがとても気に入らない。

君たちはどうしてるかね。つーか Win で loop device が使えればばっちり
なのだがー。意見求む。

555:名無しさん@お腹いっぱい。
03/03/21 23:13
>>554
暗号化うんぬんとズレるけど、ファイル名を機械的に変更するのはどう?
実は漏れ、ファイルの整理の為に、md5 の結果をファイル名にしてるのだ。

#! /bin/sh

IFS="
"
for i in `find $1 -type f -print`; do
mv "$i" `dirname "$i"`/`md5sum.exe $i | sed -e "s/ \*.*$//"`.`echo $i | sed -e "s/^.*\.//"`
done


556:555
03/03/21 23:18
cygwin 上で動かしてるので md5sum.exe になってたりするが気にしないようにw。
後、md5 の表示形式によって微妙にスクリプト変えないといけないのも注意。


557:名無しさん@お腹いっぱい。
03/03/22 16:30
透過型というか、先頭32K部分とかに XOR でもかけて、
% xor 32000 <ファイル名> | mediaplayer とかできるとありがたい。
もしくは先頭部分にダミー放りこんで、32K後から読み込むようにするとか。

これと >>555 の md5 作戦を組み合わせれば DVD そこらに置きっ
ぱなしにしたりしても(まぁ)安全。扱いも楽。
しかし、 Unix ならまだしも Windows でこゆことできるのかな。

子供さんがおられるひととかいない? お父さんなにこれ、とか言われ
る前に備えが必要では? などと不安を煽ってさらにアイデア募集。

558:山崎渉
03/04/17 12:16
(^^)

559:名無しさん@お腹いっぱい。
03/04/17 17:00
いつのまにか*nixでラブマ結合出来るソフト公開されてるのね。
感謝感謝。

560:名無しさん@お腹いっぱい。
03/04/18 09:13
>>559
詳細キボンヌ

561:名無しさん@お腹いっぱい。
03/04/18 10:06
>>559
さんくす。
>>560
Google

562:あぼーん
あぼーん
あぼーん

563:1
03/04/23 19:21
URLリンク(xxx.xxx.com)
URLリンク(xxx.xxx.com)
と書かれたlistファイルから
URLリンク(xxx.xxx.com)

URLリンク(xxx.xxx.com)
と展開したnewlistファイルを作るスクリプト。とりあえず[]内二桁までしか対応していない。
誰か改良してくれ。

#!/bin/sh
exec < list
while read URL
do
n=`echo $URL | awk -F[ '{print $2}' | awk -F- '{print $1}'`
if [ $n -lt 10 ]; then
n=`echo $n | sed 's/^0//'`
fi
LAST=`echo $URL | awk -F[ '{print $2}' | awk -F- '{print $2}' | awk -F] '{print $1}' `
while [ $n -le $LAST ]
do
if [ $n -lt 10 ] ; then
echo $URL | sed "s/\[[0-9][0-9]-[0-9][0-9]\]/0$n/" >> newlist
else
echo $URL | sed "s/\[[0-9][0-9]-[0-9][0-9]\]/$n/" >> newlist
fi
n=`expr $n + 1`
done
done



564:名無しさん@お腹いっぱい。
03/04/23 20:21
誤爆しちまったい。これでどないだ
perl -ne 'chop; ($base, $first, $last, $ext) = m@(URLリンク(.+))/\[(\d+)-(\d+)\]\.(\S+)@; for($first..$last){printf "$base/$_.$ext\n"}' list

565:名無しさん@お腹いっぱい。
03/04/23 21:36
>>564
誤爆先を見つけてしまったよ……
ていうかなんであんなところに誤爆してるんだYO!(w

566:名無しさん@お腹いっぱい。
03/04/23 21:51
unix でラブマ教えてプリーズ

567:名無しさん@お腹いっぱい。
03/04/23 22:20
unlov を使いたまえ

568:名無しさん@お腹いっぱい。
03/04/23 22:23
>>567
サンクスコ!

569:名無しさん@お腹いっぱい。
03/04/23 22:46
Linuxバイナリかよ。
unixじゃないじゃn

570:名無しさん@お腹いっぱい。
03/04/23 22:53
偽装の仕様は公開してくれないの?
あれば自分で作りたいんだけど。

571:名無しさん@お腹いっぱい。
03/04/23 23:26
>>570
「偽装」の目的を考えれば、公開する訳がない気がする…

572:名無しさん@お腹いっぱい。
03/04/23 23:33
偽装の目的ってなんなのかな。
jpg ファイルに埋め込めればいいとかじゃなくて?
結合ツールが出回ってるのに公開しない理由とわ?

573:名無しさん@お腹いっぱい。
03/04/24 00:23
>>572
安全保障上の理由とおもわれ。

574:名無しさん@お腹いっぱい。
03/04/24 12:14
>>563
これじゃだめなのか?
#!/bin/sh
len=2
fmt="%s%0${len}d%s\\n"
IFS='[]-
'
cat list | while read base beg end sfx; do
i=$beg
while [ $i -le $end ]; do
printf $fmt $base $i $sfx
i=`expr $i + 1`
done
done >newlist


575:名無しさん@お腹いっぱい。
03/04/24 18:47
>>570
ハックという言葉は知っているかね?

576:名無しさん@お腹いっぱい。
03/04/24 19:43
ハックの大事なものを知ってるよ
友達どうしの約束と涙の止まるおまじない

577:名無しさん@お腹いっぱい。
03/04/25 01:38
>>575
ロリ.hackハァハァ

578:名無しさん@お腹いっぱい。
03/04/25 20:09
日替わりに動画を更新するエロサイトでは、URL はほぼ固定で日付に相当する
部分だけを変えるところも多い。

で、そういうサイトの動画を楽にまとめて落とすスクリプトを書いてみた。date の書式を
利用しているので手抜きができる。使う種類は限られていると思うが、例えば %m は月に
%d は日にそれぞれ置換される。

以下のような感じで、データの追加も簡単だし、一時的にチェックから外したければ、
END 以下に移動させてコメントアウトしておけばいい。単純な割にはめちゃ便利かも

#!/bin/sh

cat <<END | while read i; do wget $(date "+$i"); done
URLリンク(www.nantoka)
URLリンク(www.kantoka)
URLリンク(www.doko)
URLリンク(www.kasiko)
END

579:名無しさん@お腹いっぱい。
03/04/26 06:19
このスレは素晴らしいですね!
ところで、上の方でもつぶやいていた方がいましたが、
yahoo groops(eGroup)の記事や画像を自動ダウンすることは可能なのでしょうか?

winのオートパイロットソフトなども試したのですが、認証が越えられずダメでした・・。
wgetでもダメならば、cygwinのlynxならば認証を受けることができるので、
lynxをスクリプトで自動で操作してダウンする、などということは可能なのでしょうか?

wgetはwinのIEのクッキーではダメなんですよね?

580:あぼーん
あぼーん
あぼーん

581:名無しさん@お腹いっぱい。
03/04/26 06:45
$ wget --help|grep cookie
--cookies=off don't use cookies.
--load-cookies=FILE load cookies from FILE before session.
--save-cookies=FILE save cookies to FILE after session.


582:名無しさん@お腹いっぱい。
03/04/28 01:37
>552
このスレのちょっと前に出てた、ディレクトリ以下のインデックス一覧表示を
追加して使わせて貰ってます。
ディレクトリの中に.jpgがない場合のエラー処理が要るような気もするけど
まぁいいや。

#ソースの折り返しとかについては勘弁ね。

#!/bin/sh
DIR=`pwd`
FN=`basename $PWD`
URL_HEAD='URLリンク(www.)漏れのティンコ.co.jp'
echo "<html><head><title>$FN</title><head><body>" > index.html
echo "<div align=center><font size=4>$FN</font></div>" >> index.html
for i in `ls`
do
if [ -d $i ] ; then
cd $i
ls |grep "[jJ][pP][gG]"| sed 's%\(.*\)%<a href="\1" alt="\1"><im
g src="\1" height=120 width=80></a>%' > index.html
n=`ls | grep "[jJ][pP][gG]" | head -1`
cd $DIR
echo "<IMG SRC=\"$URL_HEAD/$i/$n\" HEIGHT=\"120\" WIDTH=\"80\"><
a href=\"$URL_HEAD/$i/\" target=\"_blank\"><font size=1>$i</font></a>" >> index.
html
fi
done
echo "</body></html>" >> index.html

583:名無しさん@お腹いっぱい。
03/04/28 03:14
うーむ。

index.html あたりからリストを生成して、wget を 10 個くらいで一気に
fetch してくる perl スクリプトってない?

584:名無しさん@お腹いっぱい。
03/04/28 03:51
何を取ってきたいのか判らんのにどうしろと

585:583
03/04/28 03:58
HTML::LinkExtor URI::URL LWP::UserAgent HTTP::Request

でリスト作って、2chJpgGetter の wget_down を回してやればいいことに
気がついて、ほぼ実装完了。



586:名無しさん@お腹いっぱい。
03/04/28 04:33
>>582
grep -i .jpg を使わない理由があるんだろうか

587:583
03/04/28 05:28
ヘタレな index 作るより、thumbnail_index を回せば
何も苦労しなくていいわけだが。

588:名無しさん@お腹いっぱい。
03/04/29 02:20
Yahoo! Groupsにコマンドラインからログインする方法を試行錯誤してたら
ログイン失敗しすぎてアカウント一時停止された…半日おあずけ。

もしかしてhttpsでコマンドラインからLynxとかでpostするときは
コマンドラインに渡す文字列の時点で暗号化されてないとダメだったんだろうか…
いや、そんなことしなくてもいちどLynxでSSLログインして
そのクッキーをwgetに流用すればよかったんではないだろーか…

とか(w

589:名無しさん@お腹いっぱい。
03/04/29 16:32
Yahoo! groupsのメーリングリストアーカイブからファイルを持ってくるPerlScriptならあった。
URLリンク(www.lpthe.jussieu.fr)
ログインと年齢チェックのとこを借りればfilesやalbumsは問題なさげ。
つーかLynxやw3mでのpostとwgetを組み合わせようとするのは漏れには難しいよママン…

590:579
03/04/30 02:01
ヤフーグループのことを質問したものです。
おぉ!いろいろ試してくださったんですね!!情報をくださった方まで!
超感謝です!

アルバムはgethttpというプロクシサーバーを立てて、
スライドショーにすると、そんなに手間がかからず保存できます。
ファイルはなぜかダウンロードマネージャーでダウンできることも多いんですよ。
それなんで、一番大きな問題はメッセージだったのです。
紹介していただいたスクリプトを使ってみます。

591:579
03/04/30 02:49
うーん・・。なぜかダウンロードが始まらない・・。
0kbのファイルができるだけで・・。


592:582
03/05/03 00:28
>586
>grep -i .jpg を使わない理由があるんだろうか

いや、grep -i の方が正しいと思いやす。


593:名無しさん@お腹いっぱい。
03/05/06 04:06
>>589のやつ、うまくいった人いますか?

594:あぼーん
あぼーん
あぼーん

595:あぼーん
あぼーん
あぼーん

596:名無しさん@お腹いっぱい。
03/05/22 08:43
自分にとっては、今までのスクリプトのなかで>>578が実用度が一番高い。
単純な割にいいね

597:名無しさん@お腹いっぱい。
03/06/02 18:44
質問があります。javaなどのScriptがアクセスするページの画像をダウンロードできるソフトって
ありますか?
できれば連番で・・・

598:名無しさん@お腹いっぱい。
03/06/02 18:46
>>597
具体的にどこよ。

599:名無しさん@お腹いっぱい。
03/06/02 21:14
>>598
「みてみて」っていうサイトです

600:名無しさん@お腹いっぱい。
03/06/02 21:31

URLリンク(www.mitemite.ne.jp)

601:名無しさん@お腹いっぱい。
03/06/03 17:52
↑無理?

602:名無しさん@お腹いっぱい。
03/06/03 17:55
>>589
市販のオートパイロットではエラーがでちゃうんです


603:名無しさん@お腹いっぱい。
03/06/14 22:39
ごぶさたあげ

604:名無しさん@お腹いっぱい。
03/06/17 20:47
外出かもしれんが、ワードのマクロで連番のアドレス書いているのは俺だけだろうか?
www.xxxx.001.jpg
なら←×4・BS・数を入力を繰り返して・・・・で、100位までつくってあるんだが
そしてIriaにはりつけ

605:ななす
03/06/17 21:20
>>604
言ってる意味が理解できないが
ワードのマグロ?なんか青いオサカナ泳ぐういんどーずのヤシか
イチリアとか言うヤシは張り付けのクリップボードなのか
この板の香具師は概ねwgetのjpg狩りで
最悪連番必要でもwgetと好みのシェルの機能で[0-9]連番指示をだすわけで
wget -c URLリンク(www.eroero.uhiuhi.com)



606:名無しさん@お腹いっぱい。
03/06/26 09:43
連番生成・・・cygwin上でシェルスクリプト
ダウンロード・・・Irvine
POSTを喋らしたりcookie食わせるなら、perlでUAつかって書く

やっぱWindows上じゃないとねこーいうのは。


607:名無しさん@お腹いっぱい。
03/06/26 09:55
連番生成 : jot
ダウンロード : wget
POST や Cookie : Perl でも Ruby でも Python でも何でも

なんで Windows?

608:名無しさん@お腹いっぱい。
03/06/26 18:31
>>606
>>607
>>605 の方法が漏れには一番簡単に見えるんだが。
というか,プログラムを書く必要ってあるのか?
Cookie を食べる必要があるなら w3m でやればいいし。

609:名無しさん@お腹いっぱい。
03/06/26 20:58
>>607>>606 に突っ込んでみたかっただけだよん

610:名無しさん@お腹いっぱい。
03/06/30 19:18
unlov が Google から消えた…誰か詳細きぼんぬ。

611:名無しさん@お腹いっぱい。
03/07/02 00:01
Googleから消えた理由は知らんが、サイトはまだあるよ。

612:名無しさん@お腹いっぱい。
03/07/02 00:48
jot って BSD 用なの?

613:610
03/07/02 08:32
>>611
URL きぼんぬ。

614:名無しさん@お腹いっぱい。
03/07/07 07:47
takehost が Accept-Language: も見るようになったような気配を感じる。

615:名無しさん@お腹いっぱい。
03/07/07 08:14
>614
拙者の記憶によると日本時間で4日の昼間からでござる。
入れ替わりにcookieを見なくなったように思わるれ。

616:あぼーん
あぼーん
あぼーん

617:名無しさん@お腹いっぱい。
03/07/22 06:57
.


618:610
03/07/22 10:30
誰か教えてくれぇ~(´Д`)

619:名無しさん@お腹いっぱい。
03/07/22 11:43
>>618
作れ。

620:名無しさん@お腹いっぱい。
03/07/22 18:36
>>610
まず誠意をみせろ。おれが自宅に戻れる22:00以降に。
話はそれからだ。

621:610
03/07/23 19:58
誠意っヽ(`Д´)ノ
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(houston.ddo.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(homepage2.nifty.com)
URLリンク(homepage2.nifty.com)
URLリンク(homepage2.nifty.com)
URLリンク(www.kk.iij4u.or.jp)
URLリンク(www.pp.iij4u.or.jp)
URLリンク(www.nn.iij4u.or.jp)
URLリンク(www.ff.iij4u.or.jp)
URLリンク(www.ff.iij4u.or.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.kk.iij4u.or.jp)
URLリンク(www.hh.iij4u.or.jp)
URLリンク(www.nn.iij4u.or.jp)


622:きっと騙されているに一票
03/07/24 03:00
>>621
ゴチ

623:名無しさん@お腹いっぱい。
03/07/27 23:48
>>621
落ちてこないよ~

624:名無しさん@お腹いっぱい。
03/07/28 00:31
こんなん動ナビとか動画普及委員会チェックしてれば毎日ゲットできるぞ。

625:名無しさん@お腹いっぱい。
03/07/28 17:52
>>620 に騙された哀れな >>610 がいるスッドレはここですか?


626:名無しさん@お腹いっぱい。
03/07/28 23:40
動ナビ死んでませんか

627:名無しさん@お腹いっぱい。
03/07/29 05:38
動ナビは死んでないが、iij を使った結構な数のエロサイトから
ファイルが落とせなくなっているな

628:名無しさん@お腹いっぱい。
03/07/29 14:45
>>626-627
ほかでやれ

629:ぼるじょあ ◆yBEncckFOU
03/08/02 05:03
     ∧_∧  ∧_∧
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
  = ◎―――◎                      山崎渉&ぼるじょあ

630:名無しさん@お腹いっぱい。
03/08/04 13:20
wget の --timeout って、
相手がファイアウォールでパケットを捨ててるときには機能しないような気がする。
というか、そもそもそういう目的で使うオプションではないのか?
まあ、squidを経由すれば問題ないんだけど。


631:620
03/08/04 13:38
>>610
遅くなって正直スマンかった。

望みのモノだよ。
URLリンク(saeto.deep-ice.com)

632:名無しさん@お腹いっぱい。
03/08/04 14:13
>>610
おめ

633:名無しさん@お腹いっぱい。
03/08/04 14:58
動ナビURLはこっちに
URLリンク(www.i-like-movie.com)

634:名無しさん@お腹いっぱい。
03/08/13 12:19
2ちゃんで話題になった「みーほ」女子○学生 B86 W57 H88(○5歳)
がこのHP内のギャラリーで何を考えているんだか、衝撃的なセルフのヌードを晒してます!!
削除される前に早めに見ておいた方がいいとおもいます!マジでやば過ぎ!!

URLリンク(neeez.com)

635:名無しさん@お腹いっぱい。
03/08/13 16:58
不覚にもワロタ

636:あぼーん
あぼーん
あぼーん

637:あぼーん
あぼーん
あぼーん

638:名無しさん@お腹いっぱい。
03/08/27 02:13
{from..to}

639:名無しさん@お腹いっぱい。
03/08/27 02:15
{10..20,30..40}
みたいにはできないの?

640:名無しさん@お腹いっぱい。
03/08/27 03:38
>639
zsh: {{10..20},{30..40}}


641:名無しさん@お腹いっぱい。
03/08/27 08:40
( ・∀・)つ〃∩ ヘェーヘェーヘェー

642:639
03/08/27 19:15
>>640
ありが㌧ごぜいます

643:名無しさん@お腹いっぱい。
03/10/26 18:10
そろそろ2ヶ月もカキコがない…。


おまえら満足してますか?

644:名無しさん@お腹いっぱい。
03/10/26 22:21
>おまえら満足してますか?

してねぇっす・・・。

ダウンロード成果物をいかにユニークに保存するかってトコロで
頭痛めてたりする。
とりあえず、ファイルのMD5をpostgres上のテーブルにinsertしといて、
ダウンロード成果物をそいつとチェックして適宜ハネるって運用してるん
だけど、どうしても明らかに重複する奴が出てくる。

理由はいくつかあるんだけど、この辺が泥臭くかつ難しいね・・・。

最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか?
誰か「漏れはコレだ!」って奴を教えてくれぃ。

645:名無しさん@お腹いっぱい。
03/10/27 02:18
>>644
> 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか?
> 誰か「漏れはコレだ!」って奴を教えてくれぃ。
今まで何を試したか書いてくれ。
例示した後で「それはもう使ってみた」って言われるのはやだ。

646:名無しさん@お腹いっぱい。
03/10/27 04:18
おれは単純に時間とディレクトリで分類してる。
ファイルのタイムスタンプとユニークなID,簡単なメモを
名前に付けてリネームするスクリプト書いて、
適当なディレクトリにとりあえず放り込む。ここまではほぼ自動。

あとは実際に見てる時に必要なら分類し直す。
おれ的にはファイル名がユニークであれば、それで足りてる。
全ての画像に等しい価値がある訳でないので、
必要な時の手作業の分類で間に合う。

647:名無しさん@お腹いっぱい。
03/10/27 04:30
俺はディレクトリと連番だな。もちろんスクリプトで。

648:login:Penguin
03/10/27 14:31
>>610
再うpきぼん

649:名無しさん@お腹いっぱい。
03/10/27 20:36
>>644
wget -x で URL のまま保存してる。


650:名無しさん@お腹いっぱい。
03/10/28 00:30
>>648
> >>610
> 再うpきぼん

>>631
> >>610
> 遅くなって正直スマンかった。
>
> 望みのモノだよ。
> URLリンク(saeto.deep-ice.com)



651:644
03/10/28 12:03
>今まで何を試したか書いてくれ。
少しずつ積み重ねてるから、そんないろいろな方法試してるわけでも
ないんだわ。
で、今のところこんな仕組み。

前提:ファイルはすべて.jpg。
対象は、ディレクトリごとにファイルがまとまっていると想定。
(ディレクトリひとつに1ファイルは無視)

-- 日々。
(1) wget -x でディレクトリごとdownload
(2) jpeginfoで壊れたファイルを削除

-- 月次。
(3) ディレクトリ階層をn階層 -> 2階層へ変換
(4) 指定バイト数以下のファイルやディレクトリを削除
(サムネイル対策)
(5) 過去にダウンロードしたファイルのmd5と比較し、新規ファイルが
含まれているディレクトリは保存用ディレクトリへ移動。
(6) 保存用ディレクトリへ移動したものは、md5をpostgres上のテーブルへ
insertする。
(次からのダウンロード重複チェック用)

--適当なタイミングで。
(6) そこそこたまってきたら、CD-Rを使ってお掃除。

上記(6)以外はすべて自動実行。
で、こうやってて素朴に思うのが、「ここまでやらないかんのか?」てところ。
これという方法も無いような気がするんだけどね。

652:644
03/10/28 22:21
続き。

重複する理由ってのが、だいたい
(a) jpgファイルが壊れてて、md5が違ってる。
(b) 見た目おんなじ画像で壊れてもいないjpgファイルだけど、何故かmd5が違う。
(c) 素材はおんなじだけど、画像ファイル化したヒトが違うヒト
といったところかなと。
んで、(a)はjpeginfoでどうにかなるとして(といっても再度ダウンロードで補うことが
できればだけどね)、(b),(c)はどうしたものかなと。

完全自動化を目指してるんで、この辺クリアできないかなと考えてます。

653:名無しさん@お腹いっぱい。
03/10/29 00:51
そこまでしてローカルにあらゆる画像を保存したいの?

画像の類似性を判別するソフトがあったような気もするけど。

654:名無しさん@お腹いっぱい。
03/10/29 02:28
GQview とか

655:名無しさん@お腹いっぱい。
03/10/29 02:29
>>653
よく web 上から消えるじゃん。

656:うひひ
03/10/29 09:36
>>644
素人考えなんだが
同じエロ画像でも大きさっていうか画質とかが違ってたりすんじゃん
例えばイメージマジックとかで同じ様な仕様になるように
小さくサムネイルのように同じファイルサイズとかにフィルタしてから
binary diffみたいのを使って差分をとって差分比率を読みとりながら
画像を比較できないのかなぁ?


657:名無しさん@お腹いっぱい。
03/10/29 14:12
昔は連番ファイル落とすためにwgetやshを駆使して頑張ってた時期もあった。
たとえばこことか。
URLリンク(www.taiwankiss.com)
(白石ひより、藻無し、556MB + 567MB、ラブマ分割、パス未発表)

今は各種P2Pがあるから手間いらずで外付け120GBもエロで満杯だよ。

658:名無しさん@お腹いっぱい。
03/10/29 22:59
>>658
どのP2P使ってるか教えれ

659:644
03/10/31 23:42
レスありがとさんです。

>GQview とか
フリーでこのテのツールがあるとは知りませんでした。
別のツールでは、作者が「コマンド実行で類推するようにしたいな」って
書いてたんで、もう少し様子見かなと。
もしくは、これらツールから該当コードをぶっこぬいて、コマンドラインで
実行できるようデッチ上げるのも手かなと。

>binary diffみたいのを使って差分をとって差分比率を読みとりながら
>画像を比較できないのかなぁ?
#漏れも画像関係まったくの素人なんですが・・・。
jpegを一度bitmapか何かに展開してからゴリゴリ比較って動きかな?
暇を見てちょっと試してみます。

時間を見つけて、いずれかの方法をちょっとやってみます。
ありがとうございやした。

660:名無しさん@お腹いっぱい。
03/11/13 05:03
俺は半角板を自動巡回して URI 拾って wget のリクエスト作る Ruby スクリプト書いた
落ちてきた画像は一通り見てお気に入りの奴はお気に入りディレクトリに入れて
それ以外は全部ファイル名を MD5 にリネームするスクリプトで変換してから
画像置き場ディレクトリに放り込んでる

画像的には同一なんだけどデータとしては違うというケースはうちでも発生してるな
ちゃんと判定する方法なんて無いような気がしてたから諦めてたけど
ここらへん研究してみると面白いかもな

>>652
(b)(c)のケースなんだけど、もし画像サイズが同じなら、
jpeg のエンコード時の特性の違いがあるのかもな
もしそうなら jpeg のエンコードに特化した画像判別があればいいのかも


661:名無しさん@お腹いっぱい。
03/11/14 22:06
>>660
JPEGは符号化時のクオリティ設定で出力がまったく違います。
また、どこかのwebで拾った同じJPEGファイルに端を発した画像でも
デコード・エンコードを繰り返して劣化したもの、コメントが変わった
・取り除かれたもの、huffmanコードを最適化したものなどいくらでも
バリエーションがありますので、結局デコード後の画像として比較する
しかないのではないかと。

662:名無しさん@お腹いっぱい。
03/11/22 23:24
エロ画像とかよか普通の女の子画像をダウンロードしたくなりました。
で、
URLリンク(avbuzz.com)
を見つけたわけですが。
ここのを大きい画像だけ上手にダウンロードしたいんだけど、難しいです。
良い方法、なんか思いつきませんか?

663:名無しさん@お腹いっぱい。
03/11/23 00:16
うーむ。
% w3m -dump_source 'URLリンク(avbuzz.com)' | sed -n 's@ *<img src=\(.*\) vspace=10><br>@\1@;s@^u@URLリンク(avbuzz.com)'


664:名無しさん@お腹いっぱい。
03/11/23 03:04
>>663
出きたよー。
ありがと。

665:名無しさん@お腹いっぱい。
03/11/25 15:58
wgetを使ってあるディレクトリ以下にある(cgiソース含)ファイルを無差別にDLする方法ありませんかね。

666:名無しさん@お腹いっぱい。
03/11/25 16:00
man wget

667:名無しさん@お腹いっぱい。
03/11/25 16:08
>>666
やったけど詳しく書いてないみたいだけど、、、

wget -r --ignore-length <URL/>

で良いかな?

668:名無しさん@お腹いっぱい。
03/11/25 16:16
info wget

669:名無しさん@お腹いっぱい。
03/11/25 17:19
cgiファイルらしきもんはダウンロードできたけれど、やっぱソースが見れないです。
ソースの形でまるごとやりたいんですけど。

670:名無しさん@お腹いっぱい。
03/11/25 17:25
ソースが見れないように設定してあるHTTP鯖から、
ソースを落とすことはできませんヨ。当たり前だろ。

671:名無しさん@お腹いっぱい。
03/11/25 17:31
やっぱ、そうだったか。
たまたま、ソースもまるごと落せたこともあったけど、それはそこの管理者が
物凄くアホだったってわけね。

俺もな、、、涙;

672:名無しさん@お腹いっぱい。
03/11/25 17:35
そもそも、読み出し権限無いかもしれないし。

673:名無しさん@お腹いっぱい。
03/11/25 22:14
>>671
というかCGIとして実行されるように設定されてるファイルは、絶対にGETできんよ。
そのファイルを指定したリクエストが来たらCGIとして実行するようになってる
訳だから、(そのWebサーバ経由では)ファイルを取りようが無い。
ソースを落とせたことがあるんなら、多分それは、CGI実行設定されてない
ディレクトリに物置のように置いて有ったのだろう。逆に言うとそれは
「動いていない」プログラムだから、正しいという保証はどこにも無い。

674:名無しさん@お腹いっぱい。
03/11/26 00:38
jpeginfo でこわれているjpegファイルの判定を十分にできますか?
なんか、xv で表示できないファイルがだいぶ残るのですが。


675:名無しさん@お腹いっぱい。
03/11/26 01:21
XVの設定が古いせいではないかと…

ImageMagickとかなら表示できたりしない?

676:名無しさん@お腹いっぱい。
03/11/26 01:53
そうですか。もうすこしいろいろためしてみます。


677:名無しさん@お腹いっぱい。
03/11/26 14:35
% perl slodziutka.erospace.pl

ドゾー



678:名無しさん@お腹いっぱい。
03/12/17 20:51
最新のwgetって~を%7Eに変換しないのか…

679:名無しさん@お腹いっぱい。
04/01/02 16:41
「げっとぴっく」ってやつ使ってるんだが
「指定のURLには画像が存在しません」とかいうエラーが出てきてdlできん

680:名無しさん@お腹いっぱい。
04/01/02 16:44
>>679
板違い。

681:名無しさん@お腹いっぱい。
04/01/05 09:57
URLリンク(gallery3.pure-angel.net)

なんだけど、wget が使用不能です(downloaderとして弾かれる)。
猛者の皆様、お助け下さい。

682:名無しさん@お腹いっぱい。
04/01/05 10:22
>>681
あんま好きなおなごじゃないな

wget --user-agent=Mozilla --referer URLリンク(gallery3.pure-angel.net) URLリンク(gallery3.pure-angel.net)


683:名無しさん@お腹いっぱい。
04/01/05 14:01
> wget --user-agent=Mozilla --referer URLリンク(gallery3.pure-angel.net) URLリンク(gallery3.pure-angel.net)


ありがとうございます!!
--refererの使用まで思い至りませんでした。

684:名無しさん@お腹いっぱい。
04/01/08 07:39
>>578の方法につての質問です。
ディレクトリが同じでその中のファイルの例が
img20031113192714.jpg 13 Nov 03 19:27 6.2Kb
img20031113210116.jpg 13 Nov 03 21:01 7.4Kb
img20031113210157.jpg 13 Nov 03 21:01 22.1Kb
・・・
こんな感じになってます。これを一気に落としたいのですが
いかんせん時分秒まで回してたらやばいことになりそうなので
wget URLリンク(~)<)
2003xxxxxxxx.jpg
...
END

の足りない部分を埋めていただきたく思います。
Solaris9でインストールしたときのsh使ってます。

それ以前にwgetでディレクトリサービスONの
アドレスから.jpg .png .gifの絶対パス取って
まとめてゲット~なんて出来ればなお良いんですけど
私にはさっぱりひらめきがないのでもし良かったら
ご教示願います

685:684
04/01/08 07:53
あーん最悪。wget -r URLリンク(www.nantara)
だけでぜーんぶおとせた。ディレクトリサービスオンだとこんなことになるのね。
って書き込んでる間に396filesオチター

686:名無しさん@お腹いっぱい。
04/01/08 09:52
何が最悪なんだ?

687:名無しさん@お腹いっぱい。
04/01/08 13:32
684がhelpもinfoも読まずにカキコしちゃった自身の
ソコツさ加減を最悪と称しているのでせう

688:名無しさん@お腹いっぱい。
04/01/09 02:37
echo "wget URLリンク(www.hoge.he.jp)" | zsh -s

689:名無しさん@お腹いっぱい。
04/01/09 13:54
>>685
URL希望


690:名無しさん@お腹いっぱい。
04/01/17 18:58
あの、awkでしかも汚いですが一応動きます。
baseurl と files 変えたら他の女の子のもいけます。
よければ添削してやってください。

BEGIN{
baseurl="URLリンク(www.tokyo-247.net)"
files = 55

split(baseurl,url,"1/")
url[2] = substr(url[2],1,index(url[2],"0"))

for(i=1; i<=files; i++){
path = url[1] int((i-1)/15)+1 "/"
if(i<10){ number = "0" i }else{ number = i}
file = url[2] number ".jpg"
print file
wgetcmd = "wget -nc " path file
system(wgetcmd)
}
}


691:名無しさん@お腹いっぱい。
04/01/18 00:35
wgetのオプションでquotaを指定すると取得するファイルの上限をきめられるそうですが
逆に下限を決める事はできないのでしょうか?
HDDがすげー遅いので、ディスクアクセスをできるだけ減らしたいっす

692:名無しさん@お腹いっぱい。
04/01/18 00:39
>>690
わざわざ変なスクリプトかいて暇ですな。

693:名無しさん@お腹いっぱい。
04/01/18 00:45
>>690
ファイルごとに wget を起動するんでなく
URL を一括で wget に食わせてやる方がよいと思う。
あとせっかく wget 使うなら便利なオプションがいろいろあるので調べるが吉。

694:690
04/01/18 08:09
ご意見ありが㌧。
>692
九段のサイトでは画像を小出しにしてまして
定期的に巡回して、うp分を一括ダウソする必要があり
まぁ暇だったこともあってこうなりまつた。
>693
その向きでまたチャレンジしまつ。

695:名無しさん@お腹いっぱい。
04/01/18 11:26
> ご意見ありが??。
まともなunixerならまず使おうとは思わん記号だな

696:名無しさん@お腹いっぱい。
04/01/18 11:53
>>695
というか、入力方法がわからんよ
emacsでctrl-q hoge fuga とかするの?

697:名無しさん@お腹いっぱい。
04/01/18 11:55
そういえば、どこかのスレに
「(・∀・)イラネ」って書いてあったのを見たことあるよ

698:名無しさん@お腹いっぱい。
04/01/18 15:40
>695
わざわざ使おうとは思わんけど、
unixでは読めないのがあたりまえみたいな
書きかたをされると( ´゚д゚`)

699:名無しさん@お腹いっぱい。
04/02/08 02:27
連番のH画像じゃないんですが、
URLリンク(celeb.goldengate.hu)
ここの MPEG全部落したいんですが、あれこれやっても
うまくできないのです。お知恵を貸していただければ、
嬉しいのですが。

700:名無しさん@お腹いっぱい。
04/02/08 03:24
"あれこれ"やったことを書け。

701:名無しさん@お腹いっぱい。
04/02/08 14:32
リンクを解析して辿り、目的の拡張子だけをダウソするPerlスクリプトを書いたんですが・・・再発明ですか?
個人的には十分楽しんだからウマーだけど。


702:あぼーん
あぼーん
あぼーん

703:名無しさん@お腹いっぱい。
04/02/08 15:29
先生!!>>702の頭の悪さが直っていません!


704:名無しさん@お腹いっぱい。
04/02/08 15:50
HTML::LinkExtor とか使えばいいのに。
出力は、fork しまくって wget を同時に走らすスクリプトに渡すと。

まあ、手元にあるんだが、希望者がいれば公開してあげます。

705:名無しさん@お腹いっぱい。
04/02/08 17:50
>>704
公開希望

706:名無しさん@お腹いっぱい。
04/02/08 18:24
今痔が出来て痛くてたまらないからAA貼り付けようかな

707:名無しさん@お腹いっぱい。
04/02/08 22:22
僕もがんばってみた。「はじめてのC言語」とそれから「関数の使いかた」少しよんだ。


#include <stdio.h>
#include <string.h>
#include <math.h>
#define MAXSTRING 255

struct address{
char preaddr[MAXSTRING];
char scope[MAXSTRING];
char aftaddr[MAXSTRING];

int statnum;
int endnum;
int digit;
};

/* 続く */

708:名無しさん@お腹いっぱい。
04/02/08 22:23
void numaddr( struct address *p )
{
char cset[] = "-";
p->digit = strcspn( p->scope, cset );
p->statnum = atoi( strtok( p->scope, cset ));
p->endnum = atoi( strtok( NULL, cset ));
}

void printaddr( struct address *p )
{
int i, n, t;
for ( n = p->statnum; n <= p->endnum; n++ )
{
fprintf( stdout, "%s", p->preaddr );
if ( n == 0 ) i = 0;
else i = log10(n);
for ( t = i; t < p->digit - 1; t++ )
fprintf( stdout, "0");
fprintf( stdout, "%d%s\n", n, p->aftaddr );
}
}

/* 続く */

709:名無しさん@お腹いっぱい。
04/02/08 22:24
int main( int argc, char *argv[] )
{
int i;
char cset[] = "[]";
struct address multiaddr[argc];

if ( argc <= 1 ) fprintf( stdout, "%s [word]...\n", argv[0] );
else
{
for ( i = 1; i < argc; i++ )
{
strcpy ( multiaddr[i].preaddr, strtok( argv[i], cset ));
strcpy ( multiaddr[i].scope, strtok( NULL, cset ));
strcpy ( multiaddr[i].aftaddr, strtok( NULL, cset ));

numaddr(&multiaddr[i]);
printaddr(&multiaddr[i]);
}
}

return 0;
}

/* おしまい */

710:707
04/02/08 22:28
math.h をつかうと
#gcc -o getopai getopai.c -lm
と -lm つけるのなんでだろ?

711:707
04/02/08 22:35
>>709 やっぱこう↓しとく
"s/\[word\]/opai\[001-100\].jpg/"

712:699
04/02/08 23:49
700さん
ここむずかしいですね。どういう仕組みなんだろう、このHP。
画像もたくさんあるみたいなんだけど、すぺてPHPで開いてきます。
wget -r --user-agent=Mozilla --referer URLリンク(celeb.goldengate.hu)<)
当然 これでは無理ですね
だめぽ…

713:名無しさん@お腹いっぱい。
04/02/09 12:51
難しくはない。ただ、ファイル名が結構適当なので面倒臭い。
wget URLリンク(celeb.goldengate.hu)


714:名無しさん@お腹いっぱい。
04/02/09 13:03
>>712
動画ウィンドウの表示にはJavaScriptを利用してるみたいなので
wgetだけでは無理かと

715:699
04/02/09 23:45
うん どうやってするのがスマートな解決なんでしょうか。
僕には皆目検討もつきません。
やっぱ 一つ一つ落すしかないのかな。


716:名無しさん@お腹いっぱい。
04/02/10 03:47
--user-agentの指定ってどういうとき必要になるの?

717:名無しさん@お腹いっぱい。
04/02/10 03:56
偽装したい時

718:名無しさん@お腹いっぱい。
04/02/10 08:30
>>716
指定しないと落とせないとき。

719:名無しさん@お腹いっぱい。
04/02/10 10:44
アクセスログ読んでる奴に嫌がらせしたいとき。

720:名無しさん@お腹いっぱい。
04/02/11 12:14
>>718
--user-agentを指定しアクセス制限を回避することは
不正アクセス禁止法の第3条2項2号に違反するため、
一年以下の懲役又は五十万円以下の罰金に処されます。

721:名無しさん@お腹いっぱい。
04/02/11 13:22
>>720
user agentは不正アクセス禁止法の識別符号には該当しない。

722:名無しさん@お腹いっぱい。
04/02/11 15:23
詳しい人100人集めたら90人くらいまではそう言うと思うけど、裁判所的にはどうだろね。
URLと一緒で意図絡んでるからトチ狂った判断出される可能性はなきにしもあらずげ。

723:名無しさん@お腹いっぱい。
04/02/11 20:32
>>721
MS的にはおもしろくないだろうよ?

724:720
04/02/11 23:11
>720はネタなんで無視してくれて構いません。
ただ、一応補足しておくと…

>>721
識別符号を使用した不正アクセス行為を規定しているのは第3条2項1号。
第3条2項2号は識別符号以外の情報を使用した不正アクセスについて
規定しています。
URLリンク(www.ipa.go.jp)

725:名無しさん@お腹いっぱい。
04/02/12 00:07
もしかして、厳密にいうと違反なわけ?

726:名無しさん@お腹いっぱい。
04/02/12 01:51
>>725
誰かがUA偽装のみで訴えられて裁判所が何らかの判断下すまで違反だとは誰も断言できない。

条文にアクセス方法についてもうちょい具体的に書いておいてくれりゃよかったんだけどね。

727:名無しさん@お腹いっぱい。
04/02/12 05:09
telnetしたり自分でUA組んだ時、
打ち間違えたりリテラル書き間違えてたらタイーフォか。ありえねー。
標準で偽装可能な Opera はタイーフォだな。(w
大体、クライアント側が偽装してるかどうかを立証する方法がないわな。

ただ裁判官はこの手の知識は絶無だし、腐った弁護士は少なくないからなぁ。
やな世の中だ。

728:名無しさん@お腹いっぱい。
04/02/12 15:31
なんか変な人が。

>>727
UserAgentを普段書き換えることや書き換え機能がついてること自体は問題ない。
* UserAgentでアクセスの制限をしているサイト * へ、UserAgentを書き換えて
アクセスしたことが問題(になるかもしれないのはやだなあ)という話。

729:名無しさん@お腹いっぱい。
04/02/12 19:11
なる可能性はあるな。国内の法律では不正アクセス行為の禁止等に関する法律の
第3条3項に以下の記述がある

>三 電気通信回線を介して接続された他の特定電子計算機が有するアクセス制御機能に
>よりその特定利用を制限されている特定電子計算機に電気通信回線を通じてその
>制限を免れることができる情報又は指令を入力して当該特定電子計算機を作動させ、
>その制限されている特定利用をし得る状態にさせる行為


ここの「制限を免れることが出来る情報」にuseragentが含まれるかどうかが争点だろう。

俺としてはUAはそもそも信憑性にないものだし,UAによるアクセス制御自体が
無効だと思ってる。ケータイのサイトなんかでよくあるけど,CDMAなんかopenwave.com
からブラウザ拾ってきて使えばPCでMobile Browserのagentが出せる。
この場合は有罪?無罪?

アクセス制御にはIPアドレスなどを使うべきだろう。

俺の結論 合法と解釈する。


730:名無しさん@お腹いっぱい。
04/02/12 22:13
アクセス制限とは認証のことであり、UAのチェックは認証としての要件を満たさない

以上終了

731:名無しさん@お腹いっぱい。
04/02/13 00:28
>>730
前提を示す必要があるな。

732:名無しさん@お腹いっぱい。
04/02/13 02:39
もまえら暇だなぁ。

733:名無しさん@お腹いっぱい。
04/02/13 03:27
そんなことより違法なエロ画像の URL 下さい。

734:名無しさん@お腹いっぱい。
04/02/13 04:16
「うらぼん」でぐぐればいいのでは?

735:名無しさん@お腹いっぱい。
04/02/13 07:56
これですか??
URLリンク(www.chuouji.or.jp)
ありがとうございます!

736:名無しさん@お腹いっぱい。
04/02/13 08:48
おお、これは本当にありがたい。ありがたやありがたや (一人一) ナムー

737:名無しさん@お腹いっぱい。
04/02/13 12:12
これどうやっておとすのでしょう
wget --referer では落とせません
URLリストをテキストに出力して別のGUIダウンローダにコピペすれば落とせるのですが。
ちなみにwget -iでは無理でした
URLリンク(www.free-adult-hosting.net)
の真ん中右Sampleってやつです01~41
お願いします

738:名無しさん@お腹いっぱい。
04/02/13 12:25
user-agentだろどうせ

739:名無しさん@お腹いっぱい。
04/02/13 12:34
cookie利用の可能性も

740:名無しさん@お腹いっぱい。
04/02/13 12:40
% wget --user-agent=Mozilla URLリンク(www.free-adult-hosting.net)

741:名無しさん@お腹いっぱい。
04/02/13 14:27
連番の蓮画像を一気にダウンロードする
スレに見えた。

742:名無しさん@お腹いっぱい。
04/02/13 14:34
>>741
3年前から同じスレタイですが。

743:741
04/02/13 15:02
ようするに見る側の問題ってこった。

744:名無しさん@お腹いっぱい。
04/02/13 15:11
>740
ありがとぉ

745:名無しさん@お腹いっぱい。
04/02/14 00:51
URLリンク(kawaii.clawz.com)
ここってどうやって巡回すればいい?
ヘッダがないからwgetじゃエラーになるんだけど

746:名無しさん@お腹いっぱい。
04/02/14 03:58
よ~するに、M$IEもMozillaを騙っているので偽装であると...φ(.. )

747:名無しさん@お腹いっぱい。
04/02/14 04:25
              ,. -‐-
          「`Y´|    ヽ ~
           Y⌒ソノノリ)) )〉
          i (ll (〔i ,i〕{ノ
     __    リ从ゝ~ (フ/
     {{゙ァ‐  、  '⌒ T
      `ーへ ヽ ィ   !
         ー' ,ノ  ,
           , ´   '/
.     ,.、     !   ヽ'
    /   ヽ. /ヽ.   ヽ
      ー'´\ '  /ヽ  ヽ
         ー'   \  ヽ   _
              ヽ. ヽ'´ /
                 \ _/

【小学6年】山手線(渋谷駅)で全裸の少女が補導 part12【昼間から(画像有り)】
スレリンク(pcnews板)l50

748:名無しさん@お腹いっぱい。
04/02/14 04:28
urlがpcnewsでは開いて見る気もせんが、
AAは良い出来だから今回だけは許してやろう。

749:名無しさん@お腹いっぱい。
04/02/14 12:30
pcnewsに飛ばすならせめて
ネットで公開して本人補導とかそういうのにしてくれないとな。

750:名無しさん@お腹いっぱい。
04/02/15 04:28
>>735
功徳は生きてるうちに

751:名無しさん@お腹いっぱい。
04/02/17 17:54
URLリンク(smmonkey.pwp.blueyonder.co.uk)
H画像ではない (連番ではある) けどこれはむっ、と思った。
この手で対処されたらお手上げっぽくね?

# ちなみに違法ページではないよ。Amstrad社のケツの穴はデカいなあ

752:名無しさん@お腹いっぱい。
04/02/18 23:10
URLリンク(www.macromedia.com)
一応仕様は公開はされてるけどな。

753:名無しさん@お腹いっぱい。
04/02/20 04:08
あんまりサーバに負荷かけちゃ駄目だよ。

#!/bin/bash

if [ ! -d ./OUT ]; then
mkdir OUT
fi

URL="URLリンク(thebbs.jp)<)"
done


でもここから選別するのが大変な罠。



次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch