[クローラー]ロボット対策スレ[robots.txt]at MYSV
[クローラー]ロボット対策スレ[robots.txt] - 暇つぶし2ch50:DNS未登録さん
03/03/16 19:30 .net
六神合体ゴッドマーズか?

51: ◆f2enGI/www
03/03/18 04:28 .net
何らかの認証かけときゃ済む話のような気がしなくもない。

52:DNS未登録さん
03/03/18 21:16 .net
fastsearch.netウザい


53:損権厨房 ◆mVeUbtZCI.
03/03/19 15:49 .net
とりあえずさ、真っ当な有名所ならrobots.txtやMETAで防げばいいわけだし
真っ当じゃ無い所はその情報をここで出せばいいじゃん?
セキュリティと一緒でこれだけをやっておけば安心と言うのは無いと思うが?

54:損権厨房 ◆mVeUbtZCI.
03/03/19 15:50 .net
> とりあえずさ、真っ当な有名所ならrobots.txtやMETAで防げばいいわけだし
対策が掲載されている所ならの間違い

55:DNS未登録さん
03/03/24 06:00 .net
ここで書かれたこと全部やれば対策になるんじゃない?
ロボット、リファ、ホスト制限。

特定の人にしか公開しないならポート番号変えるとか
各種認証入れればいい。

56:DNS未登録さん
03/03/28 19:56 .net
>>55
賛成

57:DNS未登録さん
03/04/16 09:55 .net
まさかこれで解決でこのスレ終了なのか?

58:山崎渉
03/04/17 12:08 .net
(^^)

59:山崎渉
03/04/20 05:57 .net
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

60:山崎渉
03/05/22 02:01 .net
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―

61:山崎渉
03/05/28 17:06 .net
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎―◎                      山崎渉

62:DNS未登録さん
03/06/03 17:23 PU5IZDlX.net
すみません、質問なんですが

User-agent: ia_archiver
Disallow: /aaa
Allow: /aaa/bbb

User-agent: ia_archiver
Allow: /aaa/bbb
Disallow: /aaa

このとき順番はどっちが正しいんでしょうか…
aaaというディレクトリの中でbbbだけ許可したいんです。

63:DNS未登録さん
03/06/03 17:27 .net
/aaa以外のディレクトリはどうしたいの?

64:DNS未登録さん
03/06/03 17:43 .net
書き忘れてすみません。
/aaa以外は許可です。

65:名無しさん@カラアゲうまうま
03/06/03 18:28 .net
robots.txt の仕様に Disallow はありますが、Allow はありません。
# Allow を解釈するロボットもあるかもしれんけど。

URLリンク(www.robotstxt.org)
URLリンク(www.robotstxt.org)

複雑な robots.txt を書いても、それをロボットが意図したとおりに
解釈してくれなきゃ意味がないので、「正しい書き方はどっち」と聞くよりも、
意図どおり解釈される書き方を試行錯誤して見つけだす方がいいのではないかと。
すんげー面倒だけど。

66:DNS未登録さん
03/06/03 18:30 .net
なるほど。勘違いをしていたようです。
親切な説明有り難うございました!
まずはURLに行って勉強し直します。

67:DNS未登録さん
03/06/04 23:41 .net
Allowあるよ。ほれ。
URLリンク(www.robotstxt.org)
まあ「ないよ」と言い切られてしまう程度の知名度では
ロボットが実装していない可能性も非常に高いわけだが。

68:損権厨房 ◆mVeUbtZCI.
03/06/05 21:29 .net
naverは悪質

69:(゚з゚)
03/06/07 09:13 .net
何を今更。

70:t-akiyama
03/06/12 13:27 .net
携帯ゲーム機"プレイステーションポータブル(PSP)

 このPSPは、新規格UMD(ユニバーサルメディアディスク)というディスクを利用しており、そのサイズは直径6cmととても小さい(CDの半分程度)。 容量は1.8GBとなっている。
画面は4.5インチのTFT液晶で、480px x 272px(16:9)。MPEG4の再生やポリゴンも表示可能。外部端子として、USB2.0とメモリースティックコネクタが用意されているという。

この際、スク・エニもGBAからPSPに乗り換えたらどうでしょう。スク・エニの場合、PSPの方が実力を出しやすいような気がするんですが。
任天堂が携帯ゲーム機で圧倒的なシェアをもってるなら、スク・エニがそれを崩してみるのもおもしろいですし。かつて、PS人気の引き金となったFF7のように。

71:山崎 渉
03/07/15 11:13 .net

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

72:DNS未登録さん
03/07/30 04:18 .net
ロボットが拾っていくのは問題ないが、そのロボットの挙動が不信だったりすると
拒否したくなるんだよな。

挙動不審のロボットとは関係ないが、ia_archiverはどこかに適当に英語で消せやゴルァメールを送ると
直ちに注意することにするよ。
変わったのがわかるまで2~3営業日かかる。
参加してくれなくて残念だ。
とかいうメールが返ってきて
しばらくするとブロックしたとかでて見ることが出来なくなる。


73:ぼるじょあ ◆ySd1dMH5Gk
03/08/02 05:00 .net
     ∧_∧  ∧_∧
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
  = ◎―――◎                      山崎渉&ぼるじょあ

74:DNS未登録さん
03/08/09 16:08 .net
usen-(略).ap-US.usen.ad.jp
ってやつが、画像だけ持っていくようなアクセスをよくしてるんですが、
イメージ検索か何か動いてますか?



75:DNS未登録さん
03/08/09 22:45 .net
>>74
(略)だしねぇ。
その画像とはそやつが(;´Д`)ハァハァしそうな画像でつか?
毎回同じ画像でつか?

そこらへんが分からんと(ry

76:74
03/08/10 09:12 .net
プログラマの日記に載せてる写真とか、ぜんぜん(*´д`*)ハァハァできない画像です。
毎回違う画像ですが、何日かしたら前に取った画像もまた持っていきます。

過去ログのリンクを辿らないと出てこないような去年のものとかも、取得対象のようですが、
毎回全部持っていくわけではなくて、1ファイルとか3ファイルとか。

とにかく、なにが目的なのかサッパリ分からないので、そんなアクセスログを見たことがないでしょうか?
ってつもりでカキコしてみました。


77:74
03/08/10 09:14 .net
ちなみに、そいつのUserAgentは
Mozilla/3.01 (compatible;)
になってます。


78:75
03/08/11 00:05 .net
>>77
うーん、robotはぢきのページにも出てなかったしよく分からん……(w
どうしても気になるようだったらルーターとかでdenyしてみるとかどうよ?

明日あたり漏れの鯖のログも検索してみようかな。

79:DNS未登録さん
03/08/11 00:52 .net
NetCache だか CacheFlow だかのプロキシ箱がそういう UA で
先読みキャッシュしたような記憶があったようなないような。

80:山崎 渉
03/08/15 22:54 .net
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン

81:DNS未登録さん
03/12/01 13:04 .net
sage

82:DNS未登録さん
04/04/30 22:43 .net
neverbotのアクセスは連続攻撃でイクナイ。


83:DNS未登録さん
04/07/11 20:25 .net
msnbotもすごいやってきます。

ほかのロボットは一週間に一回ぐらいやってくるのですが、msnbotは一日一回は必ず来ます。
リンクがあるところは、更新されていないページも含めて全部。
CGIとか呼び出しまくりです(;´д⊂)

84:DNS未登録さん
04/07/11 20:45 .net
>>83
URLリンク(www.itmedia.co.jp)

85:83
04/07/11 21:24 .net
>>84
おおっ、この記事は読み落としていました。

二回読んで更新がなかったページの取得頻度は下げて欲しいなぁ
あんなに激しく取りに来るわりには、技術プレビューの検索結果にも出てこないし (;´Д`)

86:DNS未登録さん
04/09/04 01:14 .net
msnbotはp2みたいなの動かしていると凄い勢いでスレ
を舐めていくし…

アクセスログの半分以上がmsnbotなのは勘弁してくれよ。

ひとまずrobots.txtを置く、UAを見て無効なデータを返す、
ルータでフィルタする等の対策をとってみるかな?

87:83
04/09/16 01:19:07 .net
SetEnvIf User-Agent "msnbot.*" nolog
CustomLog access_log.txt combined env=!nolog

わたしは、これで無視することにしました

88:DNS未登録さん
04/10/09 12:47:01 .net
DDNSで今まで URLリンク(hoge.ddns.net) としてたのを
バーチャルホスト URLリンク(hoge.ddns.net) で見られるようにしたんだが、
相変わらずbotは /~ore でアクセスして来るんだけど、
これを拒否する方法ってある?

単純に
User-agent: *
Disallow: /~ore
でいいの?

89:DNS未登録さん
04/10/10 21:35:30 .net
>>88
/~ore/でアクセスしてきた時に404を返してやれば、そのうち来なくなるんじゃないの?

90:DNS未登録さん
04/10/25 23:37:13 .net
Yahoo! Slurp ってのがよく来るがヘ(゚д゚)ノ ナニコレ?

91:DNS未登録さん
04/10/27 20:22:38 .net
>>90
その名の通りYahooのクローラ

92:DNS未登録さん
04/10/27 20:26:49 .net
2ch型掲示板のcgiがあるディレクトリ(/test/)を禁止にしたら凄く減った。

93:92
04/10/29 00:15:47 .net
大失敗

94:DNS未登録さん
04/11/04 18:53:48 KyJO56Ns.net
そうか

95:DNS未登録さん
04/11/09 21:14:32 .net
てす

96:DNS未登録さん
04/11/12 01:30:00 Nh8fSwvV.net
ロボットは来ているのだが、Googleで検索して飛んでくる人が
最近とんと減ってしまった。なんでだろう?
YahooやMSNからの検索はそこそこ定常的にあるのに。
Googleからのもゼロって訳じゃないんだけどね。

うちのように小さなサイトは検索エンジンからのアクセスが
大切なアクセス源なのに。

原因がわかる人いる?

97:DNS未登録さん
04/11/13 01:06:47 .net
スパム認定かも。
あんまり同じ単語繰り返しても無視される傾向にある様な気がする。

98:96
04/11/13 16:16:27 .net
>>97
うーん、普通にいろんな日々の話題を扱ったブログを公開している程度で、
目を付けられるような動きじゃないはずなんですが…。
もしかしたら、IPアドレスの逆引きがISPのドメイン名になっている事が
まずいのかも知れないと思い、逆引き設定してくれるISPに引越し予定です。


99:DNS未登録さん
04/11/16 02:38:13 .net
うち、逆引きはプロバのドメイン名だけど、普通に登録されてるよ。

自分で検索してみて出てくる?

100:96
04/11/17 00:58:01 .net
自分で検索しても出てこんのです。(T_T)

そっか、逆引き不一致でも問題ないのかなぁ。とすると、原因は別のところか。
原因を探ってみます。
情報感謝です。

101:DNS未登録さん
05/01/21 00:59:57 .net
URLリンク(www.juraihelm.com)
漏れはこれを参考にした

102:DNS未登録さん
05/01/21 12:19:23 .net
>>101
基本的なことしか書いてない。

103:DNS未登録さん
05/01/29 01:01:41 .net
>>89
レスさんくす。亀レススマソ。
ずっと、/~ore/を403かえすようにしてたら、
2,3ヶ月経った今、検索結果も更新されてた。

しかし、本当に最近はmsnとyahooのbotがすごい勢いでくる。
そのせいか、更新頻度はyahooとかのほうが高い気がする。

104:定期age
05/02/03 12:39:25 .net
[Google,Yahoo!等]■ロボット型検索エンジン21■
スレリンク(hp板)
【Google】ページランクいくつよ6【PageRank】
スレリンク(hp板)
Googleから削除されました
スレリンク(hp板)
[Google,Yahoo!等]■ロボット型検索エンジン20■
スレリンク(hp板)
【Robots】Googleアーカイブが嫌い【NoArchive】
スレリンク(hp板)

105:DNS未登録さん
05/10/24 12:48:08 .net
保守

106:DNS未登録さん
05/11/09 07:26:23 .net
アニマル横町 第11話 第12話 「どき☆どき 占いパラダイス/どき☆どき 大げんか」 (WMV9 VGA 120f).avi rTS5D56UkW 225,006,346 ebae1fe40bdee39518a56c7109901839
URLリンク(www.imgup.org)

(=゚ω゚)ノ



107:DNS未登録さん
06/06/02 00:20:19 /2RXfUmf.net


108:DNS未登録さん
08/09/23 10:11:39 .net


109:DNS未登録さん
08/10/02 01:57:54 nEirrkI6.net
dissalowされたサイトだけ検索するエンジン作ったらヒットしそうだね!
誰か作って!

110:DNS未登録さん
08/10/04 08:03:45 .net
百度ひつこい

111:DNS未登録さん
08/10/05 00:15:29 .net
大体RFC化もされていない「紳士協定」に対して
目くじら立てるやつっておかしいと思わないか?

フリーオを問題視してる団体と完全に構図が一緒だ

112:DNS未登録さん
08/11/08 08:10:01 oHYIhwg4.net
naver の Yeti というのは、naver しか使ってないのか ?
それなら、USER_AGENT で Yeti を丸ごと弾いてしまおうと思うが。

113:DNS未登録さん
08/12/20 20:11:22 91fDHPXk.net
htaccessでBaiduspiderはrobots.txtだけにアクセス出来るように設定したなら、
他のファイルに1秒20回アクセスするという暴挙に至っている。
それだけでエラーログが巨大化しているw
こうなるとルータで弾くしかないのか。

114:DNS未登録さん
08/12/23 15:11:38 aGiF1pXb.net
javascript使って、ブラウザアクセスでしか開けないようにしておけば良いんでない?
趣旨が違う?
俺、掲示板に広告書き込むスクリプトがウザくて使ったら、一切来なくなったよ。

こんな感じ↓
URLリンク(www.google.co.jp) ←隠したいアドレス

-top.html-
<html><head>
<script type="text/javascript"><!--
function code(){add.innerHTML='<a href="URLリンク(www.goog)<)
</body></html>

アドレスをブツ切りにして記載してやれば、単純にテキストを検索して来た時は見えないし。
トップページは隠すの無理だけど。


115:DNS未登録さん
09/08/24 14:55:42 .net
>>114
GJ

116:DNS未登録さん
09/08/24 18:11:05 .net
とんだ先にアフィ貼るとかそういう落ちに期待したい(^◇^;

117:DNS未登録さん
10/09/27 10:57:04 9hieuaLl.net
robots.txtって、クローラはどこかのページにアクセスする際、
必ず見に来るものなのかな?

118:DNS未登録さん
10/09/28 02:34:40 .net
お行儀が良いクローラならね。
見る義務は無いし、見ても記述内容に従う義務は無い。

119:DNS未登録さん
10/11/01 13:26:41 .net
アクセスログを見ると、グーグルさんはちゃんとrobots.txtを見てくれてる

120:DNS未登録さん
11/01/24 23:43:10 .net
66.249.69.91 googlebotのIPらしいけど、
sshの辞書攻撃を毎日してくる。

121:DNS未登録さん
11/01/27 00:36:41 .net
なにそれ怖い

122:DNS未登録さん
11/01/29 23:13:36 .net
クレーム入れてみてくれ。

123:DNS未登録さん
11/01/30 11:49:53 .net
IP偽装してるだけだろ

124:DNS未登録さん
11/02/01 20:30:40 .net
どうやって偽装するんだ?

125:DNS未登録さん
11/03/13 08:04:32.30 .net
>>124
IPヘッダ書き換えりゃ偽装自体は出来る。
でもIPパケット送りつける事しか出来ない。

126:DNS未登録さん
11/10/16 02:11:24.30 .net
Ajaxばりばりのサイトでも突破できるクローラーってありますか?

127:126
11/10/16 13:33:18.84 .net
かんたんなDHTMLはいけても、
さすがに、GoogleMapも自動でリンクたどるとか無理ですよね?


128:DNS未登録さん
11/12/20 14:10:31.57 .net
yahooの検索結果に表示されては困る、でもgoogleやその他にはむしろガンガン表示して欲しいんだが、
そんな指定metaタグでできる?
無理ならブラウザ拡張のアドオンでもいいんだが。
教えてください。

129:DNS未登録さん
11/12/20 15:14:30.76 .net
今yahooの検索エンジンってgoogleのやつを使ってるんじゃなかった?

130:DNS未登録さん
11/12/20 17:10:58.19 .net
そこが問題なんだよなー。
なんかいい方法ないかな。
アドオン探してもgoogleのは見つかるが、yahooで検索結果から除外できるようなアドオンは無いみたいだし。

131:DNS未登録さん
12/02/20 20:02:21.28 .net
八巻正治さんについて思うこと。
いつもは宗教心あふれる教師面して"福祉とはかくあるべき"と講釈たれてるのに、
自分の気に食わないことを言われると個人的な感情全開にして、己の懐の狭さが露見するよね。

八巻正治さんは、他人には潔さを求めるのに、自身の発言には一切の責任を取らない。
これ程まで薄っぺらい人間を、他には知らない。
ニューポート大学大学院博士だけのことはあるね。

132:電脳プリオン 忍法帖【Lv=40,xxxPT】(1+0:8) 【21.4m】
13/08/31 NY:AN:NY.AN .net ?PLT(12080)
  ∧_∧
  ( ・∀・)            人 ガッ
  (    つ―-‐-‐-‐-‐-‐○ <  >__Λ∩
  人 Y ノ.             V`Д´)/
  し(_)                  /  ←>>59

133:DNS未登録さん
17/02/03 12:44:05.83 UpAhIUM+.net
yandexに本気で殺意を覚えた
どこから来やがった氏ね

134:DNS未登録さん
17/08/24 08:24:43.19 CVAFOrrA.net
最近,Baiduクローラーからのアクセスが来るよになったのでIPが変わったのかと思って,
確認したら変わっていない。
Apacheでアクセス拒否にしているのに…
で,しょうがないので上流のファイヤーウォールでアクセス拒否にしても何故かやってくる…
これは一体どういうことだw
送信元を詐称して,詐称先にパケットを返しているのかな?
謎挙動なんだがw

135:DNS未登録さん
23/02/09 13:11:35.96 .net
…-y(  ̄д ̄).。o○

136:DNS未登録さん
23/08/01 17:41:51.18 d5qrPU9fC
また岸田異次元増税憲法ガン無視地球破壞軍國主義文雄か゛今度は中東にまでノコノコ莫大な温室効果カ゛スまき散らしなか゛ら世界中にハ゛力晒して
しかもと゛の囗で脱炭素た゛のとほざいてやがんた゛か,力による一方的な現状変更によって都心まて゛数珠つなぎで鉄道のЗ0倍以上もの莫大な温室
効果ガスまき散らすクソ航空機倍増させて氣侯変動させて世界中て゛土砂崩れに洪水,暴風.猛暑、干は゛つにと災害連發させて核攻撃の何倍もの
人的物的被害を与えてるクソテ囗リス├か゛囗シア非難とか笑わせんのもいい加減にしとけや.気侯変動による世界の難民の数は1億人を超えて
いるわけだが.日本て゛も洪水やクソ航空騒音によって住む場所を追われる被害者だらけ.豪雨やら灼熱地獄によって被害を受けた連中は被災者
ではなく、テロ政府による人為的なテ口によって破壊され殺されたんた゛といい加減理解して立ち上がれよな,被災者支援た゛のと白々しい増税と
利権のネタにされて生命と財産を奪われるマソ゛体質マシ゛キモチワ儿ヰぞ,プ一チンや金正恩は.このデタラメシ゛ェ丿サイト゛プ□パガンダテロ
國家の本質を追求して正当性をアピ-儿すれは゛、世界的な悪者は曰本に原爆落とした世界最悪のならず者國家とその-味た゛と八ッキリするだろ

創価学會員は,何百万人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最悪の殺人腐敗組織公明党を
池田センセ‐が□をきけて容認するとか本気で思ってるとしたら侮辱にもほと゛か゛あるぞ!
hΤтРs://i、imgur,сom/hnli1ga.jpeg


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch