[クローラー]ロボット対策スレ[robots.txt]at MYSV
[クローラー]ロボット対策スレ[robots.txt] - 暇つぶし2ch2:DNS未登録さん
03/03/11 21:44 .net
既出でなければ良スレの予感

3:DNS未登録さん
03/03/11 21:54 .net
やってる事は反対のスレだけど一応

[Google]■ロボット型検索エンジン10■
スレリンク(hp板)

4:DNS未登録さん
03/03/11 21:55 .net
板違いの予感。

5:DNS未登録さん
03/03/11 22:47 .net
Webサイトを公開しない。終了。

6:新・世直し一揆(コピペ推奨)
03/03/11 22:48 HYAbP130.net
<血液型A型の一般的な特徴>(見せかけのもっともらしさ(偽善)に騙されるな!!)
●とにかく神経質で気が小さい、了見が狭い(臆病、二言目には「世間」(「世間」と言っても、一部のA型を中心とした一部の人間の動向に過ぎない))
●他人に異常に干渉して自分たちのシキタリを押し付け、それから少しでも外れる奴に対しては好戦的でファイト満々な態度をとり、かなりキモイ(自己中心、硬直的でデリカシーがない)
●妙に気位が高く、自分が馬鹿にされるとカッと怒るくせに平気で他人を馬鹿にしようとする(ただし、相手を表面的・形式的にしか判断できず(早合点・誤解の名人)、実際にはたいてい、内面的・実質的に負けていることが多い)
●権力、強者には平身低頭だが、弱者に対しては八つ当たり等していじめる(強い者にはへつらい、弱い者に対してはいじめる)
●あら探しだけは名人級でウザく、とにかく否定的(例え10の長所があっても褒めることをせず、たった1つの短所を見つけては貶す)
●基本的に悲観主義でマイナス思考に支配されているため性格が鬱陶しい(根暗)
●何でも「右へ習え」で、単独では何もできない(群れでしか行動できないヘタレ)
●少数派の異質・異文化を理解しようとせず、あるいは理解を示さず、排斥する(差別主義者、狭量、視野が狭い、多数派=正しい と信じて疑わない)
●集団によるいじめのリーダーとなり皆を先導する(陰湿かつ陰険で狡猾)
●他人の悪口・陰口を好むと同時に、自分は他人からどう見られているか、人の目を異常に気にする(自分がそうだから容易に他人を信用できない、ポーズだけで中身を伴っていないことが多い、世間体命)
●自分の感情をうまく表現できず、コミュニケーション能力に乏しい(同じことをレコードの再生のように何度も言って変)
●たとえ友達が多い奴でも、いずれも浅い付き合いでしかなく、心の友達はいない(心の感度が低く・包容力がなく・冷酷だから)
●頭が硬く融通が利かないためストレスを溜め込みやすく、また短気で、地雷持ちが多い(不合理な馬鹿)
●たとえ後で自分の誤りに気づいても、素直に謝れず強引に筋を通し、こじつけの言い訳ばかりする(もう腹を切るしかない!)
●男は、女々しいあるいは女の腐ったみたいな考えのやつが多い(例:「俺のほうが男前やのに、なんでや!(あの野郎の足を引っ張ってやる!!)」)

7:DNS未登録さん
03/03/11 22:58 .net
>>5
どこがおもしろいのか教えてくれ。

8:DNS未登録さん
03/03/11 23:01 .net
>>7
マジレスなんだがね。

norobotとか何とかは所詮「持ってかないで下さいお願いします」程度の実行力しかない訳で。
何個あるかわからないrobotエンジンすべてのUAやホスト名を弾くのも現実的ではない。

ほら、Webサイトを公開しない位しか選択肢はない。

google、Yahoo、goo程度なら>>3のスレで答えが出てるからそもそもこのスレの存在意義はない。


9:DNS未登録さん
03/03/11 23:01 .net
>>7=>>1

10:DNS未登録さん
03/03/11 23:03 .net
robots.txt を読まないバカ。@本日03/03/11分
deny にしてあげよう。
24.138.50.177 - - [11/Mar/2003:16:53:09 +0900] "GET / HTTP/1.1" 200 9881 "-" "Mozilla/4.0 (compatible; grub-client-1.0.7; Crawl your own stuff with URLリンク(grub.org)<))"


11:DNS未登録さん
03/03/11 23:07 .net
>>10
FAQに
User-agent: grub-client
Disallow: /
で制限できるって書いてあるけど

12:DNS未登録さん
03/03/11 23:09 .net
>>8
特に悪質なのだけUA、IPアドレスで弾けばいいのでは

13:DNS未登録さん
03/03/11 23:22 .net
>>11
あー別にどーでもいーサイトなので放置しています。

14:DNS未登録さん
03/03/11 23:23 .net
>>11
ちゅーか、そもそもrobots.txtを読まないので、(ry

15:DNS未登録さん
03/03/11 23:34 .net
検索エンジンは別にいいんだが、厄介なのはarchive.orgだ。
いつまでも保存しておくんじゃねーよ(-_-;)

16:DNS未登録さん
03/03/12 00:06 .net
Diskあぼーんしてもうて、バックアップしていなかったものを
archive.orgから再構築したことがあるのは秘密。
自分ですら忘れていたような3年前のデータを律儀にとっておいて
くれたことをありがたがったことも秘密。

17:DNS未登録さん
03/03/12 00:15 .net
robots.txtに↓を入れると見えなくなって、英文でメールを出すと完全に削除してもらえるんだっけ?
User-agent: ia_archiver
Disallow: /

18:DNS未登録さん
03/03/12 01:22 .net
>>11
User-Agentを指定しないとダメな仕様って好きじゃない
使う前に十分な宣伝をする訳じゃないんだから
一度喰らってからじゃないと制限できないもん

19:損権厨房 ◆mVeUbtZCI.
03/03/12 06:34 mAgVp5Wp.net
>>18
だからここで情報を交換しようと言うわけじゃ無いのか?

20:DNS未登録さん
03/03/12 06:54 .net
良スレにしようよ

21:DNS未登録さん
03/03/12 09:10 .net
>>19
無駄な抵抗なんだよ。公開しない。HTTPを使わない。認証システムの導入。これ。

22:DNS未登録さん
03/03/12 10:45 .net
robots.txt は Disallow があっても Allow がない腐れ仕様。

つーか、板違い。Web制作板へ。
この板でやるなら、HTTPレベルではなく、ロボットがやってくるIPアドレスを
ファイアウォールでdenyするぐらいの話をしてください。


23:DNS未登録さん
03/03/12 10:47 .net
って言うかそこまでして読まれたくない 公 開 サイトって何よ?

24:アヒル ◆QxAhirugWI
03/03/12 11:02 .net
>>23
見られるかもしれないっていうどきどき感が良いんじゃない?

25:DNS未登録さん
03/03/12 11:45 .net
robots.txtってルートに置かないとダメだから
自宅鯖向きの話題だと思うけどなぁ・・・

26:DNS未登録さん
03/03/12 11:46 .net
>>25
注:エンジン次第です

27:DNS未登録さん
03/03/12 12:15 .net
読まれたくないってんじゃなくて
CGIの出力とかクロールしてもしょうがないものをやめさせて
鯖の負担を軽くするもんじゃないの?


28:DNS未登録さん
03/03/12 13:04 .net
>>27
そんな数時間に一回飛んでくるとかならまだしも。

29:DNS未登録さん
03/03/12 13:15 .net
>>28
こんなのもあるぞ

確証はないが、おそらく デジタルアーツ の 企業情報収集代行 (Net iScope)用 のロボット、
もしくは フィルタリングソフト (「i-フィルター」)のデータベース構築用。
ドメイン名からすると後者っぽいですが、データを流用している 可能性もあり。
大義名分のためか、/robots.txt は読みません。UAもなし。 HEAD→GET したり、
"...#XXX" と "...#YYY" は別に取得するといった、 シロート製ロボットに非常にありがちな動作をします。
(HEAD→GET間は基本的にあかない。 2001/10以降のものはGETのみ)
ドブさらい系ではなく、めぼしい人の物だけを持っていく模様。
取得は割とアグレッシブで、非ブラウザではヒット数1位となる日も めずらしくありません。
単に有害サイト検出にしてはえらく頻度が高いので、 「企業情報収集」に使われているような気もします。

URLリンク(www.dais.is.tohoku.ac.jp)

30:DNS未登録さん
03/03/12 13:20 .net
>非ブラウザではヒット数1位となる日も

なぁ、この書き方だとその他1%のトップの場合もあり得るわけだ。


31:DNS未登録さん
03/03/12 13:21 .net
ネイバーとmogimogiモナー

32:DNS未登録さん
03/03/13 14:15 .net
ロボット対策で一ついい事を教えてやろう。
自分のサイト内コンテンツ閲覧の際、常にリファ必須とすればよろし。
リファなし或いは自サイトと関係ないまたは存在しないURLのリファだった場合、警視庁にでも
飛ばせばよろし。
以上。

33:DNS未登録さん
03/03/13 14:57 .net
>>32
逝って良し。
古風に表現してみるテスト

34:山崎渉
03/03/13 16:59 .net
(^^)

35:DNS未登録さん
03/03/13 18:59 .net
>>33
ハァ?
まートップページは読まれてしまうが、それ以降は読まれないぞ?
少なくともグーグルボットはリファ吐かないから自サイト外へ飛ばせるが何か?

36:DNS未登録さん
03/03/13 19:07 .net
>>35
最近のパーソナルファイヤーウォールソフトはブラウザにリファ吐かせないようにしたりするから
そのやり方だとユーザからクレームがバンバン入るぞ。

リファ吐かせないことで何を守ってるのかよくわからんけど。

37:DNS未登録さん
03/03/13 20:39 .net
>>36
んなヤシは切り捨てればよろし。マジで。
というか、なんでリファ消すかなぁ?>そういうヤシら。
リファがあるのが普通なんだしね。無いほうが異常。そんな異常なヤシがアクセス
するから鯖の方も異常をきたす。
なんかのセキュリティ対策なのかな?もしそうならただのアホだよね。
というか、漏れからみればただのバカ。

38:DNS未登録さん
03/03/13 20:40 .net
>鯖の方も異常をきたす
ワロタ

39:DNS未登録さん
03/03/13 21:14 .net
RFC2616(HTTP1.1) では Referer を送るかどうかは MUST ではないし。
むしろ、Referer を送るか送らないかをユーザで選択できるインターフェースを
作りこむことをブラウザの作者に推奨してるし。

むしろ、前に見ていたページではない URL を Referer として送ってしまう
バグ(RFC では MUST NOT とされている)のあるブラウザが後を立たない現状では
パーソナルファイアウォールやローカルプロキシで消してしまうのが
いらん情報漏曳を防ぐためのもっとも合理的な解。

>>32
つーか、そもそも Referer をちゃんと送ってくるロボットなんて珍しくないし。
たとえば、>>29で挙げられているロボットはアクセス先 URL と同じ URL を
常に Referer として送ってくる。


40:DNS未登録さん
03/03/13 21:37 .net
つまりそれらと同じ事を鯖側も選択自由ということですよ。
リファがあろうがなかろうが、鯖側がリファ見る仕様ならクライアントが対応すれば
いいこと。鯖側が対応する次元の話ではない。それが気に入らないクライアントは
コンテンツを見なければいいだけの事。そこで自我を通そうとする行為はまた別の
お話。

リファが情報漏洩の引き金になった話は聞いたことがないが?
それ以前にあんな糞ブラウザなんぞ使っているヤシの気が知れない。
というか、リファ認証なんかは通れなくなるのだが?
まーリファを消しているクライアントがリファをオンにすればいいだけの話だが。

>たとえば、>>29で挙げられているロボットはアクセス先 URL と同じ URL を
>常に Referer として送ってくる。
というか、それではリファとは言えないのだが。。。

41:DNS未登録さん
03/03/13 21:43 .net
んでもリファラー見るってロボット対策の一つになるんじゃないの?

42:DNS未登録さん
03/03/14 02:07 .net
>リファが情報漏洩の引き金になった話は聞いたことがないが?

勉強不足です。セッション ID を URL の一部に含めるような
Web アプリケーションでは、referer 漏れによって第三者に
セッションハイジャックを許す脆弱性を持ったものがあります。

>それ以前にあんな糞ブラウザなんぞ使っているヤシの気が知れない。

過去には IE も mozilla も referer 漏れするバグがありましたが。
au の携帯電話にも。


43:DNS未登録さん
03/03/14 20:08 .net
というか、セッションジャックされるスクリプト言語とそれを走らせてる鯖が悪い。
リファラーは潔白。
つーかバイオレンスジャックはかなり好きだぞ。

44:DNS未登録さん
03/03/14 23:25 .net
ロボットへの対策としてある程度は有効。
ここではそれだけ分かればいい。

45:DNS未登録さん
03/03/15 14:14 .net
>>44
>ある程度は有効。
≒気休め。

46:DNS未登録さん
03/03/15 18:46 .net
>>45
試してからカキコしろよ。

47:DNS未登録さん
03/03/15 19:01 .net
>>46
じゃあ超無敵!とか書いとけ(藁


48:DNS未登録さん
03/03/15 22:14 .net
>>47
何言ってんだよ、意味見えねーよ(w

49:DNS未登録さん
03/03/16 15:55 .net
漏れ合体ロボットの方が好きだな

50:DNS未登録さん
03/03/16 19:30 .net
六神合体ゴッドマーズか?

51: ◆f2enGI/www
03/03/18 04:28 .net
何らかの認証かけときゃ済む話のような気がしなくもない。

52:DNS未登録さん
03/03/18 21:16 .net
fastsearch.netウザい


53:損権厨房 ◆mVeUbtZCI.
03/03/19 15:49 .net
とりあえずさ、真っ当な有名所ならrobots.txtやMETAで防げばいいわけだし
真っ当じゃ無い所はその情報をここで出せばいいじゃん?
セキュリティと一緒でこれだけをやっておけば安心と言うのは無いと思うが?

54:損権厨房 ◆mVeUbtZCI.
03/03/19 15:50 .net
> とりあえずさ、真っ当な有名所ならrobots.txtやMETAで防げばいいわけだし
対策が掲載されている所ならの間違い

55:DNS未登録さん
03/03/24 06:00 .net
ここで書かれたこと全部やれば対策になるんじゃない?
ロボット、リファ、ホスト制限。

特定の人にしか公開しないならポート番号変えるとか
各種認証入れればいい。

56:DNS未登録さん
03/03/28 19:56 .net
>>55
賛成

57:DNS未登録さん
03/04/16 09:55 .net
まさかこれで解決でこのスレ終了なのか?

58:山崎渉
03/04/17 12:08 .net
(^^)

59:山崎渉
03/04/20 05:57 .net
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

60:山崎渉
03/05/22 02:01 .net
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―

61:山崎渉
03/05/28 17:06 .net
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎―◎                      山崎渉

62:DNS未登録さん
03/06/03 17:23 PU5IZDlX.net
すみません、質問なんですが

User-agent: ia_archiver
Disallow: /aaa
Allow: /aaa/bbb

User-agent: ia_archiver
Allow: /aaa/bbb
Disallow: /aaa

このとき順番はどっちが正しいんでしょうか…
aaaというディレクトリの中でbbbだけ許可したいんです。

63:DNS未登録さん
03/06/03 17:27 .net
/aaa以外のディレクトリはどうしたいの?

64:DNS未登録さん
03/06/03 17:43 .net
書き忘れてすみません。
/aaa以外は許可です。

65:名無しさん@カラアゲうまうま
03/06/03 18:28 .net
robots.txt の仕様に Disallow はありますが、Allow はありません。
# Allow を解釈するロボットもあるかもしれんけど。

URLリンク(www.robotstxt.org)
URLリンク(www.robotstxt.org)

複雑な robots.txt を書いても、それをロボットが意図したとおりに
解釈してくれなきゃ意味がないので、「正しい書き方はどっち」と聞くよりも、
意図どおり解釈される書き方を試行錯誤して見つけだす方がいいのではないかと。
すんげー面倒だけど。

66:DNS未登録さん
03/06/03 18:30 .net
なるほど。勘違いをしていたようです。
親切な説明有り難うございました!
まずはURLに行って勉強し直します。

67:DNS未登録さん
03/06/04 23:41 .net
Allowあるよ。ほれ。
URLリンク(www.robotstxt.org)
まあ「ないよ」と言い切られてしまう程度の知名度では
ロボットが実装していない可能性も非常に高いわけだが。

68:損権厨房 ◆mVeUbtZCI.
03/06/05 21:29 .net
naverは悪質

69:(゚з゚)
03/06/07 09:13 .net
何を今更。

70:t-akiyama
03/06/12 13:27 .net
携帯ゲーム機"プレイステーションポータブル(PSP)

 このPSPは、新規格UMD(ユニバーサルメディアディスク)というディスクを利用しており、そのサイズは直径6cmととても小さい(CDの半分程度)。 容量は1.8GBとなっている。
画面は4.5インチのTFT液晶で、480px x 272px(16:9)。MPEG4の再生やポリゴンも表示可能。外部端子として、USB2.0とメモリースティックコネクタが用意されているという。

この際、スク・エニもGBAからPSPに乗り換えたらどうでしょう。スク・エニの場合、PSPの方が実力を出しやすいような気がするんですが。
任天堂が携帯ゲーム機で圧倒的なシェアをもってるなら、スク・エニがそれを崩してみるのもおもしろいですし。かつて、PS人気の引き金となったFF7のように。

71:山崎 渉
03/07/15 11:13 .net

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

72:DNS未登録さん
03/07/30 04:18 .net
ロボットが拾っていくのは問題ないが、そのロボットの挙動が不信だったりすると
拒否したくなるんだよな。

挙動不審のロボットとは関係ないが、ia_archiverはどこかに適当に英語で消せやゴルァメールを送ると
直ちに注意することにするよ。
変わったのがわかるまで2~3営業日かかる。
参加してくれなくて残念だ。
とかいうメールが返ってきて
しばらくするとブロックしたとかでて見ることが出来なくなる。


73:ぼるじょあ ◆ySd1dMH5Gk
03/08/02 05:00 .net
     ∧_∧  ∧_∧
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
  = ◎―――◎                      山崎渉&ぼるじょあ

74:DNS未登録さん
03/08/09 16:08 .net
usen-(略).ap-US.usen.ad.jp
ってやつが、画像だけ持っていくようなアクセスをよくしてるんですが、
イメージ検索か何か動いてますか?



75:DNS未登録さん
03/08/09 22:45 .net
>>74
(略)だしねぇ。
その画像とはそやつが(;´Д`)ハァハァしそうな画像でつか?
毎回同じ画像でつか?

そこらへんが分からんと(ry

76:74
03/08/10 09:12 .net
プログラマの日記に載せてる写真とか、ぜんぜん(*´д`*)ハァハァできない画像です。
毎回違う画像ですが、何日かしたら前に取った画像もまた持っていきます。

過去ログのリンクを辿らないと出てこないような去年のものとかも、取得対象のようですが、
毎回全部持っていくわけではなくて、1ファイルとか3ファイルとか。

とにかく、なにが目的なのかサッパリ分からないので、そんなアクセスログを見たことがないでしょうか?
ってつもりでカキコしてみました。


77:74
03/08/10 09:14 .net
ちなみに、そいつのUserAgentは
Mozilla/3.01 (compatible;)
になってます。


78:75
03/08/11 00:05 .net
>>77
うーん、robotはぢきのページにも出てなかったしよく分からん……(w
どうしても気になるようだったらルーターとかでdenyしてみるとかどうよ?

明日あたり漏れの鯖のログも検索してみようかな。

79:DNS未登録さん
03/08/11 00:52 .net
NetCache だか CacheFlow だかのプロキシ箱がそういう UA で
先読みキャッシュしたような記憶があったようなないような。

80:山崎 渉
03/08/15 22:54 .net
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン

81:DNS未登録さん
03/12/01 13:04 .net
sage

82:DNS未登録さん
04/04/30 22:43 .net
neverbotのアクセスは連続攻撃でイクナイ。


83:DNS未登録さん
04/07/11 20:25 .net
msnbotもすごいやってきます。

ほかのロボットは一週間に一回ぐらいやってくるのですが、msnbotは一日一回は必ず来ます。
リンクがあるところは、更新されていないページも含めて全部。
CGIとか呼び出しまくりです(;´д⊂)

84:DNS未登録さん
04/07/11 20:45 .net
>>83
URLリンク(www.itmedia.co.jp)

85:83
04/07/11 21:24 .net
>>84
おおっ、この記事は読み落としていました。

二回読んで更新がなかったページの取得頻度は下げて欲しいなぁ
あんなに激しく取りに来るわりには、技術プレビューの検索結果にも出てこないし (;´Д`)

86:DNS未登録さん
04/09/04 01:14 .net
msnbotはp2みたいなの動かしていると凄い勢いでスレ
を舐めていくし…

アクセスログの半分以上がmsnbotなのは勘弁してくれよ。

ひとまずrobots.txtを置く、UAを見て無効なデータを返す、
ルータでフィルタする等の対策をとってみるかな?

87:83
04/09/16 01:19:07 .net
SetEnvIf User-Agent "msnbot.*" nolog
CustomLog access_log.txt combined env=!nolog

わたしは、これで無視することにしました

88:DNS未登録さん
04/10/09 12:47:01 .net
DDNSで今まで URLリンク(hoge.ddns.net) としてたのを
バーチャルホスト URLリンク(hoge.ddns.net) で見られるようにしたんだが、
相変わらずbotは /~ore でアクセスして来るんだけど、
これを拒否する方法ってある?

単純に
User-agent: *
Disallow: /~ore
でいいの?

89:DNS未登録さん
04/10/10 21:35:30 .net
>>88
/~ore/でアクセスしてきた時に404を返してやれば、そのうち来なくなるんじゃないの?

90:DNS未登録さん
04/10/25 23:37:13 .net
Yahoo! Slurp ってのがよく来るがヘ(゚д゚)ノ ナニコレ?

91:DNS未登録さん
04/10/27 20:22:38 .net
>>90
その名の通りYahooのクローラ

92:DNS未登録さん
04/10/27 20:26:49 .net
2ch型掲示板のcgiがあるディレクトリ(/test/)を禁止にしたら凄く減った。

93:92
04/10/29 00:15:47 .net
大失敗

94:DNS未登録さん
04/11/04 18:53:48 KyJO56Ns.net
そうか

95:DNS未登録さん
04/11/09 21:14:32 .net
てす

96:DNS未登録さん
04/11/12 01:30:00 Nh8fSwvV.net
ロボットは来ているのだが、Googleで検索して飛んでくる人が
最近とんと減ってしまった。なんでだろう?
YahooやMSNからの検索はそこそこ定常的にあるのに。
Googleからのもゼロって訳じゃないんだけどね。

うちのように小さなサイトは検索エンジンからのアクセスが
大切なアクセス源なのに。

原因がわかる人いる?

97:DNS未登録さん
04/11/13 01:06:47 .net
スパム認定かも。
あんまり同じ単語繰り返しても無視される傾向にある様な気がする。

98:96
04/11/13 16:16:27 .net
>>97
うーん、普通にいろんな日々の話題を扱ったブログを公開している程度で、
目を付けられるような動きじゃないはずなんですが…。
もしかしたら、IPアドレスの逆引きがISPのドメイン名になっている事が
まずいのかも知れないと思い、逆引き設定してくれるISPに引越し予定です。


99:DNS未登録さん
04/11/16 02:38:13 .net
うち、逆引きはプロバのドメイン名だけど、普通に登録されてるよ。

自分で検索してみて出てくる?

100:96
04/11/17 00:58:01 .net
自分で検索しても出てこんのです。(T_T)

そっか、逆引き不一致でも問題ないのかなぁ。とすると、原因は別のところか。
原因を探ってみます。
情報感謝です。

101:DNS未登録さん
05/01/21 00:59:57 .net
URLリンク(www.juraihelm.com)
漏れはこれを参考にした

102:DNS未登録さん
05/01/21 12:19:23 .net
>>101
基本的なことしか書いてない。

103:DNS未登録さん
05/01/29 01:01:41 .net
>>89
レスさんくす。亀レススマソ。
ずっと、/~ore/を403かえすようにしてたら、
2,3ヶ月経った今、検索結果も更新されてた。

しかし、本当に最近はmsnとyahooのbotがすごい勢いでくる。
そのせいか、更新頻度はyahooとかのほうが高い気がする。

104:定期age
05/02/03 12:39:25 .net
[Google,Yahoo!等]■ロボット型検索エンジン21■
スレリンク(hp板)
【Google】ページランクいくつよ6【PageRank】
スレリンク(hp板)
Googleから削除されました
スレリンク(hp板)
[Google,Yahoo!等]■ロボット型検索エンジン20■
スレリンク(hp板)
【Robots】Googleアーカイブが嫌い【NoArchive】
スレリンク(hp板)

105:DNS未登録さん
05/10/24 12:48:08 .net
保守

106:DNS未登録さん
05/11/09 07:26:23 .net
アニマル横町 第11話 第12話 「どき☆どき 占いパラダイス/どき☆どき 大げんか」 (WMV9 VGA 120f).avi rTS5D56UkW 225,006,346 ebae1fe40bdee39518a56c7109901839
URLリンク(www.imgup.org)

(=゚ω゚)ノ



107:DNS未登録さん
06/06/02 00:20:19 /2RXfUmf.net


108:DNS未登録さん
08/09/23 10:11:39 .net


109:DNS未登録さん
08/10/02 01:57:54 nEirrkI6.net
dissalowされたサイトだけ検索するエンジン作ったらヒットしそうだね!
誰か作って!

110:DNS未登録さん
08/10/04 08:03:45 .net
百度ひつこい

111:DNS未登録さん
08/10/05 00:15:29 .net
大体RFC化もされていない「紳士協定」に対して
目くじら立てるやつっておかしいと思わないか?

フリーオを問題視してる団体と完全に構図が一緒だ

112:DNS未登録さん
08/11/08 08:10:01 oHYIhwg4.net
naver の Yeti というのは、naver しか使ってないのか ?
それなら、USER_AGENT で Yeti を丸ごと弾いてしまおうと思うが。

113:DNS未登録さん
08/12/20 20:11:22 91fDHPXk.net
htaccessでBaiduspiderはrobots.txtだけにアクセス出来るように設定したなら、
他のファイルに1秒20回アクセスするという暴挙に至っている。
それだけでエラーログが巨大化しているw
こうなるとルータで弾くしかないのか。

114:DNS未登録さん
08/12/23 15:11:38 aGiF1pXb.net
javascript使って、ブラウザアクセスでしか開けないようにしておけば良いんでない?
趣旨が違う?
俺、掲示板に広告書き込むスクリプトがウザくて使ったら、一切来なくなったよ。

こんな感じ↓
URLリンク(www.google.co.jp) ←隠したいアドレス

-top.html-
<html><head>
<script type="text/javascript"><!--
function code(){add.innerHTML='<a href="URLリンク(www.goog)<)
</body></html>

アドレスをブツ切りにして記載してやれば、単純にテキストを検索して来た時は見えないし。
トップページは隠すの無理だけど。


115:DNS未登録さん
09/08/24 14:55:42 .net
>>114
GJ

116:DNS未登録さん
09/08/24 18:11:05 .net
とんだ先にアフィ貼るとかそういう落ちに期待したい(^◇^;

117:DNS未登録さん
10/09/27 10:57:04 9hieuaLl.net
robots.txtって、クローラはどこかのページにアクセスする際、
必ず見に来るものなのかな?

118:DNS未登録さん
10/09/28 02:34:40 .net
お行儀が良いクローラならね。
見る義務は無いし、見ても記述内容に従う義務は無い。

119:DNS未登録さん
10/11/01 13:26:41 .net
アクセスログを見ると、グーグルさんはちゃんとrobots.txtを見てくれてる

120:DNS未登録さん
11/01/24 23:43:10 .net
66.249.69.91 googlebotのIPらしいけど、
sshの辞書攻撃を毎日してくる。

121:DNS未登録さん
11/01/27 00:36:41 .net
なにそれ怖い

122:DNS未登録さん
11/01/29 23:13:36 .net
クレーム入れてみてくれ。

123:DNS未登録さん
11/01/30 11:49:53 .net
IP偽装してるだけだろ

124:DNS未登録さん
11/02/01 20:30:40 .net
どうやって偽装するんだ?

125:DNS未登録さん
11/03/13 08:04:32.30 .net
>>124
IPヘッダ書き換えりゃ偽装自体は出来る。
でもIPパケット送りつける事しか出来ない。

126:DNS未登録さん
11/10/16 02:11:24.30 .net
Ajaxばりばりのサイトでも突破できるクローラーってありますか?

127:126
11/10/16 13:33:18.84 .net
かんたんなDHTMLはいけても、
さすがに、GoogleMapも自動でリンクたどるとか無理ですよね?


128:DNS未登録さん
11/12/20 14:10:31.57 .net
yahooの検索結果に表示されては困る、でもgoogleやその他にはむしろガンガン表示して欲しいんだが、
そんな指定metaタグでできる?
無理ならブラウザ拡張のアドオンでもいいんだが。
教えてください。

129:DNS未登録さん
11/12/20 15:14:30.76 .net
今yahooの検索エンジンってgoogleのやつを使ってるんじゃなかった?

130:DNS未登録さん
11/12/20 17:10:58.19 .net
そこが問題なんだよなー。
なんかいい方法ないかな。
アドオン探してもgoogleのは見つかるが、yahooで検索結果から除外できるようなアドオンは無いみたいだし。

131:DNS未登録さん
12/02/20 20:02:21.28 .net
八巻正治さんについて思うこと。
いつもは宗教心あふれる教師面して"福祉とはかくあるべき"と講釈たれてるのに、
自分の気に食わないことを言われると個人的な感情全開にして、己の懐の狭さが露見するよね。

八巻正治さんは、他人には潔さを求めるのに、自身の発言には一切の責任を取らない。
これ程まで薄っぺらい人間を、他には知らない。
ニューポート大学大学院博士だけのことはあるね。

132:電脳プリオン 忍法帖【Lv=40,xxxPT】(1+0:8) 【21.4m】
13/08/31 NY:AN:NY.AN .net ?PLT(12080)
  ∧_∧
  ( ・∀・)            人 ガッ
  (    つ―-‐-‐-‐-‐-‐○ <  >__Λ∩
  人 Y ノ.             V`Д´)/
  し(_)                  /  ←>>59

133:DNS未登録さん
17/02/03 12:44:05.83 UpAhIUM+.net
yandexに本気で殺意を覚えた
どこから来やがった氏ね

134:DNS未登録さん
17/08/24 08:24:43.19 CVAFOrrA.net
最近,Baiduクローラーからのアクセスが来るよになったのでIPが変わったのかと思って,
確認したら変わっていない。
Apacheでアクセス拒否にしているのに…
で,しょうがないので上流のファイヤーウォールでアクセス拒否にしても何故かやってくる…
これは一体どういうことだw
送信元を詐称して,詐称先にパケットを返しているのかな?
謎挙動なんだがw

135:DNS未登録さん
23/02/09 13:11:35.96 .net
…-y(  ̄д ̄).。o○

136:DNS未登録さん
23/08/01 17:41:51.18 d5qrPU9fC
また岸田異次元増税憲法ガン無視地球破壞軍國主義文雄か゛今度は中東にまでノコノコ莫大な温室効果カ゛スまき散らしなか゛ら世界中にハ゛力晒して
しかもと゛の囗で脱炭素た゛のとほざいてやがんた゛か,力による一方的な現状変更によって都心まて゛数珠つなぎで鉄道のЗ0倍以上もの莫大な温室
効果ガスまき散らすクソ航空機倍増させて氣侯変動させて世界中て゛土砂崩れに洪水,暴風.猛暑、干は゛つにと災害連發させて核攻撃の何倍もの
人的物的被害を与えてるクソテ囗リス├か゛囗シア非難とか笑わせんのもいい加減にしとけや.気侯変動による世界の難民の数は1億人を超えて
いるわけだが.日本て゛も洪水やクソ航空騒音によって住む場所を追われる被害者だらけ.豪雨やら灼熱地獄によって被害を受けた連中は被災者
ではなく、テロ政府による人為的なテ口によって破壊され殺されたんた゛といい加減理解して立ち上がれよな,被災者支援た゛のと白々しい増税と
利権のネタにされて生命と財産を奪われるマソ゛体質マシ゛キモチワ儿ヰぞ,プ一チンや金正恩は.このデタラメシ゛ェ丿サイト゛プ□パガンダテロ
國家の本質を追求して正当性をアピ-儿すれは゛、世界的な悪者は曰本に原爆落とした世界最悪のならず者國家とその-味た゛と八ッキリするだろ

創価学會員は,何百万人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最悪の殺人腐敗組織公明党を
池田センセ‐が□をきけて容認するとか本気で思ってるとしたら侮辱にもほと゛か゛あるぞ!
hΤтРs://i、imgur,сom/hnli1ga.jpeg


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch