Internet Archive総合 (web.archive.org) #2at ESITE
Internet Archive総合 (web.archive.org) #2 - 暇つぶし2ch418:名無しさん@お腹いっぱい。
19/04/25 18:52:48.09 .net
自動的に最新ログの年に飛ばない気がする。2019年。

419:名無しさん@お腹いっぱい。
19/05/01 01:04:13.28 .net
改元でなんかいいの録れたら教えてください

420:名無しさん@お腹いっぱい。
19/05/03 15:57:31.30 .net
数分前から「HTTP ERROR 400」と出て使えない

421:名無しさん@お腹いっぱい。
19/05/14 05:19:52.89 .net
手動で1ページ1カテゴリーづつ保存するの面倒くさいんですけど、
自動巡回で指定のサイトやブログをURLリンク(web.archive.org)に保存出来る方法なんて無いですよね?
毎日毎日徹夜で保存して疲れた…保存しても保存してもキリがない…

422:名無しさん@お腹いっぱい。
19/05/14 12:56:17.84 .net
>>415
>毎日毎日徹夜で保存して疲れた…
>保存しても保存してもキリがない…
アーカイブサイト全�


423:ハのユーザーの 最大の悩みでもあるな 一度やり始めたら強迫観念が出てきて 毎日やらねばならなくなる しかも誰もがやっているわけじゃなさそうだから 自分が休んでも他の人が補完してくれる保証はないしね



424:名無しさん@お腹いっぱい。
19/05/15 02:06:18.98 .net
やろうと思えばプログラム組んで出来るよ、ネット探せば色々見つかる
さっきWebアーカイブ総合スレに投稿されたやつを転載
0175 py ◆o3kzHb/in8w0 2019/05/14 19:06:58
URLリンク(u1.getuploader.com)
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14
web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■
動作試験環境:windows10pro Irvine1.3.1

425:名無しさん@お腹いっぱい。
19/05/15 02:09:48.66 .net
IAヘビーユーザーが多いであろうここの住人なら、
自動化手段を発見済みかスクリプト自作してる人がいるだろうと思ってたが、案外そういう訳でもないのかな

426:名無しさん@お腹いっぱい。
19/05/15 05:10:13.79 .net
>>416-418
ありがとうございます。
勇気出して聞いてよかった…頑張る

427:名無しさん@お腹いっぱい。
19/05/15 07:42:21.01 .net
やっぱり Irvine を土台にするよなぁ。みんな考えることは同じだね。
>>418
どうですかねぇ。
URLリンク(web.archive.org)
URLリンク(web.archive.org)

428:名無しさん@お腹いっぱい。
19/05/23 16:45:13.77 .net
archive.orgにファイルアップロードしてる人っている?

429:名無しさん@お腹いっぱい。
19/05/23 21:45:14.89 .net
どんなときもー

430:名無しさん@お腹いっぱい。
19/05/26 03:07:17.45 .net
重宝していた攻略サイトが消えてしまった・・
アーカイブされていたのに何故?何が原因でまるごと
消えてしまったんだ?

431:名無しさん@お腹いっぱい。
19/05/26 13:33:28.50 .net
どこ?

432:名無しさん@お腹いっぱい。
19/05/26 15:46:05.58 .net
archive.orgにファイルアップロードしてる人っている?

433:名無しさん@お腹いっぱい。
19/05/31 17:26:07.60 .net
ベータ版の新しいSave Page Nowを使ってみたかったからユーザー登録してみた
思いのほかあっさり登録できて少し驚いた

434:名無しさん@お腹いっぱい。
19/06/07 03:04:34.14 .net
今、サーバーエラー出てる
503 Service Unavailable
No server is available to handle this request.

435:名無しさん@お腹いっぱい。
19/06/07 04:14:39.73 .net
復活してた

436:名無しさん@お腹いっぱい。
19/06/08 04:29:23.99 .net
スマホからSave Page Nowを使ってTwitterをアーカイブしようとすると必ずエラーを吐いてくる
PCではそんなことになった経験がないんだけど何がおかしいんだろう
あと、これはスマホもPCも関係ないんだが、
Internet Archiveの場合ツイートがjsonと解釈さ
れてしまう場合が多い
Archive.todayやmegalodonは普通のHTMLコンテンツと解釈してくれるんだが、IAだと何でjsonになってしまうんだろう

437:名無しさん@お腹いっぱい。
19/06/25 13:34:53.69 .net
エラー入りました(この表示は初めてだ)
500 Internal Server Error
nginx/1.10.3 (Ubuntu)

438:214
19/06/25 14:24:49.75 .net
落ちてる落ちてる
URLリンク(twitter.com)
(deleted an u


439:nsolicited ad)



440:名無しさん@お腹いっぱい。
19/06/25 17:10:05.80 .net
まだ落ちてんのかよ

441:名無しさん@お腹いっぱい。
19/06/25 18:07:29.24 .net
まだ駄目だね

442:名無しさん@お腹いっぱい。
19/06/25 18:25:49.56 .net
にしてもこうまで長時間の「メンテナンス」はいつ以来か

443:名無しさん@お腹いっぱい。
19/06/25 22:13:06.38 .net
最近400errorみたいな表示が多かったのは前兆だったのか・・・?

444:名無しさん@お腹いっぱい。
19/06/26 01:48:15.81 .net
hmmm

445:名無しさん@お腹いっぱい。
19/06/26 04:56:31.21 .net
おっメンテナンス終わったかな?

446:214
19/06/26 05:24:58.72 .net
URLリンク(twitter.com)
詳しくは述べられていないが何処かで断線していたらしい。
(deleted an unsolicited ad)

447:名無しさん@お腹いっぱい。
19/06/26 11:17:32.59 .net
掃除機か?

448:名無しさん@お腹いっぱい。
19/06/26 13:28:47.85 .net
しかし長かったねえ

449:名無しさん@お腹いっぱい。
19/06/26 18:58:15.72 .net
鼠じゃないの?

450:名無しさん@お腹いっぱい。
19/06/26 20:29:57.40 .net
ミッキーマウスの複数形ってミッキーマイス?

451:名無しさん@お腹いっぱい。
19/06/26 20:30:13.51 .net
ごめんスレ見誤った

452:名無しさん@お腹いっぱい。
19/06/28 20:13:41.33 .net
>>426
> ベータ版の新しいSave Page Now

初耳

453:名無しさん@お腹いっぱい。
19/06/28 20:25:37.04 .net
あー、すまん。勘違いしていた。

454:名無しさん@お腹いっぱい。
19/06/28 22:52:24.09 .net
どっちや

455:名無しさん@お腹いっぱい。
19/07/07 14:56:34.46 .net
どっちらけ

456:名無しさん@お腹いっぱい。
19/07/13 13:26:19.30 .net
なんか保存済みページをIA開いて記事とかの2ページ目から3ページ目に移動しようとすると2ページ目に移動する(移動できてない)。
なんかちょっとおかしい。

457:名無しさん@お腹いっぱい。
19/07/14 02:21:08.08 .net
そのサイト
スクリプトでページ切り替えてるんでねーの?

458:名無しさん@お腹いっぱい。
19/07/14 13:56:13.87 .net
訛っちゅうげ

459:名無しさん@お腹いっぱい。
19/07/19 06:31:44.32 .net
imgur直リンがSavePageNow出来なくなった。

460:名無しさん@お腹いっぱい。
19/07/19 21:22:55.64 .net
Twitterをアーカイブすると必ず表示が崩れる人がいるんだが
あれって何なんだろうか

461:名無しさん@お腹いっぱい。
19/07/19 23:06:25.81 .net
最近保存してないけどツイッターいつもUIが謎の外国語になってたわ

462:名無しさん@お腹いっぱい。
19/07/20 00:37:36.80 .net
>>453
それ多分IAが経由してるサーバーの国の言語で表示されてるんだと思う

463:名無しさん@お腹いっぱい。
19/07/20 10:05:42.37 .net
>>451の症状が治ったっぽい

464:鈴木喜三郎
19/07/23 05:49:06.07 .net
これarchive.vnだと保存できない奴も保存出来るから便利

465:名無しさん@お腹いっぱい。
19/07/23 16:22:05.75 .net
>>456
> これ

どれ?

466:名無しさん@お腹いっぱい。
19/07/23 18:20:17.89 .net
これが示すのはInternet Archive Wayback Machineのことだろ。

467:名無しさん@お腹いっぱい。
19/07/23 18:28:08.66 .net
そうか

468:名無しさん@お腹いっぱい。
19/07/27 14:21:28.66 .net
>>448の症状は直らない

469:名無しさん@お腹いっぱい。
19/07/27 15:47:23.29 .net
具体的にどこよ?

470:名無しさん@お腹いっぱい。
19/07/27 17:52:51.11 .net
URLリンク(web.archive.org)
東洋経済の記事で未保存記事を1ページ目を保存して、1ページ目のアーカイブから2ページ目のリンクを開くと
保存されていないから当然保存用のリンクが表示されるけど、2ページ目のアーカイブから3ページ目のリンクを
クリックすると2ページ目のアーカイブが再度表示される。
以前だったら連続で保存できたのにできなくなって直接SavePageNowに打ち込むしかなくなったっぽい。

471:名無しさん@お腹いっぱい。
19/07/27 17:53:37.41 .net
>>461
具体的にこれ>>462

472:459
19/07/27 18:55:41.10 .net
URLリンク(toyokeizai.net)
URLリンク(toyokeizai.net)
この 2 つを Internet Archive の入力欄に突っ込んでやってみたけど、
どちらも先頭から最後のページまで、"This page is available on the web!" を経て保存できたけどなぁ。
URLリンク(web.archive.org)
URLリンク(web.archive.org)
どうもこちらでは現象が再現できない。

473:名無しさん@お腹いっぱい。
19/07/31 16:56:51.69 .net
>>464
もう一回試してみたけど、また同じ症状になった。page=2が再表示。駄目やん
Firefoxアプデ放�


474:uしてたのが原因かと思って、他のタブ閉じたりしてしばらくたったところで アプデ前にもう一回挑戦したら、何故かpage=3も保存できた。あれ?できた。どうなってるんだ?



475:名無しさん@お腹いっぱい。
19/07/31 21:58:16.17 .net
archive.todayまったく繋がらないけど同じ状況の人いませんか?

476:名無しさん@お腹いっぱい。
19/07/31 22:03:00.21 .net
問題なし

477:名無しさん@お腹いっぱい。
19/08/04 23:29:04.15 .net
>>429
Heritrixの仕様か何かなのかな?
自前でHeritrix動かしたことないから断言は出来ないけど

478:名無しさん@お腹いっぱい。
19/08/07 05:57:03.34 .net
/save/の調子がおかしい

479:名無しさん@お腹いっぱい。
19/08/07 10:04:06.93 .net
Chromeにしたらできた。ブラウザの問題か?

480:名無しさん@お腹いっぱい。
19/08/09 14:25:43.54 .net
5ch全体がまた長い時間落ちてたな…
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)
で当サイトも13時前後にこうなってた
(幸い今は元に戻ってるが)
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)

481:名無しさん@お腹いっぱい。
19/08/10 13:00:17.06 .net
ひょっとしたら改悪が行われたか?
以前ならば、(うまく説明できないが)例えばニュースサイトならば、
本記事以外の近隣記事なり参照記事のURLをクリックすると、
取得前のものについては、新規の取得を促す画面が出ていた。
これが大量に記事を取りたい場合には、非常に助かっていたのだが…
ところが昨日からは、上記と同じ動作を行うと、そういう画面が出なくなった。
代わりに出てきたのがこれ↓
URLリンク(i.imgur.com)
そのため、いちいち一つずつ「Save Page Now」の部分に
URLを打ち込んで、対処している状態だが…。
やっぱりどうにも面倒くさい。
「This page is not available on the web」「because of server error」
ということは、一部のサーバーが動いていないのが原因で、
それさえ治れば、先に触れた機能も復活するのか?
このままでは仕事量が多くなる一方だから、何とかしてほしいんだが。

482:名無しさん@お腹いっぱい。
19/08/10 17:11:05.47 .net
>>472の別パターン
URLリンク(i.imgur.com)

483:471
19/08/10 17:16:33.62 .net
因みに>>472とはメッセージが異なる。
「The Wayback Machine has not archived that URL.」
「This page is not available on the web」
「because request is invalid」

484:214
19/08/10 20:23:49.05 .net
>>472
それ、起こるサイトでは以前から発生しているけどなぁ。
> そのため、いちいち一つずつ「Save Page Now」の部分に
> URLを打ち込んで、対処している状態だが…。
アドレスバーの /web/日付時刻数字/ を /save/ に変えるだけでは駄目なのか?
面倒なことには変わりは無いが。
せっかくブラウザにブックマークツールバーを出してるんだったら
強制保存させるブックマークレットを登録してしまえ。
URLリンク(pastebin.com)

485:名無しさん@お腹いっぱい。
19/08/10 20:57:03.82 .net
ほーんそんなことできるやね

486:名無しさん@お腹いっぱい。
19/08/11 16:13:46.46 .net
>>475
>それ、起こるサイトでは以前から発生しているけどなぁ。
東京スポーツの公式サイトのうち「バックナンバー(本日の紙面)」に関しては、
こうした現象を確認していたんだが 、本当にあるとすればそのくらいで、
いきなり対象となる範囲が広がってしまった印象。
>アドレスバーの /web/日付時刻数字/ を /save/ に変えるだけでは駄目なのか?
>面倒なことには変わりは無いが。
これを試してみたけど、幾分作業が楽になった。これ、しばらく続けてみます。
本当にありがとうございます。

487:名無しさん@お腹いっぱい。
19/08/11 18:37:46.76 .net
Twitterも最近その現象になってしまったな
アーカイブ先への負荷対策とかなんかね

488:名無しさん@お腹いっぱい。
19/08/17 00:10:57.04 .net
>>462の症状は今は直っているぽい

489:名無しさん@お腹いっぱい。
19/08/17 13:08:01.08 .net
>>472に関しても、元に戻ったみたいだ(新規取得を促す画面が復活)。
とはいえ>>475最下段のブックマークレットは、使ってみたら
結構便利なので、しばらく併用ということで。

ところでchromeはともかくとして、先日からIEではかなり使い辛くなった。
保存の後、以前なら左上隅のロゴマークをクリックするとトップページに戻っていたのが、
なぜか違うページに飛ばされるようになった。
上方に四角形がいくつか並んでいるのと、小さな英文が表示されたページだが、
その四角形は関連サイトへのリンクらしく、左端の四角形をクリックすると、
やっとこさ当サイトのトップページに戻ることができた。
さらに言えば、「BROWSE HISTORY」(過去の保存リストが表示される画面行き)が
IEでは使えなくなってしまってる。

490:名無しさん@お腹いっぱい。
19/08/19 18:42:22.44 .net
IEだと使いづらいね。過去のキャプチャ一覧も見られなくなったし。
Microsoft Edgeなら問題なく見られるから今後はEdgeで見ようかな

491:名無しさん@お腹いっぱい。
19/08/19 21:28:32.19 .net
直リン禁止サイトの画像がキャプチャできないっぽい

492:214
19/08/20 00:08:02.41 .net
>>482
元々そういう仕様。
/save/ を使って保存させたとき、ブラウザから Internet Archive へ送られた
リクエストヘッダ類 (俗に環境変数と呼ばれているやつ) は
一部の改変・追加のみで元サーバへ送られるので、
これを偽装することによって直リン回避は可能。
リファラーのみチェックしているサイトについては、やったことがある。
ただ、同一の URL について複数の日付のアーカイブが存在しているときに、
自分が /save/ したものだけ画像あり、他人が /save/ したものは画像無し、
ということになるのであまり実用性は無いと思う。

493:名無しさん@お腹いっぱい。
19/08/20 04:06:07.29 .net
>>480-481
何が悲しくって未だにIE使ってるの?
MSももはやサポート放棄しようとしてるのに

494:名無しさん@お腹いっぱい。
19/08/20 04:09:28.55 .net
Internet Archiveがどうかは分からないけど、最近のサイトは面倒なIE対応を放棄してるところも多いし、
悪いこと言わないからEdgeとかChromeとかFirefoxとかに乗り換えた方が良い
というかIAも長くてあと2,3年でIEじゃちゃんと見れなくなると思うぞ

495:名無しさん@お腹いっぱい。
19/08/20 11:55:38.40 .net
IEだとまったく使い物にならなくなっていたのか。
検索かけて原因見てもだれも指摘してないので調べたら、5chのこのスレでようやく原因判明
クローム使えってか。たしかにweb.archive.org/web/*/ の保存一覧がちゃんと出るようになった
見られないからwebarchiveに無駄に垢とっちゃったよ消したい・・・・

496:名無しさん@お腹いっぱい。
19/08/20 17:01:34.51 .net
>>484
図書館などの公共施設のパソコンだと、
いまだにブラウザといえばIEしか用意されてない。

497:名無しさん@お腹いっぱい。
19/08/21 01:38:06.53 .net
IEは業務決め打ちシステム用が多くて下手に改変もできないが無視して捨てるわけにもいかないがんじがらめ状態なんだろうな

498:名無しさん@お腹いっぱい。
19/08/21 19:32:31.80 .net
>>483
ありがとう。Referer ControlをInactiveにしたら画像もキャプチャできた。

499:名無しさん@お腹いっぱい。
19/08/31 13:21:10.56 .net
こんな表示初めてだ
URLリンク(i.imgur.com)

500:名無しさん@お腹いっぱい。
19/08/31 13:23:41.39 .net
429 Too Many Requests
You have sent too many requests in a given amount of time.
…ありゃスレもあがってないや

501:名無しさん@お腹いっぱい。
19/09/03 11:14:03.82 .net
>>490
これ俺だけじゃなかったのか
てっきりアーカイブし過ぎたせいかと

502:名無しさん@お腹いっぱい。
19/09/03 17:20:01.26 .net
ここ数日
すぐに結果が表示されずに
画面が真っ白になる現象が起きている
今のところ少し時間を置けば普通の状態になるので
使えは


503:するが何だか謎



504:名無しさん@お腹いっぱい。
19/09/03 23:12:39.81 .net
>>492
同じく。
>>493
トップにしかアクセスできない。
ブラウザによってはトップすらアクセスできず。

505:名無しさん@お腹いっぱい。
19/09/03 23:53:16.60 .net
>>490
スクショをJPEGで上げてる時点で程度が知れてる

506:名無しさん@お腹いっぱい。
19/09/04 00:05:55.93 .net
激重だな

507:名無しさん@お腹いっぱい。
19/09/05 02:32:15.75 .net
ようやくトップ以外にもアクセスできるようになった。

508:名無しさん@お腹いっぱい。
19/09/06 17:35:27.43 .net
>>481
URL検索がずっと死んだままで特定サイトの年代別アーカイブが探りにくい
検索エンジンも昔はサクサクで一覧出てきたのが、何年か前にUIがリニュされてから、ずっと激重で不便極まりなかったけど…

509:名無しさん@お腹いっぱい。
19/09/06 18:04:08.37 .net
>>486
Chromeも古い端末だと最終verでも駄目だね。
Edgeが使えるぐらい新しい機種でないと…

510:名無しさん@お腹いっぱい。
19/09/07 17:00:08.96 .net
ピザ

511:名無しさん@お腹いっぱい。
19/09/07 23:07:16.12 .net
ピザピザ

512:名無しさん@お腹いっぱい。
19/09/09 21:12:02.33 .net
30分ほど前からサイトにつながらない

513:名無しさん@お腹いっぱい。
19/09/09 21:26:42.32 .net
こっちは普通に問題なく繋がってる
今もSave Page Nowでいくつか保存してきた
ベータ版SPNのSave outlinksってオプションを初めて使ってみたがめちゃくちゃ便利だな

514:名無しさん@お腹いっぱい。
19/09/09 22:06:55.46 .net
なにそれ
もしゃあして全部保存してくれるの

515:名無しさん@お腹いっぱい。
19/09/10 06:26:29.17 .net
>>503
> ベータ版SPNのSave outlinksってオプション

知らない

516:名無しさん@お腹いっぱい。
19/09/10 06:31:20.60 .net
ベータ版SPNのSave outlinks 
いま試してみたが、ヤフーニュースはやっぱり魚拓とれなかった。

517:名無しさん@お腹いっぱい。
19/09/10 14:26:32.65 .net
海外のブックマークサービスと魚拓サービスのリスト
URLリンク(github.com)

518:名無しさん@お腹いっぱい。
19/09/10 14:53:20.34 .net
>>506
アーカイブが取れて無いのと、例のページ遷移スクリプトが発動してるだけなのと
どっちなんだ

519:501
19/09/10 16:04:06.39 .net
Save outlinksってのは、SPNに投げたURLのページに貼られてるリンク先も全て読み込んで保存してくれるオプション
さすがに無制限にリンクを辿る訳ではなくて1段階しか辿ってくれないけど、それでもかなり手間が省ける
遷移スクリプトの発火をキャンセルしてくれるような機能はおそらくないと思う

520:501
19/09/10 16:23:18.90 .net
ここから使える
URLリンク(web.archive.org)

521:名無しさん@お腹いっぱい。
19/09/10 17:21:54.72 .net
>>508
>>506
今までインターネットアーカイブでヤフー関連のページの魚拓を
取ってもヤフートップに飛ばされた魚拓しか表示されなかったので
ここでは魚拓は取れないものと思っていたが、実は取れていたと知
恵袋に書いてあった。
URLリンク(superbabooooo.blog.jp)

522:名無しさん@お腹いっぱい。
19/09/10 17:43:04.48 .net
またクソ重になってら
他だと取りにくいページもあるのに

523:名無しさん@お腹いっぱい。
19/09/10 17:50:40.56 .net
確か/web/1/が最古、/web/2が最新のアーカイブなんだよね
これ以外に隠しコマンドというか隠しエンドポイント的なURLはあるの?

524:名無しさん@お腹いっぱい。
19/09/10 18:26:40.26 .net
/0/は?

525:名無しさん@お腹いっぱい。
19/09/10 19:08:38.46 .net
>>514
初耳だったのでexample.comで試してみたが最古のものが表示された
/1/と同じなのでは

526:名無しさん@お腹いっぱい。
19/09/11 01:13:51.29 .net
/1996/は?

527:214
19/09/11 13:00:53.66 .net
>>516
/web/年/ とか /web/年月/ とかは、現在の UI が Beta から本導入となった時に廃止された。
今でもエラーとはならないものの、数字の意味する通りには動かなくなっている。
>>513
数字の後ろに付ける、コマンドみたいなものは前スレでほぼ挙がっているから、
いわゆる文字化け


528:騒動以降のレスに一通り目を通しておくと良いと思う。



529:名無しさん@お腹いっぱい。
19/09/12 02:32:02.83 .net
ふむ

530:名無しさん@お腹いっぱい。
19/09/12 03:00:49.41 .net
>>517
情報ありがとう
主なものをまとめるとこんな感じだろうか、間違いや抜けがあったら教えてくれ
(全てURLリンク(example.com)<)
まだ情報を精査出来てないけどここも参考になりうるかも:URLリンク(github.com)

531:名無しさん@お腹いっぱい。
19/09/12 03:03:53.26 .net
新しいSPNのSave outlinksなどのオプションのオンオフ情報はやはりHTTPリクエストの中に含まれてるのかな
このオプションを使った/save/を自動化できたらいいんだが

532:名無しさん@お腹いっぱい。
19/09/12 03:09:00.47 .net
どうでもいいことだが、前スレに比べるとこのスレは書き込み数がだいぶ多いな
何かのきっかけで人口が増えたのかもな

533:名無しさん@お腹いっぱい。
19/09/12 03:15:09.71 .net
個人Webスペースが消える一方だからな

534:名無しさん@お腹いっぱい。
19/09/12 06:36:52.72 .net
>>522
ヤフーブログやヤプログまで消滅するからな。

535:名無しさん@お腹いっぱい。
19/09/12 11:08:25.50 .net
>>512
ここ2~3日おかしいね。
使える時もあるけど、すぐに息切れするかのように
アクセス不可になってしまう。
瞬時に見出しや内容を変えかねないニュースサイトについては、
他が調子が悪かったり、動作のスピードがゆっくりになった分、
ここのサイトがぴったりになってるが、ここもダメになったら本当に痛い。

536:名無しさん@お腹いっぱい。
19/09/12 19:20:26.85 .net
魚拓界という言い方があるかは知らないが、
今年は受難の年だなあ。

537:名無しさん@お腹いっぱい。
19/09/12 21:34:02.49 .net
釣りに引っ掛かりやすそうやつばかり住んでそうな界だな

538:名無しさん@お腹いっぱい。
19/09/13 00:44:04.97 .net
自分の環境ではここ数日の間も普通に保存できてるから受難とか言われてもあまりピンと来ない

539:名無しさん@お腹いっぱい。
19/09/13 00:48:04.43 .net
自分はいつアクセスしても特に何事もなく保存できているが、不安定で使えないという人もいるのか
回線か時間帯かマシンかブラウザかサイト特有の問題かはたまた別の何かか、何がおかしいんだろうな

540:名無しさん@お腹いっぱい。
19/09/13 14:33:47.72 .net
使っていくうちに後になって「アクセス不可」と返してきたり
昨日などは一日中動きが固くなった末やっと画面が変わったら「アクセス不可」
と本当に様々だが
自分にとっては必要なんだよ
誰も新聞社のニュースサイトなんて取ってねえから
環境によって使えませんという話なら誰か自分の代わりにやってほしいわ…

541:名無しさん@お腹いっぱい。
19/09/14 11:22:10.85 .net
どこの新聞社のサイトなんよ
URL分かれば多少は手伝いようがある

542:名無しさん@お腹いっぱい。
19/09/14 14:39:00.18 .net
時間が経つにつれ必然的にアーカイブの重要性は増していくので
IAには頑張ってほしいね

543:名無しさん@お腹いっぱい。
19/09/15 03:19:48.19 .net
何かの間違いで消滅したら一番ショックなサイトな気がしてきた

544:名無しさん@お腹いっぱい。
19/09/16 11:52:43.11 .net
今is共々落ちてる
同時に落ちたらなんにも出来なくて困る・・・

545:名無しさん@お腹いっぱい。
19/09/16 15:43:35.10 .net
14~15日に取った分消えてる!?

546:名無しさん@お腹いっぱい。
19/09/16 17:47:56.69 .net
お世話になります

547:名無しさん@お腹いっぱい。
19/09/17 18:37:03.69 .net
>>534
稀によくある
数日経った後に反映される

548:名無しさん@お腹いっぱい。
19/09/18 00:05:26.20 .net
>>536
まさに稀によくあるの好用例すぎるw
あの図解を思い出せる

●●●●●●●
●●●●●●●
●●●○○○○
○●●●●●●
●●●

549:名無しさん@お腹いっぱい。
19/09/19 22:53:33.55 .net
現在また取得不可能に

550:名無しさん@お腹いっぱい。
19/09/21 13:13:25.89 .net
最近の人ってInternetArchiveって知ってるんだろうか

551:名無しさん@お腹いっぱい。
19/09/21 13:21:52.78 .net
どういうことよ

552:名無しさん@お腹いっぱい。
19/09/21 23:54:10.27 .net
知らない年長者も多く見かけるし、知ってて活用してる若者も多く見かける
老いも若きも関係なく、知ってる人は知ってるし知らない人は知らないんだと思う

553:名無しさん@お腹いっぱい。
19/09/23 02:12:26.72 .net
>>519
id_のコマンドを初めて知ったがすごく便利だなこれ、thx

554:名無しさん@お腹いっぱい。
19/09/24 11:18:16.68 .net
30分くらい前から、5chのスレッドや、imgurの画像が
ハネられるようになったな。
>>541
分かるなあ。
「魚拓を取る」という行為自体が、まだまだ一般的ではないんだよな。

555:名無しさん@お腹いっぱい。
19/09/24 14:20:55.70 .net
twitterとか見ると発言の証拠にスマホのスクショ使ってるのをよく見るよね
あんなんやろうと思えばいくらでもいじれるのに…

556:名無しさん@お腹いっぱい。
19/09/24 14:47:07.74 .net
このスレには未だにスクショをJPEGで貼る奴が・・・

557:名無しさん@お腹いっぱい。
19/09/24 15:42:33.91 .net
>>545
アニメ板とかだとこだわるんだろうか
スクショの目的の多くは再現性では無いと思うから別にファイル形式はどうでもいいのでは

558:名無しさん@お腹いっぱい。
19/09/24 18:49:14.06 .net
URLリンク(i.imgur%2ecom)

559:名無しさん@お腹いっぱい。
19/09/24 19:07:47.61 .net
>>543
>「魚拓を取る」という行為自体が、まだまだ一般的ではないんだよな。
同感だわ
過去の文書や書籍を将来のために保管するのが大事だって意識自体、日本では今ひとつ根付いてない
(どこかの地方図書館が入り切らない蔵書を焼却処分したという最近のニュースが好例)
昔からある紙の資料ですらそんな扱いなんだから、Webアーカイブを取るという意識が根付いているはずもないわな
それにしても、スクショのファイル形式がjpegだとなんか問題があるの?
確かにアニメのキャプとか高い画質が要求される種類の画像なら確かにダメだろうけど

560:名無しさん@お腹いっぱい。
19/09/25 01:58:43.16 .net
学校でweb魚拓の存在を解説するべきだと思うの

561:名無しさん@お腹いっぱい。
19/09/25 03:23:56.97 .net
若いって良いなぁ

562:名無しさん@お腹いっぱい。
19/09/25 23:52:11.76 .net
人が押し寄せて余計重くなったらどうする

563:名無しさん@お腹いっぱい。
19/09/27 16:39:51.22 .net
既に重いんだから多少人が増えたってどうせ主観的な重さ具合は変わらんだろ
少しくらい重くてもアーカイブが増えた方がいい

564:名無しさん@お腹いっぱい。
19/09/28 23:22:06.24 .net
はじめまして。無知ですがすみません。
もう何日もこのインターネットアーカイブ(URLリンク(web.archive.org)
どんなURLを入れても、何も出来ないです。
トップも前まであったURLいれる欄がなくなって(右上のsearchならある)、おかしな文出てるし。
↓トップはURLいれる欄がなくなり、こういう文だけ出てますが、英語わからないので日本語訳してもわけわかりません。

(The Wayback Machine is an initiative of the Internet Archive,a 501(c)(3) non-profit, building a digital library ofInternet sites and other cultural artifacts in digital form.
Other projects include Open Library & archive-it.org.
Your use of the Wayback Machine is subject to the Internet Archive's Terms of Use. )

右上から何のURL検索してみても、日付のも出て来ずにこのトップ


565:文のままです。 でもスマホからなら前みたいに普通に検索出来ることを、スマホからやって、たった今知りました。でもどうしてもパソコンから見たいので。 何日もパソコンからインターネットアーカイブ出来ないのですが、スマホからなら出来るので、 出来ないのはうちのパソコンからだけなのか気になってます。 これはどういうことなのかわかる方いらっしゃいませんか。無知なのですみません。



566:214
19/09/29 00:28:09.44 .net
「ブラウザが古い、ないしサポート外」に一票。
URLリンク(i.imgur.com)
以前 Windows 2000 で頑張っていた人 (>>95-107) を思い出す。

567:名無しさん@お腹いっぱい。
19/09/29 01:08:34.37 .net
>>553
古いブラウザ使ってませんか?

568:名無しさん@お腹いっぱい。
19/09/29 01:10:24.76 .net
>>554
同感
スマホでは見れるって事からもサポート外の古いブラウザのせいという感じがする

569:名無しさん@お腹いっぱい。
19/09/30 17:16:34.34 .net
【ヤフー】Yahoo!ブログ【アーカイブ】
スレリンク(blog板)/
74 Trackback(774) 2019/09/30(月) 17:07:59.58ID:th5gp/Yr
Internet ArchiveでYahooブログを保存すると遷移スクリプトが発火する話なんだけど、
web.archive.org/save のページから「Save outlinks」にチェックを入れて保存すると
どうもYahooのトップページに遷移されずにアーカイブできるみたいだ
さっき偶然発見して何回か試したけど今のところ全て上手く保存されてる

570:214
19/09/30 18:20:55.67 .net
>>557
> Internet ArchiveでYahooブログを保存すると遷移スクリプトが発火する話なんだけど、
ニュースとか知恵袋は yjsecure.js が埋め込まれてるが
ブログも埋め込みあったっけ?

571:名無しさん@お腹いっぱい。
19/09/30 21:58:44.70 .net
save outlinksってURLレベルでは指定できないの?
/save/みたいに/saveoutlinks/みたいなのはない?

572:名無しさん@お腹いっぱい。
19/09/30 22:23:16.38 .net
>>558
ヤフーブログにもyjsecure.jsがあるかは分からない
でも以前web.archive.orgトップページのSPNフォームから保存した時は何回やってもリダイレクトされたよ
向こうのスレでもそれが問題になってたみたいだね
>>559
おそらくない
ただHTTPリクエストにsave outlinksが有効かどうか指定するオプションはあった(ブラウザの開発者機能で確認した)
何とも言えないけどsave outlinksで保存するスクリプトを組める可能性はあると思う

573:558
19/09/30 22:25:47.87 .net
&#10005;何とも言えない
○断言はできない

574:558
19/09/30 22:36:04.34 .net
確認してきた
確かにYahooブログにもyjsecure.jsが埋め込まれてるね
URLリンク(s.yimg.jp) ってリンクがどのブログにも入ってた

575:558
19/10/01 01:08:39.74 .net
少し実験して分かったこと
・少なくともYahooブログの場合、yjsecure.jsはモバイル版表示の時のみ発動する(と思われる)
・web.archive.orgトップページのSPNフォームをモバイル端末(スマホやタブレット)のブラウザから使うとモバイル版表示で保存される
・/save/のsave outlinksを使うと利用デバイスに関係なくデスクトップ表示で保存される(と思われる)

576:214
19/10/01 02:05:43.05 .net
>>563
> ・少なくともYahooブログの場合、yjsecure.jsはモバイル版表示の時のみ発動する(と思われる)
あぁ、道理で見つからなかった訳だ・・・。
気になったので、診断くん URLリンク(taruo.net) をアーカイブさせてみた。
URLリンク(web.archive.org)
HTTP_USER_AGENT の行に注目。多分これだなぁ。
通常の /save/ を使うと、操作を行ったブラウザ名がそのまま相手先へ送られる。
ところが件の新機能を使うと、別の名前が送られる模様。
Firefox を使ったのに、それが一切現れていない。
つまり、新機能を使うとブラウザ名が隠されるので、
モバイルブラウザ向けに特別な動作をするサーバであっても、それが行われない。
Yahoo! ブログの場合、yjsecure.js を含まないデスクトップ向けのコードが出力される。
こういうことではないかと。
技術的な説明は


577:省略。



578:名無しさん@お腹いっぱい。
19/10/01 02:12:35.52 .net
なるほどなあ

579:名無しさん@お腹いっぱい。
19/10/01 14:58:12.98 .net
(そもそもTOPページに飛ばすという仕様いる...?)

580:名無しさん@お腹いっぱい。
19/10/01 16:16:15.14 .net
楽天かどっかで「あなたが見ているドメインは楽天じゃないよ!」みたいなエラーは出たりするなあ。
何かの詐欺で部品だけ呼び出してつかわれたりすることがあるんだろうか。

581:名無しさん@お腹いっぱい。
19/10/03 16:23:07.36 .net
ところでrom-setは合法なの?
堂々と配布してるが大丈夫なのか

582:名無しさん@お腹いっぱい。
19/10/03 19:50:57.28 .net
rom-setが何なのか検索しても今ひとつ分からなかったが、
もう販売されてない古いゲームのROMのことなら米国法のフェアユース規定で守られてるのではと予想

583:名無しさん@お腹いっぱい。
19/10/03 21:17:15.71 .net
最近Bummer多いな
リロードすれば普通に取れるけど

584:名無しさん@お腹いっぱい。
19/10/03 21:48:36.34 .net
>>570
> リロードすれば普通に取れるけど

なにげに気がつかなかったよw

585:名無しさん@お腹いっぱい。
19/10/04 04:12:52.03 .net
Too Many Requestsも頻発するな

586:名無しさん@お腹いっぱい。
19/10/04 14:04:28.50 .net
スクリプトは時間長くしとけばなんとかなりそうだけど、手動で保存する時めんどい

587:名無しさん@お腹いっぱい。
19/10/04 20:00:21.60 .net
>>572
だいたい3件以上
同時に取ろうとすると出てくるな
正直鬱陶しいのだが…

588:名無しさん@お腹いっぱい。
19/10/04 20:20:06.76 .net
ハウメニー?

589:名無しさん@お腹いっぱい。
19/10/05 15:58:39.89 .net
日本語URL(というかアルファベット以外?)だと挙動がおかしくなるのどうしようもないのかな

590:名無しさん@お腹いっぱい。
19/10/06 17:12:51.36 .net
Too Many Requests
Please email info@archive.org if you have questions about why are you being blocked
…もう、冗談抜きでいい加減にしてほしいよ。
もはやここしか頼るところがない、といっても過言ではないのに。
で、上に掲げた文の下段は、どういう意味?
ブロックに関しての質問はこちらまで、というだけか?

591:名無しさん@お腹いっぱい。
19/10/06 21:02:22.74 .net
今のところToo Many Requestsで怒られた事ないんだが、どのくらいの頻度で何回くらいやると出てくるものなの?

592:名無しさん@お腹いっぱい。
19/10/06 22:24:15.60 .net
俺もToo Many Requests出るな
感覚としては3~5連続で取ると出る、が出ないときは出ない
単純にサーバー側の問題な気がする

593:214
19/10/07 21:48:35.31 .net
>>579
> 感覚としては3~5連続で取ると出る、が出ないときは出ない
ベースとなる HTML だけでなく、個々のファイル単位ではどうでしょう。
HTML が保存できても、そこで使われている画像等を保存するために
副次的に発行される /save/ リクエストが Too Many Requests となってしまい、
結果としてそれらを取りこぼす、なんて事態が発生し始めたように思えます。
このエラーメッセージ、語順がちょっと変な上に文末のピリオドを忘れていて、
Internet Archive であまりこういう英文を見ることが無いので違和感がありますね。
URLリンク(o.5ch.net)

594:名無しさん@お腹いっぱい。
19/10/08 11:06:26.40 .net
>>580
ごめん、個々のファイルまでは見てないから分からない
表示が出るようになったのは最近
語順に関しては、IAは割とそういう適当な所があるような気もするw

595:名無しさん@お腹いっぱい。
19/10/08 15:56:29.37 .net
この語順そんな変か?
ピリオドがないのも、この手のエラーメッセージの場合はそこそこあると思うけどな

596:名無しさん@お腹いっぱい。
19/10/09 19:13:13.16 .net
>>580
ということは、今後IAについても、
ウェブ魚拓に見られるような、
画像(写真など)の抜け落ちが出てきそうってこと?
何かそれも嫌だなあ

597:名無しさん@お腹いっぱい。
19/10/09 19:41:48.03 .net
Twitterの埋め込みがきちんと保存されないのが個人的に一番困ってるんだけど、この現象って以前からなんだろうか

598:名無しさん@お腹いっぱい。
19/10/10 20:49:37.09 .net
Save Page Nowの仕様変更をいくつか確認した
・web.archive.orgトップのSPNフォームで保存ボタンを押すと一旦/save/に誘導されるようになった
・/save/のオプションに「Save screen shot」が加わった
→有効にすると「/web/日付時刻数字/URLリンク(example.com)<))」の形式でスクショ画像が保存される
→Save outlinksとの併用も可能だがリンク先のスクショは取得してくれないっぽい

599:名無しさん@お腹いっぱい。
19/10/10 21:05:30.27 .net
>>585
archive.todayみたいなアレか

600:名無しさん@お腹いっぱい。
19/10/10 23:47:38.64 .net
スクショいいな
動的なサイトでも一応取れる

601:名無しさん@お腹いっぱい。
19/10/11 01:21:38.88 .net
うちのローカルでレンダリングしたやつになるのか?

602:名無しさん@お腹いっぱい。
19/10/11 11:15:07.84 .net
>>586
厳密にはちょっと違うかもしれない
Wayback Machineのスクリーンショット機能は単なる画像ファイルとして保存される
対してarchive.todayやウェブ魚拓は一応HTMLコンテンツとして保存するから、リンクなどは一応機能する

603:名無しさん@お腹いっぱい。
19/10/11 11:25:19.46 .net
>>588
おそらく違う
User Agentをめちゃくちゃな文字列にした上で、上の方で出てたプロキシ確認サイトをスマホのFirefoxからアーカイブしてみた
URLリンク(web.archive.org)URLリンク(taruo.net)
見れば分かるけど、使用したブラウザの情報がUAも含めて別の内容に置き換わってる
おそらくweb.archive.orgのサーバ側の情報なんだと思う
ヘッドレスブラウザか何かを使ってるのかも

604:名無しさん@お腹いっぱい。
19/10/11 18:56:09.01 .net
どういうことなの

605:名無しさん@お腹いっぱい。
19/10/11 19:25:43.75 .net
>>589
これは忘れてないよな、念のため。
URLリンク(o.5ch.net)

606:名無しさん@お腹いっぱい。
19/10/11 19:54:20.66 .net
Too Many Requestsがマジで鬱陶しい
ほんとにニーズを分かって言ってんのか!?と言いたくなる

607:名無しさん@お腹いっぱい。
19/10/11 20:58:38.55 .net
>>592
それは分かってるから大丈夫
でもInternet Archiveの方にはスクリーンショットと普通のアーカイブを簡単に切り替える機能がないっぽいからな
比較の対象にはならないような気もする

608:名無しさん@お腹いっぱい。
19/10/12 01:10:01.25 .net
所詮IAはアメリカ人様の物で日本人の物ではない。そこはわきまえるべき。
日本でも公正利用の概念を法律化するしかない。

609:名無しさん@お腹いっぱい。
19/10/12 09:22:47.74 .net
台風で軒並みあらゆる施設が臨時休業の最中だが、
うおーい、「Too Many Requests」に添付された文章が変わったぞ!
URLリンク(i.imgur.com)

Too Many Requests
We are limiting the number of URLs you can submit to be Archived to the Wayback Machine, using the Save Page Now features, to no more than 15 per minute.
If you submit more than that we will block Save Page Now requests from your IP number for one day.
Please feel free to write to us at info@archive.org if you have questions about this. Please include your IP address and any URLs in the email so we can provide you with better service.

610:名無しさん@お腹いっぱい。
19/10/12 12:04:20.05 .net
な、なんだこれは…
URLリンク(i.imgur.com)

URLリンク(i.imgur.com)

611:名無しさん@お腹いっぱい。
19/10/12 17:50:17.15 .net
>>596
google翻訳 
> リクエストが多すぎる
>
> [今すぐページを保存]機能を使用して、Wayback Machineにアーカイブするために送信できるURLの数を1分あたり15個以下に制限しています。
> それ以上送信すると、(あなたの)IPアドレスからのSave Page Nowリクエストが1日間ブロックされます。
>
> これについて質問がある場合は、info @ archive.orgまでお気軽にご連絡ください。 より良いサービスを提供できるように、メールにIPアドレスとURLを含めてください。
「(あなたの)」だけ俺が付け足した

612:名無しさん@お腹いっぱい。
19/10/12 19:59:49.32 .net
各地域の避難情報を見れる自治体のURLがたまにしか見れないから
アーカイブ取って見ようと思ったがずっとbummer

613:名無しさん@お腹いっぱい。
19/10/12 20:51:44 .net
bummerってなんなん

614:
19/10/12 22:53:46 .net
>>597
ベータ版としては割と前から実装されてたけど、つい数日前に正式版になった
色々オプションが付けられるようになったんよ

615:名無しさん@お腹いっぱい。
19/10/13 00:29:42.05 .net
こういう時に魚拓が生きる

616:
19/10/13 12:38:24 .net
>>598
下手したらブロックもされるのか。
急いで大量に取るのも難しくなるんだな。困ったなあ。

>>602
確かにそうだが、1日辺り60回までだからな。
どこも慎重にやらないと駄目か。

617:
19/10/13 15:44:29 .net
InternetArchive側も限られた回線のリソースで全世界からのリクエストを受け付けないといけないんだから、多少のリミットは仕方ないよ
規模を考えると1分間に15個までならむしろ緩い方じゃないかな

618:名無しさん@お腹いっぱい。
19/10/13 16:09:30.72 .net
今日100リンクほど一気にsaveしたけど20近くは一度に保存されるしブロックもされなかったけどな
HTTPリクエストに直後POSTしてる訳じゃないからかもしれないが

619:名無しさん@お腹いっぱい。
19/10/13 18:07:36.01 .net
>>605
どういう風にsaveしたんよ

620:
19/10/13 21:28:38 .net
>>606
ユーザースクリプトでURLリンク(web.archive.org)とwindow.location.href結合してwindow.openしてるだけよ

621:名無しさん@お腹いっぱい。
19/10/14 00:17:00.17 .net
一分15個か
覚えとこう

622:
19/10/14 04:18:41 .net
少ないように感じたけど、冷静に考えたら普通に十分だな

623:名無しさん@お腹いっぱい。
19/10/14 10:42:20.01 .net
4秒に1個だから十分すぎるくらいだな
よほど大量のURLを数時間で処理したい場合ならもしかしたら足りないかもしれないけど、そんな状況はそうそうない

624:名無しさん@お腹いっぱい。
19/10/14 10:59:14.84 .net
>>610
>よほど大量のURLを数時間で処理したい場合ならもしかしたら
>足りないかもしれないけど、
…正直言って自分はそれなんだよなあ。
だってデイリースポーツの公式なんて、ひとつのカテゴリーでも
記事を続々上乗せしていくものだから、トップが馬鹿みたいにコロコロ変わっていくのよ。
だから目を放した隙に、取りたかった状態と、魚拓の結果が異なることが本当に多い。
しかも同じように記事を上乗せしていくのを、中日スポーツも
やり始めたんで、非常に今困ってる。
スポニチや日刊みたいに、記事は追加してもトップはしばらく変えない
くらいがいいのだけど。

625:
19/10/14 14:14:29 .net
祝10000回
URLリンク(i.imgur.com)

626:名無しさん@お腹いっぱい。
19/10/14 14:29:56.82 .net
>>611
目指すところがよく分からないから的外れなこと言ってるかもしれないが、
定期的に更新をチェックして、以前の状態と変更があったら/save/を投げるようなスクリプト組んだら?

627:611
19/10/15 02:14:16.40 .net
>>613
「的外れなこと言ってるかもしれない」ってのは
「定期的に更新をチェックして、以前の状態と変更があったら/save/を投げるようなスクリプト組んだら?」
というのがそちらにとっては的外れなコメントかもしれないって事ね

628:
19/10/15 13:03:29 .net
新機能のスクショ、以前取ったやつが消えてるんだけど反映が遅いだけかな?

629:名無しさん@お腹いっぱい。
19/10/16 01:14:03.99 .net
通常時でも動作が不安定になることが少なくないから、新機能ということで余計に不安定さが増してるのかもな
念のために一応スクショを取得し直してみては

630:名無しさん@お腹いっぱい。
19/10/16 07:28:29.61 .net
キャプチャ数からみて明らかに保存できてるのにまずHm.を返すのはなんなんだ

631:
19/10/16 16:05:11 .net
また不調で全然取得出来ない・・・
日本からのアクセスだけ弾いてるとかないよね?
この手のアーカイブ取得しまくってるのは日本人多いからとかで

632:
19/10/16 16:42:13 .net
>>618
>>596 >>598

633:名無しさん@お腹いっぱい。
19/10/16 21:33:46.55 .net
・ブラウザが古い
・連投しすぎてて1日間のIPブロックを食らっている
・いつものシステム不調
好きな原因候補を選ぼう

634:
19/10/16 22:52:13 .net
これの最新がとれねえ URLリンク(www.dworks-ent.com)
過去サイトが全然関係ないっぽくて噴く

関連 スレリンク(liveplus板)

635:
19/10/16 23:47:39 .net
>>614
皮肉だなぁ。

>>621
変換すべき URL が HTML 内部に大量にあるため異常と判断され、
結果としてインデックスから外されているとか、そういう予感。
元のソースを見るとスタイルシートが <style> 要素で挿入されていて、
その中にフォント等の外部参照が 1000 個以上ある。

636:
19/10/17 01:07:43 .net
やっぱ全然取得できませんわ
最新のurlを入力すると一週間前のアーカイブのurlに飛ばされる

637:名無しさん@お腹いっぱい。
19/10/17 08:42:12.81 .net
やってみた
スクショは全然ダメだったが普通のアーカイブは取れたと思う
URLリンク(web.archive.org)

638:名無しさん@お腹いっぱい。
19/10/17 10:47:01.15 .net
first archiveかどうかの表示止めちゃったのかな
あれ割と好きだったんだが

639:名無しさん@お腹いっぱい。
19/10/17 10:52:43.50 .net
>>625
いや今度は表示されたわ
単に通信が悪かっただけか

640:名無しさん@お腹いっぱい。
19/10/17 18:58:41.63 .net
新しいSavePage、UserAgentが書き換わるせいかサイトのデフォルト言語が英語になってしまうな
まあ誰が取っても統一されるから良いといえば良いんだが

641:名無しさん@お腹いっぱい。
19/10/18 01:24:35.21 .net
エラーだの警告文だので全然ページ取れない使えないサイトになってしまった・・・

642:名無しさん@お腹いっぱい。
19/10/18 01:56:42.98 .net
さっきからまるで保存できないな
しばらく待つしかないようだ

643:
19/10/18 09:24:59 .net
昨日あたりからSave outlinksの調子もおかしいような
Save Page Nowフォームに投げたリンク元のURLのアーカイブは取れるけど、リンク先のは全然取れない
エラーも出ずにただワーキングカーソルが延々とぐるぐる回り続ける
回線速度やマシンスペックの問題ではないはずなんだけどな
数時間おきに間隔を空けて試してるが、やっぱり問題解消まで待つしかないのか

644:名無しさん@お腹いっぱい。
19/10/18 10:08:22.49 .net
根気よくリトライしてdoneになったページも半日おいて確認してみたらズコーってのが高頻度発生
徒労感はんぱないんで安定するまでしばしのお別れ

645:名無しさん@お腹いっぱい。
19/10/18 14:56:56.60 .net
>>630
>>631
自分も同じ現象になったけど、2日3日置いたらアーカイブされてたよ
表示上グルグル回ってるだけで内部的には取れてるのかも

646:名無しさん@お腹いっぱい。
19/10/18 17:14:03.81 .net
数時間前のでもアーカイブ一覧を見ると全然残ってないのよね
いつか復活するだろうと取得し続けるけど精神的につらい

647:名無しさん@お腹いっぱい。
19/10/18 18:49:14.19 .net
魚拓うつ

648:名無しさん@お腹いっぱい。
19/10/18 21:24:19.73 .net
>>633
どうしても心配ならAPIで確認すればいいよ
こっちはすぐに反映される
URLリンク(archive.org)

649:名無しさん@お腹いっぱい。
19/10/19 00:06:59.69 .net
ありがとう
でも試してみたら丸1日以上取得出来ていない模様・・orz

650:名無しさん@お腹いっぱい。
19/10/19 00:20:52.13 .net
あまりにもエラー連発するからステータスコード毎に適宜リトライするようなスクリプト書いてたら調子良い時期に突入したらしく確認がとれねえ

651:名無しさん@お腹いっぱい。
19/10/19 01:18:09.60 .net
/save/URLリンク(url~)にアクセスすると/saveに飛ばされるのは新たな仕様ですか?

652:名無しさん@お腹いっぱい。
19/10/19 01:42:49.09 .net
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)


653:12FfjE.jpg なんかもう訳分からぬ状況に突入してまっせ とにかくページ・画像ともに先に進めやしない >>634 もしかしたら自分はそれかもな… 先月辺りから取らなきゃいけないものが激増したから



654:名無しさん@お腹いっぱい。
19/10/19 01:53:56.45 .net
業務じゃないんだろ?己を強迫するな力を抜け
ていうか不安定なIAの現状みても当分離れるのが正解

655:
19/10/19 02:05:19 .net
ウェイバックウェーイwww

656:名無しさん@お腹いっぱい。
19/10/19 03:11:39.38 .net
余計な機能いらねーから少しでも軽くしてくれ

657:名無しさん@お腹いっぱい。
19/10/19 07:42:23.08 .net
殆どのサイトやページが何回登録押しても一発で簡単には?取れないようになってる
寄付集めて何改悪してんだよ
最悪だよ、これならスクショ取った方がマシだ

658:名無しさん@お腹いっぱい。
19/10/19 08:33:50.57 .net
>>638
そうです
つい先日変更されたばかり
>>639
ブラウザのURL入力バーにweb.archive.org/save/URLリンク(example.com)と直打ちしたら自分も「Wayback Exception」になった
単なる不具合かもしれないが、もしかしたら/save/のページからの入力のみ受け付ける仕様変更になったのかもな
>>643
チェックボックスのオプションのことかな
あれ便利だから個人的には重宝してるんだけど人それぞれか

659:642
19/10/19 12:05:49.13 .net
>>644
>直打ちしたら自分も「Wayback Exception」になった
今試したら問題なくsaveできた
やっぱり一時的な不具合だったみたいだ

660:名無しさん@お腹いっぱい。
19/10/20 12:41:01.64 .net
Summary機能死んでるな

661:名無しさん@お腹いっぱい。
19/10/20 13:16:39.96 .net
/save/URLリンク(url~)→今まで通り保存
Save This Url→/saveに誘導
時々サーバーエラー返るけど保存できてるっぽいな

662:名無しさん@お腹いっぱい。
19/10/21 03:54:27.94 .net
Bummer出現率が10倍になった気がするわ

663:名無しさん@お腹いっぱい。
19/10/21 18:40:59.09 .net
前から1割以上出てた気がするんだがひょっとして出現率100%超えた?

664:名無しさん@お腹いっぱい。
19/10/21 20:55:58.53 .net
Bummer出現率はどうも環境や時間帯によって変わるっぽいからな
自分は体感で0.5~2%くらいだが、5割を越える人もいるらしい

665:名無しさん@お腹いっぱい。
19/10/23 00:37:32.27 .net
>>624
ありがとう 
17 Oct 2019で撮れてるのをこちらでも確認

666:名無しさん@お腹いっぱい。
19/10/23 09:50:03.69 .net
もっと積極的に寄付募っていいと思うんだけどな
Wikipediaなんてクソデカアピールしてるのに

667:名無しさん@お腹いっぱい。
19/10/23 12:51:52.98 .net
あのコーヒー高いやつか

668:名無しさん@お腹いっぱい。
19/10/23 16:02:36.31 .net
Wikipediaみたいなしつこい広告をされると却って寄付する気が失せるが、
Internet Archiveみたいに全く何も言ってこないと逆に心配になって寄付したくなってしまう

669:名無しさん@お腹いっぱい。
19/10/24 12:46:11.33 .net
Save outlinksで読み込んでくれるリンクは50個が限界みたい
外部リンクがいくつあろうと最大で50個しか読み込まれてない
まあ無尽蔵に外部リンクを辿ると大変なことになるから制限をかけるのは無理ないけどな
ただ読み込むリンクをどういう基準で選定しているのかが気になる、もしかしたらランダムなのかもしれない

670:名無しさん@お腹いっぱい。
19/10/25 09:27:42.02 .net
普通なら「先頭からパースして50個に達したら終了」とか、そんな感じで組むと思うけどな。

671:名無しさん@お腹いっぱい。
19/10/25 16:28:24.43 .net
ブラウザの履歴消すとweb.archiveで取った筈の履歴がweb.archiveから消えてる事が多いんだけど、
どうしたらいいんでしょう…?

672:名無しさん@お腹いっぱい。
19/10/25 16:39:28.87 .net
俺は専門家ではないが、それはたぶん別の話だな

673:名無しさん@お腹いっぱい。
19/10/25 20:44:45.21 .net
100%それで消える事はない
多分、カレンダー経由かアーカイブURL直打ちかの違いだと思うけど(カレンダーは反映が遅い)

674:名無しさん@お腹いっぱい。
19/10/25 23:04:26.68 .net



675:確かに100%ありえないな これまで見れてたアーカイブがブラウザの履歴を消した後見れなくなったって言いたいんだと解釈したけど、 そういうことならWayback側のシステム不具合と履歴消去のタイミングが偶然重なったんじゃないかな



676:名無しさん@お腹いっぱい。
19/10/26 01:26:02 .net
あれ強制セーブどうやんだっけ
/save/にアドレス入れたとたん保存済みの古いページに飛ぶから現時点のが保存できん

677:名無しさん@お腹いっぱい。
19/10/26 20:17:47.54 .net
>>661
それ保存されているはずでは?
アドレスの日時は今現在の時刻になっているはず。
ただし日本の時刻とはズレている

678:名無しさん@お腹いっぱい。
19/10/27 09:59:27.01 .net
ああ騒がせてすまんかった やり方がよくなかったんだわ
ちゃんと保存されたのを確認

679:名無しさん@お腹いっぱい。
19/10/27 19:18:43.25 .net
.isが.phになった

680:名無しさん@お腹いっぱい。
19/10/27 20:18:10.50 .net
ヒィリピンか?

681:名無しさん@お腹いっぱい。
19/10/27 20:43:47.15 .net
>>665
そうだ

682:214
19/10/28 21:12:51.70 .net
18 日あたりからでしょうか、一部の古いブラウザへの対応が復活していますね。
全く使い物にならなくなっていた Internet Explorer 11 で
カレンダ画面が描画できていることを確認。
URLリンク(i.imgur.com)

683:名無しさん@お腹いっぱい。
19/10/28 21:44:28.72 .net
IE11はサポート現役のブラウザだからな
そうでなくっちゃ

684:名無しさん@お腹いっぱい。
19/10/29 00:40:26 .net
Web開発やってるとIEはとにかく邪魔者でしかないんだけどな
個別対応とかが面倒だしセキュリティ上の懸念もある
IAもよくサポート復活したな、要望が多かったんだろうか

685:名無しさん@お腹いっぱい。
19/11/01 01:10:39.55 .net
「ぐっちゃぐちゃだけど一応使える」程度でも十分だよね

686:名無しさん@お腹いっぱい。
19/11/01 15:13:44.89 .net
相変わらず迷走中。ブロック期間を五分間に短縮。
URLリンク(o.5ch.net)

687:名無しさん@お腹いっぱい。
19/11/03 01:35:00.29 .net
連投具合でブロック時間が変わるんだと予想
まあブロック時間が長くなるよりかはマシでしょ

688:名無しさん@お腹いっぱい。
19/11/04 19:47:08.99 .net
あげとくよ

689:名無しさん@お腹いっぱい。
19/11/04 22:36:49.74 .net
?ありがとう

690:名無しさん@お腹いっぱい。
19/11/05 12:28:57.16 .net
URLの末尾が「?」だとアーカイブが取れないバグ無いか?
正確に言うと勝手に「?」が取られて意図しないページが取得される
例えば
example.com/test?
をアーカイブしようとしても
example.com/test
となってアーカイブできない
対策としては適当なクエリを付ければアーカイブできる。上の例なら
example.com/test?hoge
とすれば取れる、URLは変わるけど...
クエリの開始点と誤認識してるのかな?

691:名無しさん@お腹いっぱい。
19/11/05 14:10:24.24 .net
これは参考になる
クリスタルひとしくんをあげたい

692:名無しさん@お腹いっぱい。
19/11/05 15:27:44.29 .net
>>675
> URLの末尾が「?」

そんなサイトがあるのか。知らなかったのだ。

693:名無しさん@お腹いっぱい。
19/11/05 20:17:21.03 .net
>>677
例えば
URLリンク(ja.wikipedia.org)
とか

694:名無しさん@お腹いっぱい。
19/11/05 20:23:08.46 .net
>>678
パーセントエンコードされているのをデコードするマヌケ

695:名無しさん@お腹いっぱい。
19/11/06 03:34:12.87 .net
URLをエンコードして保存しないとそりゃそうなるわな

696:名無しさん@お腹いっぱい。
19/11/06 11:12:10 .net
そうですか、じゃあ保存方法を教えてくれ
URLリンク(web.archive.org)ソウナンですか%3F

697:名無しさん@お腹いっぱい。
19/11/06 18:26:38.28 .net
自分で答え(符号化URL)書いてるのに気付いてないのか
っ web.archive.org/save/URLリンク(ja.wikipedia.org)

698:名無しさん@お腹いっぱい。
19/11/07 09:39:00.60 .net
URL パーセントエンコーディング で検索

699:名無しさん@お腹いっぱい。
19/11/07 16:38:16.92 .net
不適切なページ名 - Wikipedia
URLリンク(web.archive.org)

700:名無しさん@お腹いっぱい。
19/11/07 18:57:16.91 .net
まあ?記号だけエンコードして


701:もそりゃ意味無いわな URLの日本語部分全部をエンコードせな



702:名無しさん@お腹いっぱい。
19/11/07 19:01:10.50 .net
「URL パーセントエンコーディング」で検索して分からないならもはや絶望的だから諦めろ

703:214
19/11/07 20:22:03.37 .net
>>685
Edge なんかだと、location.href も document.URL も
decodeURI() された状態で入っていますからねぇ。
アドレスバーの中身をコピーした場合もまた然り。
URLリンク(ja.wikipedia.org)ソウナンですか%3F
まぁ同一ブラウザ内で単純に URLリンク(web.archive.org) を頭に付けて
アドレスバーへ再投入するだけなら問題は起こらないとは思いますが。

704:名無しさん@お腹いっぱい。
19/11/07 23:07:13.43 .net
いや >>678 で自分で答え書いてるって
URLエンコードの理解以上に救いようがない

705:名無しさん@お腹いっぱい。
19/11/08 20:42:41.32 .net
Wayback Machine
いつの間にかヤフーニュースのスクリーンショットを取れるように
なっていた。
これだとヤフーのトップページに遷移されることもない。
Save screen shot  にチェックを入れてからクリック。

706:名無しさん@お腹いっぱい。
19/11/08 21:35:11.25 .net
何を今更

707:名無しさん@お腹いっぱい。
19/11/09 19:10:59.19 .net
何か「attention request」とか出る(´・ω・`)

708:名無しさん@お腹いっぱい。
19/11/10 14:47:45.08 .net
午後から503が頻発すると思ったら
いきなりメンテナンスに突入

709:名無しさん@お腹いっぱい。
19/11/10 17:47:38.07 .net
>>688
もし良かったら取得できたURLを張ってくれないか?
本当に取れてるなら悪いがマウント取りたいだけにしか見えなくてな
↓のカレンダーでは青丸になってるが取れてない(エンコード有り無し両方)
URLリンク(web.archive.org)ソウナンですか%3F

710:214
19/11/10 19:24:48.83 .net
個人的にまとめるとこんな感じかな。
末尾に ? (%3F) があると問題なのは間違いなさそう。
A) URLリンク(ja.wikipedia.org)
B) URLリンク(ja.wikipedia.org)
A が本来の URL、B は間違い。
A は先頭に ~/save/ を付けた URL にアクセスすると
暫くの間ウィキペのコンテンツが表示されるので、それが保存できているとは思う。
A のアーカイブ一覧、現在 10 件。
URLリンク(web.archive.org)
B のアーカイブ一覧、現在 2 件。
URLリンク(web.archive.org)
これらのカレンダ表示は、おそらく正しい値ではないかと思う。
ところが A の個別のアーカイブを開こうとすると、
なぜか B の個別のアーカイブにリダイレクトされてしまう。

711:名無しさん@お腹いっぱい。
19/11/10 20:52:53.22 .net
web.archive.org のバグだね
本来エンコード済みなら無視しちゃいけない末尾の%3F (?) を無視しちゃってる

712:名無しさん@お腹いっぱい。
19/11/11 01:49:34.32 .net
またなんか挙動がおかしいな
保存完了したから確認しようとすると「セーブしますか?」のページに飛ぶ
ドメインから引こうとしても1個もヒットしない

713:名無しさん@お腹いっぱい。
19/11/11 19:47:40.14 .net
>>692
メンテナンスは事前に予告してほしいよな

714:名無しさん@お腹いっぱい。
19/11/12 00:42:02.53 .net
アドレスの文字列にNGワードがあってublockが反応してるケースがあった
archive全体もスルーにしないとあかんかな

715:名無しさん@お腹いっぱい。
19/11/12 23:49:49.89 .net
なるほどなあ

716:名無しさん@お腹いっぱい。
19/11/14 06:06:11.27 .net
Internet Archive
We're experiencing some technical issues, cause
undetermined at the moment. Site availability may be
spotty for a while. We will update when we have more
news. Thanks for your patience!
5:49 - 2019年11月14日
URLリンク(twitter.com)
(deleted an unsolicited ad)

717:名無しさん@お腹いっぱい。
19/11/14 06:10:32.45 .net
Internet Archive
Update: We should be stable again, looks like it was a
router issue.
6:06 - 2019年11月14日
URLリンク(twitter.com)
(deleted an unsolicited ad)

718:名無しさん@お腹いっぱい。
19/11/14 14:43:21.


719:45 .net



720:名無しさん@お腹いっぱい。
19/11/14 18:02:27.39 .net
正直日本ではこれ以上有名になって欲しくない
アーカイブの重要性が広まってない状態で有名になっても
アーカイブの削除や拒否だらけになる未来しかみえん

721:名無しさん@お腹いっぱい。
19/11/19 14:17:20.49 .net
北斎美術館は何やらアクセス弾いてるねえ

722:名無しさん@お腹いっぱい。
19/11/19 14:18:01.39 .net
>>703
国会図書館のアーカイブがもっと貪欲で解放的ならいいんだけど

723:名無しさん@お腹いっぱい。
19/11/19 17:11:57.36 .net
公正利用の概念を広めて開放させるしかない

724:名無しさん@お腹いっぱい。
19/11/19 20:27:30.18 .net
某所で炎上したとあるサイトの管理人がInternet Archiveに英語メール送って、証拠用にSavePageNowで取られたアーカイブを非表示にさせた事例は前に見たことがある
Archive.todayにもアーカイブ取ってる人がいたから証拠が消え失せることはなかったけど、Wayback Machineのアーカイブって結構危ういよね

725:名無しさん@お腹いっぱい。
19/11/19 20:37:29.65 .net
ちなみにそのサイトは炎上騒ぎの後ia_archiverを弾くようにrobots.txtを変更してたけど、
SPNではブラウザのUserAgentが用いられるのでSPNでアーカイブを取ること自体は今でも可能なまま
ただし取得しても"This URL has been excluded from the Wayback Machine."という例の表示が出て閲覧はできない
"

726:名無しさん@お腹いっぱい。
19/11/20 19:56:41.89 .net
Boomerを更新してもBoomerが出るようになった。

727:名無しさん@お腹いっぱい。
19/11/20 22:06:09.19 .net
ぶまりまくり

728:名無しさん@お腹いっぱい。
19/11/21 18:41:47.05 .net
outlinkが一覧の他のページも保存しちゃうから次のページのoutlink取得しようとしても10分以上待たなくてはならない。
取得直後のページは10分間保存なしにして、他のページだけ保存してくれればいいのに。

729:名無しさん@お腹いっぱい。
19/11/21 20:46:01.10 .net
>>711
> outlinkが一覧の他のページも保存しちゃうから次のページのoutlink取得しようとしても10分以上待たなくてはならない。

あー、そうなのか。それは知らなかった。

730:名無しさん@お腹いっぱい。
19/11/22 05:05:33 .net
MapionとかGoogle Mapも取れるようになってほしい。
画像の撮影場所を示すのに使われているんだよね。

731:名無しさん@お腹いっぱい。
19/11/23 14:33:03.22 .net
先週辺りからまたおかしくなってるな。
新しく取得したものが、過去の一覧にすぐ反映されないとか。
または取得できたと思ったら、確認すたらまだ取得前の画面に戻っちゃったりとか。

732:名無しさん@お腹いっぱい。
19/11/23 18:47:42.65 .net
またこいつか

733:名無しさん@お腹いっぱい。
19/11/24 04:12:55 .net
503が返ってくるようになったので、アク禁されたのかと思ったが、
TOP開いたらScheduled Maintenanceだった。永久アク禁されてなければいいけど。

734:名無しさん@お腹いっぱい。
19/11/24 14:07:26.69 .net
もう今日はお話にならねえくらい酷い状態だな
Sorry連発
かつ魚拓の結果が全然出て来ねえ

735:名無しさん@お腹いっぱい。
19/11/24 17:09:39.82 .net
ヒゲソーリー

736:名無しさん@お腹いっぱい。
19/11/24 18:20:09.27 .net
最近調子いいなぁと思ったら急に悪くなったりツンデレなのか?
>>717
今日はAPIにすら反映されてないから止めたほうが良さげ

737:名無しさん@お腹いっぱい。
19/11/24 21:51:57.94 .net
あかんメンテ後ずっとこれや
This page is not available on the web
because of server error

738:名無しさん@お腹いっぱい。
19/11/24 22:40:57.15 .net
使い物にならんな
深夜に取った分ちゃんと取れてるかも怪しい

739:名無しさん@お腹いっぱい。
19/11/24 22:59:40.58 .net
物理的にどっかで断線でもしてるんじゃないかと疑うレベル

740:名無しさん@お腹いっぱい。
19/11/25 01:04:25.15 .net
Wi-Fiの近くで電子レンジ使ってるのかもしれない

741:名無しさん@お腹いっぱい。
19/11/25 08:18:55


742:.82 .net



743:名無しさん@お腹いっぱい。
19/11/25 10:15:46.16 .net
ここ使えなくなったらすごく困る

744:名無しさん@お腹いっぱい。
19/11/25 10:44:48.59 .net
とりあえず新規の取得は直ったっぽい?

745:名無しさん@お腹いっぱい。
19/11/25 10:57:07.90 .net
いけるな

746:名無しさん@お腹いっぱい。
19/11/25 13:34:09.71 .net
入れ替わりにウェブ魚拓がおかしくなってる

747:名無しさん@お腹いっぱい。
19/11/26 22:33:36.61 .net
復旧そして寄付募集モードか

748:名無しさん@お腹いっぱい。
19/11/27 09:30:14 .net
こんだけ不安定だと寄付のお願いの必死さに説得力がある

749:名無しさん@お腹いっぱい。
19/11/27 13:29:45 .net
ここ数日保存したのを確認したらほぼ全滅
これじゃとても寄付はできんな

750:名無しさん@お腹いっぱい。
19/11/27 13:38:00 .net
寄付しないと余計に酷くなるだろうし、財布に余裕が出来たら少し寄付しようかと思う
インターネットアーカイブが完全に使えなくなったら本当に困るし

751:名無しさん@お腹いっぱい。
19/11/27 20:11:21.49 .net
Twitter社が半年以上ツイートしてないアカウントを12月に削除するらしい
故人のアカウントも消えてしまうのかと問題になってるんだけど消えたら困る
とりあえず急いで特に大事なツイートはここに保存してるけど

752:名無しさん@お腹いっぱい。
19/11/27 21:41:08.20 .net
なにそれひどい

753:名無しさん@お腹いっぱい。
19/11/27 23:33:06.17 .net
みんなが捨て垢やらサブ垢やら作りまくってるからサーバを圧迫してるんだろな
UserStreamを廃止したのも資金の問題があったみたいだし事情は分かるが、
にしてもログイン確認できなければ一括削除ってのは残酷すぎる気はするな

754:名無しさん@お腹いっぱい。
19/11/28 01:48:23.89 .net
半年ってなあ
逆にbot投稿ならこれに引っかからずに生き残るんだろうし
バランス悪い結末になりそうだ

755:名無しさん@お腹いっぱい。
19/11/28 11:40:49.76 .net
混乱と反対が大きかったためか、故人のアカウントをどうするか上手い方法が見つかるまで削除は当面延期するそうな
とりあえず余裕は出来たけど、Twitterのアーカイブという懸案事項もできたな

756:名無しさん@お腹いっぱい。
19/11/28 15:06:24.40 .net
archive.is 鯖臨終か(´・ω・`)?
#192q…とか出る 👀
Rock54: Caution(BBR-MD5:1322b9cf791dd10729e510ca36a73322)


757:名無しさん@お腹いっぱい。
19/11/28 15:16:46.64 .net
archive.is試しに保存したが普通だぞ
IAの方が23日以降に保存した内容が時間とともに消えてヤバイ

758:名無しさん@お腹いっぱい。
19/11/28 16:00:47.27 .net
URLリンク(news.livedoor.com)

759:名無しさん@お腹いっぱい。
19/11/28 16:48:06.51 .net
>>738-739
確かに保存はできるが、いかんせん待ち時間がクソ長過ぎる。
案の定、デイ○ースポーツの芸能カテゴリー取ったら、
待ち時間のあいだに記事が一つ追加されて、先にIAで取ったやつと比べて
「ズレ」が生じちゃったじゃないか…。魚拓を取るなら、全て同じ条件で取りたいのに。

760:名無しさん@お腹いっぱい。
19/11/28 16:52:32.45 .net
またこいつか

761:名無しさん@お腹いっぱい。
19/11/28 17:09:30.25 .net
でも俺はやりたいんだよ。でもやるんだよ!文句あるか?
ただ、あそこはメンテナンスでもやったのか?
しぱらくデ○リースポーツの記事が、テキスト状態でしか取れなかったが、
今日取れたものは、以前と同じようにカラー・写真入りで取れてる。

762:名無しさん@お腹いっぱい。
19/11/28 18:22:24.06 .net
そこまでデイリースポーツの完全なるアーカイブに固執する理由が気になる
傍から見てると、こういう言い方も良くないが正直異常に見えてしまう

763:名無しさん@お腹いっぱい。



764:
それも固執している対象が個別の記事とかではなくて、 トップページとかカテゴリー別とかの一覧ページだからなwww



765:名無しさん@お腹いっぱい。
19/11/28 19:36:04.74 .net
デイリースポーツのマニア = 熱狂的な阪神ファン

766:名無しさん@お腹いっぱい。
19/11/28 19:54:18.49 .net
>>147あたりが初出かな。
キーボードをバンバン叩いてアーカイブを取得する行為そのもので
アドレナリンがピュピュッと出ちゃう人なんだろうな。
本当に必要性を感じているなら、自動化とかもう少し別の方向を
考えてるだろ。二年間もの間、何やってたんだ。

767:名無しさん@お腹いっぱい。
19/11/28 21:51:58.70 .net
「自動化は信用ならない、自分の手でしっかりとアーカイブできたか確認したい」ということな分からないではないが、それにしても時間の無駄では?

768:名無しさん@お腹いっぱい。
19/11/28 23:01:43.61 .net
実際画像メインのサイトなのに画像が全く取れておらず
アーカイブ検索時の邪魔になってるだけのアホアーカイブもチラホラ見かけるんで
確実にってのはわからなくはない

769:名無しさん@お腹いっぱい。
19/11/28 23:27:32.18 .net
何?コレ
URLリンク(f.uploader.xzy.pw)

770:名無しさん@お腹いっぱい。
19/11/28 23:56:56.97 .net
>>750
何年か前の閉鎖された海外ロダ群でコレよく見かけたな
先に読みづらい認証コードいれろってヤツ

771:214
19/11/29 12:25:26.34 .net
Archive.is の待ち時間がクソ長過ぎるという話。
同サイトで定期的にアーカイブを取得させるスクリプトを走らせていますが、
1. 事前に URLリンク(Archive.is) からトークンを取得。
2. ターゲット URL 等の情報を URLリンク(Archive.is) へ送信 (POST)。
3. 200 応答が返り、コンテントボディに loading.gif への参照が
含まれていればアーカイブ成功と判断し終了、あとは知らんぷり。
― 以上の手順で問題は起きていないですね。
取得開始からアーカイブ完了まで時間が掛かるのはあちら側のプロセスなので
仕方が無いとして、取得状況を羅列したページを繰り返し読ませるのは
人間向けのただの演出。
>>741
記事のリストはベースの HTML に含まれていて、アーカイブ時は一番最初に
保存されるファイルですから、待ち時間云々は無関係。
単にアーカイブを開始させるまでに時間が掛かってしまっただけ。
>>750
CloudFlare でホストされているサイトに Tor 経由でアクセスすると良く出ていましたね。
数ヶ月前にそれが突然出なくなってしまい、逆にこちらが「まさか生で繋がってる?」と
不安になったことがあります。

772:名無しさん@お腹いっぱい。
19/11/29 13:07:14.17 .net
214氏には各アーカイブサイトの自動化の知見についてブログかQiitaかどこかにぜひまとめて文章化して欲しい
需要はかなりあると思うんだが

773:名無しさん@お腹いっぱい。
19/11/29 14:16:06.48 .net
archive.is、内部リンクの置換が廃止された?
28日以降のアーカイブは元リンクに飛ぶ

774:名無しさん@お腹いっぱい。
19/11/29 16:38:28.77 .net
23日以降から全部アーカイブ消えてるんだけど・・・・

775:名無しさん@お腹いっぱい。
19/11/29 18:41:10.81 .net
なんかアーカイブしたはずなのに検索にURL入れてもアーカイブされて無いって出るんだけど…
それでもう一度アーカイブすると初めてアーカイブした扱いになってて、検索でURL入れるとまた無いってなるんだけど…なにこれ

776:名無しさん@お腹いっぱい。
19/11/29 21:43:52.53 .net
もう一度やってみたらどうもアーカイブは一応とれてるみたいだけど
検索でURL入れても最近のアーカイブは結果に出てこなくなってるっぽい

777:名無しさん@お腹いっぱい。
19/11/29 22:26:47.01 .net
昨日試しにこのスレ保存してブクマしといたが半日�


778:ルどで消えた 今はまともに保存できないらしい



779:名無しさん@お腹いっぱい。
19/11/29 22:59:48.91 .net
保存関連の処理とアーカイブのインデクシング・閲覧関連の処理は別々のプログラムが担ってるからな
今回は後者の部分が不安定になってるんだと思う

780:名無しさん@お腹いっぱい。
19/11/30 16:34:33.79 .net
これじゃ使い物にならんな
困ったもんだ

781:名無しさん@お腹いっぱい。
19/11/30 21:34:11.13 .net
お金が無いから寄付できない

782:名無しさん@お腹いっぱい。
19/12/01 03:28:20 .net
正常に戻ったらしい

783:名無しさん@お腹いっぱい。
19/12/01 12:38:23.38 .net
おれはしんじないぞ

784:214
19/12/01 15:11:22.39 .net
>>759
ファイルが Internet Archive に保存できているかどうかを確認するために
先頭に URLリンク(web.archive.org)~ を付けた URL でチェックするのですが、
/2/ を保存日時の数字に置き換えた URL へリダイレクトできているのに、
つまり当該日時のアーカイブが存在することが判っているのに、
そのリダイレクト先では Save Page Now (404 Not Found)。
ここ二週間ほど、こんなことが度々起きています。
つくづく「別プロセスなんだなぁ」と感じます。

785:名無しさん@お腹いっぱい。
19/12/01 16:13:17.83 .net
今回の件は寄付集めるための小細工にも思えたがな

786:名無しさん@お腹いっぱい。
19/12/01 16:52:50.58 .net
そんな小細工なんてやられたら
瞬時で変わるやつが取れないじゃないか
こんな誤爆も取れやしない
URLリンク(i.imgur.com)

787:名無しさん@お腹いっぱい。
19/12/01 17:04:17.49 .net
またこいつか

788:名無しさん@お腹いっぱい。
19/12/01 17:08:17.88 .net
また手抜きか

789:名無しさん@お腹いっぱい。
19/12/01 17:44:15.43 .net
普通にワンクリックで取っていても「リダイレクトが繰り返し行われました」
「Cookie を消去してみてください」という表示が時々出るな.

790:名無しさん@お腹いっぱい。
19/12/01 18:34:06.36 .net
仕組みが良くわからん
こっちのクッキー使うのか

791:名無しさん@お腹いっぱい。
19/12/01 21:43:13.83 .net
IAは「クッキーを食べないブラウザ」として動作するから
クッキーを食わせるために無限リダイレクトループ、
それがそっくりそのままアーカイブされてしまったんじゃないの?

792:名無しさん@お腹いっぱい。
19/12/02 14:33:54.58 .net
一時的にIAを弾いてたとしても内部的には情報は保存されてるのか
消えたと思ってたが安心した

793:名無しさん@お腹いっぱい。
19/12/02 15:20:57.07 .net
archive.is
robots.txtに従わない 👀
Rock54: Caution(BBR-MD5:1322b9cf791dd10729e510ca36a73322)


794:名無しさん@お腹いっぱい。
19/12/02 15:59:43.26 .net
なにそのおめめ

795:名無しさん@お腹いっぱい。
19/12/03 00:53:30 .net
donateに&#128151;が付いてて笑った
というか60ペタバイト超えてたのね
URLリンク(archive.org)

796:名無しさん@お腹いっぱい。
19/12/03 00:55:14 .net
>>775
あ、文字化けしちゃった
それハート

797:名無しさん@お腹いっぱい。
19/12/03 01:43:21 .net
donate
URLリンク(i.imgur.com)

798:名無しさん@お腹いっぱい。
19/12/03 03:42:51.04 .net
Donateリンクにハートマークって他のサイトでも結構見るよ

799:名無しさん@お腹いっぱい。
19/12/03 08:47:03.97 .net
確かに英語圏のサイトだと結構よく見るよね
何かそういう文化か風習か何かがあるんだろうと思う

800:名無しさん@お腹いっぱい。
19/12/03 12:11:20.12 .net
日本人が感じる猫なで声ニュアンスはないってことだろうか

801:名無しさん@お腹いっぱい。
19/12/03 13:57:02.07 .net
60PBかぁ…

802:名無しさん@お腹いっぱい。
19/12/03 14:31:13.73 .net
案外そんなもんなのな

803:名無しさん@お腹いっぱい。
19/12/03 15:32:38.45 .net
多いと見るべきか少ないと見るべきか

804:名無しさん@お腹いっぱい。
19/12/03 16:06:30.58 .net
再巡回時に同じデータだった場合「同じでした」とだけ記録してるのかな
それとも完全重複で保存してるのかな

805:名無しさん@お腹いっぱい。
19/12/03 19:38:11.00 .net
スポーツ紙をアーカイブすると「記事を見る」の部分が折り畳まれる(´・ω・`) 開けない(´・ω・`)

806:名無しさん@お腹いっぱい。
19/12/03 22:19:17.87 .net
またこいつか

807:名無しさん@お腹いっぱい。
19/12/04 00:48:12 .net
どれだよ

808:名無しさん@お腹いっぱい。
19/12/04 13:27:45.32 .net
>>785
自前でアーカイブ取るか?
鯖からのソース保存じゃなく、その瞬間ブラウザで表示してる状態で保存する自作のブックマークレットある
ブラウザでブックマークすれば保存できる
冒頭のjavascript:はブラウザによってはペーストしたときに自動で剥がれるので、剥がれてたら自分で付け直してブックマークすること
javascript:(()=>{'use strict';const c=new Date(),h=document.documentElement.cloneNode(true);
let n=h.querySelectorAll('[href]'),i=n.length-1;while(i>=0){n[i].href=new URL(n[i].href,location.href).href;i--;}n=h.querySelectorAll('[src]');i=n.length-1;while(i>=0){n[i].src=new URL(n[i].src,location.href).href;i--;}
const b=new Blob([new XMLSerializer().serializeToString(document.doctype)+h.outerHTML],{type:'text/html'});const a=document.createElement('a');
a.download=c.toUTCString()+
' - '+decodeURI(location.href).replace(/\*/g,'*').replace(/\//g,'/').replace(/:/g,':').replace(/:/g,':').replace(/\\/g,'\').replace(/\|/g,'│').substring(0,123)
+'.html';a.href=(URL||webkitURL).createObjectURL(b);a.click();})();

809:名無しさん@お腹いっぱい。
19/12/04 13:41:01.27 .net
>>788
レスの一行制限で改行入れたけど、多分「"+"の前の改行」で動かんと思うから
改行消してやってくれ
改行全部取っても動くようにしてあるからそれでも良いが

810:名無しさん@お腹いっぱい。
19/12/04 18:15:27.35 .net
最近のarchiveisはもう駄目だな
待ち時間長くなったうえに今日は巻き戻るから取得すらまともに行われない

811:名無しさん@お腹いっぱい。
19/12/04 20:12:20.89 .net
昨日は魚拓経由でつかえたけど今日は何やってもだめだ

812:名無しさん@お腹いっぱい。
19/12/04 20:29:10.85 .net
どうせまたシュポーツのはなしなんでしょう

813:名無しさん@お腹いっぱい。
19/12/04 22:21:53.92 .net
いえいえシュポーチュでちゅよ

814:名無しさん@お腹いっぱい。
19/12/04 23:06:06.88 .net
Archive.isやら何やらの話してる人はウェブ魚拓スレに行ってや
IAの話の中で他サービスの話題が出るのは分かるがこの場合はそうじゃないだろ

815:名無しさん@お腹いっぱい。
19/12/04 23:25:27.70 .net
pixivって今アーカイブできない?
昔はできてた気がするけど

816:名無しさん@お腹いっぱい。
19/12/05 01:05:02.52 .net
>>795
いくつかSPNに突っ込んで試してきた
保存完了の表示は出るけどWayback自体が不安定なせいか、アーカイブが表示できたり出来なかったりするんだよな
スクリーンショットの方はとりあえず取れてたから、おそらく普通のアーカイブの方も取れてるんじゃないかと思う
まとめると、おそらくアーカイブIA側が不安定だから

817:名無しさん@お腹いっぱい。
19/12/05 01:07:00.25 .net
途中送信してしまった
まとめると、おそらくアーカイブは出来るがIA側が不安定なせいで上手く行ってないだけだと思われる
あとアーカイブ時に日本国外の回線からアクセスするので、英語版ページへリダイレクトされる点にも注意

818:名無しさん@お腹いっぱい。
19/12/05 01:37:24 .net
>>796-797
なるほどサンクス

819:214
19/12/05 22:39:02.46 .net
ここでは、動画の内容に関する話は抜きで。
URLリンク(web.archive.org)
普通にアクセスを掛けても、どういう訳か 200 OK ではなく 206 Partial Content を返してくる。
当然、返してはいけない応答なので一般的なクライアントではダウンロードできない。
レスポンスヘッダを見ると
X-Archive-Orig-Content-Range: bytes 0-3091160/3091161
という行があるので、あるクライアントが Internet Archive に当該ファイルを
保存するよう要求したときに
Range: bytes=0-3091160
の指定が何故か付いてしまっていて、それがそのまま IA から video.twimg.com に送


820:られ、 範囲指定付きリクエストとして処理された応答が IA にアーカイブされた、 ということだと思う。 しかし、何をどうやったら範囲指定付きのアーカイブ要求なんか出るのかねぇ。



821:名無しさん@お腹いっぱい。
19/12/06 01:10:23 .net
>>799
グロ

822:名無しさん@お腹いっぱい。
19/12/06 16:10:30 .net
検証用環境がなくて断定出来ないので完全な予想だが、Heritrixか何かの設定のせいなのかもな
Save Page Now経由で取得できる動画の容量にあらかじめ制限をかけてあるんじゃないだろうか
動画はかなり通信量を食うし、無制限の取得を許可したら色々な面で大変な事になるだろうから、
そういうリミッターが存在しても不思議ではないと思う

823:名無しさん@お腹いっぱい。
19/12/10 03:14:02.77 .net
うーんpixiv保存するとなぜかどうしても保存されるのが真っ白なページになってしまう
なぜだろう

824:名無しさん@お腹いっぱい。
19/12/13 20:50:45.96 .net
やたらと寄付呼び掛けてるの何だろうと思ったら
データ量が急激に増えててヤバイらしいな
URLリンク(gigazine.net)

825:名無しさん@お腹いっぱい。
19/12/14 00:52:12.88 .net
>>803
これはヤバいな
2019年だけで10ペタバイト、1996年~2011年に保存した量の2倍ものデータが追加されたとか…
いくら寄付を集めたところでこんな膨大な量がずっと増え続けていくんじゃじり貧になるのは目に見えてる気が…
お金だけじゃなくて置き場所も足りなくなりそう
AI使って同じだったりほとんど変化の無いページは消していくとかしないと
あとは結局クロールする範囲を元と同じに減らすしかなくなる気がする
それとクラウド使ってないってことはここのサーバーが火事とかになったら全部パーってことでそれも怖いな
Googleみたいに世界中に何十にもバックアップとか入念な事はしてなさそうだし


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch