Internet Archive総合 (web.archive.org) #3at ESITE
Internet Archive総合 (web.archive.org) #3 - 暇つぶし2ch2:名無しさん@お腹いっぱい。
20/04/02 02:12:07.12 .net
関連スレッド
・ウェブ魚拓 Part3
スレリンク(esite板)
・【保存・記録】ウェブアーカイブ総合 Page.01
スレリンク(internet板)

3:名無しさん@お腹いっぱい。
20/04/03 06:21:50.54 .net
保守しよう

4:名無しさん@お腹いっぱい。
20/04/08 23:23:12.60 .net
追加した方がいいテンプレって何があるかな

5:名無しさん@お腹いっぱい。
20/04/09 13:43:59.23 .net
保存したはずなのに消えてる!って質問よくされてるから
その辺の事とか?

6:名無しさん@お腹いっぱい。
20/04/10 14:21:39.04 .net
ホシュ

7:名無しさん@お腹いっぱい。
20/04/10 15:59:46.20 .net
保守

8:名無しさん@お腹いっぱい。
20/04/11 16:55:05.81 .net
Hmmm

9:名無しさん@お腹いっぱい。
20/04/13 02:51:24.68 .net
>>5
それいいね、こんなところだろうか
少し長すぎたかも
Q. 保存したはずなのに見れない!どういうこと?
A. Internet Archiveはアーカイブ量の増加ペースの速さにサーバが追いついておらず、不安定なことが多いです。安定するタイミングを待ちましょう。
またWayback Machineは、ページの保存作業を担当するクローラ部分(Heritrix)と、保存したページの保管・記録・表示を担当するビューワー部分(Wayback)の別々な2つのソフトウェアを組み合わせて動いています。
なので、保存したはずのアーカイブが表示されなくなっていても、クローラ部分がちゃんと動いていたのならアーカイブはちゃんと保存されています。サーバが安定するのを待ちましょう。

10:名無しさん@お腹いっぱい。
20/04/13 04:11:54 .net
( ゚ー゚)Ъ イイネ

11:名無しさん@お腹いっぱい。
20/04/15 07:20:22 .net
TMR出まくる

12:名無しさん@お腹いっぱい。
20/04/15 18:05:00 .net
IAは滅亡する!

13:名無しさん@お腹いっぱい。
20/04/15 21:01:13 .net
Archive.st - Save The Internet

いま試してみたらヤフーニュースの魚拓が取れるみたいだぞ。

14:◆P0jSlC5fJs
20/04/15 22:26:34 .net
本日1回目のSaveでいきなりToo Many Requests

15:名無しさん@お腹いっぱい。
20/04/15 22:34:44 .net
やっぱりTMRの出方おかしいよな

16:名無しさん@お腹いっぱい。
20/04/16 00:09:58 .net
400 Bad Request
Request Header Or Cookie Too Large

17:名無しさん@お腹いっぱい。
20/04/16 01:24:51.42 .net
直ったっぽい >>16

18:名無しさん@お腹いっぱい。
20/04/16 14:27:01 .net
閲覧のほうでToo Many出すのはやめて欲しい
使い勝手が悪い

19:名無しさん@お腹いっぱい。
20/04/16 17:38:40.11 .net
英語版ウィキペディア
List of Web archiving initiatives
URLリンク(en.wikipedia.org)

20:名無しさん@お腹いっぱい。
20/04/21 18:00:24.40 .net
Internet Archive にアーカイブされたページを、
全文検索する方法ってないですか?

21:名無しさん@お腹いっぱい。
20/04/23 17:18:11.04 .net
homepage2.nifty.comがみれない

22:名無しさん@お腹いっぱい。
20/04/23 20:46:43 .net
>>20
昔はあったらしいけど、今は無いね

23:名無しさん@お腹いっぱい。
20/04/24 08:26:30.95 .net
URLリンク(it.srad.jp)
>少なくとも「インターネット上の情報を残しておく義務」も「過去にインターネット上にあった情報にアクセスできる権利」も法的にあるわけじゃないしね。
削除申請に応じる義務もないだろ

24:名無しさん@お腹いっぱい。
20/04/25 13:24:52 .net
ブロックされて見れません
どうしたらいいですか

25:名無しさん@お腹いっぱい。
20/04/25 13:31:44 .net
諦めましょう。

26:名無しさん@お腹いっぱい。
20/04/27 13:25:21 .net
アーカイブされたサイトのホームページだけでなく
全文で全サイトを検索することってできますか?

27:名無しさん@お腹いっぱい。
20/04/27 14:28:42.88 .net
>>26
>>20 と同じ質問の香りがする

28:名無しさん@お腹いっぱい。
20/04/27 15:40:04.60 .net
>>26
おじいちゃんさっき質問したばかりでしょ

29:名無しさん@お腹いっぱい。
20/04/28 12:32:34 .net
>>26だがあえて実現しないってことなのかな?

30:名無しさん@お腹いっぱい。
20/04/28 22:44:19 .net
ほんもののおじいちゃんだ・・・・

31:名無しさん@お腹いっぱい。
20/04/30 17:37:06.70 .net
繋がらない

32:名無しさん@お腹いっぱい。
20/04/30 20:41:22.93 .net
昨日から調子悪いな

33:名無しさん@お腹いっぱい。
20/04/30 21:50:33 .net
いつ調子がよかったですか

34:名無しさん@お腹いっぱい。
20/05/02 09:18:23.41 .net
savingの読み込みから進まんね

と思ったら何分か経って完了したわ

35:名無しさん@お腹いっぱい。
20/05/02 13:17:39 .net
なおDLは出来ない程度には重い模様

36:名無しさん@お腹いっぱい。
20/05/04 17:31:58.48 .net
そう言えばレジューム出来ないの?

37:名無しさん@お腹いっぱい。
20/05/04 20:01:13 .net
アサシャンレジューム

38:名無しさん@お腹いっぱい。
20/05/04 23:49:37.23 .net
なんでか分からないけどFirefoxだと/web/2/とか/save/が使えないのに
Google Chromeだと使えるっぽいんだよな。昔はFirefoxでも使えた。
最新版に更新してアドオン切っても駄目とかどうなってんだ。
> Firefox 75.0 64bit Firefoxは最新バージョンです
> Google Chrome は最新版です バージョン: 81.0.4044.129(Official Build) (64 ビット)
Firefoxで使えてる人いる?

39:名無しさん@お腹いっぱい。
20/05/05 00:04:37.61 .net
>>38の件の追記、何故か/web/2/の方だけ復活した。
/save/は使えないまま。開くと真っ白なページが出てそれ以上何も起きない。

40:名無しさん@お腹いっぱい。
20/05/11 18:37:29 .net
This snapshot cannot be displayed due to an internal error.

って出るサイトは無理?

41:名無しさん@お腹いっぱい。
20/05/12 01:23:40.96 .net
それはダメだな
諦めろ

42:名無しさん@お腹いっぱい。
20/05/13 08:25:33 .net
homepage2.nifty.comは1と3はできるのにどうして2だけ見れないの

43:名無しさん@お腹いっぱい。
20/05/14 03:12:02.56 .net
わたしにもわかりません

44:名無しさん@お腹いっぱい。
20/05/16 17:43:07 .net
もうこっちは駄目だ
>>9のレスと現状は違う
保存したはずが後日何度見返しても保存されてない場合がある
10回につき2~3回くらい
URLリンク(web.archive.org)

こっちは大丈夫
URLリンク(archive.vn)

45:名無しさん@お腹いっぱい。
20/05/17 09:37:06 .net
>>44
どーせスポーツ新聞のサイトだろ、保存してるのって

46:名無しさん@お腹いっぱい。
20/05/17 11:25:01.03 .net
保存したものの特に重要なものはリスト化してチェックしてるが取りこぼしはないな
しかし反映の遅いものは一週間以上かかる場合もあった

47:名無しさん@お腹いっぱい。
20/05/17 14:05:23.73 .net
>>44
archive.today は他にもドメインがあるのに
わざわざ .vn なんか持ち出してくるとか笑える
ベトナム共産シンパかよ

48:名無しさん@お腹いっぱい。
20/05/17 14:52:36.40 .net
そんなに悔しかったのかよ白湯でも飲んどけ

49:名無しさん@お腹いっぱい。
20/05/17 15:32:43.93 .net
俺はこれ
URLリンク(archive.fo)

50:名無しさん@お腹いっぱい。
20/05/17 17:08:08.07 .net
流れ的におすすめの白湯の紹介かと思った

51:名無しさん@お腹いっぱい。
20/05/17 21:58:05.32 .net
>>49
こういうマイナーなドメインのレジストリは騙されやすいのかねぇ。
URLリンク(twitter.com)
(deleted an unsolicited ad)

52:名無しさん@お腹いっぱい。
20/05/21 20:21:26 .net
ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
URLリンク(greasyfork.org)

53:名無しさん@お腹いっぱい。
20/05/21 23:47:38 .net
ありがとこんばんは

54:名無しさん@お腹いっぱい。
20/05/22 07:29:19.83 .net
ヤフーニュースのスクリーンショット取れなくなった?

55:名無しさん@お腹いっぱい。
20/05/22 10:21:49 .net
Internet Archiveってサイト保存したらどのIPが保存したとかも記録されんの?

56:名無しさん@お腹いっぱい。
20/05/23 14:05:21 .net
>>55
どの方法でアーカイブが行われたのかも記録されているから、
おそらく IP も残っているんじゃないかねぇ。
ただ、アーカイブを読み出したときのレスポンスヘッダを見る限りでは、
その IP がアーカイブ閲覧者に漏れているような感じはしない。

あともう一つ、Archive.is がやっているような
リクエスト元 IP のアーカイブ対象サーバへのお漏らしは
Internet Archive では起きていない。

57:名無しさん@お腹いっぱい。
20/05/23 14:20:07 .net
>>55
この辺見る限り保存はされていないっぽい
URLリンク(help.archive.org)
URLリンク(help.archive.org)
URLリンク(blog.archive.org)

・全てのユーザーの行動はIPアドレスを元にしたハッシュ値で記録される
・一日毎にハッシュ値は変更される

とか何とか、間違ってたらすまん

58:56
20/05/24 10:41:38 .net
>>57
しっかり書いてありますね。勉強になります。

59:名無しさん@お腹いっぱい。
20/05/24 17:36:51.34 .net
ページの全文検索って募金が終わらないとできないの?

60:名無しさん@お腹いっぱい。
20/05/26 17:22:56 .net
>>54

回復した

61:名無しさん@お腹いっぱい。
20/05/29 16:01:06 .net
Twitterでたまにjsonが取れる現象なんとかならないのかね

62:名無しさん@お腹いっぱい。
20/05/29 19:18:21 .net
やったじゃん
むしろほしい

63:◆P0jSlC5fJs
20/05/30 13:52:08 .net
Vuepressのページを保存すると一瞬は表示されるけどすぐ404に画面が書き換わっちゃう
URLリンク(web.archive.org)

64:名無しさん@お腹いっぱい。
20/05/30 14:20:01.49 .net
見たが普通に表示されてる

65:名無しさん@お腹いっぱい。
20/05/30 15:53:03 .net
俺は見てない

66:名無しさん@お腹いっぱい。
20/05/30 16:31:26 .net
ふむふむ。
URLリンク(web.archive.org)

67:名無しさん@お腹いっぱい。
20/06/02 20:27:56 .net
平和(・∀・)イイ!!

68:名無しさん@お腹いっぱい。
20/06/03 02:42:09.09 .net
>>63
別サイトのページだが俺もそれ多い
全部じゃないけど…

69:名無しさん@お腹いっぱい。
20/06/03 05:21:59.69 .net
>>62
自分でパーサなり何なり通さないと読めないから言うほど便利じゃないぞ
それにWayback Machineを使う場合、jsonが欲しい時よりもhtmlとして描画された状態のアーカイブが欲しいことの方が多い

70:名無しさん@お腹いっぱい。
20/06/03 18:43:00 .net
URLリンク(twitter.com)
また落ちたか
(deleted an unsolicited ad)

71:名無しさん@お腹いっぱい。
20/06/05 02:20:35 .net
Internet ArchiveってURLで保存する方法とは別に
htmlソースコピーで保存する方法も出来るようにすればいいのに
当然独自URL生成する必要性も出てくるけど

72:名無しさん@お腹いっぱい。
20/06/05 02:53:38 .net
うpろだかよw

73:名無しさん@お腹いっぱい。
20/06/05 11:50:13.06 .net
ツイッターがInternet Explorerからの閲覧をできないようにしたらしく、その影響でツイッターのアーカイブがとれなくなってしまったんだけどどうしたらいいだろう?
今までInternet Explorerからならツイッターのアーカイブがとれたんだけど…他のブラウザからじゃアーカイブできないのよ困った

74:名無しさん@お腹いっぱい。
20/06/05 13:28:28 .net
試してないけどmobile.twitter.comもだめなん

75:名無しさん@お腹いっぱい。
20/06/05 15:25:44 .net
>>73
もしかしてThis page is available on the web!から取ってない?
あれは保存する奴の環境に左右されるから使えんよ
URLリンク(web.archive.org)
からなら問題なく取れる

76:名無しさん@お腹いっぱい。
20/06/05 15:25:45 .net
>>74
今ためしてみたらmobileの方でならアーカイブできたわ
ありがとう
でもなんでまたツイッターは急にIEからの閲覧はじくようになったんだろう?

77:名無しさん@お腹いっぱい。
20/06/05 15:27:58 .net
>>75
よく分からないけどアーカイブしようとすると「このブラウザは現在サポートされていません」て出てくる
調べたら最近ツイッターがIEから閲覧できないようにしたらしいって言われてたから

78:名無しさん@お腹いっぱい。
20/06/05 15:31:37 .net
>>75
今そのURLから保存してみたらmobileじゃなくてもアーカイブできたわ
どうもありがとう

79:名無しさん@お腹いっぱい。
20/06/06 15:33:25.33 .net
Internet Archive ってなんで全ページ検索できるようにしないの?

80:名無しさん@お腹いっぱい。
20/06/06 15:33:25.70 .net
Internet Archive ってなんで全ページ検索できるようにしないの?

81:
20/06/07 18:25:56.95 .net
>>79
高負荷だからだとおもう

82:名無しさん@お腹いっぱい。
20/06/08 01:47:07.90 .net
すみません
ツイッター保存してるとけっこう頻繁に.jsonてURLについて謎の文字化けみたいになってしまうんですが、これはいったい…?
どうしたらいいんだろう

83:名無しさん@お腹いっぱい。
20/06/08 11:56:33.80 .net
>>82
ちょっと前からたまに起きる現象、原因は分からない・・・
面倒だけどちゃんと取れるまで取り直すしかない

84:名無しさん@お腹いっぱい。
20/06/08 12:01:17.42 .net
>>75
に追加
This page is available on the web!からだけじゃなくて
URLリンク(archive.org)
のSave Page Nowもダメっぽい
基本的にURLリンク(web.archive.org)を使った方が良さげ

85:名無しさん@お腹いっぱい。
20/06/08 12:11:18.46 .net
Save Page Nowにあるこのチェックは何の意味があるの
>Save error pages (HTTP Status=4xx, 5xx)

86:名無しさん@お腹いっぱい。
20/06/08 13:28:21 .net
エラー画面を保存するかしないか

87:名無しさん@お腹いっぱい。
20/06/08 13:29:41 .net
しらんけど
例えば「404 Not Found」だけのページだった場合に
「そこにはなにもなかった」ってことにするか、
それとも「404 Not Foundがあったのだ」ってことにするかだと思う

88:名無しさん@お腹いっぱい。
20/06/08 14:42:28.01 3luQ8eJaC
壁打ち

89:名無しさん@お腹いっぱい。
20/06/08 20:02:31 .net
>>83
どうも
取り直せばいけるなら何度かトライしてみます

90:名無しさん@お腹いっぱい。
20/06/08 22:26:30 .net
>>79
昔一度やったことあるけど情報量があまりにも多過ぎて重すぎてまともに検索できなかったとか見た
全文検索できたら本当にいいんだけど現時点では無理ぽい…

91:名無しさん@お腹いっぱい。
20/06/08 23:59:41.72 .net
<title>だけでも検索できるとめちゃ便利なんだけどな

92:名無しさん@お腹いっぱい。
20/06/10 17:55:12.02 .net
アーカイブってエロサイト保存した場合動画も保存されんの?

93:名無しさん@お腹いっぱい。
20/06/10 19:12:24.60 .net
基本的にされないと思った方が良い

94:名無しさん@お腹いっぱい。
20/06/11 11:34:40.23 .net
訴訟問題は大丈夫なのかな
大事にならないといいが

95:名無しさん@お腹いっぱい。
20/06/11 12:56:19.55 .net
訴訟問題って何?

96:名無しさん@お腹いっぱい。
20/06/12 00:22:25.00 .net
何か前にあったような気もするが
フェアユースだしな

97:名無しさん@お腹いっぱい。
20/06/12 19:12:09.28 .net
Internet Archiveが公開してる電子書籍について出版社から訴えられたとかじゃなかったか
Gigazineだかどっかのネットニュースに出てたね

98:名無しさん@お腹いっぱい。
20/06/13 00:03:15.44 .net
電子書籍って保存出来るんなら無料で見れるやつじゃないの?

99:名無しさん@お腹いっぱい。
20/06/13 02:03:05.75 .net
これだな
詳しくは記事見てくれ
米国の複数の大手出版社がInternet Archive(IA)に対する著作権侵害訴訟を提訴
Posted 2020年6月3日
URLリンク(current.ndl.go.jp)
Internet Archive(IA)、“National Emergency Library”の終了


100:を早めることを発表 Posted 2020年6月12日 https://current.ndl.go.jp/node/41213



101:名無しさん@お腹いっぱい。
20/06/13 20:38:47.97 .net
もしかしてTwitter取れなくなった?
URLリンク(web.archive.org)でもダメだ

102:名無しさん@お腹いっぱい。
20/06/14 11:13:18.22 .net
こっちは拾える
URLリンク(archive.fo)

103:名無しさん@お腹いっぱい。
20/06/14 15:05:21.28 .net
インターネット初心者です。
質問なのですが、save page nowでページをアーカイブした場合、Internet archiveの説明ではIPアドレスを保持しないため匿名で保存できるとなっているのですが本当でしょうか。
また、save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。(すでに削除されていて、今は見ることができずアーカイブもそれまでされていないようなページの場合)教えて頂きたいです。無知ですみません。

104:名無しさん@お腹いっぱい。
20/06/14 17:13:12.66 .net
>>100
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは……

105:名無しさん@お腹いっぱい。
20/06/14 17:27:12.26 .net
>>102
・IPアドレス:>>55-57を参照
・過去のページ情報:
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう

106:名無しさん@お腹いっぱい。
20/06/14 17:48:04.05 .net
「ツイッター魚拓」とかいう国産サービスができたらしいが。

107:名無しさん@お腹いっぱい。
20/06/14 18:09:23.85 .net
>>104
ご回答ありがとうございます。それでは、自分が○月×日にしかアーカイブしていないのにそれ以前のページの情報が出てくるということは
、他の誰かが○月×日以前にアーカイブしたということでよろしいでしょうか?

108:名無しさん@お腹いっぱい。
20/06/14 18:29:19.48 .net
>>106
Internet archiveは自動で色んなサイトをクロールして定期的にアーカイブして回ってるから別に誰かが保存したわけじゃなくて自動でアーカイブされてた可能性が高い
というかわざわざ手動でアーカイブするマニアなんてここの住人位しかいなそうだしほとんど自動取得

109:名無しさん@お腹いっぱい。
20/06/14 18:43:23.66 .net
>>107
では、○月×日以前の情報は私がアーカイブしたものではないということでいいんでしょうか?

110:名無しさん@お腹いっぱい。
20/06/14 20:09:22.90 .net
>>108
うん

111:名無しさん@お腹いっぱい。
20/06/14 20:22:26.52 .net
>>109
また質問なのですが、Twitterの動画をアーカイブした際、機種の差(Androidやios,PC)で見ることができないことってあるんですか?

112:名無しさん@お腹いっぱい。
20/06/14 21:26:10.00 .net
TweetSave - Save tweets with a click
URLリンク(tweetsave.com)

113:名無しさん@お腹いっぱい。
20/06/14 22:49:30.89 .net
>>105
アレはスクショ撮ってimgurに上げるだけの代物で、セッション情報の類は一切保存されないらしいから、
アーカイブサービスとしての信頼性はゼロに等しい(中傷書き込みの訴訟でも多分証拠として認められないんじゃないだろうか)
ただTwitterではやたらバズったから、固定ユーザーは一定数つくかもね

114:名無しさん@お腹いっぱい。
20/06/15 02:28:53 .net
>>110
ツイッターの動画は保存できなかったと思うが…

115:名無しさん@お腹いっぱい。
20/06/15 06:39:57.00 .net
>>111
> TweetSave - Save tweets with a click
> URLリンク(tweetsave.com)

_φ(・_・メモメモ

116:名無しさん@お腹いっぱい。
20/06/15 06:41:39.22 .net
>>111
> TweetSave - Save tweets with a click
> URLリンク(tweetsave.com)

Tweets are saved on TweetSave.com and also get mirrored to WayBack and Archive.is
とあるな。
これは使えるかもしれない。

117:名無しさん@お腹いっぱい。
20/06/15 06:43:57.13 .net
Twitterのツイートをウェブ魚拓のように保存できる
「TweetSave」 - GIGAZINE
URLリンク(gigazine.net)

118:
20/06/15 07:11:01.48 .net
tweetsaveは不安定すぎて使い物にならなかった

119:名無しさん@お腹いっぱい。
20/06/15 07:23:11.71 .net
>>117
ありゃりゃ

120:名無しさん@お腹いっぱい。
20/06/15 07:26:47.37 .net
以前はわからんが、今はまあまあ安定しているみたいだよ。
ちょっと試してみて。

121:名無しさん@お腹いっぱい。
20/06/15 07:57:49.97 .net
>>113
URLリンク(video.twimg.com...)ていうurlです

122:名無しさん@お腹いっぱい。
20/06/15 09:06:38.20 .net
>>104
This page is available on the web!でも一緒ですか?

123:名無しさん@お腹いっぱい。
20/06/15 11:44:39.88 .net
>>120
機種ごとに違いはないよ、どれも同じ
ちなみにURLリンク(video.twimg.com)はURLだけ取れてて動画が見れない事もままある
>>121
それも一緒

124:名無しさん@お腹いっぱい。
20/06/15 12:01:07.51 .net
>>122
うろ覚えの記憶ですが、3ヶ月位前にURLリンク(video.twimg.com...)のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか?

125:名無しさん@お腹いっぱい。
20/06/16 16:07:46.24 .net
>>122
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか?

126:名無しさん@お腹いっぱい。
20/06/17 09:33:18.63 .net
ログインしなくてもツイッター保存できますか?
JSONで保存されるか成功したかと思ったらこうなって保存されない……
Sorry, that page doesn’t exist!
Why not try a search to find something else?

127:名無しさん@お腹いっぱい。
20/06/17 19:03:54.27 .net
日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る

128:名無しさん@お腹いっぱい。
20/06/17 20:06:39.58 .net
なんか調子悪い?
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る

129:名無しさん@お腹いっぱい。
20/06/18 09:37:49.00 .net
>>126
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー

130:名無しさん@お腹いっぱい。
20/06/18 23:45:04 .net
Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな

131:名無しさん@お腹いっぱい。
20/06/19 00:13:10 .net
でも15日に取ってる人がいるんだよなー

132:名無しさん@お腹いっぱい。
20/06/19 02:33:11.77 .net
UAをUtsubotにしたら撮れるとかなんとか

133:名無しさん@お腹いっぱい。
20/06/19 11:05:22.72 .net
URLリンク(web.archive.org)のページで保存しようとするとこんな画面になってしまう…
URLリンク(i.imgur.com)

134:名無しさん@お腹いっぱい。
20/06/19 11:40:27.27 .net
>>132
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ

135:名無しさん@お腹いっぱい。
20/06/19 15:14:08.19 .net
自分もNot Foundになって5ちゃん含め何一つとれなくなった…

136:名無しさん@お腹いっぱい。
20/06/19 17:11:29.86 .net
検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ

137:名無しさん@お腹いっぱい。
20/06/19 17:59:07.87 .net
検索からの「This page available on the web」は直接保存の/save/http~なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。

138:名無しさん@お腹いっぱい。
20/06/20 13:37:10.95 .net
お、Twitter取れるようになったか

139:名無しさん@お腹いっぱい。
20/06/20 13:40:09.97 .net
お、取れた
情報thx

140:名無しさん@お腹いっぱい。
20/06/21 19:56:01.96 .net
ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…

141:名無しさん@お腹いっぱい。
20/06/21 21:14:32.41 .net
アーカイブって動画のURL直入力したら保存されるの?

142:名無しさん@お腹いっぱい。
20/06/22 11:45:10.84 .net
ものによってはとれる事もあるけど基本とれないと思った方が良い

143:名無しさん@お腹いっぱい。
20/06/22 11:51:39.66 .net
>>139
>>75

144:名無しさん@お腹いっぱい。
20/06/22 13:50:04 .net
>>142
URLリンク(web.archive.org)からとってSorry that page doesn't exist!になったんだけど…
まあやり直してたら3回目位でとれたけど

145:名無しさん@お腹いっぱい。
20/06/22 14:27:28.61 .net
保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想

146:名無しさん@お腹いっぱい。
20/06/23 15:26:02.46 gt0ZERR1E
壁打ち

147:名無しさん@お腹いっぱい。
20/06/23 15:16:09.68 .net
>>143
> まあやり直してたら3回目位でとれたけど

なにげにお役立ち情報   _φ(・_・メモメモ

148:名無しさん@お腹いっぱい。
20/06/23 15:37:49.72 .net
>>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事?

149:名無しさん@お腹いっぱい。
20/06/23 22:38:01.52 .net
>>139
これなら失敗せずに一発で取れる
Yahoo!ニュースも取得する際、強制的にトップページへ飛ばされて失敗することはない
URLリンク(archive.fo)

150:名無しさん@お腹いっぱい。
20/06/23 23:06:54.24 .net
自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった

151:名無しさん@お腹いっぱい。
20/06/23 23:41:38.01 .net
スポーツ新聞野郎まだ居たのか

152:
20/06/24 06:29:53.29 .net
もはやアリアハンガイジ

153:名無しさん@お腹いっぱい。
20/06/24 10:25:28 .net
スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う

154:名無しさん@お腹いっぱい。
20/06/25 08:06:11.23 .net
ヤフーニュースほんと取れない

155:名無しさん@お腹いっぱい。
20/06/25 10:19:57.09 .net
>>153
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw

156:名無しさん@お腹いっぱい。
20/06/25 12:04:47.38 .net
取れないという前に少しは過去ログ読んでくれと言いたくなる

157:名無しさん@お腹いっぱい。
20/06/25 13:17:04.71 .net
>>153
スクリーンショットなら取れる

158:名無しさん@お腹いっぱい。
20/06/25 16:34:55 .net
Yahoo!とか散々既出

159:名無しさん@お腹いっぱい。
20/06/26 10:45:18 .net
SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ

160:名無しさん@お腹いっぱい。
20/06/26 10:48:12 .net
パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか

161:名無しさん@お腹いっぱい。
20/06/26 12:04:49.45 .net
いつもの調子が悪い周期に入ったかな
APIも不安定

162:名無しさん@お腹いっぱい。
20/06/26 14:02:50.79 .net
5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ…

163:名無しさん@お腹いっぱい。
20/06/26 15:47:14 .net
>>160-161
>>135-136

164:名無しさん@お腹いっぱい。
20/06/26 21:15:33 .net
>>162
それ取得者の環境に左右されるからあんまり使いたくないんだよね

165:名無しさん@お腹いっぱい。
20/06/27 08:54:45.81 .net
Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな

166:名無しさん@お腹いっぱい。
20/06/27 13:38:29.18 .net
Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた

167:名無しさん@お腹いっぱい。
20/06/27 14:05:54.69 .net
取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い

168:名無しさん@お腹いっぱい。
20/06/27 15:09:04.44 .net
ここ数日のは反映がかなり遅いだけでちゃんと取れてるね

169:名無しさん@お腹いっぱい。
20/06/30 16:11:19.16 .net
URLリンク(web.archive.org)~は即時反映でSave Page Nowは遅れて反映されるっぽい

170:名無しさん@お腹いっぱい。
20/07/01 10:10:10 .net
>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな

171:名無しさん@お腹いっぱい。
20/07/01 11:23:57 .net
かなりデカい保存対象がやってきた

NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
URLリンク(navermatome-official.blog.jp)

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。

172:名無しさん@お腹いっぱい。
20/07/01 16:43:58.70 .net
雑多なまとめサイトすぎて好きじゃなかったな

173:名無しさん@お腹いっぱい。
20/07/01 16:49:15.19 .net
所詮は南鮮資本w

174:名無しさん@お腹いっぱい。
20/07/01 17:09:06.99 .net
雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る

175:名無しさん@お腹いっぱい。
20/07/01 18:04:14 .net
閉鎖される予定のサイトってnaverまとめ以外何かある?

176:名無しさん@お腹いっぱい。
20/07/01 20:31:56.99 .net
>>170
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが

177:名無しさん@お腹いっぱい。
20/07/01 20:47:21.16 .net
>>174
【保存・記録】ウェブアーカイブ総合 Page.01 スレリンク(internet板)

178:名無しさん@お腹いっぱい。
20/07/01 20:57:22.61 .net
NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな

179:名無しさん@お腹いっぱい。
20/07/02 21:17:22 .net
>>173
知らなかった
いろいろな使い方があるもんだ

180:名無しさん@お腹いっぱい。
20/07/02 22:52:12.91 .net
最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの?

181:名無しさん@お腹いっぱい。
20/07/03 00:34:04.34 .net
スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど

182:名無しさん@お腹いっぱい。
20/07/03 11:11:11.87 .net
Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが

183:名無しさん@お腹いっぱい。
20/07/03 14:23:53.34 .net
10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに

184:名無しさん@お腹いっぱい。
20/07/03 23:52:26.95 .net
>>181
期間指定すれば普通に検索できるって聞いてたけど違うの?

185:名無しさん@お腹いっぱい。
20/07/04 15:07:25.27 .net
>>181
> にしても10年より前の情報にはアクセスする手段が無くなる
他の検索エンジンなら大丈夫

186:名無しさん@お腹いっぱい。
20/07/04 16:05:37.33 .net
普通に10年前以上の結果出るしデマでは?

187:名無しさん@お腹いっぱい。
20/07/04 16:52:27.76 .net
Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに

188:名無しさん@お腹いっぱい。
20/07/04 17:06:10.22 .net
デジャブジャブジャブなスレだな

189:名無しさん@お腹いっぱい。
20/07/04 17:08:23.67 .net
>>186
鯖に負担かかりすぎてえらいことになりそう

190:名無しさん@お腹いっぱい。
20/07/04 17:49:51.86 .net
検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ

191:名無しさん@お腹いっぱい。
20/07/04 17:51:21.60 .net
検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか

192:名無しさん@お腹いっぱい。
20/07/04 21:11:27.16 .net
全文検索ほしい人は10億円くらい寄付しろ

193:名無しさん@お腹いっぱい。
20/07/04 21:32:30.78 .net
せめてタイトルだけでも検索できればいいのにな

194:名無しさん@お腹いっぱい。
20/07/04 21:49:53.36 .net
この流れ前も見たぞ

195:名無しさん@お腹いっぱい。
20/07/04 23:55:00.95 .net
検索したいならInternet Archiveに金落とせ、話はそれからだ

196:名無しさん@お腹いっぱい。
20/07/05 00:02:58.15 .net
金落とす金額が鯖代と維持費込みじゃないと無理だろうな

197:名無しさん@お腹いっぱい。
20/07/05 00:41:08.37 .net
一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに

198:名無しさん@お腹いっぱい。
20/07/05 00:53:13.92 .net
ツイッターの失敗は保存しなくていいのにね

199:名無しさん@お腹いっぱい。
20/07/05 02:47:20.57 .net
>>196
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw

200:名無しさん@お腹いっぱい。
20/07/05 04:54:05.25 .net
AIとIA

201:名無しさん@お腹いっぱい。
20/07/05 12:05:45.68 .net
そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒

202:名無しさん@お腹いっぱい。
20/07/05 12:09:03.83 .net
普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・

203:名無しさん@お腹いっぱい。
20/07/05 12:29:12.66 .net
アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする

204:名無しさん@お腹いっぱい。
20/07/05 13:10:12.04 .net
全く同じなら容量変わらなくね?
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど

205:名無しさん@お腹いっぱい。
20/07/05 13:43:22 .net
最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる

206:名無しさん@お腹いっぱい。
20/07/05 14:42:20.88 .net
同じurlのzipで古い物は破損していて
それより新しい物は正常だった事がある

207:名無しさん@お腹いっぱい。
20/07/05 15:37:07.67 .net
バイナリデータで1バイトか2バイトか3バイトか忘れたけどファイルの最後にブランクデータが追加か削除されたせいで破損扱いになってる
バイナリエディタで00を増減すれば大丈夫だよ

208:名無しさん@お腹いっぱい。
20/07/05 16:02:13.33 .net
googleもmetaタグを元に表示してるだけだし
Internet Archiveも最低限の情報だけ検索表示出来るようにすればいいのに

209:名無しさん@お腹いっぱい。
20/07/05 19:38:36.99 .net
>>205
2000 年代の古いアーカイブを漁っていたりすると、
中身が数メガバイトでちょん切れてしまっているものがかなりある。
古い Microsoft のバイナリ等で良く出くわす。
データ化けは見たことが無い。
おそらく、IA は Content-Length ヘッダの値と
コンテントボディの実サイズとの整合をチェックしていない。
何か巨大ファイルをアーカイブさせて、それが正しく保管できたか調べたい場合は
実際に当該アーカイブを最後まで読み出すしか無い。
>>206
それは昔のアーカイブ出力段の問題ではなかったか。
コンテントの末尾 1 バイトが \x00 だと、それが欠ける。
2011 年あたりの大改変の後は見たことが無い。
>>203
タイムスタンプだけかw
アーカイブ時のサーバ側のシステム時計の値 (たまにズレてる奴がいる)、
使用されていたサーバソフトウェアの名前、
読み出したファイル自身のサイズやタイムスタンプ、
ETag のような識別子、
その他サーバが垂れ流した、ありとあらゆるものを
そのまま丸ごと保存してるんだよ。

210:名無しさん@お腹いっぱい。
20/07/06 20:56:53 .net
ガチでTwitterからツイートをアーカイブするなと圧力受けてんのか?
このスレ読んで何回やってもアーカイブできんぞ

211:名無しさん@お腹いっぱい。
20/07/06 21:01:27 .net
Tweetsaveもタイムアウトばっかで保存できん

212:名無しさん@お腹いっぱい。
20/07/06 21:13:49.37 .net
Tweetsaveは半年前に比べたら生きまくってるよ
半年前までは1ヶ月まともに動かないとかあったし半月は当たり前に動かなかったわ

213:名無しさん@お腹いっぱい。
20/07/06 21:41:33


214:.52 .net



215:名無しさん@お腹いっぱい。
20/07/06 21:49:26.34 .net
>>210
save用ページから保存しないと今のところ無理で
それも失敗が多い

216:名無しさん@お腹いっぱい。
20/07/07 14:31:16.24 .net
もう全部テンプレに書いた方がいいんじゃね?
話題が無限ループしてる

217:名無しさん@お腹いっぱい。
20/07/07 14:49:56.67 .net
もともと話題も少ないからな
保守してると思えばいい

218:名無しさん@お腹いっぱい。
20/07/07 14:52:23.22 .net
>>214
同意

219:名無しさん@お腹いっぱい。
20/07/08 07:37:39.06 .net
最近TwitterがJob failedになって全然保存できない…

220:名無しさん@お腹いっぱい。
20/07/08 07:39:08.58 .net
今やってたけど同じだわ

221:名無しさん@お腹いっぱい。
20/07/08 14:28:55.01 .net
Tweetsaveで保存してもIAにはアーカイブされない
やっぱり圧力掛かってんのかな
誰も問題にしないのが驚きだけど

222:名無しさん@お腹いっぱい。
20/07/08 16:39:05.98 .net
Tweetsaveからのはすぐに保存されてる印象が無いな

223:名無しさん@お腹いっぱい。
20/07/09 03:08:56.30 .net
Job failedになっても検索すると出てくるから一応保存されてるっぽい

224:名無しさん@お腹いっぱい。
20/07/09 04:44:07.65 .net
確かにちょっと待てば保存されてた

225:名無しさん@お腹いっぱい。
20/07/09 16:54:29.37 .net
Twitterじゃない普通のウェブサイトを保存しようとしても
保存できたと思ってクリックしたら404 not foundが出てアーカイブされてませんと出る
10分待たないと再保存できない

226:名無しさん@お腹いっぱい。
20/07/09 17:04:17.03 .net
10分経ったから同じサイトをやってみようとしても404としか出ない

227:名無しさん@お腹いっぱい。
20/07/09 17:42:01.05 .net
どこのサイトか言わないと永久に誰も分からない案件

228:名無しさん@お腹いっぱい。
20/07/09 21:01:04 .net
Twitter、いくつかアーカイブして実験したけど
Job failedやtask limitになっても取れてるっぽい
しばらくしてから確認したらカレンダーに反映されてた

229:名無しさん@お腹いっぱい。
20/07/11 15:52:13 .net
/save/がNot FoundやらBad Gatewayになるけど少したってAPIを見ると保存されていたりなかったりする。どうなってんだ

230:名無しさん@お腹いっぱい。
20/07/11 16:13:06 .net
Not Foundくらったわ

231:名無しさん@お腹いっぱい。
20/07/11 18:00:18.44 .net
>>204
俺も使ってる
web.archiveも併用してるけど取得失敗が多くなってきた
いまも取得を試みたがNot Foundだ

232:名無しさん@お腹いっぱい。
20/07/11 19:22:59.78 .net
今日はなんか調子悪いね

233:名無しさん@お腹いっぱい。
20/07/11 20:04:52.37 .net
なんかこのスレの雰囲気って気象板にある地域の天気スレに似てる気がしてきた

234:名無しさん@お腹いっぱい。
20/07/12 02:05:50.03 .net
>>231
ちょっと笑った
そのスレは知らないけど確かに似たところはあるかもね
しかし天気と違ってInternet Archiveの調子は予測できないのが

235:名無しさん@お腹いっぱい。
20/07/12 02:08:06.41 .net
アーカイブ(Heritrix)とインデクシング(Wayback)は別々のソフトウェアで分担して動いてるから、
反映されてないように見えても実は取れてることが多いんだよと何度言ったら

236:名無しさん@お腹いっぱい。
20/07/12 03:04:42 .net
どちらの調子の悪い時もあるからな
裏で取れてると思い込んでたら取れてなかったじゃ話にならん品

237:名無しさん@お腹いっぱい。
20/07/12 11:35:09.50 .net
電子コミックとか一時無料になる場合あるけど
ああいうの保存出来ないの?

238:名無しさん@お腹いっぱい。
20/07/12 13:02:43 .net
出来るか否かは試すしかない
有料サイトのはリスクありそうだから試さないけど

239:名無しさん@お腹いっぱい。
20/07/13 01:01:32.93 .net
仮に取れてもサイト側が削除申請出せば消せるしね
10年くらい前の話だけど、二次創作小説専門サイトが著作権の問題で閉鎖になった時、
Wayback Machineに残ってたアーカイブもまとめて全部削除されちゃったんだよね

240:名無しさん@お腹いっぱい。
20/07/13 15:07:19.26 .net
自分で保存するのが確実だね

241:名無しさん@お腹いっぱい。
20/07/14 03:49:25.53 .net
保存したマンガのファイルを自分でInternet Archiveにアップロードするという手も一応ある(IAのアカウント登録が必要なはず)
アメリカではフェアユース関連でその辺が緩いのかは知らないが、
マイナーな日本漫画の英訳版zipがアップされてる事も時たまあるよ
日本からこれをやって捕まったという話は聞いたことがないけど、お勧めはしないし止めておいた方が無難

242:名無しさん@お腹いっぱい。
20/07/14 03:56:30.73 .net
補足しておくとInternet Archive上の漫画etcが全部グレーゾーンな訳ではなくて、
著作権者の許諾を得て大っぴらに収録されてるものもかなり多い

243:名無しさん@お腹いっぱい。
20/07/14 11:01:46.40 .net
例えば?

244:名無しさん@お腹いっぱい。
20/07/14 21:34:43 .net
URLリンク(togetter[.]com)

これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る

245:名無しさん@お腹いっぱい。
20/07/15 01:59:24.55 .net
>>241
適当に検索して出てきたのを貼っておく
とある科学の超電磁砲8巻
URLリンク(archive.org)
Internet Archiveの検索欄から"Search metadata"で探すと色々出てくるよ

246:名無しさん@お腹いっぱい。
20/07/15 11:10:44 .net
日本語版はないのか

247:名無しさん@お腹いっぱい。
20/07/15 17:35:15.30 .net
最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる

248:名無しさん@お腹いっぱい。
20/07/15 19:09:31.66 .net
>>245
最新版のインデクシングが完了してないとそうなる事がある
しばらく(数時間&#12316;数日)待ってからもう一度閲覧できるか確認するといい

249:名無しさん@お腹いっぱい。
20/07/15 21:25:17.65 .net
>>243
こういうのってIA側が出版社に表示使用料払ったりしてんの?

250:名無しさん@お腹いっぱい。
20/07/15 21:49:14.83 .net
無許可

251:名無しさん@お腹いっぱい。
20/07/15 22:30:09.70 .net
>>247
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん

252:名無しさん@お腹いっぱい。
20/07/15 23:31:02.72 .net
版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ

253:名無しさん@お腹いっぱい。
20/07/16 15:31:48.35 .net
togetterって保存できない?

254:名無しさん@お腹いっぱい。
20/07/16 18:48:52.81 .net
やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか?

255:名無しさん@お腹いっぱい。
20/07/16 18:59:38.76 .net
>>252
URLリンク(togetter.com)
> User-agent: ia_archiver
> Disallow: /
robots.txt で拒否設定してるけど、それ以前に IP か何かで弾いてるようだな。

256:名無しさん@お腹いっぱい。
20/07/16 19:21:22.62 .net
魚拓とか他の試せばええやん

257:名無しさん@お腹いっぱい。
20/07/16 23:40:51.82 .net
どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい

258:名無しさん@お腹いっぱい。
20/07/17 01:12:59.61 .net
>>255
できなくない?他のどの魚拓サイトのURL入れてもNGになって無理なんだけど

259:名無しさん@お腹いっぱい。
20/07/17 03:03:38.51 .net
URLリンク(web.archive.org)

260:名無しさん@お腹いっぱい。
20/07/17 12:10:51.26 .net
todayが死んでる……

261:名無しさん@お腹いっぱい。
20/07/18 13:51:46.77 .net
todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用

262:名無しさん@お腹いっぱい。
20/07/18 15:14:17.58 .net
todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする

263:名無しさん@お腹いっぱい。
20/07/18 20:08:24.38 .net
それをすることに何の意味があるのでせう

264:名無しさん@お腹いっぱい。
20/07/19 00:36:31.27 .net
分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな

265:名無しさん@お腹いっぱい。
20/07/19 00:43:41.76 .net
today復活したか
結構長く止まってたな

266:名無しさん@お腹いっぱい。
20/07/21 00:34:16.68 .net
重杉

267:名無しさん@お腹いっぱい。
20/07/21 01:39:06.41 .net
俺はarchive.todayは問題なく使えてる
W


268:ayback Machineは繋がらなかったり取りこぼしが結構あって残念 後日見返しても取れてないし いまも繋がらない… Unknown Error 502 Bad Gateway



269:名無しさん@お腹いっぱい。
20/07/22 22:35:35.00 .net
お、This page is available on the web!でも
URLリンク(web.archive.org)
に飛ばされるようになってる
やっと統一されたのか

270:名無しさん@お腹いっぱい。
20/07/22 23:22:28.96 .net
todayのCloudflareうぜええ
てかなんでこいつはいつまでもreCAPTCHAのままなんだよ

271:名無しさん@お腹いっぱい。
20/07/22 23:31:19.40 .net
重杉

272:名無しさん@お腹いっぱい。
20/07/23 03:51:45.43 .net
Cloudflare「もどき」しか見ないなw
URLリンク(o.5ch.net)

273:名無しさん@お腹いっぱい。
20/07/23 20:33:40.82 .net
ボタンの外見が変わって見づらく感じる

274:名無しさん@お腹いっぱい。
20/07/24 00:40:34.99 .net
ボタン?

275:名無しさん@お腹いっぱい。
20/07/24 10:54:38.67 .net
URLリンク(web.archive.org)の後に続く数字が保存中に
_embed/に勝手に変わって保存されない。。。

276:名無しさん@お腹いっぱい。
20/07/24 12:49:21.81 .net
保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか?

277:名無しさん@お腹いっぱい。
20/07/24 17:29:43.07 .net
それは普通だが4月に保存したものがいくつか保存されてなかった

278:名無しさん@お腹いっぱい。
20/07/24 18:10:50.68 .net
実はそれも普通なのだ

279:名無しさん@お腹いっぱい。
20/07/24 18:44:38.56 .net
何事も一期一会、保存などという邪道なものに頼ろうとするな

280:名無しさん@お腹いっぱい。
20/07/24 22:49:38.35 .net
URLリンク(web.archive.org)数字/http://

URLリンク(web.archive.org)数字/https://
httpsになっているサイトがhttp時代の過去のサイトの画像が自動表示保存されない場合は、https://を入れると自動表示保存される。(例:impress・itmediaなど)

281:名無しさん@お腹いっぱい。
20/07/25 00:04:58.43 .net
どういうことだ

282:名無しさん@お腹いっぱい。
20/07/25 11:48:35.27 .net
503が出てアーカイブされてるかどうかすら確認できなくなってる

283:名無しさん@お腹いっぱい。
20/07/25 22:31:53.72 .net
ここ2週間ほど調子悪杉だろ

284:名無しさん@お腹いっぱい。
20/07/25 23:31:37.24 .net
仕方ないからarchive.today使ってる

285:名無しさん@お腹いっぱい。
20/07/26 21:51:46.95 .net
>>280
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ

286:名無しさん@お腹いっぱい。
20/07/26 22:00:36.20 .net
>>282
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw

287:名無しさん@お腹いっぱい。
20/07/26 22:09:17.35 .net
>>283
ソフトかスクリプトかなんかあるの?
他の作業しながら進捗チラ見してる感じだわ

288:名無しさん@お腹いっぱい。
20/07/26 22:10:02.48 .net
archive.todayはとまりすぎじゃね?

289:名無しさん@お腹いっぱい。
20/07/27 11:53:01.60 .net
>> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ

290:名無しさん@お腹いっぱい。
20/07/27 12:24:25.45 .net
>>286
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし

291:名無しさん@お腹いっぱい。
20/07/27 15:06:40.42 .net
IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに

292:名無しさん@お腹いっぱい。
20/07/27 16:25:19.72 .net
それはもう別もんやろ

293:名無しさん@お腹いっぱい。
20/07/27 16:54:48.41 .net
どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな?

294:名無しさん@お腹いっぱい。
20/07/27 21:08:42.38 .net
Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな

295:名無しさん@お腹いっぱい。
20/07/27 21:18:11.93 .net
クラウドフレア依存が不安定の原因に思


296:えてくる IAは違いそうだが



297:名無しさん@お腹いっぱい。
20/07/28 01:10:49.40 .net
スクショって画像化の事言ってんの?
そんな事するくらいならWebページ保存ソフト使えよ

298:名無しさん@お腹いっぱい。
20/07/28 01:15:00.88 .net
web保存じゃないと捏造言われるからなぁ

299:名無しさん@お腹いっぱい。
20/07/28 01:30:19.93 .net
スクショは捏造できる

300:名無しさん@お腹いっぱい。
20/07/28 05:58:41.77 .net
>>294
アーカイブ化を妨害したい勢力なんじゃねw
自演やる奴ほど自演疑うみたいな

301:名無しさん@お腹いっぱい。
20/07/28 06:39:39.83 .net
URLリンク(gigazine.net)
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。

1分20ページから50ページ保存に緩和してくれ
或いは有料プランを作ってくれ

302:
20/07/28 07:07:27.82 .net
>>290
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる
おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: URLリンク(archive.vn)
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる
例えばニコ生のAPIは
URLリンク(api.cas.nicovideo.jp)(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる

303:名無しさん@お腹いっぱい。
20/07/29 02:58:32.75 .net
Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない

304:名無しさん@お腹いっぱい。
20/07/29 03:33:40.66 .net
Internet Archiveも見れないURLあるからなあ

305:名無しさん@お腹いっぱい。
20/07/29 09:39:20.49 .net
>>300
キャプチャ失敗か削除済みではなく?

306:名無しさん@お腹いっぱい。
20/07/29 13:06:06.70 .net
> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ

307:名無しさん@お腹いっぱい。
20/07/29 15:30:15.66 .net
>>302
不良(品)の武勇伝(悪行)みたいなもんよ

308:名無しさん@お腹いっぱい。
20/07/29 17:24:51.15 .net
500 Internal Server Error

309:名無しさん@お腹いっぱい。
20/07/29 18:01:01.11 .net
>>300
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな

310:名無しさん@お腹いっぱい。
20/07/29 18:21:15.86 .net
それはサイト側がIAに連絡して保存しないようにして貰っただけ

311:名無しさん@お腹いっぱい。
20/07/29 18:50:00 .net
>>304
最近よくこれになる
10分待ってまたやるとできることも多いけど

312:名無しさん@お腹いっぱい。
20/07/29 19:06:54 .net
閲覧のみならやや重い程度なのだが

313:名無しさん@お腹いっぱい。
20/07/29 20:25:58.03 .net
International Server Errorはつなぎなおすと動くことも多い気がする

314:名無しさん@お腹いっぱい。
20/07/29 23:12:14.28 .net
>>309
> つなぎなおすと
繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw

315:名無しさん@お腹いっぱい。
20/07/29 23:34:29.23 .net
つなぎなおすとはしいたけ押して更新することだと思ってた・・・・

316:
20/07/30 01:13:52.97 .net
>>299
archive.todayってやばいの?
>>282 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと?
2行目は???
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと?
自分以外からも見れるようにすりゃいいじゃん

317:名無しさん@お腹いっぱい。
20/07/30 04:36:43.89 .net
確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか

318:名無しさん@お腹いっぱい。
20/07/30 07:36:04.75 .net
time


319: travel https://timetravel.mementoweb.org/ これはどうなの?



320:名無しさん@お腹いっぱい。
20/07/30 07:40:56.06 .net
あー、すまん。
これは自分がページを指定して魚拓とることはできないのか。

321:名無しさん@お腹いっぱい。
20/07/30 10:12:47.18 .net
Sorry.
This URL has been excluded from the Wayback Machine.
この文が出るサイトはどんな方法でも保存はおろか閲覧すらできないんでしょうか

322:名無しさん@お腹いっぱい。
20/07/30 10:17:20.01 .net
>>312
archive todayってどこの会社が運営してるのか資金はどうしてるのかも分からないし比較的最近できた歴史もサイト
36年の歴史があって米国政府も利用してて組織内部まで公開してるInternet archiveとは信頼度が違う
WebrecorderやSingleFileZは共有機能あるの?見た感じ個人向けのキャプチャソフトみたいだけど

323:名無しさん@お腹いっぱい。
20/07/30 10:21:32.94 .net
>>316
>>306なので無理

324:名無しさん@お腹いっぱい。
20/07/30 10:22:24.11 .net
途中で送信してしまった
連投失礼
なのでもともと保存されていたものも当然見れなくなる

325:名無しさん@お腹いっぱい。
20/07/30 13:59:17 .net
>>316
biglobeなんかも2年ほどそうなって見られなくなってその後復活した
内部的にはちゃんと保存されてるんだろうな

326:名無しさん@お腹いっぱい。
20/07/30 14:01:25 .net
>>320
期間はどの辺です?

327:名無しさん@お腹いっぱい。
20/07/30 14:43:03 .net
期間とか決まってるわけじゃない
homepage2.nifty.comなんかも昔は見られたが
もうずっと見られないしな

328:名無しさん@お腹いっぱい。
20/07/30 21:03:12 .net
>>320
マジ?

329:名無しさん@お腹いっぱい。
20/07/30 22:23:53 .net
>>312
アーカイブって「データが改変されていないこと」が保証されてなきゃいけないんだよ
だから単に「自分以外からも見えるようにすればいいじゃん」って問題ではない

330:名無しさん@お腹いっぱい。
20/07/30 22:27:38 .net
archive.todayは誰がどこでどういう風に運営してるのかまるで分からない(=いつデータが全て消し飛ぶか分からない)という怖さがある
だから自分はarchive.todayを可能な限り使わないようにしてるし、運営体制が公開されてるInternet Archiveを信用してる

331:名無しさん@お腹いっぱい。
20/07/30 22:33:49 .net
「データが改変されていないこと」を保証するのって結構厄介で、
Internet ArchiveはWARC形式っていうWebアーカイブ専用フォーマットを使って保存してるくらい
archive.todayやウェブ魚拓はその辺が全く公開されてない
スクショなんて論外だよ(ブラウザの開発者機能で画面表示を書き換えた上でスクショされたらどうしようもないから)

332:名無しさん@お腹いっぱい。
20/07/30 23:11:23 .net
用途にもよる
単に面白いサイトだから残したい程度ならどこでもいい訳だし
何かの証拠として残すんなら信頼高いアーカイブの方がいいしな

333:名無しさん@お腹いっぱい。
20/07/30 23:49:49.99 .net
通常はそこまで手間じゃないんだから両方やっとけ
自分は3つやってる

334:322-324
20/07/31 00:23:14.62 .net
証拠だろうと面白いサイトだろうと消えてほしくないからアーカイブする訳だから、
自分は信頼性の高さを重視して何でも基本的にInternet Archiveのみを使っている
archive.todayではIAで保存できなかったものと、特に証拠として残したいものを保存してる(削除申請が通りにくいため)
ウェブ魚拓は「申請が来たらすぐ消している」という運営のインタビューを見てから一切使わなくなった

335:名無しさん@お腹いっぱい。
20/07/31 03:22:56.77 .net
今のIAは激烈不調で信頼できるとはとても言えんがな

336:名無しさん@お腹いっぱい。
20/07/31 03:53:08.45 .net
そろそろ調子なおった?

337:名無しさん@お腹いっぱい。
20/07/31 03:54:59.78 .net
直ってない

338:名無しさん@お腹いっぱい。
20/07/31 03:59:36.76 .net
ぴえん

339:名無しさん@お腹いっぱい。
20/07/31 07:54:38 .net
全ページ検索ってまだできない?
そんなに機密情報とか簡単に検索されたくない?

340:名無しさん@お腹いっぱい。
20/07/31 08:11:09 .net
またお前か

341:名無しさん@お腹いっぱい。
20/07/31 10:08:22.40 .net
自分の主張は正当化されるべきと信じ込んでる・とりあえず何でも陰謀論に結び付けるとか数え役満だな...
Internet Archiveにそんなサービスやってる余裕ないんだよ、一時�


342:冾竄チてたけど処理が追いつかなくてすぐ廃止になったって前にも誰かが言ってただろ



343:名無しさん@お腹いっぱい。
20/07/31 19:43:31.80 .net
そもそも最近のInternet Archiveは一枚もキャプチャ出来ない日がずっと続いてる
BANか時間帯か何が原因か知らんけど、VPNで時間帯変えても無理

344:名無しさん@お腹いっぱい。
20/07/31 19:50:35 .net
いやキャプは内部的に出来てるけど反映されるのが3日4日かかってるっぽい

345:名無しさん@お腹いっぱい。
20/07/31 19:58:20 .net
>>338
そなの?取れてないと思って同じページ数回取り直しちゃったわw
urlで検索すると取れてる扱いなのに、開くと取得ページに一枚もないって出てるし

346:名無しさん@お腹いっぱい。
20/07/31 20:02:11 .net
>>339
ツイッターでその症状が出てた

347:名無しさん@お腹いっぱい。
20/07/31 22:03:51.17 .net
500 Internal Server Error
502 Bad Gateway
520 Unknown Error
今日は特におかしい
何だこの三役揃い踏みは

348:名無しさん@お腹いっぱい。
20/07/31 22:17:37.78 .net
>>341
404も忘れないであげて下さい

349:名無しさん@お腹いっぱい。
20/07/31 22:45:54.54 .net
huh?

350:名無しさん@お腹いっぱい。
20/07/31 22:47:37.43 .net
200以外でリトライし続けるようなスクリプト組んでるけどもう三日間は1ページも保存できてないし

351:名無しさん@お腹いっぱい。
20/08/01 01:02:58.62 .net
三日間なにものどを通ってないみたいな言い方するな

352:名無しさん@お腹いっぱい。
20/08/01 02:24:02.89 .net
>>344
どのくらい間隔あけているの?

353:名無しさん@お腹いっぱい。
20/08/01 02:33:21.99 .net
1年間以上定期的にツイッターで保存していたせいかtodayはBANされてるなぁ
どうやっても404になるわ
使える串探すか

354:名無しさん@お腹いっぱい。
20/08/01 15:49:18.93 .net
自分はsave page nowのフォームから保存すると毎回問題なくいけてる(少なくともここ一週間くらいは)
spnフォーム保存時の通信を覗いて、処理をスクリプトに落とし込むというのも不可能ではないのでは

355:名無しさん@お腹いっぱい。
20/08/01 15:53:57.90 .net
確かにsave page nowは確率が高いね

356:名無しさん@お腹いっぱい。
20/08/01 23:59:08.53 .net
いろいろやってみたけど、俺の結論
7月後半ぐらいから/save/の後ろのURLつけて保存しようとすると、そのページにある画像とかも一部保存もしくはURLを確認しに行く(保存はされない)ように設計が変わったようで、
そのせいでページに張り付いてる画像やスクリプトファイルが多いブログを保存する時は特に時間かかりまくってる
スクリプトで保存してる場合、ヘッダーにno-cacheやetagが出てきたら、それは保存失敗
ブログやニュースサイトの画像URLやスクリプトURLの過去の履歴を見ると、
1日以下の短期間で何十回も何百回も保存してるのを7月以降たくさん見かけるのはこのせいだと思う
Internet Archive側のアーカイブシステムの改悪だ、保存が遅くなる一方だよこれ

357:名無しさん@お腹いっぱい。
20/08/02 03:25:42.91 .net
その保存しない確認ってのは一体何の意味があるんだろう

358:名無しさん@お腹いっぱい。
20/08/02 08:37:26.17 .net
本来ならInternet archiveをメインに使いたいところだが、いかんせん取れないままではなぁ
サイトに繋がるだけじゃ意味がない
337や339のレスと同じ結果ばかりで、もう一週間くらい取れてないから渋々archive.todayメインに切り替えてる

359:名無しさん@お腹いっぱい。
20/08/02 17:49:10.54 .net
いざとなったらspnフォームのHTTP通信解析してcurlで直接叩けばいいやと思ってるから特に気にしてない

360:名無しさん@お腹いっぱい。
20/08/02 19:09:18.50 .net
もう使い物にならんな

361:名無しさん@お腹いっぱい。
20/08/02 20:24:52 .net
Tweetsaveもタイムアウトなどクラウドフレアのエラーばっか出て心折れそう

362:名無しさん@お腹いっぱい。
20/08/02 20:27:40 .net
Tweetsaveは年間通して繋がらないことは頻繁にあるからもう慣れた

363:名無しさん@お腹いっぱい。
20/08/02 20:41:54 .net
>>353
1年前はcurlで1分間400回ぐらいはエラーなしで保存できたんだよな
今は10回やって2~5分休むを繰り返すしかできない
もちろん串刺すかIPアドレス変えれば無限にできる�


364:ッど、遅すぎる



365:名無しさん@お腹いっぱい。
20/08/02 23:24:33 .net
>>357
1分間400回とかそれは多すぎるよ、逮捕者が出た岡崎図書館事件ですら1回のアクセス毎に2秒の間隔を置いてたくらいなのに
みんながそんなことやりすぎたからアクセス回数の制限入ったんじゃないの?
万が一訴えられた時のことも考えて、どんなサイトでも1回のリクエスト送ってから最低1秒空けるのが不文律

366:名無しさん@お腹いっぱい。
20/08/02 23:27:33 .net
どうしても早く保存したいなら自分で保存対象サイトにwgetを走らせて、
そこからInternet Archiveのmetadataとしてアップロードすりゃいい
Wayback Machineには収録されないが、早くやりたいんならそれくらい我慢しなきゃ仕方ないだろ

367:名無しさん@お腹いっぱい。
20/08/02 23:31:20 .net
どうしても高速でWayback Machineに保存したいなら、
ArchiveTeamのIRCから「このサイトを保存してほしい」と依頼してArchiveBotで作業してもらうという手もある
URLリンク(www.archiveteam.org)

368:名無しさん@お腹いっぱい。
20/08/03 01:38:24.57 .net
>>357
何をそんなに保存するものがあるのか興味あるわ
IAからしたら負荷かけまくりの悪質荒らしと変わらんな

369:名無しさん@お腹いっぱい。
20/08/03 02:02:51 .net
ナニコレ
URLリンク(i.imgur.com)

370:名無しさん@お腹いっぱい。
20/08/03 03:21:13 .net
>>362
自分も全部それになる…

371:名無しさん@お腹いっぱい。
20/08/03 10:30:06.00 .net
なぜかTweetsaveを素早く庇う奴が常駐してる
不思議だ

372:名無しさん@お腹いっぱい。
20/08/03 10:45:09.75 .net
>>358
その辺の画像多用のブログをsave nowで保存するだけで画像やスクリプトで200のURLを一気に保存するんだが
考えてみればsave nowの方がサーバーに優しくないんだよ

373:名無しさん@お腹いっぱい。
20/08/03 14:19:45.15 .net
save page nowのリンク先保存は読み込まれる数に制限あるぞ

374:名無しさん@お腹いっぱい。
20/08/03 14:46:11.43 .net
>>364
確かに怖すぎ・・・

375:名無しさん@お腹いっぱい。
20/08/03 15:59:02.06 .net
庇ってるか?
年間通して続いてるから事実を言っただけだ
改善する希望なんて持てないしさ

376:名無しさん@お腹いっぱい。
20/08/03 16:26:43.83 .net
常駐ご苦労さん

377:名無しさん@お腹いっぱい。
20/08/03 16:32:26.47 .net
保存するのは芸能人のブログとかじゃないの
芸能人の画像をPCに保存にしないでIAを、クラウド代わりにする。

378:名無しさん@お腹いっぱい。
20/08/03 20:28:28.24 .net
検索がfailed to fetchになってしまって全然できない…

379:名無しさん@お腹いっぱい。
20/08/04 05:32:30.73 .net
save pageボタン押してもなかなか画面が変わらなくて
最後は502 Bad Gateway表示ばっかり

380:名無しさん@お腹いっぱい。
20/08/04 08:25:42.60 .net
SPNは復帰
/save/は502 Bad Gateway

381:名無しさん@お腹いっぱい。
20/08/04 08:28:31 .net
The capture is estimated to start in 600 minutes.
昨日ぐらいからSave Page Nowでこんな表示出てくるんだけど、あと10時間も待ってないといけないわけ?
いい加減にサーバー増強しろよ。。

382:名無しさん@お腹いっぱい。
20/08/04 10:01:44.45 .net
Tweetsaveについて知らないニワカが落ちてると叩くのは
サービスを潰しかねない迷惑行為なのでやめてもらいたい

383:名無しさん@お腹いっぱい。
20/08/04 11:54:09.68 .net
今Save Nowに突っ込んだら680分待ちでワロタ

384:名無しさん@お腹いっぱい。
20/08/04 11:54:46.66 .net
そもそもいつからTweetsaveがInternet Archiveの傘下に入ったんだ?
ウェブアーカイブ総合スレでやれ

385:名無しさん@お腹いっぱい。
20/08/04 11:57:24.72 .net
Internet Archiveも資金繰りが厳しいらしいからな
サーバの重さに文句言っていいのは寄付した人間だけだろ、自分は寄付してないから当然言えない

386:名無しさん@お腹いっぱい。
20/08/04 14:03:24.88 .net
IA目線になる必要はない
向こうにクレームつけてるワケでなし

387:名無しさん@お腹いっぱい。
20/08/04 17:08:02.52 .net
Internet archive取得できないな
Saving..のままだ

388:名無しさん@お腹いっぱい。
20/08/04 17:50:56.70 .net
なんでこんなんなっちゃったんだ

389:名無しさん@お腹いっぱい。
20/08/04 18:13:31.23 .net
国外のニュースサイトとかじゃあまり話題


390:にしないな



391:名無しさん@お腹いっぱい。
20/08/04 19:50:11.42 .net
The capture is estimated to start in 264 minutes.

392:名無しさん@お腹いっぱい。
20/08/04 20:45:36.63 .net
ここに書いてもしょうがないかしらんが
サイト撤去跡などでリダイレクトされるやつのリダイレクトが早すぎて
結局アドレスバーに直打ちしないと目当てのサイトを探せないのは何かなあ

393:名無しさん@お腹いっぱい。
20/08/05 03:17:21.99 .net
FirefoxなんでYahoo!BlogならRedirectorで/web/2/に飛ばしてるよ
多分クロームにも似たような拡張あるだろう

394:名無しさん@お腹いっぱい。
20/08/05 03:25:10.25 .net
>>380
自分もこれ…savingのまま一向に動かない
検索しても取れてない…

395:名無しさん@お腹いっぱい。
20/08/05 03:50:11.53 .net
>>380 >>386
URLリンク(i.imgur.com)

396:名無しさん@お腹いっぱい。
20/08/05 04:34:39.82 .net
/save/
520 Unknown Error
failed to archive the URL. specifics of failure is unknown

397:名無しさん@お腹いっぱい。
20/08/05 13:52:57.91 .net
520エラーでも数日後に見ると保存されるケースとされてないケースがあってよくわからん

398:名無しさん@お腹いっぱい。
20/08/05 14:18:52.88 .net
保存されるケースだけなら困らないが
されてないケースがあるから困る

399:名無しさん@お腹いっぱい。
20/08/05 14:57:05.28 .net
キャプチャまでの待ち時間がとんでもない事になってるけど
あれってタブ閉じるとダメなのかな?
内部的には処理待ち行列に入ってるとかならいいんだが

400:名無しさん@お腹いっぱい。
20/08/05 19:10:38 .net
タブ閉じても保存されるっぽい

401:名無しさん@お腹いっぱい。
20/08/05 19:38:11.52 .net
The capture is estimated to start in 0 minutes.
今待ち時間0分になってる
save/でもすぐに保存されてるし、やっと緩和したかな
これが続けばありがたいんだが

402:名無しさん@お腹いっぱい。
20/08/05 23:07:39.24 .net
やっと不具合解消されたか
長かったな

403:名無しさん@お腹いっぱい。
20/08/05 23:18:38.18 .net
行列で密になるところだった

404:名無しさん@お腹いっぱい。
20/08/06 07:52:14.90 .net
保存待ち状態もAPIで判別可能ならもっといいんだけどな

405:名無しさん@お腹いっぱい。
20/08/07 08:24:06.69 .net
平常通りと言いたいとこだけど、上部の棒グラフみたいな外観のリンクがバグってる

406:名無しさん@お腹いっぱい。
20/08/09 01:14:41 .net
24h後に再度試してもスナップショットがThis page is available on the web!になるな

407:名無しさん@お腹いっぱい。
20/08/09 01:49:03.68 .net
それはわかってるわって言いたくなるな

408:名無しさん@お腹いっぱい。
20/08/10 02:19:13.94 .net
お 保存成功
>398になった分はノーカンだから相当な足止めだな

409:名無しさん@お腹いっぱい。
20/08/10 08:53:33.67 .net
なんだこれ気持ちわりいw ほぼノータイムで保存されたw

410:名無しさん@お腹いっぱい。
20/08/11 14:54:46.93 .net
The same snapshot had been made 1 minutes and 3 seconds ago.
We only allow new captures of the same URL every 20 minutes.

411:名無しさん@お腹いっぱい。
20/08/11 17:42:27.57 .net
わお

412:名無しさん@お腹いっぱい。
20/08/11 23:40:05 .net
何を保存してんだか

413:名無しさん@お腹いっぱい。
20/08/12 00:39:05.37 .net
URL末尾に?を付けたらおk?

414:名無しさん@お腹いっぱい。
20/08/13 13:31:37.01 .net
>>404
間違えて同じのやっちゃっただけだよ

415:名無しさん@お腹いっぱい。
20/08/13 23:35:13.19 .net
最近必ず保存されていい感じ

416:名無しさん@お腹いっぱい。
20/08/14 02:26:01.50 .net
同じURL保存の待ち時間が20分になったな
jsonになってしまう事も結構あるのにこれはつらい…

417:名無しさん@お腹いっぱい。
20/08/14 09:07:40.78 .net
IPアドレス変えたりsave nowとアドレスバーにsave直打ちとかで同じかどうかも判定変わるから
いろいろ試せば1分未満でも再保存できる場合もあるよ

418:名無しさん@お腹いっぱい。
20/08/14 10:19:15.30 .net
x-archive-wayback-runtime-error: WaybackException: java.lang.IllegalStateException: Payload size does not match content-length!
ここ数日このエラー多すぎ

419:名無しさん@お腹いっぱい。
20/08/14 16:29:46.94 .net
todayスマホからアクセスするとCAPTCHAの無限ループなんだけどこれって俺だけ?

420:名無しさん@お腹いっぱい。
20/08/14 18:09:50.06 .net
俺もなるわ
どうやらユーザーエージェントでブロックしてるらしい
別のブラウザアプリ使えば回


421:避できる



422:名無しさん@お腹いっぱい。
20/08/14 18:35:19.64 .net
無限リキャプチャなんだこれ…って思ったら同じ人がいて安心した

423:名無しさん@お腹いっぱい。
20/08/15 00:29:36.27 .net
>>411だけどいつの間にか直ってたわ

424:名無しさん@お腹いっぱい。
20/08/16 22:58:30.65 .net
ワープ用の棒グラフをクリックするとこんなふざけたアドレスに飛ばされる。当然表示できない。
URLリンク(web.archive.org)*****.com/web/20191201000000/http://*****.com/

425:名無しさん@お腹いっぱい。
20/08/17 00:28:22.30 .net
ほんとだバグってる

426:名無しさん@お腹いっぱい。
20/08/17 09:21:29.95 .net
メンテ中で何も見れない

427:名無しさん@お腹いっぱい。
20/08/17 17:09:41.45 .net
保存されてたはずのページが今日確認したらされてなかったことに・・・
特に今年7月あたりがひどい。

428:名無しさん@お腹いっぱい。
20/08/17 22:57:21.09 .net
以前はちゃんと保存されて見れてたのなら、サイト運営者からの削除申請があったとかでもない限りは一時的なトラブルだから待ってれば直る

429:名無しさん@お腹いっぱい。
20/08/18 15:30:05.05 .net
保存直後は問題なく見れるが数日後は無くなってるのが多いね
保存失敗したならちゃんと失敗したとエラー表示出して欲しい

430:名無しさん@お腹いっぱい。
20/08/18 16:08:16.30 .net
>>420
見られなくなるのは一時的で数日後にはちゃんと見えるようになる
urlをブクマして確かめてみろ

431:名無しさん@お腹いっぱい。
20/08/19 01:14:34.33 .net
URLから日付を選ぶページで保存元(Reason:)がNo Collection Infoって表示が出てるのは時間かかってるっぽい
保存されたらlivewebかsave-nowになるはず

432:名無しさん@お腹いっぱい。
20/08/20 13:37:54 .net
>>420
単にインデクシング階層で情報の表示に失敗してるだけで、サーバ内部にはちゃんと保存されてる
待ってれば直る

433:名無しさん@お腹いっぱい。
20/08/20 13:40:37 .net
noteのIP漏洩事案だけど、Wayback MachineのアーカイブのソースにIP情報が残ってる記事が結構あるらしい
削除申請が出される可能性があるから、noteのアーカイブを取ったことのある人は改めて保存し直しておくことを推奨

434:名無しさん@お腹いっぱい。
20/08/20 16:42:28.79 .net
IA側がIPアドレスは個人情報じゃないので削除却下と行ってきたらどうすんの?
個人的には今回の件どうでもいいと思ってるし、note運営がどうこういう話じゃないしな

435:名無しさん@お腹いっぱい。
20/08/20 23:09:46.55 .net
IPアドレスはEUの一般データ保護規則で個人情報とされてるからIA側が却下する可能性は微妙
もちろんnote運営を介さないと削除申請は出せないはずだけど、
某自主制作コミュニティで「note運営に働きかけて記事のアーカイブを削除してもらおう」
って動きがあったのを見かけたものだから念の為と思ってね

436:名無しさん@お腹いっぱい。
20/08/21 00:04:13.83 .net
運営に言わずに自分や自社のブログを消したいなら自分で削除依頼出せばいいのにな
初めっからやる気なさそう

437:名無しさん@お腹いっぱい。
20/08/21 00:22:21 .net
今気付いたんだけど、削除申請を受けてWayback Machineから恒久的に削除されたサイトでも
スクリーンショット機能を使えば普通に保存・閲覧出来るんだな
(つまりスクリーンショットはWayback Machine削除申請の影響を受けない?
単にスクリーンショット機能実装以前に削除されたからかもしれないけど)
既出ならすまない

438:名無しさん@お腹いっぱい。
20/08/21 00:23:29 .net
× スクリーンショット機能実装以前に削除されたから
○ スクリーンショット機能実装以前に削除されたページだったから

439:名無しさん@お腹いっぱい。
20/08/21 00:26:14 .net
>>427
Internet Archiveの削除申請は「自分がそのサイト本体の管理者であることが確実にわかる証拠」を提示しないといけない
だから多分自力じゃ厳しいと思う

440:名無しさん@お腹いっぱい。
20/08/22 22:36:33.52 .net
削除申請してる時間あるならルーター再起動するなりすればいいだけじゃない�


441:ゥね… ipバレてビビるとか古のネット民じゃないんだから



442:名無しさん@お腹いっぱい。
20/08/23 00:29:25.80 .net
固定IPなんかはそうもいかんだろ

443:名無しさん@お腹いっぱい。
20/08/24 03:31:06.48 .net
>>428
スクショ機能なんて使う場面ないだろと思ってたけどそういう使い道があったか

444:名無しさん@お腹いっぱい。
20/08/24 16:55:38.02 .net
スクリーンショットとサイト保存って何が違うの?

445:名無しさん@お腹いっぱい。
20/08/24 18:05:25.38 .net
普通のサイト保存→
HTML/CSS/JSなどを実行した結果のデータやアクセス日時などの情報を、WARCファイルという専用フォーマットにまとめて保存する。WARCの表示には専用のビューワが必要
スクリーンショット→
ページのスクリーンショットを撮った画像ファイルを保存する。やってることはスマホやパソコンのスクリーンショットと違いはない
要は保存する方法が全く違う

446:名無しさん@お腹いっぱい。
20/08/24 23:21:34.82 .net
どのサイトからのものってのはわかるのかな

447:名無しさん@お腹いっぱい。
20/08/25 15:21:15.62 .net
>>436
URLの先頭にarchive.orgのものが付く以外は普通のURLと変わらないので分かる

448:名無しさん@お腹いっぱい。
20/08/25 23:20:57.08 .net
なら便利だな

449:名無しさん@お腹いっぱい。
20/08/26 00:43:57 .net
表示中のアーカイブサイトのどこを押せばサイト内容まとめたWARCファイルとやらをDL出来んの

450:名無しさん@お腹いっぱい。
20/08/26 01:26:16.34 .net
別にわざわざWARC落とさなくても、ブラウザのWayback Machineで表示されてるのがWARCの内容だぞ
アーカイブされたサイトはWARCファイルとしてまとめられ、Internet Archiveのサーバに保存される
Wayback Machineは、サーバ内のWARCを呼び出してブラウザで見れるように適切に変換しているだけ

451:名無しさん@お腹いっぱい。
20/08/30 08:16:25.60 .net
/save/の保存制限ってここ数日は緩和されてる?
時間なかったのでダメ元で何ページか同時に/save/の後ろにURLつけてブラウザで開いてみたら
去年の後半以降からずっと出てた「制限に達したから5分待ってください」のエラーが全く出ずに保存できた

452:439
20/08/30 08:20:18.13 .net
保存時に画像やスクリプトファイルで待たされるのは
去年の快適だったころとは比べてまだ元通りではないけど、ちょっとストレス減った

453:名無しさん@お腹いっぱい。
20/08/30 19:10:13 .net
note消された?
新しく保存もできない
URLリンク(web.archive.org)

454:名無しさん@お腹いっぱい。
20/08/30 19:59:54 .net
ローカルhtmlにsave/httpのリンク複数貼って
それ一斉に開いたらちゃんと保存されてんの?

455:名無しさん@お腹いっぱい。
20/08/30 20:07:43 .net
本当だ
しかもnoteの以前のドメイン(note.mu)の方は完全にブロックされてる
Twitterでは8月上旬までこのドメインの魚拓が共有されてるからIP流出事件後にブロックされたっぽい
URLリンク(i.imgur.com)

456:名無しさん@お腹いっぱい。
20/08/30 20:35:37 .net
>>444
されてると思う
まとめて大量にするとToo Many Requestsエラーで漏れがでる可能性はあるけど

457:名無しさん@お腹いっぱい。
20/08/31 04:33:09.24 .net
>>425みたいな懐疑的意見もあったけど、個人的には予想通りの措置って感じだな...
robots.txt見たらia_archiverとmegalodonをブロックしてた

458:名無しさん@お腹いっぱい。
20/08/31 04:34:52.71 .net
>>447
わかると思うけどnoteの話な

459:名無しさん@お腹いっぱい。
20/09/01 03:46:44.96 .net
robots.txtでブロックしてようがIAのバグで保存しちゃう方法はあるので、
Noteがサービス終了してrobots.txtの規制解除まで見るのだけはお預けだね

460:名無しさん@お腹いっぱい。
20/09/01 05:36:23.80 .net
サービス終了しても解除されない場合があるからそんなに楽観的には見れないな...
そういうサイトはおそらくメールの申請で、Wayback Machineから恒久的に削除されてるんだと思われる

461:名無しさん@お腹いっぱい。
20/09/01 12:18:32.04 .net
excludedって削除じゃなくて除外処置じゃないっけ?確証は持てないけど
復活したアーカイブは見たことあるけどそのままの例は知らないので教えて欲しい

462:名無しさん@お腹いっぱい。
20/09/01 17:10:02.85 .net
自分が知ってる例は、URLは忘れ�


463:トしまったけど、 だいたい10年近く前に閉鎖された版権作品の二次創作小説投稿サイトだった 2, 3年前にそのサイトのアーカイブをWayback Machineで見ようとしたんだが、 "このサイトはWayback Machineから削除されました"というような内容のエラーメッセージが出て見れなかった



464:名無しさん@お腹いっぱい。
20/09/01 19:38:09.98 .net
>>450
IAに除外要請を出しておいて、サービス終了時に再度
「うち辞めるから、もう見せても良いですよ」とか通知する奴が居たらアホだなw
実際に削除してるのか、単に非表示フラグを立ててるだけなのかは知らんけど。

465:名無しさん@お腹いっぱい。
20/09/01 19:57:29.68 .net
心配しなくとも炎上させたいネットストーカーされてるところは他で流出するがな
5chや通販サイト等のクレカ含めた個人情報しかり
ここに挙がらないアーカイブサイトで取った魚拓はまだ残ってるし
マイナー過ぎていつ消えるか分からないけど晒すと使えなくなるから輸出してるが証拠能力が下がるのが悩み

466:名無しさん@お腹いっぱい。
20/09/03 16:37:02.03 .net
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
URLリンク(twitter.com)
だそうな
IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
(deleted an unsolicited ad)

467:名無しさん@お腹いっぱい。
20/09/03 16:37:02.33 .net
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
URLリンク(twitter.com)
だそうな
IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
(deleted an unsolicited ad)

468:名無しさん@お腹いっぱい。
20/09/03 16:37:29.67 .net
二重投稿になってしまった、すまない

469:名無しさん@お腹いっぱい。
20/09/03 16:43:17.13 .net
非表示にされたサイトでもスクリーンショットで保存できるテクニック、noteでも行けるわ
今試したら問題なく取れた
URLリンク(web.archive.org)URLリンク(note.com)">URLリンク(web.archive.org))

470:名無しさん@お腹いっぱい。
20/09/05 11:20:03.73 .net
スクショはアーカイブデータとして見ると微妙なのがね・・・(単に見る分には良いけど)
全く取れないよりはましだけども

471:名無しさん@お腹いっぱい。
20/09/05 13:25:56.74 .net
アーカイブ見ようとすると時々出る。いつも出るわけではない。更新で解決するときとしないときがある。
> ページの自動転送設定が正しくありません
> web.archive.org への接続中にエラーが発生しました。
> Cookie を無効化したり拒否していることにより、この問題が発生している可能性もあります。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch