Internet Archive総合 (web.archive.org) #4at ESITE
Internet Archive総合 (web.archive.org) #4 - 暇つぶし2ch2:名無しさん@お腹いっぱい。
21/08/13 04:29:40.41 .net
>>1おつ
Internet Archive総合 (web.archive.org) #2
スレリンク(esite板:5番)
5 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2016/10/01(土) 04:24:53.46
テンプレのQ&A二件、まだそんなやり方が通用すると思ってる奴いるの?

3:名無しさん@お腹いっぱい。
21/08/13 09:15:19.20 .net
Q. 寄付したいんだけど?
こちらから金額と、一度きりか毎月か、送金方法、を選んで寄付してください
URLリンク(archive.org)
Q. すぐに保存したい場合は?
Save Page NowにURLを入力して「SAVE PAGE」ボタンを押す
URLリンク(web.archive.org)
Q. アカウント作ったらなんかいいことあるの?
A. ページのスクリーンショットを保存したり、ページの全てのリンク先を保存できる「Save outlinks」という機能が使える
Q. spn@archive.orgにメールでURLを送ったら保存されるの?
A. 1週間後に保存完了のメールが届いたり、何も戻ってこない失敗した場合があるので、確実に保存したいなら辞めたほうがいい
Q. インスタのURLが保存できないんだけど
A. ログインしないとコンテンツが表示されない仕様になったので保存自体が無理になってます
Q. robots.txtでia_archiverをDisallowしても無視されるの?
A. 中古ドメインでサイト見れなくするやつのせいでrobots.txtを見ない仕様になったので無視されることも従うこともあります、
保存できることもあるので確認してみたほうが早い
Q. 鯖落ちしてる?
A. ここで鯖状態を見れる
URLリンク(analytics0.archive.org)
URLリンク(archive.org)

4:名無しさん@お腹いっぱい。
21/08/13 09:19:36.55 .net
Q. Save Page Nowの制限などの仕様は?
A. ここを参照
URLリンク(docs.google.com)
Q. Save Page Nowで保存完了しても保存されたページが表示されないんだけど
A. 完全にページが見れるようになるのと、/*/のページ一覧やカレンダーに反映されるまで時間かかるので最大数日待ってください
ほとんどは数分後には見えるようになってるはず、もしくはウェブブラウザのキャッシュを削除するといいかも
Q. 「 The capture is estimated to start in XX minutes. 」って何?
A. Save Page Nowの保存サーバーの空きがなくて保存処理に時間がかかってる状態、急いでなければあとでやるのも手
Q. The same snapshot had been made XX minutes and XX seconds ago. We only allow new captures of the same URL every XX minutes.
A. 同じURLを短期間の間に何度も保存できない仕様になっています、誰かが数分前に保存したか、自分で保存したときに一部の画像がかけて保存されている状態でも表示されることがあります
気になるなら1時間後ぐらいにもう一度保存してください
Q. Temporarily Offline The Internet Archive's sites are temporarily offline. We apologize for the inconvenience. って何?
A. たまにメンテやってサイト見れなくなることがあるので、待ちましょう。ツイッター(@InternetArchive)でメンテ予告は発表しています
Q.「The server didn't respond in time for https://(保存しようとしたURL)」
A. 極端にページの返答が遅いサイトを保存しようとするとこの表示が出ます、何度かやれば保存できることもあります

5:名無しさん@お腹いっぱい。
21/08/13 09:20:54.64 .net
Q.「This URL has been excluded from the Wayback Machine. 」って何?
A. robots.txtのブロックや、サイトの運営者や著作権者がドメインやこのディレクトごと非表示化の申請した可能性があります、
ただしURLの保存はできますし、未来にブロックが解除されて見れるようになる可能性もあります
Q.「Cannot get status of spn2-乱数」のエラーは何?
A. Save Page Nowで保存中にサーバーの状態が取得できなかったときのエラーで、/*/で保存されているか確認して、されてなければもう一度保存してください
Q. 「404 Not Found」のエラーは何?
A. サイトが存在していてもこのエラーが出ることがあります。その場合は時間あけて一度保存してみましょう

6:名無しさん@お腹いっぱい。
21/08/13 09:22:41.85 .net
前スレの情報と俺の経験から適当なFAQを作ったので、修正と更新よろしく
>>5 ここは修正
ディレクト
ディレクトリ

7:名無しさん@お腹いっぱい。
21/08/13 10:10:50.77 .net
Q. 「Sorry Job failed」が出た
A. このエラーが出たとしても一部画像やスクリプトファイルが欠けた状態でページ保存できていることがありますので、/*/で確認してみてください
保存できてない場合はやり直してください
Q. 「You have already reached the limit of active sessions」が出た
A. 同じIPアドレスからの同時保存制限に引っかかってる状態。2021年5月24日以降はログインしていないユーザーは同時保存は3個まで
1分ほど待てば制限解除される
Q.「This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.」が出た
A. 1日に同じURLは10回まで保存できる制限に達したので、また明日

8:名無しさん@お腹いっぱい。
21/08/13 19:21:23.04 .net
いきなり保守

9:名無しさん@お腹いっぱい。
21/08/13 19:22:42.15 .net


10:名無しさん@お腹いっぱい。
21/08/14 04:09:32.12 .net
Hmm

11:名無しさん@お腹いっぱい。
21/08/14 05:27:47.12 .net


12:名無しさん@お腹いっぱい。
21/08/14 12:34:36.90 .net


13:名無しさん@お腹いっぱい。
21/08/15 00:20:19.31 .net
archive .foはインスタ取れるの?

14:名無しさん@お腹いっぱい。
21/08/15 12:59:22.50 .net
立て乙
pcからしかアクセスしてないのに3割ぐらいの確率でsp用ページが保存されるサイトあるのなんでだろ
sp用になってしまったページを後日とり直しても3割ぐらいが再度sp用になる
3度目の正直でもダメだったページは諦めてる

15:名無しさん@お腹いっぱい。
21/08/16 08:34:43.27 .net
>>1

16:名無しさん@お腹いっぱい。
21/08/16 17:49:00.62 .net
>>14
sp用URLを取ってるとか?
FC2ブログとかなぜかspの方がインデックスされてるのが多いし

17:名無しさん@お腹いっぱい。
21/08/17 13:27:51.78 .net
.>>1
【保存・記録】ウェブアーカイブ総合 Page.01
スレリンク(internet板)
共通の検索キーで特定するのが不可能なスレタイ

18:名無しさん@お腹いっぱい。
21/08/17 13:30:21.39 .net
>>1
25周年記念サイト
URLリンク(anniversary.archive.org)

10月21日木曜日午後6時PT(午後9時ET)

19:名無しさん@お腹いっぱい。
21/08/17 13:31:36.79 .net
URLリンク(lab.syncer.jp)
>>1

20:名無しさん@お腹いっぱい。
21/08/17 21:27:46.03 .net
なにそれ

21:名無しさん@お腹いっぱい。
21/08/18 00:02:25.05 .net
96年あたりに保存されたサイトは大抵が不完全だな

22:名無しさん@お腹いっぱい。
21/08/18 00:26:50.73 .net
むしろ96年によく保存し始めたもんだなと思う

23:名無しさん@お腹いっぱい。
21/08/19 03:12:23.86 .net
こちらのアーカイブの閲覧方法、どなたか分かる方がいらっしゃったら教えて頂きたいです…
URLリンク(archive.org)

24:名無しさん@お腹いっぱい。
21/08/19 03:50:10.13 .net
URLリンク(github.com)

25:名無しさん@お腹いっぱい。
21/08/20 09:52:35.14 .net
>>24
ありがとうございます…!まさしく求めてたモノっぽいです。アーカイブの容量大きいですがローカルに落として見てみます!

26:名無しさん@お腹いっぱい。
21/08/21 09:40:47.52 .net
404出るわ

27:名無しさん@お腹いっぱい。
21/08/21 12:43:47.02 .net
久しぶりに重いね

28:名無しさん@お腹いっぱい。
21/08/21 17:10:20.07 .net
調子悪いな

29:名無しさん@お腹いっぱい。
21/08/21 23:26:59.75 .net
今日はプロトコルのエラーばっかりで
何度か読み込まないとウェブブラウザから表示も保存もできない

30:名無しさん@お腹いっぱい。
21/08/21 23:40:35.02 .net
?何かあったの?

31:名無しさん@お腹いっぱい。
21/08/25 00:00:25.31 .net
OutLinksがほぼThe server didn't respond in time for 「URL」になる

32:名無しさん@お腹いっぱい。
21/08/25 00:36:06.75 .net
thisって何なん

33:名無しさん@お腹いっぱい。
21/08/25 00:36:27.41 .net
thisじゃなかったthe
theは何を指してるん

34:名無しさん@お腹いっぱい。
21/08/25 22:21:16.75 .net
twitterでjsonばっかのときどうすればいいの

35:名無しさん@お腹いっぱい。
21/08/25 22:50:55.34 .net
>>31-33
>>4に書いてある
保存するページのサーバー側の応答が遅いとタイムアウトになってdidn't respondエラー返ってくる場合がある
outlinksでも同じ
URLわかってるなら1ページずつ保存したほうが早いかもしれないよ
>>34
俺の環境では最近Save Page Nowでも/save/を踏んでもjsonへリダイレクトされなくなってるけど
普通の「URLリンク(twitter.com)ユーザ名/status/ツイート番号」のURLで保存してみるとか

36:名無しさん@お腹いっぱい。
21/08/25 23:45:21.72 .net
 
Twitter 総合スレ 85
スレリンク(sns板)

532 友達の友達の名無しさん (ワッチョイ ffeb-j7M8) sage 2021/08/25(水) 21:23:21.22 ID:Vyk92XNE0

Twitterが「ツイートの表示にログインを義務化する」仕様を段階的に導入している可能性
URLリンク(gigazine.net)

>ついにツイートの表示もログイン必須とする仕様をTwitterが段階的に
>導入し始めているのではないかと指摘されています
 

37:名無しさん@お腹いっぱい。
21/08/26 00:20:29.10 .net
ツイッターも魚拓とるなら今のうちか
インスタもフェイスブックもとれなくなったし
SNSの記録ができなくなるのは将来悔やまれるでしょうね

38:名無しさん@お腹いっぱい。
21/08/26 04:17:45.08 .net
>>37
自前のクロールソフト使うしかないもんな

39:名無しさん@お腹いっぱい。
21/08/26 07:53:54.44 .net
今さっき、UTC 22 時台に玉葱経由で保存させようとしたらこれが来たw
おそらく他の制限と同様に 0 時にはリセットされるのかと。
この状態でもアカウントでログインしてあれば保存は可能。
(当然、生で使うものとはアカウントは分けてますよ。)
URLリンク(o.5ch.net)

40:名無しさん@お腹いっぱい。
21/08/26 12:20:31.50 .net
なんかSave Page Nowのページ固まってね?
表示が固まるだけで取得は出来てるけど

41:名無しさん@お腹いっぱい。
21/08/26 15:05:07.94 .net
>>39
アカウント作らなくても、
履歴を消す→クッキーを有効にする→履歴を消す→クッキーを無効にする→履歴を消す...
の作業を2,3回繰り返すと突破できるよ

42:名無しさん@お腹いっぱい。
21/08/26 15:10:10.17 .net
>>41
生挿入と勘違いしたはるで、英文読めへんのかw

43:名無しさん@お腹いっぱい。
21/08/27 16:18:35.90 .net
>>40
普通に取れることもあるけど固まって動かなくなるのがほとんどでしんどい
一日経過しても重いままとかどうしたんだ

44:名無しさん@お腹いっぱい。
21/08/28 05:34:32.31 .net
URLリンク(archive.org)
なんか新しいことを始めてる模様
Save Page Nowでも自動でリンク先を保存してる
これで1ページ保存リクエスト出せばリンク辿って全部保存してくれるかも

45:名無しさん@お腹いっぱい。
21/08/28 05:48:06.55 .net
ちなみに俺がSPNで保存したのを確認してみると、2日後にリンク先をsave-page-now-outlinksで保存してるので時間差がある感じ
将来的にログインしなくてもoutlinksと同じように保存されるならすごく時間の節約になってみんな助かるので期待したい

46:名無しさん@お腹いっぱい。
21/08/28 08:50:45.75 .net
>>37
このサイトからログインすると任意のアカウントの最新3000件ぐらいのツイートURLを取り出せる
ただしリツイートしてるのも含めてだが
URLリンク(www.allmytweets.net)
あとは/save/に投げていけばいい

47:名無しさん@お腹いっぱい。
21/08/28 17:09:28.57 .net
自動でリンク先を撮ってくれるのはいいけど負荷分散も自動化してくれ

48:名無しさん@お腹いっぱい。
21/08/29 13:11:32.00 .net
ArchiveTeamが取ったアーカイブってなぜかCollectionsやAPIに反映されてないことが多いんだよな
何でなんだろ?

49:名無しさん@お腹いっぱい。
21/08/30 19:15:15.06 .net
いつの間にかヤフーニュースを
(トップページに遷移されずに)
スクリーンショットできる機能が復活していた。

50:名無しさん@お腹いっぱい。
21/09/04 00:54:52.92 .net
SPNの送信ヘッダのクッキーにdonation-identifier=英数字; abtest-identifier=英数字とかいうのがあるけど
寄付した金額で扱いを変えていたりするのだろうか?あとABテストの被験者にもされているのか?
Google関連?

51:名無しさん@お腹いっぱい。
21/09/04 03:07:26.10 .net
Hrm.
The Wayback Machine has not archived that URL.
Click here to search for all archived pages under URLリンク(~)

52:名無しさん@お腹いっぱい。
21/09/04 13:59:14.93 .net
hrmの発音がわからん

53:名無しさん@お腹いっぱい。
21/09/04 14:04:48.54 .net
>>52
URLリンク(en.wiktionary.org)
音声付き、本当にこれで良いのかは知らんけど

54:名無しさん@お腹いっぱい。
21/09/04 14:48:54.37 .net
Forvoで調べたらエイチ・アール・エムって読みやがった。
そっちじゃねえ

55:名無しさん@お腹いっぱい。
21/09/04 14:50:36.84 .net
Google翻訳の発音機能だとフーム

56:名無しさん@お腹いっぱい。
21/09/04 16:23:45.81 .net
はらむ?えいちあーるえむ?ふーむ?
割れすぎワラタ

57:名無しさん@お腹いっぱい。
21/09/04 16:33:53.91 .net
Youtube
Sorry
Please try again in ~1 min. Crawling this host is paused
because they notified us that are overloaded right now.

58:名無しさん@お腹いっぱい。
21/09/04 17:57:59.71 .net
( >ω<)/~~ ~1 min

59:名無しさん@お腹いっぱい。
21/09/06 06:21:44.18 .net
>>36
スクロールしての読み下しは出来るが個別ツイートをクリックしても阻まれるな

60:名無しさん@お腹いっぱい。
21/09/06 18:56:51.87 .net
別タブで開いたらまだ大丈夫

61:名無しさん@お腹いっぱい。
21/09/08 19:18:54.65 .net
archive.is が落ちたままだ
URLリンク(web.archive.org)

62:名無しさん@お腹いっぱい。
21/09/08 22:00:50.95 .net
ここの住人になるとそういうのさえアーカイブを通して貼るのかw

63:名無しさん@お腹いっぱい。
21/09/08 22:30:15.17 .net
「落ちてる?」「生きてるだろ」という応酬を何度見てきたことか。

64:名無しさん@お腹いっぱい。
21/09/16 12:24:13.93 .net
ツイッターアーカイブできなくない?

65:名無しさん@お腹いっぱい。
21/09/16 16:29:05.86 .net
668 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2021/09/16(木) 14:26:46.31
Save Page Now
が昨日から全然安定しない・・・
いつ正常になるんだ

66:名無しさん@お腹いっぱい。
21/09/19 10:58:54.62 .net
YouTubeの動画が保存されるのはいいんだけど、さっき見つけた今年の8月に保存されたページでは30秒の広告動画だけしか保存されてない。
parma.ccを見習えよ、てかparma.ccがアップロードしてるのをWaybackに反映させればいいのに

67:名無しさん@お腹いっぱい。
21/09/19 19:26:35.26 .net
/save/がNot Foundedになる

68:名無しさん@お腹いっぱい。
21/09/19 19:58:51.28 .net
Temporarily Offlineが出たり404や503だらけで今日は保存できない

69:名無しさん@お腹いっぱい。
21/09/20 01:48:42.70 .net
サンフランシスコで停電起きてるそうで、IAも巻き込まれてるかもしれない
シスコ近くの複数箇所にデータセンターがあるって昔発表してたけど、
場所を非公開だから停電の地図を見ても確かめられない
まだ完全に復旧するまで時間かかりそう

70:名無しさん@お腹いっぱい。
21/09/20 01:50:37.08 .net
貼り忘れ
IA代表のケールさんのツイート曰く
URLリンク(twitter.com)
(deleted an unsolicited ad)

71:名無しさん@お腹いっぱい。
21/09/20 02:37:27.85 .net
太平洋標準時で午後5時(日本時間で20日午前9時)までに復旧予定
URLリンク(twitter.com)
(deleted an unsolicited ad)

72:名無しさん@お腹いっぱい。
21/09/20 05:15:32.58 .net
外部要因かもしれんのか

73:名無しさん@お腹いっぱい。
21/09/20 22:14:43.29 .net
無知ですみません。質問させてください。
スプレッドシートのリストでアーカイブをかけています。作業の完了メールを受信し、シートには成功したと記述があっても、実際にURLにアクセスしてみると、アーカイブの取得が完了していない旨のメッセージが表示されます。
この場合、内部的にはアーカイブの取得に成功していますか?
それともアーカイブはとれていないのでしょうか。

74:名無しさん@お腹いっぱい。
21/09/20 22:31:00.44 .net
両方よくある

75:名無しさん@お腹いっぱい。
21/09/20 23:31:50.62 .net
>>73
保存したURLが見れるようになるまで時間かかっているか、一部のURLだけ保存に失敗している可能性もある。
/*/でカレンダーに直近の日付で保存されているか確認するのが一番簡単だが、
内部的に保存されているか確認したいなら、ウェブブラウザでも見れるけどcurlのコマンドの場合
curl URLリンク(archive.org)
返答に「"available": true」と直近の日付のtimestampがあるかどうか。あるなら保存できてる。
"available": falseの場合はその次に
curl -I URLリンク(web.archive.org)
ヘッダーに「x-archive-redirect-reason: found capture at 直近の保存時間」があれば保存されている。
この2つのコマンドで見当たらない場合は保存をやり直ししたほうが早い。
ただ、この確認方法でも保存できているのに保存されてないと返ってくることがあるので、俺も困ってる。

76:名無しさん@お腹いっぱい。
21/09/21 01:12:46.90 .net
今日も停電だって
URLリンク(twitter.com)
(deleted an unsolicited ad)

77:名無しさん@お腹いっぱい。
21/09/21 01:15:13.36 .net
スレタイのアーカイブサイトってもしかして停電が相次ぐ州にあるのか?

78:名無しさん@お腹いっぱい。
21/09/21 11:17:06.02 .net
dropboxも除外されてるか
以前は保存できて落とせた気がしたが

79:名無しさん@お腹いっぱい。
21/09/22 19:37:04.10 .net
著作権法厳しくなったら、誰が保存したとか調べよとする輩も出てくるんかね。無理だと信じたいが

80:名無しさん@お腹いっぱい。
21/09/24 03:01:13.72 .net
>>79
IAに限らず誰がアクセスしたのかは第三者には分らんよ
ただアーカイブが少ないサイトだと統計的に同一人物が保存した、とかは分かるかもね
その場合でも個人は特定出来ないけど

81:名無しさん@お腹いっぱい。
21/09/25 06:46:20.97 .net
archive.isで.txtをアーカイブした場合、プレーンテキストを表示させるにはどうしたら良い?

82:名無しさん@お腹いっぱい。
21/09/25 18:39:38.36 .net
im_
fw_

83:名無しさん@お腹いっぱい。
21/09/26 06:37:37.39 .net
それarchive.orgだろ

84:名無しさん@お腹いっぱい。
21/09/29 20:05:16.09 .net
いつの間にかtwitterの動画保存できるようになってるじゃん

85:名無しさん@お腹いっぱい。
21/09/29 20:49:15.44 .net
>>84
(・o ・)ほぉ!

86:名無しさん@お腹いっぱい。
21/09/29 23:07:40.75 .net
消されたtwitterアカウントの過去ツイ遡りたいんだけど、どうやって検索すればいいか分からん

87:名無しさん@お腹いっぱい。
21/10/01 01:01:19.89 .net
わからんならやめたれ

88:名無しさん@お腹いっぱい。
21/10/01 04:25:58.46 .net
中国のweiboってアーカイブ出来ないんでしょうか?

89:名無しさん@お腹いっぱい。
21/10/01 12:24:43.05 .net
新しくURLsタブ出来たけど、バグってるのか表示されないな

90:名無しさん@お腹いっぱい。
21/10/01 14:04:39.61 .net
>>89
バグだね。ホスト名より前の部分 (URL スキーム名 + 斜線) を除くと動く。
URLリンク(i.imgur.com)

91:名無しさん@お腹いっぱい。
21/10/01 20:37:46.76 .net
夏にTwitterアカウントのアーカイブ削除依頼を出したんだけど、
翻訳ソフト使ったけど、
回答が難解すぎてまったく分からない。
アドレスだとかURLか何か要求していることだけは分かったけど、
この場合、何を出せばいいのですか?
今まで使ってたサービスとか昔書いてたブログとか
順次アーカイブから除去していくつもりなんだけど、
最初に手を付けたTwitterですら消し方が分からない……

92:名無しさん@お腹いっぱい。
21/10/01 21:04:21.76 .net
残されて困るようなことを書いたお前が悪い。諦めろ。

93:名無しさん@お腹いっぱい。
21/10/01 22:48:00.80 .net
>>91
本人証明して削除してもらうみたいな話は聞いたことある
Twitterとかブログで削除依頼出してます的な文を投稿をすれば本人だと証明できるのかな
取り敢えず個人情報伏せてメール文貼り付ければ誰か解読してくれるんじゃね?

94:名無しさん@お腹いっぱい。
21/10/02 04:31:41.79 .net
こころんにあるミラーはIAを弾いてるっぽいし、エロゲ系ミラーサイトの大半は閉鎖済みだし どうしようもない

95:名無しさん@お腹いっぱい。
21/10/02 23:58:43.15 .net
URLリンク(wayforward.archive.org)
この未来起こりうる陰謀論みたいなシナリオみたいなのはなんなの
がっかり

96:名無しさん@お腹いっぱい。
21/10/03 00:58:38.21 .net
>>95
確かにビックリな内容だけど俺は安心したわ
検閲が強化され続けてる実情を踏まえると、ここまで最悪のシナリオを想定して運営してくれてるのなら信頼できる

97:名無しさん@お腹いっぱい。
21/10/03 19:43:00.18 .net
コスパ系のサイト保存すると盥回しみたいに転送されまくって元のドメインに戻ってくる仕様クソ過ぎるな。
IAではなくコスパ側の仕様だが。

98:名無しさん@お腹いっぱい。
21/10/03 20:00:54.17 .net
無限盥回しで いつになってもアーカイブが表示されない場合もある。これは酷い

99:名無しさん@お腹いっぱい。
21/10/04 01:43:25.24 .net
コスパ系のサイトとは一体

100:名無しさん@お腹いっぱい。
21/10/05 15:38:13.03 .net
前までURL入れたら見れていたサイトが急に見れなくなる原因ってなんですか?
随分昔の個人サイトで今さら削除申請した訳でも無さそうなのですが何が原因なんでしょう
こういう例がいくつもあります

101:名無しさん@お腹いっぱい。
21/10/05 22:21:22.34 .net
>>100
一時的に見れないって訳じゃないなら削除申請以外考えられないかな
そのサイトのエラーメッセージを貼ってくれないと何とも言えない

102:名無しさん@お腹いっぱい。
21/10/08 09:09:08.20 .net
>>97
TMJ移転のお知らせ

103:名無しさん@お腹いっぱい。
21/10/09 15:57:54.85 .net
ヤフーニュースをアーカイブしてもトップページに遷移されずに
無難にアーカイブできるようになっている。
いつの間にか。

104:名無しさん@お腹いっぱい。
21/10/09 18:48:40.91 .net
楽天は?

105:名無しさん@お腹いっぱい。
21/10/10 06:38:26.34 .net
save-page-now-outlinksが復活してる。
SPN使って手動で保存したページのリンク先がいくつか保存されてるのも確認。

106:名無しさん@お腹いっぱい。
21/10/11 06:09:54.04 .net
インターネットアーカイブ25周年記念ビデオメッセージサイト
URLリンク(internetarchive25.capsule.video)
日系アメリカ人
横浜在住外国人
英語が苦手なチー牛

107:名無しさん@お腹いっぱい。
21/10/13 21:58:44.94 .net
Sorry
This host has been already captured 100,000 times today. Please email us at "info@archive.org" if you would like to discuss this more.

108:名無しさん@お腹いっぱい。
21/10/14 03:19:26.35 .net
応じてくれるの?

109:名無しさん@お腹いっぱい。
21/10/14 05:00:41.52 .net
アーカイブが見れなくなったことを質問したときの回答
>Please note that the Wayback Machine uses multiple layers of indexes to internally access archives of URLs.
>Therefore, from time to time, information is moved from one index before it is available in the “next” index.
>Our engineers are working to address the root cause of this breakdown to reduce the probability it will happen.
>However, with > 1 billion URLs/day flowing into the system, and less hardware than we would like, it is a bit harder to fix once and for all.
>Typically, though, what you see is what the Archive captured when it visited the webpage (and what we have).

110:名無しさん@お腹いっぱい。
21/10/14 18:30:08.24 .net
英語じゃないか

111:名無しさん@お腹いっぱい。
21/10/14 19:17:27.38 .net
>>110
だからどうした低能
英語のサイトの話をしてるくせに

112:名無しさん@お腹いっぱい。
21/10/14 20:54:09.53 .net
口が悪い…

113:名無しさん@お腹いっぱい。
21/10/16 01:27:51.93 .net
>>107
最近これが頻繁に出る
その日初めてのアーカイブでも出る

114:名無しさん@お腹いっぱい。
21/10/16 06:14:39.06 .net
>>113
既に「一日」の3分の2が過ぎてる時間帯にそんなこと書いてる時点でお察し

115:名無しさん@お腹いっぱい。
21/10/17 21:25:56.42 .net
>>114
アメリカ基準だからってこと?

116:名無しさん@お腹いっぱい。
21/10/18 07:27:23.85 .net
>>115
それじゃ計算合わないよね。
所在地は米国だけど、世界標準を意識してか日付の区切りは協定世界時なんだな。
例えば >>39 の「今さっき」は 22 時台。
0 時は日本時間朝 9 時。

117:名無しさん@お腹いっぱい。
21/10/18 08:57:01.05 .net
ああ、UTC基準なのか
所在地の日時かと思ってた

118:名無しさん@お腹いっぱい。
21/10/19 15:38:16.80 .net
ロンドン時間なのか

119:名無しさん@お腹いっぱい。
21/10/19 19:05:40.90 .net
ロンドンタイムズ

120:名無しさん@お腹いっぱい。
21/10/20 22:39:18.13 .net
皆さんはどのようなサイトを保存していますか?

121:名無しさん@お腹いっぱい。
21/10/22 20:16:41.27 .net
URLリンク(web.archive.org)URLリンク(bbs.avi.jp)
URLリンク(web.archive.org)URLリンク(bbs.avi.jp)
このサイトの小説を見たいのだけど復旧方法あるかな

122:名無しさん@お腹いっぱい。
21/10/22 20:26:16.31 .net
>>121
それはちゃんと保存されていないからみられないが
サイト自体が現在も生きている
URLリンク(xiongmaoshudian.web.fc2.com)

123:名無しさん@お腹いっぱい。
21/10/22 21:29:48.28 .net
>>122
うーん、このサイトのが見たいんだよな

124:名無しさん@お腹いっぱい。
21/10/27 13:57:13.16 .net
>>120
・引用したサイト(消えたら意味不明になるので
・企業系など上書き更新されるサイト

125:名無しさん@お腹いっぱい。
21/10/27 13:57:51.32 .net
>10/27(水)の午前8時から午後1時(太平洋夏時間)の間に計画停電が発生したため、一部のサービスが影響を受ける可能性があります。

126:名無しさん@お腹いっぱい。
21/10/27 16:25:16.45 .net
日本時間で28日午前0時から5時だな

127:名無しさん@お腹いっぱい。
21/10/27 16:46:00.02 .net
検索するとサンフランシスコでは先週末の暴風雨の影響で一部の地域で停電とネット停止してまだ復旧終わってないそう
電気自動車やカリフォルニアの窃盗軽犯罪化と盗電どころじゃねーわw
データセンターがある環境悪すぎ

128:名無しさん@お腹いっぱい。
21/10/28 00:06:10.40 .net
>>120
俺は新型コロナ・ワクチン関係の記事とか発言保存してるわ
世界大戦並みの負の遺産として将来語り継がれると個人的に思ってるから

129:名無しさん@お腹いっぱい。
21/10/28 14:30:10.73 .net


130:"noopener noreferrer" target="_blank" class="reply_link">>>122 昨日そのサイト内の保存されてない40ページほどをSPNに投げて保存しといた



131:名無しさん@お腹いっぱい。
21/10/28 15:40:15.32 .net
俺はTwitter保存してる

132:名無しさん@お腹いっぱい。
21/10/29 00:37:39.37 .net
>>109
久しぶりに消えたアーカイブ見たら復活してました
一時的に消えることがあるみたいです

133:名無しさん@お腹いっぱい。
21/10/29 01:28:08.82 .net
最近 Google Chrome で archive.is が archive.md にリダイレクトして
DNS_PROBE_FINISHED_NXDOMAIN エラーになってた。
セキュアDNS設定を Cloudflare から Google に変更して解決。

134:名無しさん@お腹いっぱい。
21/10/29 12:42:57.33 .net
>>128
同じこと考えてた。

135:名無しさん@お腹いっぱい。
21/10/30 00:38:00.23 .net
世界史に残る病気ってもっと「半分の確率で死ぬ恐怖の奇病」みたいなものを想像してたな
「風邪+α」の、+α部分が絶妙に対処しづらくてこんな大事件になるとは

136:名無しさん@お腹いっぱい。
21/10/31 20:50:00.87 .net
とあるサイトをアーカイブしたいのですが
No URL has been captured for this domain.
と出ます
これはもう何をしても無理でしょうか?

137:名無しさん@お腹いっぱい。
21/10/31 21:14:29.11 .net
>>135
これからアーカイブするんだろ?
そのドメインでアーカイブ済みのURLがあろうが無かろうが関係無いだろが

138:名無しさん@お腹いっぱい。
21/10/31 23:18:41.29 .net
>>136
保存できないんです
URLに日本語が含まれているせいでしょうか
勝手に記号化してくれますが無理なようです

139:名無しさん@お腹いっぱい。
21/11/01 01:35:41.17 .net
If something went wrong click here to send us an error report.

140:名無しさん@お腹いっぱい。
21/11/01 10:33:55.59 .net
80%が2回接種済みのシンガポール
陽性者数はまだウナギ登り状態
URLリンク(i.imgur.com)

141:名無しさん@お腹いっぱい。
21/11/01 10:34:20.66 .net
>>139
誤爆すまん

142:名無しさん@お腹いっぱい。
21/11/02 17:31:29.73 .net
>>139
ちゃんとアーカイブされていた

143:名無しさん@お腹いっぱい。
21/11/02 18:50:30.74 .net
インターネットアーカイブがサービス終了する未来はあると思いますか?
サーバーの維持費や違法性などが理由で

144:名無しさん@お腹いっぱい。
21/11/02 18:56:43.14 .net
違法性w

145:名無しさん@お腹いっぱい。
21/11/03 19:05:27.57 .net
internetarchiveに寄付しよう

146:名無しさん@お腹いっぱい。
21/11/04 01:52:35.20 .net
そういえば訴訟の裁判は今月から始まるんだっけか?
今はどうなってるか分からないけど
URLリンク(www.publishersweekly.com)

147:名無しさん@お腹いっぱい。
21/11/04 16:28:58.64 .net
自分のツイートのアーカイブって消そうと思えば消せるの?

148:名無しさん@お腹いっぱい。
21/11/04 17:46:33.64 .net
>>146
消したくなるようなことは書くな
歴史修正主義者は失せろ

149:名無しさん@お腹いっぱい。
21/11/05 01:58:35.57 .net
APIのレスポンス、リダイレクトの場合も空で返ってくるのか・・・

150:名無しさん@お腹いっぱい。
21/11/07 05:47:59.29 .net
何この訳分からんエラー
Unknown error for chrome-error://chromewebdata/ (HTTP status=0).

151:名無しさん@お腹いっぱい。
21/11/13 23:05:28.24 .net
【皆様へ大切なお知らせ】過去動画の公開停止と今後の配信について - YouTube
URLリンク(www.youtube.com)

152:名無しさん@お腹いっぱい。
21/11/14 17:31:28.15 .net
noteとInstagram保存したい

153:名無しさん@お腹いっぱい。
21/11/15 01:03:53.70 .net
ヤフオクのページを取得しようとすると、
Unknown error for chrome-error://chromewebdata/ (HTTP status=0).
と出て取得できない。

154:名無しさん@お腹いっぱい。
21/11/15 03:36:09.51 .net
>>152
試しに force_get=1 のパラメータを追加して保存させてみると
The server didn't respond in time for https:~ のエラーが返る。
ヤフオクが Internet Archive の接続を拒否しているのは間違いないね。
ただ、どうしてこれが IA から事前に送られているはずの HEAD リクエストで
検出できていないのかが解らん。
HEAD は 200 OK しておきながらいざ GET となると無応答で、
ヘッドレスブラウザの返したエラーページの chrome-error URL を
そのまま表示しちゃったりしているのか?
パラメータについても HEAD やら GET やらについても >>4 のドキュメントを参照。

155:名無しさん@お腹いっぱい。
21/11/16 06:06:12.95 .net
This page is unavailable for archiving right now!
This page is available on the web but its quite busy. Please check again later.

156:名無しさん@お腹いっぱい。
21/11/16 19:54:51.84 .net
それって何がbusyなの?元サイト?アーカイブ?

157:名無しさん@お腹いっぱい。
21/11/16 20:46:36.21 .net
weiboってアーカイブできない?

158:名無しさん@お腹いっぱい。
21/11/17 02:09:52.09 .net
imgurがserver errorやnot foundでとれない

159:名無しさん@お腹いっぱい。
21/11/17 04:30:52.28 .net
たまにsavepagenowで404NotFoundが出るのは鯖が重いんだろうか

160:名無しさん@お腹いっぱい。
21/11/17 04:50:37.25 .net
Not FoundだったりThe same snapshot had been made * minutes and ** seconds ago. だったり

161:名無しさん@お腹いっぱい。
21/11/17 05:16:51.29 .net
Not Foundと出る割には取得できてる場合も

162:名無しさん@お腹いっぱい。
21/11/17 23:42:00.76 .net
中国とロシアからブロックされてるというのは中国ロシアの国からはアクセスできないってこと?
weibo普通に保存できたけど中国のサイトを日本人がアーカイブするのは可能なんだね

163:名無しさん@お腹いっぱい。
21/11/18 00:21:19.12 .net
>>161
お前が無知だからそんなことで感心していられるんだよ

164:名無しさん@お腹いっぱい。
21/11/18 11:09:29.58 .net
無知ですいません
てっきり中華サイトとか無理なのかと思ってた

165:名無しさん@お腹いっぱい。
21/11/20 06:50:42.94 .net
Service Unavailable for None (HTTP status=503).

166:名無しさん@お腹いっぱい。
21/11/21 14:54:01.35 .net
Sorry
Please try again in ~1 min. Crawling this host is paused
because they notified us that are overloaded right now.

167:名無しさん@お腹いっぱい。
21/11/21 20:24:57.76 .net
in ~1 minってどういう意味なん?
日本語で「~1分」だったら1分以内だけど文脈的に逆っぽい気がする
もし以上だとしたらどういう原理で前に~が付くんだろうか

168:名無しさん@お腹いっぱい。
21/11/21 20:57:53.56 .net
英語では約 1 分 (approximately)
URLリンク(docs.google.com)
2021-05-23
(略)
If a target site returns HTTP status=429 (too many requests), we pause crawling that for a minute.
この仕様をそのように説明してるんじゃないのか

169:名無しさん@お腹いっぱい。
21/11/21 23:34:58.31 .net
なるほど、約なんだ。

170:名無しさん@お腹いっぱい。
21/11/22 00:52:22.11 .net
旧~聖書

171:名無しさん@お腹いっぱい。
21/11/22 23:31:5


172:1.26 .net



173:名無しさん@お腹いっぱい。
21/11/23 00:33:15.25 .net
そもそもどういうときに保存されるのかよくわからんぜ

174:名無しさん@お腹いっぱい。
21/11/23 19:59:31.87 .net
>>170
outlink とは、自ホスト内でなく他ホストへのリンクのことですよ

175:名無しさん@お腹いっぱい。
21/11/23 20:25:03.86 .net
>>172
> outlink とは、自ホスト内でなく他ホストへのリンクのことですよ
おいおいw

176:名無しさん@お腹いっぱい。
21/11/24 20:00:32.10 .net
画像単独でSPNする人いるんだね

177:名無しさん@お腹いっぱい。
21/11/25 10:09:28.50 .net
普通にやるでしょ。
うpろだやImgurの画像を保存したい時とか。期限切れや削除依頼されてすぐ消えるじゃん。

178:名無しさん@お腹いっぱい。
21/11/25 15:47:24.28 .net
単独なのかどこかに埋まってたのかはどう判別したらいいの?

179:名無しさん@お腹いっぱい。
21/11/25 16:32:19.77 .net
画像付きってアーカイブしても何年後とかに消えたりしませんか?
昔のサイトを見ても画像だけ見れないの多くて

180:名無しさん@お腹いっぱい。
21/11/26 02:35:55.32 .net
それは単にアーカーブされてないんだと思う

181:名無しさん@お腹いっぱい。
21/11/26 05:49:26.19 .net
昔のアーカイヴ技術が微妙で上手く保存できてなかったんでしょ、どうせ。

182:名無しさん@お腹いっぱい。
21/11/26 12:17:41.76 .net
今でもJavaScript乱用していてスクロールやクリックしないとサイトの内容が完全に表示されなかったり、
レイジーロードで遅延読み混みしてるサイトは画像が保存されてない可能性がある。
画像のURLを抜き出してSPNで1個ずつ保存するのが一番確実だけど、まあめんどくさい。
Googlebotですら対応できてないものをIAでできないだろうな。

183:名無しさん@お腹いっぱい。
21/11/26 13:56:44.46 .net
そもそもヘッドレスブラウザを実装して、必要な画像も一緒に保存できるようになったのが
Internet Archive の長い歴史の中でごく最近の話なんだけどな。
それまではアーカイブ済み HTML を誰かが表示して初めて画像の URL が IA に送られ
保存を試行するという仕組みが採られていたけど、種々の利用により
上手く動作しないことがあった。

184:名無しさん@お腹いっぱい。
21/11/26 17:30:44.16 .net
昨日辺りからTwitterのツイートのページを取得すると新UIになってしまった・・・
数日前までは取得すると何故か旧UIで取得されるようになってたけど、ついに対策されたか・・・

185:名無しさん@お腹いっぱい。
21/11/26 23:50:05.84 .net
twitterの魚拓の質が上がってきてるな

186:名無しさん@お腹いっぱい。
21/11/27 20:44:50.24 .net
俺が7月にSPNで保存したページに表示されていた、保存失敗した画像を、
11月の今になってsave-page-now-outlinksが保存してるのを発見した。
過去のページをさかのぼって保存できてない画像を自動で保存してくれるのはありがたい。

187:名無しさん@お腹いっぱい。
21/11/28 14:35:12.25 .net
wayforwardって以前waybackmachineから削除されたサイトでもタイムカプセル出来るの?

188:名無しさん@お腹いっぱい。
21/11/28 20:47:12.32 .net
>>181
ページ中の画像が取得されるようになったのってマジで最近(2020年)だしな

189:名無しさん@お腹いっぱい。
21/11/28 23:36:13.01 .net
まあ大変なのは素人目にもわかるわ

190:名無しさん@お腹いっぱい。
21/11/30 01:01:47.65 .net
No URL has been captured for this domain.
日本語がURLに入ると上のように出てダメです
どうやって保存したら良いですか?
初心者なので誰か教えて下さると有難いです

191:名無しさん@お腹いっぱい。
21/11/30 19:41:07.68 .net
>>188
日本語URLでもアラビア語でも普通に取れるよ
ちゃんとsave page nowに入れてる?
そのエラーはspnでは出ないと思うけど

192:名無しさん@お腹いっぱい。
21/11/30 21:27:20.15 .net
>>189
できました!
勘違いしていました本当に有難うございました

193:名無しさん@お腹いっぱい。
21/12/01 15:39:29.57 .net
>>174
NHK系とか素直じゃない構造のやつとか期間が来たら別画像で上書きしたり引っ越したりするサイトで必要

194:名無しさん@お腹いっぱい。
21/12/01 22:24:22.95 .net
>>186
えー、/web/URLリンク(&am)


195:p;#12316;をWebブラウザから見て、そのページの画像が保存されてなかったら自動で元のサイトに取りに行って保存して表示する仕組みは昔からあったよ。 少なくとも10年前にはあったはず。今のSave Page Nowの前身Liveweb Proxyでもやってた。SPN登場前は今みたいな同時保存回数の制限すらなかった。 といっても、サイト消えてる時にWayback Machineの保存ページを見るのがほとんどだから、消えたサイトの保存されてない画像は永遠に表示されないのが現実なわけで。



196:名無しさん@お腹いっぱい。
21/12/01 23:32:05.46 .net
それの話をしてるんじゃないと思うよ…
それはレス元の>>181が言ってるやつの派生かと

197:名無しさん@お腹いっぱい。
21/12/02 20:17:19.41 .net
リダイレクトのとき、if_not_archived_within が効かない

198:名無しさん@お腹いっぱい。
21/12/02 22:42:31.47 .net
えー効いてるように思えるけどな
逆に、直近の 200 応答のアーカイブが無視されてしまい、
アーカイブしない条件のはずなのにアーカイブしてしまったことがある

199:名無しさん@お腹いっぱい。
21/12/03 00:33:15.45 .net
前スレ836で捨てアドでアカウント作れないって書いてる人いたけど、色々試したが今は作れるみたい。
ただし、アップロードするときにお前のメアドはスパム臭えってエラーが出ることがあるので、
適当すぎる文字列じゃなくてフィルタに引っかからない自然なメアドでアカウント作ればOK。

200:名無しさん@お腹いっぱい。
21/12/03 00:36:39.06 .net
あと、
URLリンク(web.archive.org)から始まる保存されてるページを一覧表示してくれる機能がちょっと新しくなったみたいで、表示できない問題が起きてる。
フォームにも書いてる人いる。
URLリンク(archive.org)

201:名無しさん@お腹いっぱい。
21/12/03 16:05:14.95 .net
今のところ197のエラーは直ったかな

202:名無しさん@お腹いっぱい。
21/12/03 20:38:52.18 .net
サイト側から削除依頼以外で消されることってあるの?excludedって出る。復活掲載は絶望的かしら。

203:名無しさん@お腹いっぱい。
21/12/03 23:27:32.07 .net
永久に残るなんて有り得ないからね

204:名無しさん@お腹いっぱい。
21/12/04 10:23:17.08 .net
save out linksにチェックを入れてるのに無視しやがる…
最近は取得エラーも多発してたし、そんなに負荷のかかる代物なのだろうか…

205:名無しさん@お腹いっぱい。
21/12/04 10:35:35.43 .net
IAに削除させたのに自社サイトに他社のIAアーカイブURLのリンク貼ってる企業ってどう思いますか?
A「B社は過去にこんなサイト内容でした、と」
A「おいIA、勝手にうちのサイトをアーカイブしてんじゃねえ!」

206:名無しさん@お腹いっぱい。
21/12/04 12:03:29.09 .net
>>202
中国人・朝鮮人・韓国人や奴らの政府の身になって考えてみなよ。

207:名無しさん@お腹いっぱい。
21/12/04 15:02:23.86 .net
>>203
難しすぎてわかりません。

208:名無しさん@お腹いっぱい。
21/12/04 19:05:52.50 .net
Unknown error多すぎ

209:名無しさん@お腹いっぱい。
21/12/05 16:41:53.58 .net
なんか最近3分の2くらいの確率で保存できない

210:名無しさん@お腹いっぱい。
21/12/05 19:37:59.98 .net
Unknown error for chrome-error://chromewebdata/ (HTTP status=0).
これはもう諦めるしかない?

211:名無しさん@お腹いっぱい。
21/12/06 18:56:36.91 .net
Firefox のプライベートモードで URLリンク(archive.org) を開いて入力欄に文字を入れると
その文字が見えなくなってしまうという問題が起きていたけど、直ったのね

212:名無しさん@お腹いっぱい。
21/12/08 00:32:57.69 .net
URLリンク(web.archive.org)
でドメインとディレクトリ指定して保存されてるページが一覧で見れるのが改悪してる!
今まで10万ページまでだったのに、1万ページに減ってるんだが
More than 10,000 URLs have been captured for this URL prefix.

213:アジア・バンバータ(北海道)
21/12/08 22:28:45.46 .net
ここの老舗魚拓サイトって、BATとかいう仮想通貨をコジってるよな
Braveってブラウザ使って閲覧すると、寄付の案内が出てくるんだが
この話既出だったらゴメン

214:名無しさん@お腹いっぱい。
21/12/09 22:30:51.97 .net
そりゃBraveブラウザで広告費や寄付受け取るサイト運営者の登録やってるから表示はするでしょ。
寄附キャンペーン中だからってのもあるだろうけど、気になるなら広告ブロックか何かで要素ごと消せばいいよ。

215:名無しさん@お腹いっぱい。
21/12/10 05:27:52.68 .net
BATが寄付出来るのはBraveブラウザの基本機能なんだがな・・・
単なるアドブロッカーか何かと勘違いしてないか?

216:名無しさん@お腹いっぱい。
21/12/11 13:17:53.59 .net
URLリンク(web.archive.org)
へぇーこんなページがあるんだ
URLリンク(web.archive.org) からここへリダイレクトされたわw
URLリンク(o.5ch.net)

217:名無しさん@お腹いっぱい。
21/12/11 17:06:24.95 .net
腹立つわ 鍵の開け閉めを繰り返してすぐツイ消しする奴のツイート記録しようと思ったのにここ最近上手く記録してくれないから記録出来てない内にツイート消された
そもそもツイ垢のトークンとか使えるようにしてくれたら鍵垢の鍵が開くまで待って開いた瞬間から開いてる内に飢えたピラニアみたいにアーカイブ録りまくる必要もなくなるのに

218:名無しさん@お腹いっぱい。
21/12/11 21:41:13.96 .net
Twitterは、
URLリンク(web.archive.org) (いつも失敗)と
URLリンク(archive.today)<)

219:名無しさん@お腹いっぱい。
21/12/11 21:57:37.67 .net
>>214
自身はTwitterにログインしてないブラウザで取りに行ってるの?
俺が巡回してた鍵アカのログは直接本人にフォロー承認もらったから残そうと思えば何時でもブラウザのページ保存で残せるけど…
最近のTwitter社はアーカイブするとレイアウトが崩れたり議論ツリー記録しに行っても余計な「固定ツイート」まで混ざったりして改悪し過ぎだけど…

220:名無しさん@お腹いっぱい。
21/12/11 22:36:19.94 .net
>>216
> 残そうと思えば何時でもブラウザのページ保存で残せるけど…
ローカル保存でオナって満足してる奴は巣に帰れ

221:名無しさん@お腹いっぱい。
21/12/11 23:55:31.56 .net
>>214
今仕方なくPCとスマホアプリのTL参照しながらどれが消えててどれが消えてないかを確かめながらスクショをペイントに貼って1日のツイート纏めてるところ
twitterのTLもずっと残らないのが腹立つんだよなぁ
やり方さえ知ってればネット使える誰もが見れるってのがいいんだよ
暇さえあれば消えたツイ垢のツイートひたすら漁ったりするし何年も活動してる垢が将来的に消える可能性に備えてウン万ある過去のツイートを一個一個手作業で保存させたり…
この保存作業もたった一人の人力だと不毛なんだよなぁ Wayback machineが自動でツイート取るようになる以前のツイートも自動で集めとけよって思う

222:名無しさん@お腹いっぱい。
21/12/12 03:19:28.82 .net
2:00くらいからずっと503 Service Unavailable

223:名無しさん@お腹いっぱい。
21/12/12 09:50:54.47 .net
TLS1.2の壁なのかどうしても取れなかったり、表示レイアウトの異なるUserAgent別(PC⇔スマホ⇔ガラケー等)には直接取り分けらなかったりするのは、いったんローカル保存してからどっかのレンタル鯖に上げ直してアーカイブしている。

224:名無しさん@お腹いっぱい。
21/12/13 20:11:59.31 .net
jsonファイルで保存されたツイートのアーカイブって復元出来んのかなぁ
何て描かれてたかすらわからん

225:名無しさん@お腹いっぱい。
21/12/14 00:44:54.05 .net
最終的に残りそうなアーカイブサイトは何処?
やはりウェイバックマシン?

226:名無しさん@お腹いっぱい。
21/12/14 16:23:58.84 .net
ウェイバック

227:名無しさん@お腹いっぱい。
21/12/14 17:05:35.98 .net
営利企業がやってるやつとかtodayみたいに素性が不明のものは消える可能性が高いと思う
残るのはIAかCommon Crawlらへんだと思う

228:名無しさん@お腹いっぱい。
21/12/14 18:47:58.89 .net
Waybackは広く浅くはいけるが深い所まで保存出来んのがな
ツイートの2分までしかアップロード出来ん動画すら保存されないという有様だ
動画みたいな重めのファイルを自分の手許にずっと置きたくはないけどネット上からは消えさせないようにするにはどこにアップロードするのがいいんだろうか?

229:名無しさん@お腹いっぱい。
21/12/14 19:44:04.04 .net
URLリンク(archive.org)

230:名無しさん@お腹いっぱい。
21/12/14 21:56:30.93 .net
twitterのプロフィールを片っ端から手動保存してる人おる?

231:名無しさん@お腹いっぱい。
21/12/14 23:01:17.40 .net
Waybackは保存してるサイト自体は多くて助かるんだが検索機能が糞過ぎるんよな

232:名無しさん@お腹いっぱい。
21/12/14 23:02:57.85 .net
昨日からサイトマップが何も表示されないんだが俺だけか?
URLリンク(web.archive.org)URLリンク(www.2ch.net)

233:名無しさん@お腹いっぱい。
21/12/15 11:31:05.78 .net
高性能なワード検索機能欲しいよな

234:名無しさん@お腹いっぱい。
21/12/16 00:50:27.36 .net
URL部分マッチと<title>検索だけでもあれば全然違う

235:名無しさん@お腹いっぱい。
21/12/16 22:47:16.08 .net
PDF検索は出来るようになったっぽい?

236:名無しさん@お腹いっぱい。
21/12/19 15:01:04.51 .net
Youtubeの規制が緩くなったと思ったら今度はTwitterが厳しくなってる
前から思うけど1分待っても取れないの笑う
Sorry
Please try again in ~1 min. Crawling this host is paused because they notified us that are overloaded right now.

237:名無しさん@お腹いっぱい。
21/12/19 20:12:59.69 .net
CDX APIのURLはweb.archive.org/cdx/以降は適当でも大丈夫なんだな

238:名無しさん@お腹いっぱい。
21/12/19 20:24:57.52 .net
( >ω<)/~~ ~1 min

239:名無しさん@お腹いっぱい。
21/12/21 06:05:09.19 .net
API調子悪い

240:名無しさん@お腹いっぱい。
21/12/22 12:56:49.40 .net
>>233
Google検索結果も取りにくい

241:名無しさん@お腹いっぱい。
21/12/24 21:50:09.68 .net
Sorry
This URL is in our block list and cannot be captured.
これ初めて見た。公式Twitterだし変な内容でもないのに

242:名無しさん@お腹いっぱい。
21/12/25 01:03:49.06 .net
>>238
それ最近増えた印象
まぁ妥当だろうなってサイトもあれば(アーカイブサイトとしてどうかとは思うけど)
何でこのサイトが?っていうのもあってよく分からない

243:名無しさん@お腹いっぱい。
21/12/25 02:45:51.97 .net
インターネットアーカイブが存在する意味が無くなる

244:名無しさん@お腹いっぱい。
21/12/25 11:12:34.49 .net
まあ別にSPNに頼らず、捨て垢作ってarchive.orgの方にwarcかzipでアップロードしとけば保存できるし、
将来非表示ブロックが解除されたときに見れればいいので、ブロックされてようがあんまり気にはしない。

245:名無しさん@お腹いっぱい。
21/12/27 18:52:49.92 .net
twitterの保存制限する理由がよくわからん

246:名無しさん@お腹いっぱい。
21/12/29 20:59:16.27 .net
Twitter公式がムチャクチャ重くなったからツイート本文だけ取りたい場合は
「Twitter検索サービス( URLリンク(t-proj.com) )」
のキャッシュログから取ったりする。

247:名無しさん@お腹いっぱい。
21/12/31 15:53:34.66 .net
>>225
ソースコードから動画のURL(pbs.twimg.comから始まるやつ)を抜き出して、そのURLをそのまま保存すればいいよ、
と思ったが、最近Twitterの動画は仕様が変わって、mp4ファイルとかじゃなくて、m3u8とm4sファイルで小分けになってるのか。
UserAgent変えて昔のWebブラウザのに変えても完全なmp4ファイルのURLが流れてこなかった。
これは保存できないな。

248:名無しさん@お腹いっぱい。
21/12/31 20:49:57.68 .net
そういうやつ困るわね

249:名無しさん@お腹いっぱい。
21/12/31 23:32:11.69 .net
m3u8ったらアニメイトのWebラジオをひさびさ端末に保存試行したさい遭遇して苦闘したことあったな…
あの後すぐ配信変更でもう付き合いきれなくなったわ

250:名無しさん@お腹いっぱい。
22/01/01 01:14:26.06 .net
あけましておめでとうございます

251:名無しさん@お腹いっぱい。
22/01/01 04:26:13.37 .net
明けましておめでとう。
前からあるTwitterの動画URL抽出するサイトにツイートのURLを入れると、mp4とm4sファイルのURL一覧が出てくる。今でも機能するっぽい。(アフィ広告注意)
URLリンク(lab.syncer.jp)
ちょっと検索して出てきたのは、Bearerトークンを使えばAPIからmp4のURLを抜き出せるらしい。こんなツールを公開してる人もいる。
URLリンク(github.com)
動画URL単独の保存もいいけど、保存したツイートのスナップショット自体に動画が表示されて再生できないと、証拠目的なら意味ない気がする・・・

252:名無しさん@お腹いっぱい。
22/01/01 21:39:29.68 .net
動画とか画像のURLから元記事がわからないからな

253:名無しさん@お腹いっぱい。
22/01/03 11:52:12.86 .net
The capture is estimated to start in 367 minutes
6時間待ち

254:名無しさん@お腹いっぱい。
22/01/03 11:58:05.21 .net
3分ぐらいほっといたら保存終わってた
待ち時間の計算ガバガバすぎない?

255:名無しさん@お腹いっぱい。
22/01/03 14:58:50.23 .net
たまにestimated toが表示されずに、割り込みですぐ保存できる場合もあるな
タイミング良く保存してるサーバーが空いたのかは知らんが謎

256:名無しさん@お腹いっぱい。
22/01/03 23:40:25.27 .net
これ以下のURL全て
なぜかブロックリスト
URLリンク(finance.yahoo.co.jp)

257:名無しさん@お腹いっぱい。
22/01/04 13:34:43.15 .net
今日はPDFの保存がしづらい

258:名無しさん@お腹いっぱい。
22/01/04 14:43:51.33 .net
永遠のクルクル挙動で取れない…

259:名無しさん@お腹いっぱい。
22/01/04 16:17:38.71 .net
>>253
前スレでも書いてる人いたけど、Yahoo個人ニュースの記事は保存ブロックされてるの多いな&#12316;
なんでだろ&#12316;

260:名無しさん@お腹いっぱい。
22/01/08 19:23:32.92 .net
ツイッターとれない

261:名無しさん@お腹いっぱい。
22/01/10 19:03:37.94 .net
twitter取れないのどうにかならないのか?

262:名無しさん@お腹いっぱい。
22/01/13 21:15:26.72 .net
archive.orgのページ上部の〇〇billionの数字を更新し忘れてるのいつ気づくんだろ?w
どうでもいいといえばどうでもいいんだけど

263:名無しさん@お腹いっぱい。
22/01/17 08:32:14.67 .net
503 Service Unavailable
No server is available to handle this request.

264:名無しさん@お腹いっぱい。
22/01/17 15:38:02.43 .net
PDF・画像絡みだけ時間かかるときがあるが、
今日は全般的に時間かかる

265:名無しさん@お腹いっぱい。
22/01/17 15:42:44.22 .net
失礼、そこまででもなかった

266:名無しさん@お腹いっぱい。
22/01/17 22:20:01.40 .net
Twitterはもう取得出来ないっぽいか

267:名無しさん@お腹いっぱい。
22/01/18 03:58:18.45 .net
The capture is estimated to start in 23 hours, 56 minutes.
( ゚д゚)

268:名無しさん@お腹いっぱい。
22/01/18 13:02:41.80 .net
You may close your browser window and the page will still be saved.
といっても保存できてたりできてなかったり

269:名無しさん@お腹いっぱい。
22/01/18 16:01:41.49 .net
archive.is は http:// アクセスが https:// へ強制リダイレクトされちまうのをどうにかしてほしい
更新の頻繁なページを後で archive.org へ追加取りするとき、リンク先のオリジナルURLが判別可能なまま再アーカイブするには
anonymous のWebプロキシ( URLリンク(anonymouse.org)~ )経由でないと取れない仕様だったけど、anonymous はSSLアクセスに非対応だから http:// のままでないと接続エラーになっちまう…

270:名無しさん@お腹いっぱい。
22/01/19 06:39:39.44 .net
なんか先週末の停電の後から、SPNの保存の仕様変わった?
今まで30秒ぐらいで保存できたのに、1分近くかかってるんだが
ブラウザでもcurlでも遅くなってるし、単独の画像やPDFファイルはここ数日保存できてない
保存始まる待ち時間増えたような感覚
ヘッダーにcapture_outlinks=0を付けても早くならないし

271:名無しさん@お腹いっぱい。
22/01/19 07:04:29.09 .net
Sorry
Cannot start capture
保存すらできん
このエラー初めて見た

272:名無しさん@お腹いっぱい。
22/01/20 14:05:44.79 .net
保存に少し時間がかかって違和感あるのを除いて上の障害は解消済み。
日本時間19日の朝5時半&#12316;8時半は、save-page-nowの保存ファイルが1個しかないから、この時間帯は保存できなくて止まってたっぽい。
公式な発表はないし、発表すらしないだろうけど、記録として残しとくわ。
URLリンク(archive.org)
spn2-20220118234307 Jan 18, 2022 web ← 通常の追加間隔
spn2-20220118233913 Jan 18, 2022 web ← 3時間でようやく新しいファイル、この間Save Page Now停止
spn2-20220118203649 Jan 18, 2022 web ← 18分
spn2-20220118201816 Jan 18, 2022 web ← 通常は1分&#12316;10分で1個増えるのに、前のファイルからの間隔が24分
spn2-20220118195414 Jan 18, 2022 web

273:名無しさん@お腹いっぱい。
22/01/20 19:31:02.77 .net
1回保存できませんでした…ってエラー吐かれたら何度保存させ直しても保存されないもんなの?
すっげぇ腹立つ

274:名無しさん@お腹いっぱい。
22/01/21 08:49:08.28 .net
まあ相変わらずな常態だな
Archive.st も重くて取り込みエラー頻発中

275:名無しさん@お腹いっぱい。
22/01/21 22:29:24.38 .net
うーん、Twitterが死ぬとは思わなかった
Unknown errorだから詳細は分からないけど、Twitter側から拒絶されてるのか?

276:名無しさん@お腹いっぱい。
22/01/22 19:10:56.08 .net
twitterとれるようになったね

277:名無しさん@お腹いっぱい。
22/01/22 19:31:50.70 .net
今度は Archive.is が死んでるよ…

278:名無しさん@お腹いっぱい。
22/01/22 21:37:09.07 .net
ここ大体死んでる話ばっかやな

279:名無しさん@お腹いっぱい。
22/01/23 07:10:05.41 .net
>>266
このサイトを使うのはどうかな
webページに注釈をつけて共有するのがメイン機能だけどプロキシとしても使える
非営利団体が運営してて学術団体と連携したりしてるから信頼性もそれなりにあると思う
稀にアクセスできないサイトもあるけど大抵はうまくいく
URLリンク(via.hypothes.is)URLリンク(www.&#12316;)

280:名無しさん@お腹いっぱい。
22/01/23 11:42:27.84 .net
>>276
ありがと。そっちでArchive.isの拓へアクセスしても画像認証通さないと取ったページが開けないから .orgへの再アーカイブには使えそうにないけど他の取り方で選択肢が拡がりそうだ。

281:名無しさん@お腹いっぱい。
22/01/23 11:49:14.48 .net
… .is アーカイブ済みページの画像認証も https:// 強制化で始まったけど、端末ブラウザの直アクセスなら今のところは異なる数種の UserAgent 変更でスルーできる。

282:名無しさん@お腹いっぱい。
22/01/23 15:21:44.44 .net
ふむ

283:名無しさん@お腹いっぱい。
22/01/23 16:05:22.21 .net
>>273
今確認したら取れるようになってるな
良かった良かった

284:名無しさん@お腹いっぱい。
22/01/23 20:06:48.89 .net
Sorry
Cannot save Internet Archive URLs!
URLリンク(web.archive.org)URLリンク(sanukisoraumi.blog.***.com)

285:名無しさん@お腹いっぱい。
22/01/23 20:31:59.27 .net
GoogleとヤフーJAPANの画像検索結果が日本語の検索ワードだと変なパラメータ文字列に入れ替わられて、取りたいリンクとサムネイルが取れなくなってやがる。
ウェブ魚拓もMetaタグ妨害で既に取れなくなってやがるし…

286:名無しさん@お腹いっぱい。
22/01/25 17:48:32.48 .net
保存されたページから違うページに飛べない(正確には同じページだけどリンク先をクリックすると補足が書いてある感じ)
urlが同じなのでこういう時はどうすれば良いんだろう初心者ですみません

287:名無しさん@お腹いっぱい。
22/01/25 21:17:12.42 .net
>>283
ページ更新なしでサーバー情報とってきて内容が変化するサイト(例:google map)とか
更新有りで同じURLだけど、ユーザーのアクションに依存して内容が変化するサイト(例:画像認証付きサイト)とかは難しいと思う
実際に確認しないと分からないけどこのケースは後者に近いのかな?
Waybackでの保存が無理そうなら、Webrecorderとかのソフトを使ってローカル環境に保存するしか方法はないかもね
(※独自にローカル保存したアーカイブファイルを直接IAにアップすることは可能。ただしwaybackからの参照は不可)

288:名無しさん@お腹いっぱい。
22/01/26 01:00:59.97 .net
Archive.st で取った分を.orgへ転送する形でページ内容の意図しない改変は避けれる場合もあるけど .stのエンジンが不具合長引きがちだからなあ

289:名無しさん@お腹いっぱい。
22/01/26 01:57:26.30 .net
ローカル保存って今もあるんだ
なんか大昔そういうソフトで保存してたけどhttps非対応で最近のやつ全然取れなくなってしまったので離れていた

290:名無しさん@お腹いっぱい。
22/01/26 15:12:35.98 .net
サイトのTOPから階層段でまとめ取りするやつはAndroid用でTLS1.2対応アプリがあるかも

291:名無しさん@お腹いっぱい。
22/01/26 23:30:50.77 .net
全巡回したいねえ

292:名無しさん@お腹いっぱい。
22/01/29 21:06:23.44 .net
ブログだったらサイトマップや記事一覧ページを見れば全てのURL探すの楽だけどな
たまにサイトマップを非表示にしてるブログもあるけどさ

293:名無しさん@お腹いっぱい。
22/02/05 11:46:13.30 .net
こないだまで問題なく使えてたのにirvineでファイルのダウンロードができなくなった
403エラーで切されてる・・・どうすればいいの

294:名無しさん@お腹いっぱい。
22/02/08 20:03:05.74 .net
Sorry.
This snapshot cannot be displayed due to an internal error.

295:名無しさん@お腹いっぱい。
22/02/11 06:25:36.17 .net
Got an HTTP 302 response at crawl time
これが出て開けないんだけど、どうすりゃいい?

296:名無しさん@お腹いっぱい。
22/02/11 07:38:53.86 .net
そのリダイレクト先が未アーカイブなら、ご愁傷様としか

297:名無しさん@お腹いっぱい。
22/02/11 10:54:11.58 .net
>>293
待ってるとページは出るんだけど真っ白なんだよね
上にカレンダーとかは表示されてる

298:名無しさん@お腹いっぱい。
22/02/11 11:21:47.72 .net
>>294
アーカイブされたのがその真っ白なページなんじゃないのとしか
HTTP や HTML についての知識がある人なら自分で調べて納得してるだろうから
そういう質問にはこう答えるしかない

299:名無しさん@お腹いっぱい。
22/02/13 21:12:12.36 .net
>>294
カレンダーのとこのURLを直接開く
ダメなら そのURLの魚拓とArchive.todayを開く
ダメなら そのURLのGoogleキャッシュとBingキャッシュを探す
ここまでしてダメなら諦めるしかない

300:名無しさん@お腹いっぱい。
22/02/14 21:49:48.84 .net
boothの魚拓が綺麗に取れない…

301:名無しさん@お腹いっぱい。
22/02/15 10:37:47.00 .net
>>297
ブラウザ上のスクリプトで画像の読み込み処理してるっぽいからURLが違うとうまく動かないのかな
見た目だけでいいならwayback machineにユーザーログイン後に"Save screen shot"からスクショ保存したり、archive.today使ったりすれば保存できるよ

302:名無しさん@お腹いっぱい。
22/02/15 15:58:32.32 .net
アフィでない個人サイトでoutlinksしてFirstArchive連発すると、
「ん゛ぎも゛ぢい゛い゛ぃ゛っ」ってなる

303:名無しさん@お腹いっぱい。
22/02/15 16:51:39.80 .net
>>298
ありがとう。スクリーンショット試してみるよ。

304:名無しさん@お腹いっぱい。
22/02/16 21:40:43.32 .net
>>299
あのFirstArchive表示考えた人天才だと思う
さすがアーキビストの性格分かってるなぁって

305:名無しさん@お腹いっぱい。
22/02/19 10:06:34.35 .net
>>301
初雪に足跡つけるような気持ちになれる

306:名無しさん@お腹いっぱい。
22/02/19 16:49:11.58 .net
むしろちょっと申し訳ない気分になる

307:名無しさん@お腹いっぱい。
22/02/19 23:51:17.14 .net
Too Many Requests
In order to protect the Wayback Machine we have limits on different services. Unfortunately you have hit one of those limits. It can be caused by:
Being an automatic bot that does not appear to be human
A playback page that has an unusual number of components
Excessive load on the Wayback machine not related to your activities
Saving too many pages in a give time frame
The best solution is to wait a few seconds and reload the existing page.
Please feel free to write to us at info@archive.org if you have questions about this. Please include the following information in your email:
Reference number: 0.000.000.00
Date: Saturday, 19-Feb-2022 14:47:00 GMT
Thank you

308:名無しさん@お腹いっぱい。
22/02/21 13:07:58.16 .net
アーカイヴを読み込んで画像が保存される謎

309:名無しさん@お腹いっぱい。
22/02/21 14:10:03.93 .net
取得からだいぶ時間経過してるのに
「Hrm.
The Wayback Machine has not archived that URL.」
数日後きちんと反映されてるなら良いが・・・

310:名無しさん@お腹いっぱい。
22/02/21 17:27:12.56 .net
306の件ようやく反映

311:名無しさん@お腹いっぱい。
22/02/22 17:36:35.60 .net
画像だけ完全別サーバーにあるせいで
画像が保存されていなくてOutlinksで保存し直し。
Outlinksを使うとリンクされてる別記事を
通常保存してしまうので全てOutlinksし直し。

312:名無しさん@お腹いっぱい。
22/02/28 03:24:29.58 .net
自分のスマホだけなのかURL貼り付けられない
めんどくさ

313:名無しさん@お腹いっぱい。
22/03/04 01:25:46.71 .net
Your IP address is in our block list. Please email us at "info@archive.org" if you would like to discuss this more.
さっき使ってたVPNのIPアドレスがブロックリスト入りになってた、SPNで保存できない
このIPアドレスでどっかの業者が宣伝スパムでもやったんかな

314:名無しさん@お腹いっぱい。
22/03/04 17:06:43.00 .net
またThe capture is estimated to start in ** minutes. You may close your browser window and the page will still be saved.か
エラーも出やすいし
今日でも未明はなんともなかったのに・・・

315:名無しさん@お腹いっぱい。
22/03/04 23:30:37.42 .net
とうとうアクセスできなくなった

316:名無しさん@お腹いっぱい。
22/03/04 23:52:15.28 .net
なんかサーバーに繋がりにくいというか、全然繋がらない

317:名無しさん@お腹いっぱい。
22/03/04 23:56:22.98 .net
Temporarily Offline
Internet Archive services are temporarily offline.
Please check our Twitter feed for the latest information.
We apologize for the inconvenience.

318:名無しさん@お腹いっぱい。
22/03/05 00:38:01.10 .net
URLリンク(twitter.com)
また停電だって
(deleted an unsolicited ad)

319:名無しさん@お腹いっぱい。
22/03/05 00:40:44.46 .net
日本時間で午後11時20分ぐらいから止まってる
URLリンク(analytics0.archive.org)

320:名無しさん@お腹いっぱい。
22/03/05 00:46:59.99 .net
みんな寄付してる?
便利に使ってるからちょっとくらい寄付しようかと思うんだけど
やっぱ30万くらいじゃ少ないのかな?

321:名無しさん@お腹いっぱい。
22/03/05 00:53:45.12 .net
URLリンク(twitter.com)
電気が戻ったのでサービス復旧中
(deleted an unsolicited ad)

322:名無しさん@お腹いっぱい。
22/03/05 02:52:58.94 .net
トップにはアクセスできるようになったが、取得はまだまだ・・・
「Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.」

323:名無しさん@お腹いっぱい。
22/03/05 04:50:41.21 .net
ようやく取得できるように
と思ったら・・・
「Sorry.
This snapshot cannot be displayed due to an internal error.」

324:名無しさん@お腹いっぱい。
22/03/05 13:26:17.52 .net
クソ

325:名無しさん@お腹いっぱい。
22/03/05 13:58:09.30 .net
サイバー攻撃でも されているのかと思ったぞ

326:名無しさん@お腹いっぱい。
22/03/05 15:20:25.25 .net
されとるだろ

327:名無しさん@お腹いっぱい。
22/03/05 22:20:27.17 .net
3/2以降のものは取得されてないことになってるか、残ってても
「Sorry.
This snapshot cannot be displayed due to an internal error.」
特定のサイトだけではなくいろいろなサイトでそんな感じ

328:名無しさん@お腹いっぱい。
22/03/06 04:14:49.44 .net
恐らくロシアの連中が火消しして回っとるなこれ

329:名無しさん@お腹いっぱい。
22/03/06 12:31:45.17 .net
IA側の問題だ
21/12/24に取ったものも一時消えてしばらくして復活して今また消えている
ほっとけばそのうち直る

330:名無しさん@お腹いっぱい。
22/03/06 21:31:43.65 .net
復活確認

331:名無しさん@お腹いっぱい。
22/03/07 00:07:06.74 .net
アーカイブ内で壊れた画像アイコンしか表示されないのは次の巡回待つしかないの?
でも既に巡回済みの分が連続して壊れてるんだよね。

332:名無しさん@お腹いっぱい。
22/03/07 00:47:28.56 .net
その画像URLをそのままSPNでもう一度保存すればいい
元のサイトがすでに無いか初めから画像が壊れてるならご愁傷様

333:名無しさん@お腹いっぱい。
22/03/07 16:37:05.93 .net
時間かかりすぎる

334:名無しさん@お腹いっぱい。
22/03/07 19:26:29.82 .net
特にpdf絡みはなおさら
時間帯によって増しだったりかなりかかったり

335:名無しさん@お腹いっぱい。
22/03/08 20:45:44.86 .net
既出かもしれないけどアーカイブ済のURL一覧を出力する方法見つけたから書いとく
URLリンク(exposureninja.com)
から引用
まず
URLリンク(web.archive.org)
にアクセス、example.comのところをアーカイブしたページのトップページURLに変えればいい、*を誤って消さないようにすること
大量のテキストが出るので全選択してコピー
Excel立ち上げてCtrl+Aで全選択して貼り付け
その後「テキストから列へ」を選んでスペースを基準にセルを区切る
あとはセル列のアルファベット文字をクリックしたらその列が全選択になるからURLの列をコピーしてテキストエディタに貼り付けるなりすればいい
注意なのがこれ同じURLでも保存した時間分の数書いてあるから置換ツールで重複した行を消すこと
IAのURLsでは10000個までしか表示できないがこの方法使ってアーカイブされたURLの正確な総数がわかるはず
これに自分が集めたURLリストを付け加えて重複行消す処理を行うと未アーカイブURLだけ割り出せるのでだいぶ楽になる
WEB版のExcelだと貼り付け時に容量オーバーで受け付けてくれないことがあるからその場合はLibreOffice Calcでも使えばいい
LibreOfficeの場合貼り付け後、表全体の全選択を解除し、1回セルAをクリックしてセルAを全選択した後、データ→テキストから列へ を選ぶことでセル分け可能

336:名無しさん@お腹いっぱい。
22/03/09 12:41:29.79 .net
おお便利だね
今まで保存されてるかどうかをページごとに判断するAPIをちまちま使ってたわ
ドキュメント見てもう少し使いやすくしてみた
URLリンク(web.archive.org)
・URLのみ表示
・ステータスコードは200のみ
・メディアタイプはtext/htmlのみ
・重複URL除去
あとは必要に応じて末尾にこれを追加すれば日付でフィルタリングできる
&from=yyyyMMddhhmmss&to=yyyyMMddhhmmss
例:&


337:;from=2010&to=2011 参考 https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server



338:名無しさん@お腹いっぱい。
22/03/09 16:40:50.92 .net
>>331-332
せっかくなんで、前に検索してたら見つけたこんなツールもあるよ。
あるドメイン(もしくはサブドメイン)下で保存済みの10万個までのURLが取れる。
日付範囲は適当に20年前からぐらいにしとけばいい。
ただし最近保存したURLはすぐに反映されない。これはCDXでも同じだと思う。
Download data from archive.org
URLリンク(share.streamlit.io)
ソースコード
URLリンク(github.com)
簡単なPythonのスクリプトなので、個人的にプログラム動かしてるなら参考になるかも。

339:名無しさん@お腹いっぱい。
22/03/09 16:42:16.69 .net
レス番間違い >>332-333ね。ごめん。

340:名無しさん@お腹いっぱい。
22/03/10 11:03:07.13 .net
>>332-333
こんなことできたのか
これはありがたい

341:名無しさん@お腹いっぱい。
22/03/10 21:10:40.36 .net
いつの間にかCollection Searchにパワポ検索が追加されてた

342:名無しさん@お腹いっぱい。
22/03/13 13:27:26.17 .net
URL一覧から重複消すにしてもサクラエディタだと並び替えないと消せないからほかのツール使わないといけないっぽいね
このツールだったらソートせずに元の並びのまま重複行消せるから便利
上に書いてあるものが優先されて下のほうにある重複行が消されるから先にcdxをコピペして空白改行してその下にアーカイブ予定のURLリストを貼り付けたtxtを作って実行すればいい
ここからDLできる↓
URLリンク(sourceforge.net)
DLできなければここから↓
URLリンク(web.archive.org)
それとcdxだと日本語URLのデコードが大文字と小文字混在して保存されてるから一旦サクラエディタで小文字に変換してからやれば全部重複消せるはず
英語のみのURLでも混在してる場合もあるだろうし
Naverまとめみたいに大文字と小文字を区別する特殊なサイトもあるけど大半は区別しないから問題はないはず、IA上でも区別せずに保存されてる

343:名無しさん@お腹いっぱい。
22/03/13 20:27:38.40 .net
curlでもIAログイン状態に出来る方法はありますか?

344:名無しさん@お腹いっぱい。
22/03/13 21:43:10.93 .net
>>339
URLリンク(www.google.com)

345:名無しさん@お腹いっぱい。
22/03/14 00:32:21.41 .net
>>340
すいません、具体的なURLかページ名でお願いします。

346:名無しさん@お腹いっぱい。
22/03/14 07:14:23.11 .net
昨日あたりからまた時間かかるどころか、
大体が反映されず
何日かして反映されてるなら良いが、
時間かかった挙げ句反映されてなかったら悲しいなぁ

347:名無しさん@お腹いっぱい。
22/03/14 17:57:32.97 .net
SavePageNowがSavingぐるぐるで終わらないときあるな
一応取れてるみたいだから終わらないっぽいときはページ閉じてるけど
なんかスッキリしない

348:名無しさん@お腹いっぱい。
22/03/14 22:14:18.22 .net
>>343
Chromeだったら一旦別のサイトに移動してから戻るボタン押して少し待ったらdoneになるよ

349:名無しさん@お腹いっぱい。
22/03/15 09:03:53.04 .net
>>343
344と動作的には同じだが「The capture is estimated to start&#12316;」が出てきてないなら
1分ぐらいを目安にそのままページを再読み込みすればいいよ
保存終わってるか途中なら1分前に既に保存しましたってのが出てくるはず、出てこない場合は作業失敗してる
強制的に直近の保存状況を表示させる裏技だけど、こうすれば時間節約できる
待たされてる時はこの方法は使えない

350:名無しさん@お腹いっぱい。
22/03/15 21:30:24.29 .net
>>333
これ欠陥あるっぽい
重複消すと違うURLでも同じサイトに繋がってる場合どちらかのURLが消える
URLから&collapse=urlkeyを消して重複除外しなくすると両方とも表示できるからそれでコピペして置換ツールで重複を消すしかないね
URLリンク(web.archive.org)
例えばこのサイトだと
URLリンク(web.archive.org)URLリンク(sumimarudan.blog7.)エフシー2.com*&;output=txt&fl=original&filter=statuscode:200&filter=mimetype:text/html&collapse=urlkey
URLがNGワードっぽいからカタカナを英語に戻してね
.fc2.com/page-4.htmlが表示されず、かわりに.fc2.com:80/page-4.htmlになってる
&collapse=urlkeyを外すとfc2.com/page-4.htmlがちゃんと表示されるが、重複除外してないので同じURLが何個も表示される
普通にブラウザで見る場合URLは.fc2.com/page-4.htmlになるからこれが除外されて同じURLをアーカイブするという2度手間になる
.fc2.com/page-4.htmlと.fc2.com:80/page-4.htmlを両方表示したうえで重複消せたら便利なんだけどね
cdxのgithub見てURLいじってみたりしたけどいまいちうまくいかない

351:名無しさん@お腹いっぱい。
22/03/15 21:56:50.84 .net
あ、既アーカイブ分を消すだけなら最初に重複を消さなくてもよかったんだ
自分が集めたURLから既アーカイブ分消すときに一緒に消えるし
とはいえ行が10万以上だと容量が大きくなるから重複しないにこしたことないけど

352:名無しさん@お腹いっぱい。
22/03/18 16:56:25.79 .net
イモグラの画像、キャプチャ出来なくなったのか

353:名無しさん@お腹いっぱい。
22/03/18 17:13:54.67 .net
>>348
普通にキャプチャできたけど

354:名無しさん@お腹いっぱい。
22/03/19 01:26:22.48 .net
便利
URLリンク(github.com)
URLリンク(github.com)

355:名無しさん@お腹いっぱい。
22/03/22 21:59:33.33 .net
>>350
こういうの探してたから助かる

356:名無しさん@お腹いっぱい。
22/03/24 22:51:12.01 .net
エロサイトの動画とか直リンをSPNにURL入れたらちゃんと見れんの?

357:名無しさん@お腹いっぱい。
22/03/25 04:07:23.98 .net
URLリンク(web.archive.org)
こいつもか
まぁ参照すること自体が憚られるサイトではあるんだけど
URLリンク(o.5ch.net)

358:名無しさん@お腹いっぱい。
22/03/25 14:18:59.58 .net
これもよさげ
URLリンク(github.com)

359:名無しさん@お腹いっぱい。
22/03/25 15:31:35.95 .net
複数の画像を個別に保存する場合
URLリンク(web.archive.org)
URLリンク(web.archive.org)
みたいに一つずつやらないといけないの?

360:名無しさん@お腹いっぱい。
22/03/25 15:57:23.54 .net
>>355
それで大丈夫。混んでなければ1個10秒以下で終わる。
もしくは画像が載ってた元ページのURLをSave Page Nowで保存すれば画像含めて一緒に保存されるはず。
JavaScriptでぐちゃぐちゃになってるページは失敗する可能性あるけど。

361:名無しさん@お腹いっぱい。
22/03/26 10:24:47.02 .net
The Wayback Machine has not archived that URL.
Click here to search for all archived pages under http://
保存してませんじゃねぇ。するんだよ

362:名無しさん@お腹いっぱい。
22/03/26 10:59:00.03 .net
Shift-JISのページが文字化けで保存される問題

363:名無しさん@お腹いっぱい。
22/03/26 11:15:19.65 .net
あ、スクショの方なら文字化け回避できたっぽい

364:名無しさん@お腹いっぱい。
22/03/29 03:17:07.75 .net
アーカイブ入りしたページのうちリダイレクトされるページを除外するオプションねえのか

365:名無しさん@お腹いっぱい。
22/03/29 19:38:07.81 .net
SPNで保存したときにリンク先をspn-outlinksのbotが数時間後にクロールしないようにするフラグとかってないの?
サーバーに猛アタックしてきて大迷惑かけてる気がする。余計なことしやがって。

366:名無しさん@お腹いっぱい。
22/03/30 12:21:15.25 .net
あれ、Job失敗の時もインターバル入るようになってる?

367:名無しさん@お腹いっぱい。
22/03/30 19:04:30.53 .net
ためになるスレだ

368:名無しさん@お腹いっぱい。
22/03/31 00:29:00.97 .net
また落ちてる…
URLリンク(web.archive.org)
URLリンク(i.imgur.com)

369:名無しさん@お腹いっぱい。
22/03/31 05:01:37.02 .net
消されたのを確認して念のため今日また確認したらアーカイブ復活しちゃってるんだがなんで
プロセスの自動化された部分がコースを実行し変更が有効になるまで最大1日かかりますって意味がわからんくなったし

370:名無しさん@お腹いっぱい。
22/03/31 06:44:41.09 .net
もしかしてわいが依頼したニュアンスは表示させなくする依頼で停電によってアーカイブ見れるようになってしまった?

371:名無しさん@お腹いっぱい。
22/03/31 07:15:48.53 .net
>>364
欧文モノスペースなんて今時使ってるの中国人だけだろ

372:名無しさん@お腹いっぱい。
22/03/31 08:36:20.28 .net
出たよ自分が世界標準な奴

373:名無しさん@お腹いっぱい。
22/03/31 08:52:04.68 .net
どうせまた魚拓が不都合な糞ロシア共が落としてんだろ
ほんましょーもない

374:名無しさん@お腹いっぱい。
22/03/31 09:48:34.48 .net
>注意:本日午前7時~7時30分(太平洋時間)、当社の主要データセンター付近でPG&E社による計画停電が実施されます。このため、サービスに支障が出ることが予想されます。ご迷惑をおかけいたしますが、よろしくお願いいたします。
昨夜の切断はこれか…

375:名無しさん@お腹いっぱい。
22/03/31 15:56:19.65 .net
IAのある地域、計画停電多すぎね?

376:名無しさん@お腹いっぱい。
22/03/31 21:03:04.51 .net
IA大好きなのにミクさんの影に隠れてんの納得できん

377:名無しさん@お腹いっぱい。
22/04/01 03:48:17.84 .net
過去スレ見てexpectedがアーカイブできない依頼って意味って思ってdeleteで再依頼したら担当者にブチキレられた
もう除外してますよって言われながら
停電してたらわかるわけない
別なアーカイブ削除依頼は除外されたとおもったら停電後に復活してやがるしどうなってんだかもうめんどいからいっそアーカイブサービス終了しないかな

378:名無しさん@お腹いっぱい。
22/04/01 03:51:17.86 .net
間違ったexpectedじゃなくてexcluded

379:名無しさん@お腹いっぱい。
22/04/01 03:56:34.44 .net
お、停電してない。This URL has been excluded from the Wayback Machine.って出た。けどやっぱり停電後は除外したはずのものがでちゃう感じ?陰謀論的なやつじゃないよな?ロシア関連。

380:名無しさん@お腹いっぱい。
22/04/01 04:05:16.10 .net
もう暫くはメールスルーされそう

381:名無しさん@お腹いっぱい。
22/04/01 07:25:14.90 .net
Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

382:名無しさん@お腹いっぱい。
22/04/01 12:29:02.69 .net
5gbのzipダウンロードするのに5時間とか言われてんだけど重すぎじゃね
他はそんなことないのに

383:名無しさん@お腹いっぱい。
22/04/01 14:08:12.38 .net
試しにトレント使ってダウンロードしてみるとか
使ったことないから速度どんだけ出るか知らんけど

384:名無しさん@お腹いっぱい。
22/04/02 10:14:31.27 .net
数日前からPDFは時間がかかる

385:名無しさん@お腹いっぱい。
22/04/02 11:11:06.20 .net
スプレッドシートのやつ結果のステータスが書き込まれなくなったんだけど俺だけ?
解決方法わかる人いますか?

386:名無しさん@お腹いっぱい。
22/04/02 13:43:58.22 .net
twitter保存するとjob failedが繰り返し出る現象何

387:名無しさん@お腹いっぱい。
22/04/02 14:45:50.01 .net
時間かかるうえに「Internal server error.」が何遍も出るのがなぁ
所要時間はどんどん後ろ倒しだし
「You may close your browser window and the page will still be saved.」とあるが、
こんなんではとても閉じるどころではない

388:名無しさん@お腹いっぱい。
22/04/02 14:52:37.84 .net
てかここ数日保存遅すぎでしょ
エイプリルフールのサイトをいくつか保存できなかった

389:名無しさん@お腹いっぱい。
22/04/02 16:49:11.25 .net
6時間待ちでアーカイブ失敗してリトライしたら8時間待ちって

390:名無しさん@お腹いっぱい。
22/04/02 20:13:46.58 .net
そういうときは後ろに適当に?とか付けて別のURLにすればカウント外れない?

391:名無しさん@お腹いっぱい。
22/04/02 20:51:05.90 .net
時々 寄付を募っているけど容量と人件費だけでお金が無くなるのだろうか

392:名無しさん@お腹いっぱい。
22/04/02 21:51:51.36 .net
IAはアメリカのチャリティ登録法人だから検索すれば決算の書類出てくるよ
その書類曰くサンフランシスコの年収1000万円台のサーバーエンジニアなど5人雇えるぐらい金あるんだから予算に問題なんかないよ
一番給料高い日系人のWendy Hanamuraってメディア担当の人で2019年の給料は21万4385ドル
創業者は0ドルで頑張ってるのに寄付してるのがバカバカしくなってくるけどな
でももうちょっとSave Page Nowの保存制限を前みたいに緩和してサーバー増強してほしいよね不安定すぎる

393:名無しさん@お腹いっぱい。
22/04/05 09:24:57.82 .net
久しぶりの不安定期かな

394:名無しさん@お腹いっぱい。
22/04/05 20:16:53.31 .net
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
なんだこれ初めて見たぞ

395:名無しさん@お腹いっぱい。
22/04/05 23:30:12.79 .net
Save Page Now servers are temporarily overloaded. Your captures may be delayed.

396:名無しさん@お腹いっぱい。
22/04/06 02:44:35.09 .net
過去のサイトの画像って正しく表示されない場合って見るのを諦めたほうがよろしい感じですか?
それとも見る方法があるのでしょうか

397:名無しさん@お腹いっぱい。
22/04/06 09:43:35.94 .net
>>392
表示されない=アーカイブされてないだから無理
最近は画像もアーカイブされるけど、昔はアーカイブされてないのが殆ど
念のため画像のURL単体で確認してみるといいんじゃない?

398:名無しさん@お腹いっぱい。
22/04/08 16:08:47.46 .net
ツイッターに編集機能が追加されるらしい
Internet Archiveの出番かな

399:名無しさん@お腹いっぱい。
22/04/08 21:28:34.27 .net
ロシア外交官追い出しニュースを見て、ロシア大使館のサイトを保存しようと思ったらtokyo.mid.ruごとブロックされてるんだけど
ブロックする理由あんのこれ?

400:名無しさん@お腹いっぱい。
22/04/09 04:57:08.67 .net
今はだめな時間帯か?

401:名無しさん@お腹いっぱい。
22/04/09 04:57:49.95 .net
>>395
ロシア政府が保存するなと通達すればそうなる

402:名無しさん@お腹いっぱい。
22/04/09 04:59:39.32 .net
>>386
たまに80:とかがドメインにくっついてる奴が謎

403:名無しさん@お腹いっぱい。
22/04/09 13:07:53.26 .net
>>398
あるURLの最古もしくは一番早いスナップショットがポート番号付きのURLでインデックスに登録された場合、
ポート番号付きのまま表示されてるだけなので特に意味はない。
といってもポート番号によって内容が変わるサイトもあるわけだから、違うポート番号を同じURL扱いするのはちょっととは思う。
将来的にはポート番号削ったURLに登録し直してほしいけど、ずっとこのままかもしれないな。
/*/でURLを並び替える時にちゃんと並ばないのは不便だけど。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch