Internet Archive総合 (web.archive.org) #3at ESITE
Internet Archive総合 (web.archive.org) #3 - 暇つぶし2ch214:.52 .net



215:名無しさん@お腹いっぱい。
20/07/06 21:49:26.34 .net
>>210
save用ページから保存しないと今のところ無理で
それも失敗が多い

216:名無しさん@お腹いっぱい。
20/07/07 14:31:16.24 .net
もう全部テンプレに書いた方がいいんじゃね?
話題が無限ループしてる

217:名無しさん@お腹いっぱい。
20/07/07 14:49:56.67 .net
もともと話題も少ないからな
保守してると思えばいい

218:名無しさん@お腹いっぱい。
20/07/07 14:52:23.22 .net
>>214
同意

219:名無しさん@お腹いっぱい。
20/07/08 07:37:39.06 .net
最近TwitterがJob failedになって全然保存できない…

220:名無しさん@お腹いっぱい。
20/07/08 07:39:08.58 .net
今やってたけど同じだわ

221:名無しさん@お腹いっぱい。
20/07/08 14:28:55.01 .net
Tweetsaveで保存してもIAにはアーカイブされない
やっぱり圧力掛かってんのかな
誰も問題にしないのが驚きだけど

222:名無しさん@お腹いっぱい。
20/07/08 16:39:05.98 .net
Tweetsaveからのはすぐに保存されてる印象が無いな

223:名無しさん@お腹いっぱい。
20/07/09 03:08:56.30 .net
Job failedになっても検索すると出てくるから一応保存されてるっぽい

224:名無しさん@お腹いっぱい。
20/07/09 04:44:07.65 .net
確かにちょっと待てば保存されてた

225:名無しさん@お腹いっぱい。
20/07/09 16:54:29.37 .net
Twitterじゃない普通のウェブサイトを保存しようとしても
保存できたと思ってクリックしたら404 not foundが出てアーカイブされてませんと出る
10分待たないと再保存できない

226:名無しさん@お腹いっぱい。
20/07/09 17:04:17.03 .net
10分経ったから同じサイトをやってみようとしても404としか出ない

227:名無しさん@お腹いっぱい。
20/07/09 17:42:01.05 .net
どこのサイトか言わないと永久に誰も分からない案件

228:名無しさん@お腹いっぱい。
20/07/09 21:01:04 .net
Twitter、いくつかアーカイブして実験したけど
Job failedやtask limitになっても取れてるっぽい
しばらくしてから確認したらカレンダーに反映されてた

229:名無しさん@お腹いっぱい。
20/07/11 15:52:13 .net
/save/がNot FoundやらBad Gatewayになるけど少したってAPIを見ると保存されていたりなかったりする。どうなってんだ

230:名無しさん@お腹いっぱい。
20/07/11 16:13:06 .net
Not Foundくらったわ

231:名無しさん@お腹いっぱい。
20/07/11 18:00:18.44 .net
>>204
俺も使ってる
web.archiveも併用してるけど取得失敗が多くなってきた
いまも取得を試みたがNot Foundだ

232:名無しさん@お腹いっぱい。
20/07/11 19:22:59.78 .net
今日はなんか調子悪いね

233:名無しさん@お腹いっぱい。
20/07/11 20:04:52.37 .net
なんかこのスレの雰囲気って気象板にある地域の天気スレに似てる気がしてきた

234:名無しさん@お腹いっぱい。
20/07/12 02:05:50.03 .net
>>231
ちょっと笑った
そのスレは知らないけど確かに似たところはあるかもね
しかし天気と違ってInternet Archiveの調子は予測できないのが

235:名無しさん@お腹いっぱい。
20/07/12 02:08:06.41 .net
アーカイブ(Heritrix)とインデクシング(Wayback)は別々のソフトウェアで分担して動いてるから、
反映されてないように見えても実は取れてることが多いんだよと何度言ったら

236:名無しさん@お腹いっぱい。
20/07/12 03:04:42 .net
どちらの調子の悪い時もあるからな
裏で取れてると思い込んでたら取れてなかったじゃ話にならん品

237:名無しさん@お腹いっぱい。
20/07/12 11:35:09.50 .net
電子コミックとか一時無料になる場合あるけど
ああいうの保存出来ないの?

238:名無しさん@お腹いっぱい。
20/07/12 13:02:43 .net
出来るか否かは試すしかない
有料サイトのはリスクありそうだから試さないけど

239:名無しさん@お腹いっぱい。
20/07/13 01:01:32.93 .net
仮に取れてもサイト側が削除申請出せば消せるしね
10年くらい前の話だけど、二次創作小説専門サイトが著作権の問題で閉鎖になった時、
Wayback Machineに残ってたアーカイブもまとめて全部削除されちゃったんだよね

240:名無しさん@お腹いっぱい。
20/07/13 15:07:19.26 .net
自分で保存するのが確実だね

241:名無しさん@お腹いっぱい。
20/07/14 03:49:25.53 .net
保存したマンガのファイルを自分でInternet Archiveにアップロードするという手も一応ある(IAのアカウント登録が必要なはず)
アメリカではフェアユース関連でその辺が緩いのかは知らないが、
マイナーな日本漫画の英訳版zipがアップされてる事も時たまあるよ
日本からこれをやって捕まったという話は聞いたことがないけど、お勧めはしないし止めておいた方が無難

242:名無しさん@お腹いっぱい。
20/07/14 03:56:30.73 .net
補足しておくとInternet Archive上の漫画etcが全部グレーゾーンな訳ではなくて、
著作権者の許諾を得て大っぴらに収録されてるものもかなり多い

243:名無しさん@お腹いっぱい。
20/07/14 11:01:46.40 .net
例えば?

244:名無しさん@お腹いっぱい。
20/07/14 21:34:43 .net
URLリンク(togetter[.]com)

これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る

245:名無しさん@お腹いっぱい。
20/07/15 01:59:24.55 .net
>>241
適当に検索して出てきたのを貼っておく
とある科学の超電磁砲8巻
URLリンク(archive.org)
Internet Archiveの検索欄から"Search metadata"で探すと色々出てくるよ

246:名無しさん@お腹いっぱい。
20/07/15 11:10:44 .net
日本語版はないのか

247:名無しさん@お腹いっぱい。
20/07/15 17:35:15.30 .net
最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる

248:名無しさん@お腹いっぱい。
20/07/15 19:09:31.66 .net
>>245
最新版のインデクシングが完了してないとそうなる事がある
しばらく(数時間〜数日)待ってからもう一度閲覧できるか確認するといい

249:名無しさん@お腹いっぱい。
20/07/15 21:25:17.65 .net
>>243
こういうのってIA側が出版社に表示使用料払ったりしてんの?

250:名無しさん@お腹いっぱい。
20/07/15 21:49:14.83 .net
無許可

251:名無しさん@お腹いっぱい。
20/07/15 22:30:09.70 .net
>>247
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん

252:名無しさん@お腹いっぱい。
20/07/15 23:31:02.72 .net
版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ

253:名無しさん@お腹いっぱい。
20/07/16 15:31:48.35 .net
togetterって保存できない?

254:名無しさん@お腹いっぱい。
20/07/16 18:48:52.81 .net
やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか?

255:名無しさん@お腹いっぱい。
20/07/16 18:59:38.76 .net
>>252
URLリンク(togetter.com)
> User-agent: ia_archiver
> Disallow: /
robots.txt で拒否設定してるけど、それ以前に IP か何かで弾いてるようだな。

256:名無しさん@お腹いっぱい。
20/07/16 19:21:22.62 .net
魚拓とか他の試せばええやん

257:名無しさん@お腹いっぱい。
20/07/16 23:40:51.82 .net
どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい

258:名無しさん@お腹いっぱい。
20/07/17 01:12:59.61 .net
>>255
できなくない?他のどの魚拓サイトのURL入れてもNGになって無理なんだけど

259:名無しさん@お腹いっぱい。
20/07/17 03:03:38.51 .net
URLリンク(web.archive.org)

260:名無しさん@お腹いっぱい。
20/07/17 12:10:51.26 .net
todayが死んでる……

261:名無しさん@お腹いっぱい。
20/07/18 13:51:46.77 .net
todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用

262:名無しさん@お腹いっぱい。
20/07/18 15:14:17.58 .net
todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする

263:名無しさん@お腹いっぱい。
20/07/18 20:08:24.38 .net
それをすることに何の意味があるのでせう

264:名無しさん@お腹いっぱい。
20/07/19 00:36:31.27 .net
分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな

265:名無しさん@お腹いっぱい。
20/07/19 00:43:41.76 .net
today復活したか
結構長く止まってたな

266:名無しさん@お腹いっぱい。
20/07/21 00:34:16.68 .net
重杉

267:名無しさん@お腹いっぱい。
20/07/21 01:39:06.41 .net
俺はarchive.todayは問題なく使えてる
W


268:ayback Machineは繋がらなかったり取りこぼしが結構あって残念 後日見返しても取れてないし いまも繋がらない… Unknown Error 502 Bad Gateway



269:名無しさん@お腹いっぱい。
20/07/22 22:35:35.00 .net
お、This page is available on the web!でも
URLリンク(web.archive.org)
に飛ばされるようになってる
やっと統一されたのか

270:名無しさん@お腹いっぱい。
20/07/22 23:22:28.96 .net
todayのCloudflareうぜええ
てかなんでこいつはいつまでもreCAPTCHAのままなんだよ

271:名無しさん@お腹いっぱい。
20/07/22 23:31:19.40 .net
重杉

272:名無しさん@お腹いっぱい。
20/07/23 03:51:45.43 .net
Cloudflare「もどき」しか見ないなw
URLリンク(o.5ch.net)

273:名無しさん@お腹いっぱい。
20/07/23 20:33:40.82 .net
ボタンの外見が変わって見づらく感じる

274:名無しさん@お腹いっぱい。
20/07/24 00:40:34.99 .net
ボタン?

275:名無しさん@お腹いっぱい。
20/07/24 10:54:38.67 .net
URLリンク(web.archive.org)の後に続く数字が保存中に
_embed/に勝手に変わって保存されない。。。

276:名無しさん@お腹いっぱい。
20/07/24 12:49:21.81 .net
保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか?

277:名無しさん@お腹いっぱい。
20/07/24 17:29:43.07 .net
それは普通だが4月に保存したものがいくつか保存されてなかった

278:名無しさん@お腹いっぱい。
20/07/24 18:10:50.68 .net
実はそれも普通なのだ

279:名無しさん@お腹いっぱい。
20/07/24 18:44:38.56 .net
何事も一期一会、保存などという邪道なものに頼ろうとするな

280:名無しさん@お腹いっぱい。
20/07/24 22:49:38.35 .net
URLリンク(web.archive.org)数字/http://

URLリンク(web.archive.org)数字/https://
httpsになっているサイトがhttp時代の過去のサイトの画像が自動表示保存されない場合は、https://を入れると自動表示保存される。(例:impress・itmediaなど)

281:名無しさん@お腹いっぱい。
20/07/25 00:04:58.43 .net
どういうことだ

282:名無しさん@お腹いっぱい。
20/07/25 11:48:35.27 .net
503が出てアーカイブされてるかどうかすら確認できなくなってる

283:名無しさん@お腹いっぱい。
20/07/25 22:31:53.72 .net
ここ2週間ほど調子悪杉だろ

284:名無しさん@お腹いっぱい。
20/07/25 23:31:37.24 .net
仕方ないからarchive.today使ってる

285:名無しさん@お腹いっぱい。
20/07/26 21:51:46.95 .net
>>280
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ

286:名無しさん@お腹いっぱい。
20/07/26 22:00:36.20 .net
>>282
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw

287:名無しさん@お腹いっぱい。
20/07/26 22:09:17.35 .net
>>283
ソフトかスクリプトかなんかあるの?
他の作業しながら進捗チラ見してる感じだわ

288:名無しさん@お腹いっぱい。
20/07/26 22:10:02.48 .net
archive.todayはとまりすぎじゃね?

289:名無しさん@お腹いっぱい。
20/07/27 11:53:01.60 .net
>> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ

290:名無しさん@お腹いっぱい。
20/07/27 12:24:25.45 .net
>>286
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし

291:名無しさん@お腹いっぱい。
20/07/27 15:06:40.42 .net
IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに

292:名無しさん@お腹いっぱい。
20/07/27 16:25:19.72 .net
それはもう別もんやろ

293:名無しさん@お腹いっぱい。
20/07/27 16:54:48.41 .net
どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな?

294:名無しさん@お腹いっぱい。
20/07/27 21:08:42.38 .net
Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな

295:名無しさん@お腹いっぱい。
20/07/27 21:18:11.93 .net
クラウドフレア依存が不安定の原因に思


296:えてくる IAは違いそうだが



297:名無しさん@お腹いっぱい。
20/07/28 01:10:49.40 .net
スクショって画像化の事言ってんの?
そんな事するくらいならWebページ保存ソフト使えよ

298:名無しさん@お腹いっぱい。
20/07/28 01:15:00.88 .net
web保存じゃないと捏造言われるからなぁ

299:名無しさん@お腹いっぱい。
20/07/28 01:30:19.93 .net
スクショは捏造できる

300:名無しさん@お腹いっぱい。
20/07/28 05:58:41.77 .net
>>294
アーカイブ化を妨害したい勢力なんじゃねw
自演やる奴ほど自演疑うみたいな

301:名無しさん@お腹いっぱい。
20/07/28 06:39:39.83 .net
URLリンク(gigazine.net)
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。

1分20ページから50ページ保存に緩和してくれ
或いは有料プランを作ってくれ

302:
20/07/28 07:07:27.82 .net
>>290
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる
おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: URLリンク(archive.vn)
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる
例えばニコ生のAPIは
URLリンク(api.cas.nicovideo.jp)(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる

303:名無しさん@お腹いっぱい。
20/07/29 02:58:32.75 .net
Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない

304:名無しさん@お腹いっぱい。
20/07/29 03:33:40.66 .net
Internet Archiveも見れないURLあるからなあ

305:名無しさん@お腹いっぱい。
20/07/29 09:39:20.49 .net
>>300
キャプチャ失敗か削除済みではなく?

306:名無しさん@お腹いっぱい。
20/07/29 13:06:06.70 .net
> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ

307:名無しさん@お腹いっぱい。
20/07/29 15:30:15.66 .net
>>302
不良(品)の武勇伝(悪行)みたいなもんよ

308:名無しさん@お腹いっぱい。
20/07/29 17:24:51.15 .net
500 Internal Server Error

309:名無しさん@お腹いっぱい。
20/07/29 18:01:01.11 .net
>>300
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな

310:名無しさん@お腹いっぱい。
20/07/29 18:21:15.86 .net
それはサイト側がIAに連絡して保存しないようにして貰っただけ

311:名無しさん@お腹いっぱい。
20/07/29 18:50:00 .net
>>304
最近よくこれになる
10分待ってまたやるとできることも多いけど

312:名無しさん@お腹いっぱい。
20/07/29 19:06:54 .net
閲覧のみならやや重い程度なのだが

313:名無しさん@お腹いっぱい。
20/07/29 20:25:58.03 .net
International Server Errorはつなぎなおすと動くことも多い気がする

314:名無しさん@お腹いっぱい。
20/07/29 23:12:14.28 .net
>>309
> つなぎなおすと
繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw

315:名無しさん@お腹いっぱい。
20/07/29 23:34:29.23 .net
つなぎなおすとはしいたけ押して更新することだと思ってた・・・・

316:
20/07/30 01:13:52.97 .net
>>299
archive.todayってやばいの?
>>282 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと?
2行目は???
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと?
自分以外からも見れるようにすりゃいいじゃん

317:名無しさん@お腹いっぱい。
20/07/30 04:36:43.89 .net
確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか

318:名無しさん@お腹いっぱい。
20/07/30 07:36:04.75 .net
time


319: travel https://timetravel.mementoweb.org/ これはどうなの?



320:名無しさん@お腹いっぱい。
20/07/30 07:40:56.06 .net
あー、すまん。
これは自分がページを指定して魚拓とることはできないのか。

321:名無しさん@お腹いっぱい。
20/07/30 10:12:47.18 .net
Sorry.
This URL has been excluded from the Wayback Machine.
この文が出るサイトはどんな方法でも保存はおろか閲覧すらできないんでしょうか

322:名無しさん@お腹いっぱい。
20/07/30 10:17:20.01 .net
>>312
archive todayってどこの会社が運営してるのか資金はどうしてるのかも分からないし比較的最近できた歴史もサイト
36年の歴史があって米国政府も利用してて組織内部まで公開してるInternet archiveとは信頼度が違う
WebrecorderやSingleFileZは共有機能あるの?見た感じ個人向けのキャプチャソフトみたいだけど

323:名無しさん@お腹いっぱい。
20/07/30 10:21:32.94 .net
>>316
>>306なので無理

324:名無しさん@お腹いっぱい。
20/07/30 10:22:24.11 .net
途中で送信してしまった
連投失礼
なのでもともと保存されていたものも当然見れなくなる

325:名無しさん@お腹いっぱい。
20/07/30 13:59:17 .net
>>316
biglobeなんかも2年ほどそうなって見られなくなってその後復活した
内部的にはちゃんと保存されてるんだろうな

326:名無しさん@お腹いっぱい。
20/07/30 14:01:25 .net
>>320
期間はどの辺です?

327:名無しさん@お腹いっぱい。
20/07/30 14:43:03 .net
期間とか決まってるわけじゃない
homepage2.nifty.comなんかも昔は見られたが
もうずっと見られないしな

328:名無しさん@お腹いっぱい。
20/07/30 21:03:12 .net
>>320
マジ?

329:名無しさん@お腹いっぱい。
20/07/30 22:23:53 .net
>>312
アーカイブって「データが改変されていないこと」が保証されてなきゃいけないんだよ
だから単に「自分以外からも見えるようにすればいいじゃん」って問題ではない

330:名無しさん@お腹いっぱい。
20/07/30 22:27:38 .net
archive.todayは誰がどこでどういう風に運営してるのかまるで分からない(=いつデータが全て消し飛ぶか分からない)という怖さがある
だから自分はarchive.todayを可能な限り使わないようにしてるし、運営体制が公開されてるInternet Archiveを信用してる

331:名無しさん@お腹いっぱい。
20/07/30 22:33:49 .net
「データが改変されていないこと」を保証するのって結構厄介で、
Internet ArchiveはWARC形式っていうWebアーカイブ専用フォーマットを使って保存してるくらい
archive.todayやウェブ魚拓はその辺が全く公開されてない
スクショなんて論外だよ(ブラウザの開発者機能で画面表示を書き換えた上でスクショされたらどうしようもないから)

332:名無しさん@お腹いっぱい。
20/07/30 23:11:23 .net
用途にもよる
単に面白いサイトだから残したい程度ならどこでもいい訳だし
何かの証拠として残すんなら信頼高いアーカイブの方がいいしな

333:名無しさん@お腹いっぱい。
20/07/30 23:49:49.99 .net
通常はそこまで手間じゃないんだから両方やっとけ
自分は3つやってる

334:322-324
20/07/31 00:23:14.62 .net
証拠だろうと面白いサイトだろうと消えてほしくないからアーカイブする訳だから、
自分は信頼性の高さを重視して何でも基本的にInternet Archiveのみを使っている
archive.todayではIAで保存できなかったものと、特に証拠として残したいものを保存してる(削除申請が通りにくいため)
ウェブ魚拓は「申請が来たらすぐ消している」という運営のインタビューを見てから一切使わなくなった

335:名無しさん@お腹いっぱい。
20/07/31 03:22:56.77 .net
今のIAは激烈不調で信頼できるとはとても言えんがな

336:名無しさん@お腹いっぱい。
20/07/31 03:53:08.45 .net
そろそろ調子なおった?

337:名無しさん@お腹いっぱい。
20/07/31 03:54:59.78 .net
直ってない

338:名無しさん@お腹いっぱい。
20/07/31 03:59:36.76 .net
ぴえん

339:名無しさん@お腹いっぱい。
20/07/31 07:54:38 .net
全ページ検索ってまだできない?
そんなに機密情報とか簡単に検索されたくない?

340:名無しさん@お腹いっぱい。
20/07/31 08:11:09 .net
またお前か

341:名無しさん@お腹いっぱい。
20/07/31 10:08:22.40 .net
自分の主張は正当化されるべきと信じ込んでる・とりあえず何でも陰謀論に結び付けるとか数え役満だな...
Internet Archiveにそんなサービスやってる余裕ないんだよ、一時�


342:冾竄チてたけど処理が追いつかなくてすぐ廃止になったって前にも誰かが言ってただろ



343:名無しさん@お腹いっぱい。
20/07/31 19:43:31.80 .net
そもそも最近のInternet Archiveは一枚もキャプチャ出来ない日がずっと続いてる
BANか時間帯か何が原因か知らんけど、VPNで時間帯変えても無理

344:名無しさん@お腹いっぱい。
20/07/31 19:50:35 .net
いやキャプは内部的に出来てるけど反映されるのが3日4日かかってるっぽい

345:名無しさん@お腹いっぱい。
20/07/31 19:58:20 .net
>>338
そなの?取れてないと思って同じページ数回取り直しちゃったわw
urlで検索すると取れてる扱いなのに、開くと取得ページに一枚もないって出てるし

346:名無しさん@お腹いっぱい。
20/07/31 20:02:11 .net
>>339
ツイッターでその症状が出てた

347:名無しさん@お腹いっぱい。
20/07/31 22:03:51.17 .net
500 Internal Server Error
502 Bad Gateway
520 Unknown Error
今日は特におかしい
何だこの三役揃い踏みは

348:名無しさん@お腹いっぱい。
20/07/31 22:17:37.78 .net
>>341
404も忘れないであげて下さい

349:名無しさん@お腹いっぱい。
20/07/31 22:45:54.54 .net
huh?

350:名無しさん@お腹いっぱい。
20/07/31 22:47:37.43 .net
200以外でリトライし続けるようなスクリプト組んでるけどもう三日間は1ページも保存できてないし

351:名無しさん@お腹いっぱい。
20/08/01 01:02:58.62 .net
三日間なにものどを通ってないみたいな言い方するな

352:名無しさん@お腹いっぱい。
20/08/01 02:24:02.89 .net
>>344
どのくらい間隔あけているの?

353:名無しさん@お腹いっぱい。
20/08/01 02:33:21.99 .net
1年間以上定期的にツイッターで保存していたせいかtodayはBANされてるなぁ
どうやっても404になるわ
使える串探すか

354:名無しさん@お腹いっぱい。
20/08/01 15:49:18.93 .net
自分はsave page nowのフォームから保存すると毎回問題なくいけてる(少なくともここ一週間くらいは)
spnフォーム保存時の通信を覗いて、処理をスクリプトに落とし込むというのも不可能ではないのでは

355:名無しさん@お腹いっぱい。
20/08/01 15:53:57.90 .net
確かにsave page nowは確率が高いね

356:名無しさん@お腹いっぱい。
20/08/01 23:59:08.53 .net
いろいろやってみたけど、俺の結論
7月後半ぐらいから/save/の後ろのURLつけて保存しようとすると、そのページにある画像とかも一部保存もしくはURLを確認しに行く(保存はされない)ように設計が変わったようで、
そのせいでページに張り付いてる画像やスクリプトファイルが多いブログを保存する時は特に時間かかりまくってる
スクリプトで保存してる場合、ヘッダーにno-cacheやetagが出てきたら、それは保存失敗
ブログやニュースサイトの画像URLやスクリプトURLの過去の履歴を見ると、
1日以下の短期間で何十回も何百回も保存してるのを7月以降たくさん見かけるのはこのせいだと思う
Internet Archive側のアーカイブシステムの改悪だ、保存が遅くなる一方だよこれ

357:名無しさん@お腹いっぱい。
20/08/02 03:25:42.91 .net
その保存しない確認ってのは一体何の意味があるんだろう

358:名無しさん@お腹いっぱい。
20/08/02 08:37:26.17 .net
本来ならInternet archiveをメインに使いたいところだが、いかんせん取れないままではなぁ
サイトに繋がるだけじゃ意味がない
337や339のレスと同じ結果ばかりで、もう一週間くらい取れてないから渋々archive.todayメインに切り替えてる

359:名無しさん@お腹いっぱい。
20/08/02 17:49:10.54 .net
いざとなったらspnフォームのHTTP通信解析してcurlで直接叩けばいいやと思ってるから特に気にしてない

360:名無しさん@お腹いっぱい。
20/08/02 19:09:18.50 .net
もう使い物にならんな

361:名無しさん@お腹いっぱい。
20/08/02 20:24:52 .net
Tweetsaveもタイムアウトなどクラウドフレアのエラーばっか出て心折れそう

362:名無しさん@お腹いっぱい。
20/08/02 20:27:40 .net
Tweetsaveは年間通して繋がらないことは頻繁にあるからもう慣れた

363:名無しさん@お腹いっぱい。
20/08/02 20:41:54 .net
>>353
1年前はcurlで1分間400回ぐらいはエラーなしで保存できたんだよな
今は10回やって2~5分休むを繰り返すしかできない
もちろん串刺すかIPアドレス変えれば無限にできる�


364:ッど、遅すぎる



365:名無しさん@お腹いっぱい。
20/08/02 23:24:33 .net
>>357
1分間400回とかそれは多すぎるよ、逮捕者が出た岡崎図書館事件ですら1回のアクセス毎に2秒の間隔を置いてたくらいなのに
みんながそんなことやりすぎたからアクセス回数の制限入ったんじゃないの?
万が一訴えられた時のことも考えて、どんなサイトでも1回のリクエスト送ってから最低1秒空けるのが不文律

366:名無しさん@お腹いっぱい。
20/08/02 23:27:33 .net
どうしても早く保存したいなら自分で保存対象サイトにwgetを走らせて、
そこからInternet Archiveのmetadataとしてアップロードすりゃいい
Wayback Machineには収録されないが、早くやりたいんならそれくらい我慢しなきゃ仕方ないだろ

367:名無しさん@お腹いっぱい。
20/08/02 23:31:20 .net
どうしても高速でWayback Machineに保存したいなら、
ArchiveTeamのIRCから「このサイトを保存してほしい」と依頼してArchiveBotで作業してもらうという手もある
URLリンク(www.archiveteam.org)

368:名無しさん@お腹いっぱい。
20/08/03 01:38:24.57 .net
>>357
何をそんなに保存するものがあるのか興味あるわ
IAからしたら負荷かけまくりの悪質荒らしと変わらんな

369:名無しさん@お腹いっぱい。
20/08/03 02:02:51 .net
ナニコレ
URLリンク(i.imgur.com)

370:名無しさん@お腹いっぱい。
20/08/03 03:21:13 .net
>>362
自分も全部それになる…

371:名無しさん@お腹いっぱい。
20/08/03 10:30:06.00 .net
なぜかTweetsaveを素早く庇う奴が常駐してる
不思議だ

372:名無しさん@お腹いっぱい。
20/08/03 10:45:09.75 .net
>>358
その辺の画像多用のブログをsave nowで保存するだけで画像やスクリプトで200のURLを一気に保存するんだが
考えてみればsave nowの方がサーバーに優しくないんだよ

373:名無しさん@お腹いっぱい。
20/08/03 14:19:45.15 .net
save page nowのリンク先保存は読み込まれる数に制限あるぞ

374:名無しさん@お腹いっぱい。
20/08/03 14:46:11.43 .net
>>364
確かに怖すぎ・・・

375:名無しさん@お腹いっぱい。
20/08/03 15:59:02.06 .net
庇ってるか?
年間通して続いてるから事実を言っただけだ
改善する希望なんて持てないしさ

376:名無しさん@お腹いっぱい。
20/08/03 16:26:43.83 .net
常駐ご苦労さん

377:名無しさん@お腹いっぱい。
20/08/03 16:32:26.47 .net
保存するのは芸能人のブログとかじゃないの
芸能人の画像をPCに保存にしないでIAを、クラウド代わりにする。

378:名無しさん@お腹いっぱい。
20/08/03 20:28:28.24 .net
検索がfailed to fetchになってしまって全然できない…

379:名無しさん@お腹いっぱい。
20/08/04 05:32:30.73 .net
save pageボタン押してもなかなか画面が変わらなくて
最後は502 Bad Gateway表示ばっかり

380:名無しさん@お腹いっぱい。
20/08/04 08:25:42.60 .net
SPNは復帰
/save/は502 Bad Gateway

381:名無しさん@お腹いっぱい。
20/08/04 08:28:31 .net
The capture is estimated to start in 600 minutes.
昨日ぐらいからSave Page Nowでこんな表示出てくるんだけど、あと10時間も待ってないといけないわけ?
いい加減にサーバー増強しろよ。。

382:名無しさん@お腹いっぱい。
20/08/04 10:01:44.45 .net
Tweetsaveについて知らないニワカが落ちてると叩くのは
サービスを潰しかねない迷惑行為なのでやめてもらいたい

383:名無しさん@お腹いっぱい。
20/08/04 11:54:09.68 .net
今Save Nowに突っ込んだら680分待ちでワロタ

384:名無しさん@お腹いっぱい。
20/08/04 11:54:46.66 .net
そもそもいつからTweetsaveがInternet Archiveの傘下に入ったんだ?
ウェブアーカイブ総合スレでやれ

385:名無しさん@お腹いっぱい。
20/08/04 11:57:24.72 .net
Internet Archiveも資金繰りが厳しいらしいからな
サーバの重さに文句言っていいのは寄付した人間だけだろ、自分は寄付してないから当然言えない

386:名無しさん@お腹いっぱい。
20/08/04 14:03:24.88 .net
IA目線になる必要はない
向こうにクレームつけてるワケでなし

387:名無しさん@お腹いっぱい。
20/08/04 17:08:02.52 .net
Internet archive取得できないな
Saving..のままだ

388:名無しさん@お腹いっぱい。
20/08/04 17:50:56.70 .net
なんでこんなんなっちゃったんだ

389:名無しさん@お腹いっぱい。
20/08/04 18:13:31.23 .net
国外のニュースサイトとかじゃあまり話題


390:にしないな



391:名無しさん@お腹いっぱい。
20/08/04 19:50:11.42 .net
The capture is estimated to start in 264 minutes.

392:名無しさん@お腹いっぱい。
20/08/04 20:45:36.63 .net
ここに書いてもしょうがないかしらんが
サイト撤去跡などでリダイレクトされるやつのリダイレクトが早すぎて
結局アドレスバーに直打ちしないと目当てのサイトを探せないのは何かなあ

393:名無しさん@お腹いっぱい。
20/08/05 03:17:21.99 .net
FirefoxなんでYahoo!BlogならRedirectorで/web/2/に飛ばしてるよ
多分クロームにも似たような拡張あるだろう

394:名無しさん@お腹いっぱい。
20/08/05 03:25:10.25 .net
>>380
自分もこれ…savingのまま一向に動かない
検索しても取れてない…

395:名無しさん@お腹いっぱい。
20/08/05 03:50:11.53 .net
>>380 >>386
URLリンク(i.imgur.com)

396:名無しさん@お腹いっぱい。
20/08/05 04:34:39.82 .net
/save/
520 Unknown Error
failed to archive the URL. specifics of failure is unknown

397:名無しさん@お腹いっぱい。
20/08/05 13:52:57.91 .net
520エラーでも数日後に見ると保存されるケースとされてないケースがあってよくわからん

398:名無しさん@お腹いっぱい。
20/08/05 14:18:52.88 .net
保存されるケースだけなら困らないが
されてないケースがあるから困る

399:名無しさん@お腹いっぱい。
20/08/05 14:57:05.28 .net
キャプチャまでの待ち時間がとんでもない事になってるけど
あれってタブ閉じるとダメなのかな?
内部的には処理待ち行列に入ってるとかならいいんだが

400:名無しさん@お腹いっぱい。
20/08/05 19:10:38 .net
タブ閉じても保存されるっぽい

401:名無しさん@お腹いっぱい。
20/08/05 19:38:11.52 .net
The capture is estimated to start in 0 minutes.
今待ち時間0分になってる
save/でもすぐに保存されてるし、やっと緩和したかな
これが続けばありがたいんだが

402:名無しさん@お腹いっぱい。
20/08/05 23:07:39.24 .net
やっと不具合解消されたか
長かったな

403:名無しさん@お腹いっぱい。
20/08/05 23:18:38.18 .net
行列で密になるところだった

404:名無しさん@お腹いっぱい。
20/08/06 07:52:14.90 .net
保存待ち状態もAPIで判別可能ならもっといいんだけどな

405:名無しさん@お腹いっぱい。
20/08/07 08:24:06.69 .net
平常通りと言いたいとこだけど、上部の棒グラフみたいな外観のリンクがバグってる

406:名無しさん@お腹いっぱい。
20/08/09 01:14:41 .net
24h後に再度試してもスナップショットがThis page is available on the web!になるな

407:名無しさん@お腹いっぱい。
20/08/09 01:49:03.68 .net
それはわかってるわって言いたくなるな

408:名無しさん@お腹いっぱい。
20/08/10 02:19:13.94 .net
お 保存成功
>398になった分はノーカンだから相当な足止めだな

409:名無しさん@お腹いっぱい。
20/08/10 08:53:33.67 .net
なんだこれ気持ちわりいw ほぼノータイムで保存されたw

410:名無しさん@お腹いっぱい。
20/08/11 14:54:46.93 .net
The same snapshot had been made 1 minutes and 3 seconds ago.
We only allow new captures of the same URL every 20 minutes.

411:名無しさん@お腹いっぱい。
20/08/11 17:42:27.57 .net
わお

412:名無しさん@お腹いっぱい。
20/08/11 23:40:05 .net
何を保存してんだか

413:名無しさん@お腹いっぱい。
20/08/12 00:39:05.37 .net
URL末尾に?を付けたらおk?

414:名無しさん@お腹いっぱい。
20/08/13 13:31:37.01 .net
>>404
間違えて同じのやっちゃっただけだよ

415:名無しさん@お腹いっぱい。
20/08/13 23:35:13.19 .net
最近必ず保存されていい感じ

416:名無しさん@お腹いっぱい。
20/08/14 02:26:01.50 .net
同じURL保存の待ち時間が20分になったな
jsonになってしまう事も結構あるのにこれはつらい…

417:名無しさん@お腹いっぱい。
20/08/14 09:07:40.78 .net
IPアドレス変えたりsave nowとアドレスバーにsave直打ちとかで同じかどうかも判定変わるから
いろいろ試せば1分未満でも再保存できる場合もあるよ

418:名無しさん@お腹いっぱい。
20/08/14 10:19:15.30 .net
x-archive-wayback-runtime-error: WaybackException: java.lang.IllegalStateException: Payload size does not match content-length!
ここ数日このエラー多すぎ

419:名無しさん@お腹いっぱい。
20/08/14 16:29:46.94 .net
todayスマホからアクセスするとCAPTCHAの無限ループなんだけどこれって俺だけ?

420:名無しさん@お腹いっぱい。
20/08/14 18:09:50.06 .net
俺もなるわ
どうやらユーザーエージェントでブロックしてるらしい
別のブラウザアプリ使えば回


421:避できる



422:名無しさん@お腹いっぱい。
20/08/14 18:35:19.64 .net
無限リキャプチャなんだこれ…って思ったら同じ人がいて安心した

423:名無しさん@お腹いっぱい。
20/08/15 00:29:36.27 .net
>>411だけどいつの間にか直ってたわ

424:名無しさん@お腹いっぱい。
20/08/16 22:58:30.65 .net
ワープ用の棒グラフをクリックするとこんなふざけたアドレスに飛ばされる。当然表示できない。
URLリンク(web.archive.org)*****.com/web/20191201000000/http://*****.com/

425:名無しさん@お腹いっぱい。
20/08/17 00:28:22.30 .net
ほんとだバグってる

426:名無しさん@お腹いっぱい。
20/08/17 09:21:29.95 .net
メンテ中で何も見れない

427:名無しさん@お腹いっぱい。
20/08/17 17:09:41.45 .net
保存されてたはずのページが今日確認したらされてなかったことに・・・
特に今年7月あたりがひどい。

428:名無しさん@お腹いっぱい。
20/08/17 22:57:21.09 .net
以前はちゃんと保存されて見れてたのなら、サイト運営者からの削除申請があったとかでもない限りは一時的なトラブルだから待ってれば直る

429:名無しさん@お腹いっぱい。
20/08/18 15:30:05.05 .net
保存直後は問題なく見れるが数日後は無くなってるのが多いね
保存失敗したならちゃんと失敗したとエラー表示出して欲しい

430:名無しさん@お腹いっぱい。
20/08/18 16:08:16.30 .net
>>420
見られなくなるのは一時的で数日後にはちゃんと見えるようになる
urlをブクマして確かめてみろ

431:名無しさん@お腹いっぱい。
20/08/19 01:14:34.33 .net
URLから日付を選ぶページで保存元(Reason:)がNo Collection Infoって表示が出てるのは時間かかってるっぽい
保存されたらlivewebかsave-nowになるはず

432:名無しさん@お腹いっぱい。
20/08/20 13:37:54 .net
>>420
単にインデクシング階層で情報の表示に失敗してるだけで、サーバ内部にはちゃんと保存されてる
待ってれば直る

433:名無しさん@お腹いっぱい。
20/08/20 13:40:37 .net
noteのIP漏洩事案だけど、Wayback MachineのアーカイブのソースにIP情報が残ってる記事が結構あるらしい
削除申請が出される可能性があるから、noteのアーカイブを取ったことのある人は改めて保存し直しておくことを推奨

434:名無しさん@お腹いっぱい。
20/08/20 16:42:28.79 .net
IA側がIPアドレスは個人情報じゃないので削除却下と行ってきたらどうすんの?
個人的には今回の件どうでもいいと思ってるし、note運営がどうこういう話じゃないしな

435:名無しさん@お腹いっぱい。
20/08/20 23:09:46.55 .net
IPアドレスはEUの一般データ保護規則で個人情報とされてるからIA側が却下する可能性は微妙
もちろんnote運営を介さないと削除申請は出せないはずだけど、
某自主制作コミュニティで「note運営に働きかけて記事のアーカイブを削除してもらおう」
って動きがあったのを見かけたものだから念の為と思ってね

436:名無しさん@お腹いっぱい。
20/08/21 00:04:13.83 .net
運営に言わずに自分や自社のブログを消したいなら自分で削除依頼出せばいいのにな
初めっからやる気なさそう

437:名無しさん@お腹いっぱい。
20/08/21 00:22:21 .net
今気付いたんだけど、削除申請を受けてWayback Machineから恒久的に削除されたサイトでも
スクリーンショット機能を使えば普通に保存・閲覧出来るんだな
(つまりスクリーンショットはWayback Machine削除申請の影響を受けない?
単にスクリーンショット機能実装以前に削除されたからかもしれないけど)
既出ならすまない

438:名無しさん@お腹いっぱい。
20/08/21 00:23:29 .net
× スクリーンショット機能実装以前に削除されたから
○ スクリーンショット機能実装以前に削除されたページだったから

439:名無しさん@お腹いっぱい。
20/08/21 00:26:14 .net
>>427
Internet Archiveの削除申請は「自分がそのサイト本体の管理者であることが確実にわかる証拠」を提示しないといけない
だから多分自力じゃ厳しいと思う

440:名無しさん@お腹いっぱい。
20/08/22 22:36:33.52 .net
削除申請してる時間あるならルーター再起動するなりすればいいだけじゃない�


441:ゥね… ipバレてビビるとか古のネット民じゃないんだから



442:名無しさん@お腹いっぱい。
20/08/23 00:29:25.80 .net
固定IPなんかはそうもいかんだろ

443:名無しさん@お腹いっぱい。
20/08/24 03:31:06.48 .net
>>428
スクショ機能なんて使う場面ないだろと思ってたけどそういう使い道があったか

444:名無しさん@お腹いっぱい。
20/08/24 16:55:38.02 .net
スクリーンショットとサイト保存って何が違うの?

445:名無しさん@お腹いっぱい。
20/08/24 18:05:25.38 .net
普通のサイト保存→
HTML/CSS/JSなどを実行した結果のデータやアクセス日時などの情報を、WARCファイルという専用フォーマットにまとめて保存する。WARCの表示には専用のビューワが必要
スクリーンショット→
ページのスクリーンショットを撮った画像ファイルを保存する。やってることはスマホやパソコンのスクリーンショットと違いはない
要は保存する方法が全く違う

446:名無しさん@お腹いっぱい。
20/08/24 23:21:34.82 .net
どのサイトからのものってのはわかるのかな

447:名無しさん@お腹いっぱい。
20/08/25 15:21:15.62 .net
>>436
URLの先頭にarchive.orgのものが付く以外は普通のURLと変わらないので分かる

448:名無しさん@お腹いっぱい。
20/08/25 23:20:57.08 .net
なら便利だな

449:名無しさん@お腹いっぱい。
20/08/26 00:43:57 .net
表示中のアーカイブサイトのどこを押せばサイト内容まとめたWARCファイルとやらをDL出来んの

450:名無しさん@お腹いっぱい。
20/08/26 01:26:16.34 .net
別にわざわざWARC落とさなくても、ブラウザのWayback Machineで表示されてるのがWARCの内容だぞ
アーカイブされたサイトはWARCファイルとしてまとめられ、Internet Archiveのサーバに保存される
Wayback Machineは、サーバ内のWARCを呼び出してブラウザで見れるように適切に変換しているだけ

451:名無しさん@お腹いっぱい。
20/08/30 08:16:25.60 .net
/save/の保存制限ってここ数日は緩和されてる?
時間なかったのでダメ元で何ページか同時に/save/の後ろにURLつけてブラウザで開いてみたら
去年の後半以降からずっと出てた「制限に達したから5分待ってください」のエラーが全く出ずに保存できた

452:439
20/08/30 08:20:18.13 .net
保存時に画像やスクリプトファイルで待たされるのは
去年の快適だったころとは比べてまだ元通りではないけど、ちょっとストレス減った

453:名無しさん@お腹いっぱい。
20/08/30 19:10:13 .net
note消された?
新しく保存もできない
URLリンク(web.archive.org)

454:名無しさん@お腹いっぱい。
20/08/30 19:59:54 .net
ローカルhtmlにsave/httpのリンク複数貼って
それ一斉に開いたらちゃんと保存されてんの?

455:名無しさん@お腹いっぱい。
20/08/30 20:07:43 .net
本当だ
しかもnoteの以前のドメイン(note.mu)の方は完全にブロックされてる
Twitterでは8月上旬までこのドメインの魚拓が共有されてるからIP流出事件後にブロックされたっぽい
URLリンク(i.imgur.com)

456:名無しさん@お腹いっぱい。
20/08/30 20:35:37 .net
>>444
されてると思う
まとめて大量にするとToo Many Requestsエラーで漏れがでる可能性はあるけど

457:名無しさん@お腹いっぱい。
20/08/31 04:33:09.24 .net
>>425みたいな懐疑的意見もあったけど、個人的には予想通りの措置って感じだな...
robots.txt見たらia_archiverとmegalodonをブロックしてた

458:名無しさん@お腹いっぱい。
20/08/31 04:34:52.71 .net
>>447
わかると思うけどnoteの話な

459:名無しさん@お腹いっぱい。
20/09/01 03:46:44.96 .net
robots.txtでブロックしてようがIAのバグで保存しちゃう方法はあるので、
Noteがサービス終了してrobots.txtの規制解除まで見るのだけはお預けだね

460:名無しさん@お腹いっぱい。
20/09/01 05:36:23.80 .net
サービス終了しても解除されない場合があるからそんなに楽観的には見れないな...
そういうサイトはおそらくメールの申請で、Wayback Machineから恒久的に削除されてるんだと思われる

461:名無しさん@お腹いっぱい。
20/09/01 12:18:32.04 .net
excludedって削除じゃなくて除外処置じゃないっけ?確証は持てないけど
復活したアーカイブは見たことあるけどそのままの例は知らないので教えて欲しい

462:名無しさん@お腹いっぱい。
20/09/01 17:10:02.85 .net
自分が知ってる例は、URLは忘れ�


463:トしまったけど、 だいたい10年近く前に閉鎖された版権作品の二次創作小説投稿サイトだった 2, 3年前にそのサイトのアーカイブをWayback Machineで見ようとしたんだが、 "このサイトはWayback Machineから削除されました"というような内容のエラーメッセージが出て見れなかった



464:名無しさん@お腹いっぱい。
20/09/01 19:38:09.98 .net
>>450
IAに除外要請を出しておいて、サービス終了時に再度
「うち辞めるから、もう見せても良いですよ」とか通知する奴が居たらアホだなw
実際に削除してるのか、単に非表示フラグを立ててるだけなのかは知らんけど。

465:名無しさん@お腹いっぱい。
20/09/01 19:57:29.68 .net
心配しなくとも炎上させたいネットストーカーされてるところは他で流出するがな
5chや通販サイト等のクレカ含めた個人情報しかり
ここに挙がらないアーカイブサイトで取った魚拓はまだ残ってるし
マイナー過ぎていつ消えるか分からないけど晒すと使えなくなるから輸出してるが証拠能力が下がるのが悩み

466:名無しさん@お腹いっぱい。
20/09/03 16:37:02.03 .net
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
URLリンク(twitter.com)
だそうな
IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
(deleted an unsolicited ad)

467:名無しさん@お腹いっぱい。
20/09/03 16:37:02.33 .net
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
URLリンク(twitter.com)
だそうな
IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
(deleted an unsolicited ad)

468:名無しさん@お腹いっぱい。
20/09/03 16:37:29.67 .net
二重投稿になってしまった、すまない

469:名無しさん@お腹いっぱい。
20/09/03 16:43:17.13 .net
非表示にされたサイトでもスクリーンショットで保存できるテクニック、noteでも行けるわ
今試したら問題なく取れた
URLリンク(web.archive.org)URLリンク(note.com)">URLリンク(web.archive.org))

470:名無しさん@お腹いっぱい。
20/09/05 11:20:03.73 .net
スクショはアーカイブデータとして見ると微妙なのがね・・・(単に見る分には良いけど)
全く取れないよりはましだけども

471:名無しさん@お腹いっぱい。
20/09/05 13:25:56.74 .net
アーカイブ見ようとすると時々出る。いつも出るわけではない。更新で解決するときとしないときがある。
> ページの自動転送設定が正しくありません
> web.archive.org への接続中にエラーが発生しました。
> Cookie を無効化したり拒否していることにより、この問題が発生している可能性もあります。

472:名無しさん@お腹いっぱい。
20/09/06 01:34:21.61 .net
ちょくちょく下の画面か503とかになるな…
URLリンク(i.imgur.com)

473:名無しさん@お腹いっぱい。
20/09/06 23:16:00.13 .net
すみません、どなたかスクリーンショットでのアーカイブのやり方を教えていただけませんか?
ぐぐっても分からずじまいでしたので
よろしくお願いいたします

474:名無しさん@お腹いっぱい。
20/09/07 00:10:02.21 .net
Sorry.
This snapshot cannot be displayed due to an internal error.

475:名無しさん@お腹いっぱい。
20/09/07 05:00:01.20 .net
noteってアーカイブできない?
いくらやってもHrmになっちゃう

476:名無しさん@お腹いっぱい。
20/09/07 08:25:07 .net
>>462
URLリンク(blog.archive.org)
続きです
「save page now」を押してもこのチェックボックスがすべて出ず「save error pages」のチェックボックスしか出ないのです
何かアカウント登録とか必要なのでしょうか?

477:名無しさん@お腹いっぱい。
20/09/07 14:52:00.26 .net
>>465
Sign in to use extra features: "Save outlinks", "Save screen shot" and "My web archive".
中学英語でも十分理解できる文章だと思うけどねぇ。
URLリンク(o.5ch.net)

478:名無しさん@お腹いっぱい。
20/09/07 16:27:47.09 .net
homepage2.nifty.comってWayback Machineで非表示になってるのか...

479:名無しさん@お腹いっぱい。
20/09/07 17:20:20.83 .net
↑これどうにかならいあのんかな
niftyのhomepageなんてもう終わってるのに

480:名無しさん@お腹いっぱい。
20/09/07 19:00:05.38 .net
>>466
どうもありがとうございます

481:名無しさん@お腹いっぱい。
20/09/07 20:31:13.49 .net
Wayback Machineで非表示になってるサイトでも、
自前でクローラ動かしてWARC作ってInternet Archiveにアップロードすれば一応アーカイブを残すこと自体は出来るんだけどね...
APIを活用した支援ソフトを作ることや、WARCファイルの取り扱い方を幅広い人に周知することが重要になりそうだ

482:名無しさん@お腹いっぱい。
20/09/08 14:39:27 .net
Save outlinksがアカウント必須になったのってどういう事情なのかね
やっぱり容量が逼迫してるから?

483:名無しさん@お腹いっぱい。
20/09/08 21:41:40.80 .net
みんなはスキャンしてみたい本はある?

484:名無しさん@お腹いっぱい。
20/09/08 21:57:00.84 .net
>>471
容量というかアーカイブ先サイトへのDOS攻撃っぽくなっちゃうからじゃね?
前は同一URLの保存間隔すら無かったし

485:名無しさん@お腹いっぱい。
20/09/08 23:04:42.17 .net
>>472
本は流石に日本の著作権法上難しいからスキャンして上げる勇気はないな

486:名無しさん@お腹いっぱい。
20/09/09 14:34:19.54 .net
青空文庫の対象になっている本だけにしておこう。

487:名無しさん@お腹いっぱい。
20/09/09 16:24:22.16 .net
>>473
以前はリンク先辿るのは50個までって制限あった気がするけど今やったら58個辿った
もしかして50個制限を解除する代わりに相手先に過負荷を懸念してアカウント必須にしたんかね

488:名無しさん@お腹いっぱい。
20/09/10 18:29:24.96 .net
>>474
海外も同じ?

489:名無しさん@お腹いっぱい。
20/09/10 20:53:03.63 .net
>>477
アップロード操作が日本で行われる以上は、
フェアユースを認めていない日本法が絡んでくる。

490:名無しさん@お腹いっぱい。
20/09/12 15:50:29.35 .net
>>478
そのうち海外でも違法になるし、削除対象になるな。

491:名無しさん@お腹いっぱい。
20/09/12 19:01:28.95 .net
>>479
はぁ?
アホか

492:名無しさん@お腹いっぱい。
20/09/12 19:15:32.10 .net
>>479
頭悪そう

493:名無しさん@お腹いっぱい。
20/09/12 19:54:33.10 .net
多分中国人なんだろ
例の国家保安法みたいに、国外での行為も国内で処罰対象になるとか言うやつ

494:名無しさん@お腹いっぱい。
20/09/16 12:31:27.10 .net
著作権法は「送信元の国」と「送信先の国」どちらの法律を適用するかで見解が分かれること自体は事実だから、あながち間違ってるわけでもない
合ってるわけでもないのが微妙な点だけど

495:名無しさん@お腹いっぱい。
20/09/16 19:20:01.19 .net
【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは?  [すらいむ★]
スレリンク(scienceplus板)

496:名無しさん@お腹いっぱい。
20/09/18 08:59:11.97 .net
今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶

497:名無しさん@お腹いっぱい。
20/09/18 09:41:08.71 .net
Yahooの件はさんざん既出

498:名無しさん@お腹いっぱい。
20/09/20 00:05:31.29 .net
Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience.

499:名無しさん@お腹いっぱい。
20/09/20 07:21:40.11 .net
>>475
あとはフリーのWeb小説やWeb漫画だね

500:名無しさん@お腹いっぱい。
20/09/20 11:05:31.96 .net
pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。

501:名無しさん@お腹いっぱい。
20/09/20 11:59:03.96 .net
epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。
便利。

502:名無しさん@お腹いっぱい。
20/09/20 18:26:4


503:1.77 .net



504:名無しさん@お腹いっぱい。
20/09/20 20:31:33.86 .net
リアリー?

505:489
20/09/20 21:54:54.16 .net
>>492
試してみたら?
今まで自分がやったやつは全部そうなったし今試してみてもそうなった
URLリンク(web.archive.org)

506:名無しさん@お腹いっぱい。
20/09/21 12:54:15.78 .net
こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で…

507:名無しさん@お腹いっぱい。
20/09/21 13:28:38.55 .net
We can't retrieve all the files we need to display that page. Please try again later.
今朝からこのエラーばっかり、時間置いても同じエラー出る

508:名無しさん@お腹いっぱい。
20/09/21 15:08:51.20 .net
俺も保存できてない。
APIもShow Allも反応なし

509:名無しさん@お腹いっぱい。
20/09/21 16:58:59.37 .net
今朝からのエラーまだ直ってないのか

510:名無しさん@お腹いっぱい。
20/09/22 00:15:15.42 .net
おま環かと思ったら俺の他にも取れない人いたのか

511:名無しさん@お腹いっぱい。
20/09/22 01:10:54.32 .net
ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
URLリンク(blog.archive.org)
クラウドフレアと連携
簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない

512:名無しさん@お腹いっぱい。
20/09/22 01:27:34.31 .net
ますます重くなるから余計な事はやめろ

513:名無しさん@お腹いっぱい。
20/09/22 02:07:08.22 .net
ようやく新規の保存が通るようになった…
この後どうなるかわからんけど…

514:名無しさん@お腹いっぱい。
20/09/22 02:22:24.50 .net
>>500
余計な事どころか
ここでチマチマ取ってるより遥かに重要

515:名無しさん@お腹いっぱい。
20/09/22 03:13:49.79 .net
いつかはパンクする
その時期が早まるだけだ

516:名無しさん@お腹いっぱい。
20/09/22 08:08:56.42 .net
てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる

517:名無しさん@お腹いっぱい。
20/09/23 01:15:58.22 .net
覚えてられないほど頻繁に起きている気がするが

518:名無しさん@お腹いっぱい。
20/09/25 10:19:01.03 .net
4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。

519:名無しさん@お腹いっぱい。
20/09/25 12:38:17.33 .net
SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる

520:名無しさん@お腹いっぱい。
20/09/25 21:15:42.10 .net
保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。

521:名無しさん@お腹いっぱい。
20/09/28 16:44:07.73 .net
質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか?
単にバックアップしてもログイン画面が表示されるだけなのです

522:名無しさん@お腹いっぱい。
20/09/30 13:25:58.72 .net
>>509
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要

523:名無しさん@お腹いっぱい。
20/09/30 20:22:18.87 .net
今時ベーシックはないだろうしねえ

524:名無しさん@お腹いっぱい。
20/09/30 20:55:20.93 .net
OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな

525:名無しさん@お腹いっぱい。
20/10/03 20:46:46.28 .net
ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。

526:名無しさん@お腹いっぱい。
20/10/03 22:59:15.77 .net
そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?
リテラシーが崩壊してるわw

527:名無しさん@お腹いっぱい。
20/10/04 00:30:28.82 .net
むやみに笑


528:うなよ…もっと平和にいこうぜ



529:名無しさん@お腹いっぱい。
20/10/04 01:06:25.33 .net
「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする

530:名無しさん@お腹いっぱい。
20/10/04 01:17:45.63 .net
「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ
ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例)
とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない

531:名無しさん@お腹いっぱい。
20/10/04 01:22:42.49 .net
理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ

532:名無しさん@お腹いっぱい。
20/10/04 03:15:02.69 .net
「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う

533:名無しさん@お腹いっぱい。
20/10/04 15:45:40.69 .net
>>517
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし

534:名無しさん@お腹いっぱい。
20/10/04 17:10:59.85 .net
>>517
言ってることがただの自己中だってことに気付けよ

535:名無しさん@お腹いっぱい。
20/10/04 17:23:57.00 .net
横からだけど全然自己中じゃないと思うよ。

536:名無しさん@お腹いっぱい。
20/10/04 21:38:12.33 .net
保存される側のルール>保存する側の都合だしな

537:名無しさん@お腹いっぱい。
20/10/04 22:44:09.00 .net
>>523
だよねー、普通は

538:名無しさん@お腹いっぱい。
20/10/05 01:02:47.64 .net
>>523
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる

539:名無しさん@お腹いっぱい。
20/10/05 01:05:22.46 .net
ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ

540:名無しさん@お腹いっぱい。
20/10/05 02:54:18.28 .net
まだ引っ張んのかこいつw

541:名無しさん@お腹いっぱい。
20/10/05 04:15:46.32 .net
草生やしてるほうレッテル貼りしかしてないもんなあ

542:名無しさん@お腹いっぱい。
20/10/05 04:55:38.02 .net
自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし

543:名無しさん@お腹いっぱい。
20/10/05 10:48:51.05 .net
>>524
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの?
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない!
とか宣うんだろw

544:名無しさん@お腹いっぱい。
20/10/05 17:14:59.29 .net
おもしれー
もっとやれ

545:名無しさん@お腹いっぱい。
20/10/05 19:42:44.10 .net
もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない

546:名無しさん@お腹いっぱい。
20/10/06 21:16:26.76 .net
ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い

547:名無しさん@お腹いっぱい。
20/10/07 18:39:57.75 .net
またデータ取れない状態になったみたいね

548:名無しさん@お腹いっぱい。
20/10/15 08:59:33.08 .net
1980年代のインターネットの書き込みが磁気テープから


549:復活 2020/10/14 [朝一から閉店までφ★] https://asahi.5ch.net/test/read.cgi/newsplus/1602676258/



550:名無しさん@お腹いっぱい。
20/10/16 05:28:12.15 .net
昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが
保存すらされてない

551:名無しさん@お腹いっぱい。
20/10/16 07:12:52.64 .net
Sorry
Cannot start capture

552:名無しさん@お腹いっぱい。
20/10/16 07:24:27.85 .net
>>537
これ

553:名無しさん@お腹いっぱい。
20/10/16 12:16:07.53 .net
Cannot start capture
これ俺以外もなってたのか
おま環じゃなくてよかった

554:名無しさん@お腹いっぱい。
20/10/16 14:04:37.17 .net
>>536
Unknown Error
failed to archive the URL. specifics of failurte is unknown

555:名無しさん@お腹いっぱい。
20/10/16 14:10:34.97 .net
>>540
×failurte
○failure
手打ちしたら余計なものが混入してた

556:名無しさん@お腹いっぱい。
20/10/16 16:57:00.72 .net
Unknown Errorのままで使えない

557:名無しさん@お腹いっぱい。
20/10/16 17:35:10.02 .net
ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ……

558:名無しさん@お腹いっぱい。
20/10/16 17:40:36.68 .net
オフラインだって出てきた
>>537 >>540
これを直す為のメンテかな・・・?

559:名無しさん@お腹いっぱい。
20/10/17 05:55:06.62 .net
とりあえず今の所は/save/もSPNも保存できるね
直ったかな

560:名無しさん@お腹いっぱい。
20/10/17 05:58:22.64 .net
URLリンク(archive.org)
俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.
まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。

561:名無しさん@お腹いっぱい。
20/10/17 09:10:23.03 .net
相変わらずページの一部画像が欠けて保存される

562:名無しさん@お腹いっぱい。
20/10/17 15:39:48.96 .net
アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな

563:名無しさん@お腹いっぱい。
20/10/18 13:05:45.08 .net
このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。

564:名無しさん@お腹いっぱい。
20/10/18 16:03:43.18 .net
>>548
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな

565:名無しさん@お腹いっぱい。
20/10/19 00:06:20.58 .net
>>549
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね

566:名無しさん@お腹いっぱい。
20/10/19 04:33:54.40 .net
archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう

567:名無しさん@お腹いっぱい。
20/10/19 06:12:33.66 .net
あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも

568:名無しさん@お腹いっぱい。
20/10/20 17:14:46.24 .net
Unknown Errorが多いな

569:名無しさん@お腹いっぱい。
20/10/20 19:10:14.06 .net
既出かもしれないけど、こんなページがある。
Wayback Stats
URLリンク(archive.org)
URLリンク(analytics0.archive.org)
注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15~10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。
このURLはテンプレか>>1に入れといていいと思う。

570:名無しさん@お腹いっぱい。
20/10/20 21:53:07.53 .net
ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに…

571:名無しさん@お腹いっぱい。
20/10/20 22:53:30.54 .net
IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし...

572:名無しさん@お腹いっぱい。
20/10/20 23:00:54.10 .net
運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ
というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな?
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし

573:名無しさん@お腹いっぱい。
20/10/20 23:21:09.35 .net
UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible~ってのは出るけど。

574:名無しさん@お腹いっぱい。
20/10/21 00:30:53.60 .net
「The server didn't respond in time for http://~」がよく表示されると思ったら特定のサイトだけだったか・・・
>10/17は一時半分近くエラー続きだったそうだ。
 道理で保存されてないのがいくつかあるなと思ったら・・・

575:名無しさん@お腹いっぱい。
20/10/21 10:59:34.87 .net
>>559
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの?
IE使ってないから確認できてないけど

576:名無しさん@お腹いっぱい。
20/10/21 18:00:01.04 .net
>>552
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、
(例:URLリンク(anonymouse.org) で取り込む)

…今秋から archive.is へのアクセスが暗号通信( URLリンク(archive.is) )強制にされてしまったんで不可になってしまった。
( anonymouse.は非暗号アクセス http:// のサイトにしか対応してない )
 

577:名無しさん@お腹いっぱい。
20/10/21 19:01:46.68 .net
10/19あたりもひどいなぁ・・・
きちんと保存されてたはずのものがされてないことに。

578:名無しさん@お腹いっぱい。
20/10/21 23:45:30.07 .net
保存が10/19ならもう数日待つべし

579:名無しさん@お腹いっぱい。
20/10/22 00:43:54.18 .net
一時期なものならまだ良いが・・・

580:名無しさん@お腹いっぱい。
20/10/22 12:51:56.97 .net
最低でも一週間は待てとあれほど
まぁ話題が少ないからループするのはしょうがないけど

581:名無しさん@お腹いっぱい。
20/10/22 19:24:33.27 .net
>>46のことか。
ここのところあまりにもひどくてさ・・・

582:名無しさん@お腹いっぱい。
20/10/23 03:51:33.89 .net
もはや不安定さには完全に慣れてしまった

583:名無しさん@お腹いっぱい。
20/10/23 11:25:58.48 .net
一定周期で不安定化するのは
もう定期イベントみたいなもの

584:名無しさん@お腹いっぱい。
20/10/24 22:48:06.96 .net
なんか急にやたら長い変なURLになって保存失敗することが増えた

585:名無しさん@お腹いっぱい。
20/10/24 23:09:23.02 .net
ワケわからんurlになるよな

586:名無しさん@お腹いっぱい。
20/10/25 01:01:50.22 .net
URLはバグってるけど少し経ってから元のURLでAPI確認すると取れてるぽい

587:名無しさん@お腹いっぱい。
20/10/25 01:34:37.40 .net
"The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする

588:名無しさん@お腹いっぱい。
20/10/25 12:49:20.36 .net
とうとうエラーでサイト見れなくなったか?

589:名無しさん@お腹いっぱい。
20/10/25 13:16:13.93 .net
>>574
何を言ってるのか良く判らない、と良く言われるだろw

590:名無しさん@お腹いっぱい。
20/10/25 13:24:21.46 .net
503エラー出てるね
メンテ中かな

591:名無しさん@お腹いっぱい。
20/10/25 13:29:27.09 .net
URLリンク(archive.org)
まさかのトップページで 500 エラーを返されたわw

592:名無しさん@お腹いっぱい。
20/10/25 14:45:08.36 .net
復旧はしたが


593:再度保存するのに要求される待ち時間が30分になってる… ちょっと前は20分、去年あたりは10分で良かったのに…



594:名無しさん@お腹いっぱい。
20/10/25 21:11:43.05 .net
/save/で1ページ保存できたっぽいから、もう1ページやったら
Unknown Errorになった。

595:名無しさん@お腹いっぱい。
20/10/25 21:16:36.58 .net
スポーツ新聞野郎まだ居たのか

596:名無しさん@お腹いっぱい。
20/10/25 21:57:17.13 .net
また取れない
Unknown Errorを繰り返すようになった

597:名無しさん@お腹いっぱい。
20/10/26 00:51:01.37 .net
cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される
Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.
会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ

598:名無しさん@お腹いっぱい。
20/10/26 17:19:48.92 .net
Wayback Statsによると
24日午後4時~8時(日本時間25日午前8時~12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい

599:名無しさん@お腹いっぱい。
20/10/26 19:05:44.02 .net
アメブロとったらかたつむりの画像かえされたんだけどなんでw

600:名無しさん@お腹いっぱい。
20/10/26 21:03:32.40 .net
リアルなやつか?

601:名無しさん@お腹いっぱい。
20/10/26 23:46:49.93 .net
これwマウスの上にかたつむり乗ってるのwリアルがダメな人は見ないで
URLリンク(pbs.twimg.com)">URLリンク(web.archive.org))
上にも書いたけどアメブロの魚拓をとったんだよね
あとからチェックしたら魚拓自体はとれてたんだけどw謎杉
数日前から変なURLに飛ばされることがあるけど結果的に取れてるんだよ

602:名無しさん@お腹いっぱい。
20/10/27 00:07:16.71 .net
想像以上にリアルだった
きもE

603:名無しさん@お腹いっぱい。
20/10/27 00:49:59.93 .net
googleに飛ばされたりpbs.twimgに飛ばされたり
よく分からん怪しいurlに飛ばされたりしてるな

604:名無しさん@お腹いっぱい。
20/10/27 01:26:19.05 .net
>>586
それここ何日か発生してるバグっぽい。
save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。
変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。

605:名無しさん@お腹いっぱい。
20/10/27 01:28:05.49 .net
確認してないけど、もしかしたら一番長いURLが戻ってくるのかもしれない。

606:名無しさん@お腹いっぱい。
20/10/27 02:13:12.17 .net
そのバグだいぶ前からあった
バグったり直ったりしていた

607:名無しさん@お腹いっぱい。
20/10/27 02:27:39.41 .net
AmebloじゃなくてInternet Achieveのほうの不具合なのか

608:名無しさん@お腹いっぱい。
20/10/27 10:08:38.57 .net
昨日は謎の文字列頁が表示されてびっくりしたよ

609:名無しさん@お腹いっぱい。
20/10/29 03:45:25.34 .net
Your capture will begin in 15s.
またsave nowが混み始めたぞ

610:名無しさん@お腹いっぱい。
20/10/29 11:59:23.94 .net
本レビューサイト「ブクログ」、2年弱ソースコード上にメールアドレスが表示された状態に
URLリンク(security.srad.jp)
Noteに続き、今度はブクログのメルアド流出でbooklog.jpまるごとブロックか削除になったそう

611:名無しさん@お腹いっぱい。
20/10/29 16:27:01.75 .net
結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな

612:名無しさん@お腹いっぱい。
20/10/29 17:39:46.40 .net
excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる
こんなしょうもない事でポンポン消されたらたまったもんじゃない

613:名無しさん@お腹いっぱい。
20/10/29 22:34:14.27 .net
中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか?
URLが知りたいです。

614:名無しさん@お腹いっぱい。
20/10/30 02:14:44.13 .net
>>598
ざっと検索したらそれらしい情報は出てきたが、あなたの欲しい情報が入ってるかは分からん
IPLC Launches the Greater China Archival Resources Web Archive(Ivy Plus Libraries Confederation, 2020/9/9)
URLリンク(ivpluslibraries.org)
Greater China Archival Resources Web Archive(Archive-It)
URLリンク(archive-it.org)

615:名無しさん@お腹いっぱい。
20/10/30 02:16:14.21 .net
archive.orgは金盾でブロックされてるのか
まあ当然っちゃ当然かもしれないけど

616:名無しさん@お腹いっぱい。
20/10/30 09:30:17.93 .net
>>599
ありがとうございます!とても参考になりました。

617:名無しさん@お腹いっぱい。
20/10/31 21:34:11.67 .net
どうでもいい話だけど
「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな
「internet archive」だとトップなのに
日本人はあんまり使ってないのかな・・・?

618:名無しさん@お腹いっぱい。
20/10/31 21:44:23.02 .net
ウェーバック・マシーンは出てくる

619:名無しさん@お腹いっぱい。
20/11/01 15:21:23.61 .net
>>602
グーグル使うの止めたら?
スマホファーストデザインやるようになったぐらいから、
そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル

620:名無しさん@お腹いっぱい。
20/11/05 14:53:16.09 .net
半角無理そう?

621:名無しさん@お腹いっぱい。
20/11/05 14:55:42.77 .net
>>597
アーカイブを消させるための手法として流用されるかも
下手すると第三者がこういった工作をする可能性も

622:名無しさん@お腹いっぱい。
20/11/05 16:20:41.64 .net
sakura03鯖のログって全損なんかな

623:名無しさん@お腹いっぱい。
20/11/06 13:29:44.23 .net
googleキャッシュならまだあるだろうから
保存するなら今のうちだな

624:名無しさん@お腹いっぱい。
20/11/06 21:12:40.12 .net
ここって昔のPCゲームもあるんだな
diablo2ゲット

625:名無しさん@お腹いっぱい。
20/11/07 01:44:34.11 .net
お宝見つけても名前は出さない方が無難
こっそり楽しめ

626:名無しさん@お腹いっぱい。
20/11/07 10:41:21.23 .net
>>597
それで合っていると思う
試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら
「403 Forbidden」が出たから
だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか
それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも

627:名無しさん@お腹いっぱい。
20/11/07 14:46:43.61 .net
>>609
シリアルが画が画が

628:名無しさん@お腹いっぱい。
20/11/10 00:24:38.75 .net
角煮ログも封鎖されたかな

629:名無しさん@お腹いっぱい。
20/11/11 23:22:46.65 .net
URLリンク(analytics0.archive.org)
日本時間で午後10時50分過ぎから鯖落ちしてる模様

630:名無しさん@お腹いっぱい。
20/11/12 02:34:24.00 .net
今はサーバー復活してる、保存も問題なし

631:名無しさん@お腹いっぱい。
20/11/19 10:57:43.27 .net
寄付催促してんな

632:名無しさん@お腹いっぱい。
20/11/19 13:48:19.34 .net
seesaawikiのサイトを取ろうとするとクラッシュしたり挙動がおかしくなる

633:名無しさん@お腹いっぱい。
20/11/19 16:14:02.21 .net
寄付の表示のところに毎日7億5000万ページ(画像やスクリプトを多分含む)保存してると出てるね

634:名無しさん@お腹いっぱい。
20/11/19 23:46:06.93 .net
コスパティオのページ保存すると変なとこにリダイレクトされて上手く保存できなくなった

635:名無しさん@お腹いっぱい。
20/11/20 04:16:43.66 .net
寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・

636:名無しさん@お腹いっぱい。
20/11/20 08:15:01.59 .net
save page nowでやってダメなら時間置いてもう一度やるのが一番早いと思う

637:名無しさん@お腹いっぱい。
20/11/20 08:19:32.56 .net
>>619
変なURLが帰ってくるのは>>584-591で出てるバグなら気にしなくて大丈夫だよ
URLリンク(web.archive.org)の後ろにURLつけて確認してみ

638:名無しさん@お腹いっぱい。
20/11/20 21:31:52.70 .net
こっちで出なくなったと思ったら魚拓で502
おま環?

639:名無しさん@お腹いっぱい。
20/11/21 14:12:11.95 .net
>>617
Archiveteamにwiki専門のグループがあるからそのIRCで頼めば保存してもらえるかも
以前別件でコンタクト取ったときに向こうから保存したい日本のwikiはないかって尋ねてきたこともあるくらいだから積極的に動いてくれると思う
URLリンク(archiveteam.org)

640:名無しさん@お腹いっぱい。
20/11/21 20:01:45.32 .net
なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ

641:名無しさん@お腹いっぱい。
20/11/21 23:16:26.36 .net
削除以外でもメンテか障害かなんかで
一時的に一部データが閲覧できない場合もあるからな

642:名無しさん@お腹いっぱい。
20/11/22 01:23:53.80 .net
【Web】Internet Archive、Flashコンテンツをアーカイブ プラグインなしで21年以降も閲覧可能に【Rust】 [少考さん★]
スレリンク(newsplus板)

643:名無しさん@お腹いっぱい。
20/11/23 22:59:21.80 .net
妥当だね
メニューがFlashのサイトとかナビゲーションさえできなくなっちゃうからな

644:名無しさん@お腹いっぱい。
20/11/26 06:49:26.37 .net
MacかiPhoneのSafariで見るとkCF~のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない

645:名無しさん@お腹いっぱい。
20/11/29 12:26:24.57 .net
save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに

646:名無しさん@お腹いっぱい。
20/11/29 13:46:55.47 .net
何を保存してるのか気になる

647:名無しさん@お腹いっぱい。
20/11/29 15:50:01.95 .net
ゲームの修正パッチとか体験版とかだとたまにそのくらい行くな>2GB以上

648:名無しさん@お腹いっぱい。
20/11/29 16:02:24.61 .net
>>622
残念ながらそのバグではない。
クッキー無いとリダイレクト失敗する仕様になっているぽい

649:名無しさん@お腹いっぱい。
20/12/01 10:52:52.75 .net
curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが)

650:名無しさん@お腹いっぱい。
20/12/04 23:38:28.47 .net
Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ

651:名無しさん@お腹いっぱい。
20/12/05 16:22:36.31 .net
最近APIが重すぎる

652:名無しさん@お腹いっぱい。
20/12/05 17:14:55.42 .net
Sorry
Job failed

653:名無しさん@お腹いっぱい。
20/12/06 13:21:09.09 .net
You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw

654:名無しさん@お腹いっぱい。
20/12/06 13:23:29.09 .net
IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが

655:名無しさん@お腹いっぱい。
20/12/06 19:32:55.17 .net
>>639
host規制かそのサイトだけ取れないように規制されてるかじゃね知らんけど

656:名無しさん@お腹いっぱい。
20/12/06 23:36:07.44 .net
>>637
200ページほど/save/で保存した結果、平均3~5回このエラー出るわ
保存されてないのでエラー出たURLだけやり直し

657:名無しさん@お腹いっぱい。
20/12/07 10:35:04.56 .net
>>641
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない?
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー

658:名無しさん@お腹いっぱい。
20/12/07 17:09:05.18 .net
200ページ程度で規制されるわけない、スクリプトなら数分レベル
寄付しろってのはそう

659:名無しさん@お腹いっぱい。
20/12/07 17:39:59.48 .net
そうやって間隔あけずに一気に叩き込むからすぐサーバー落ちるんじゃないのかよ

660:名無しさん@お腹いっぱい。
20/12/07 21:09:46.97 .net
間隔開けなかったら数分もかからんよ

661:名無しさん@お腹いっぱい。
20/12/07 23:07:54.27 .net
利用者も多いから負荷は可能な限り抑えて利用すべきではあるな

662:名無しさん@お腹いっぱい。
20/12/08 18:52:05.48 .net
1日3億ページ保存してるとサイトで書いてあるのに、たった1


663:人が数百ページ保存したぐらいでなんてこともないわw



664:名無しさん@お腹いっぱい。
20/12/08 22:29:27.53 .net
実際にクッソ重い状態が続く事も珍しくないからな

665:名無しさん@お腹いっぱい。
20/12/09 10:26:17.35 .net
本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ

666:名無しさん@お腹いっぱい。
20/12/09 10:29:24.14 .net
1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの

667:名無しさん@お腹いっぱい。
20/12/09 13:07:12.73 .net
てか>>647と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる

668:名無しさん@お腹いっぱい。
20/12/09 14:19:34.60 .net
数分ってのが10分と仮定しても60秒×10分÷200件=3秒にならん?
間隔短すぎだから間隔を30秒にしろ。

669:名無しさん@お腹いっぱい。
20/12/09 15:04:53.49 .net
なんだ、自動化できずに必死にキーボード叩いてる無能が騒いでるのか

670:名無しさん@お腹いっぱい。
20/12/09 15:26:57.33 .net
キーボード?手動でやるときはマウスだよ

671:名無しさん@お腹いっぱい。
20/12/09 15:52:40.47 .net
curlでの保存方法、教えて

672:名無しさん@お腹いっぱい。
20/12/09 17:22:41.08 .net
>>655
/save/にリクエスト送るだけ

673:名無しさん@お腹いっぱい。
20/12/09 17:52:48.98 .net
適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない

674:名無しさん@お腹いっぱい。
20/12/09 17:53:20.92 .net
curlじゃなくても

675:名無しさん@お腹いっぱい。
20/12/09 19:40:19.27 .net
URLリンク(www.it-swarm-ja.tech)ウェブサイト全体をアーカイブする方法は?/965342469/
これで合ってる?

676:名無しさん@お腹いっぱい。
20/12/09 21:53:36.06 .net
>>659
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど

677:名無しさん@お腹いっぱい。
20/12/09 21:56:26.36 .net
ちゃんと下まで読んでなかったわ、>>660は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな

678:名無しさん@お腹いっぱい。
20/12/09 22:01:16.11 .net
ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない

679:名無しさん@お腹いっぱい。
20/12/11 02:53:02.33 .net
間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。

680:名無しさん@お腹いっぱい。
20/12/12 02:57:25.07 .net
archive teamは数千単位のページを保存する場合はarchive botのIRCで保存依頼するのを推奨してるみたい
> avoid trying to send many thousands URLs; there's Archivebot for that
URLリンク(archiveteam.org)
archive bot
URLリンク(archiveteam.org)

681:名無しさん@お腹いっぱい。
20/12/15 21:01:34.37 .net
新規に保存するとどうやってもこの画面になってしまう…
URLリンク(i.imgur.com)

682:名無しさん@お腹いっぱい。
20/12/15 21:02:45.84 .net
Sorry.
This snapshot cannot be displayed due to an internal error.
さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch