Internet Archive総合 (web.archive.org) #4at ESITE
Internet Archive総合 (web.archive.org) #4 - 暇つぶし2ch339:名無しさん@お腹いっぱい。
22/03/09 16:42:16.69 .net
レス番間違い >>332-333ね。ごめん。

340:名無しさん@お腹いっぱい。
22/03/10 11:03:07.13 .net
>>332-333
こんなことできたのか
これはありがたい

341:名無しさん@お腹いっぱい。
22/03/10 21:10:40.36 .net
いつの間にかCollection Searchにパワポ検索が追加されてた

342:名無しさん@お腹いっぱい。
22/03/13 13:27:26.17 .net
URL一覧から重複消すにしてもサクラエディタだと並び替えないと消せないからほかのツール使わないといけないっぽいね
このツールだったらソートせずに元の並びのまま重複行消せるから便利
上に書いてあるものが優先されて下のほうにある重複行が消されるから先にcdxをコピペして空白改行してその下にアーカイブ予定のURLリストを貼り付けたtxtを作って実行すればいい
ここからDLできる↓
URLリンク(sourceforge.net)
DLできなければここから↓
URLリンク(web.archive.org)
それとcdxだと日本語URLのデコードが大文字と小文字混在して保存されてるから一旦サクラエディタで小文字に変換してからやれば全部重複消せるはず
英語のみのURLでも混在してる場合もあるだろうし
Naverまとめみたいに大文字と小文字を区別する特殊なサイトもあるけど大半は区別しないから問題はないはず、IA上でも区別せずに保存されてる

343:名無しさん@お腹いっぱい。
22/03/13 20:27:38.40 .net
curlでもIAログイン状態に出来る方法はありますか?

344:名無しさん@お腹いっぱい。
22/03/13 21:43:10.93 .net
>>339
URLリンク(www.google.com)

345:名無しさん@お腹いっぱい。
22/03/14 00:32:21.41 .net
>>340
すいません、具体的なURLかページ名でお願いします。

346:名無しさん@お腹いっぱい。
22/03/14 07:14:23.11 .net
昨日あたりからまた時間かかるどころか、
大体が反映されず
何日かして反映されてるなら良いが、
時間かかった挙げ句反映されてなかったら悲しいなぁ

347:名無しさん@お腹いっぱい。
22/03/14 17:57:32.97 .net
SavePageNowがSavingぐるぐるで終わらないときあるな
一応取れてるみたいだから終わらないっぽいときはページ閉じてるけど
なんかスッキリしない

348:名無しさん@お腹いっぱい。
22/03/14 22:14:18.22 .net
>>343
Chromeだったら一旦別のサイトに移動してから戻るボタン押して少し待ったらdoneになるよ

349:名無しさん@お腹いっぱい。
22/03/15 09:03:53.04 .net
>>343
344と動作的には同じだが「The capture is estimated to start〜」が出てきてないなら
1分ぐらいを目安にそのままページを再読み込みすればいいよ
保存終わってるか途中なら1分前に既に保存しましたってのが出てくるはず、出てこない場合は作業失敗してる
強制的に直近の保存状況を表示させる裏技だけど、こうすれば時間節約できる
待たされてる時はこの方法は使えない

350:名無しさん@お腹いっぱい。
22/03/15 21:30:24.29 .net
>>333
これ欠陥あるっぽい
重複消すと違うURLでも同じサイトに繋がってる場合どちらかのURLが消える
URLから&collapse=urlkeyを消して重複除外しなくすると両方とも表示できるからそれでコピペして置換ツールで重複を消すしかないね
URLリンク(web.archive.org)
例えばこのサイトだと
URLリンク(web.archive.org)URLリンク(sumimarudan.blog7.)エフシー2.com*&;output=txt&fl=original&filter=statuscode:200&filter=mimetype:text/html&collapse=urlkey
URLがNGワードっぽいからカタカナを英語に戻してね
.fc2.com/page-4.htmlが表示されず、かわりに.fc2.com:80/page-4.htmlになってる
&collapse=urlkeyを外すとfc2.com/page-4.htmlがちゃんと表示されるが、重複除外してないので同じURLが何個も表示される
普通にブラウザで見る場合URLは.fc2.com/page-4.htmlになるからこれが除外されて同じURLをアーカイブするという2度手間になる
.fc2.com/page-4.htmlと.fc2.com:80/page-4.htmlを両方表示したうえで重複消せたら便利なんだけどね
cdxのgithub見てURLいじってみたりしたけどいまいちうまくいかない

351:名無しさん@お腹いっぱい。
22/03/15 21:56:50.84 .net
あ、既アーカイブ分を消すだけなら最初に重複を消さなくてもよかったんだ
自分が集めたURLから既アーカイブ分消すときに一緒に消えるし
とはいえ行が10万以上だと容量が大きくなるから重複しないにこしたことないけど

352:名無しさん@お腹いっぱい。
22/03/18 16:56:25.79 .net
イモグラの画像、キャプチャ出来なくなったのか

353:名無しさん@お腹いっぱい。
22/03/18 17:13:54.67 .net
>>348
普通にキャプチャできたけど

354:名無しさん@お腹いっぱい。
22/03/19 01:26:22.48 .net
便利
URLリンク(github.com)
URLリンク(github.com)

355:名無しさん@お腹いっぱい。
22/03/22 21:59:33.33 .net
>>350
こういうの探してたから助かる

356:名無しさん@お腹いっぱい。
22/03/24 22:51:12.01 .net
エロサイトの動画とか直リンをSPNにURL入れたらちゃんと見れんの?

357:名無しさん@お腹いっぱい。
22/03/25 04:07:23.98 .net
URLリンク(web.archive.org)
こいつもか
まぁ参照すること自体が憚られるサイトではあるんだけど
URLリンク(o.5ch.net)

358:名無しさん@お腹いっぱい。
22/03/25 14:18:59.58 .net
これもよさげ
URLリンク(github.com)

359:名無しさん@お腹いっぱい。
22/03/25 15:31:35.95 .net
複数の画像を個別に保存する場合
URLリンク(web.archive.org)
URLリンク(web.archive.org)
みたいに一つずつやらないといけないの?

360:名無しさん@お腹いっぱい。
22/03/25 15:57:23.54 .net
>>355
それで大丈夫。混んでなければ1個10秒以下で終わる。
もしくは画像が載ってた元ページのURLをSave Page Nowで保存すれば画像含めて一緒に保存されるはず。
JavaScriptでぐちゃぐちゃになってるページは失敗する可能性あるけど。

361:名無しさん@お腹いっぱい。
22/03/26 10:24:47.02 .net
The Wayback Machine has not archived that URL.
Click here to search for all archived pages under http://
保存してませんじゃねぇ。するんだよ

362:名無しさん@お腹いっぱい。
22/03/26 10:59:00.03 .net
Shift-JISのページが文字化けで保存される問題

363:名無しさん@お腹いっぱい。
22/03/26 11:15:19.65 .net
あ、スクショの方なら文字化け回避できたっぽい

364:名無しさん@お腹いっぱい。
22/03/29 03:17:07.75 .net
アーカイブ入りしたページのうちリダイレクトされるページを除外するオプションねえのか

365:名無しさん@お腹いっぱい。
22/03/29 19:38:07.81 .net
SPNで保存したときにリンク先をspn-outlinksのbotが数時間後にクロールしないようにするフラグとかってないの?
サーバーに猛アタックしてきて大迷惑かけてる気がする。余計なことしやがって。

366:名無しさん@お腹いっぱい。
22/03/30 12:21:15.25 .net
あれ、Job失敗の時もインターバル入るようになってる?

367:名無しさん@お腹いっぱい。
22/03/30 19:04:30.53 .net
ためになるスレだ

368:名無しさん@お腹いっぱい。
22/03/31 00:29:00.97 .net
また落ちてる…
URLリンク(web.archive.org)
URLリンク(i.imgur.com)

369:名無しさん@お腹いっぱい。
22/03/31 05:01:37.02 .net
消されたのを確認して念のため今日また確認したらアーカイブ復活しちゃってるんだがなんで
プロセスの自動化された部分がコースを実行し変更が有効になるまで最大1日かかりますって意味がわからんくなったし

370:名無しさん@お腹いっぱい。
22/03/31 06:44:41.09 .net
もしかしてわいが依頼したニュアンスは表示させなくする依頼で停電によってアーカイブ見れるようになってしまった?

371:名無しさん@お腹いっぱい。
22/03/31 07:15:48.53 .net
>>364
欧文モノスペースなんて今時使ってるの中国人だけだろ

372:名無しさん@お腹いっぱい。
22/03/31 08:36:20.28 .net
出たよ自分が世界標準な奴

373:名無しさん@お腹いっぱい。
22/03/31 08:52:04.68 .net
どうせまた魚拓が不都合な糞ロシア共が落としてんだろ
ほんましょーもない

374:名無しさん@お腹いっぱい。
22/03/31 09:48:34.48 .net
>注意:本日午前7時~7時30分(太平洋時間)、当社の主要データセンター付近でPG&E社による計画停電が実施されます。このため、サービスに支障が出ることが予想されます。ご迷惑をおかけいたしますが、よろしくお願いいたします。
昨夜の切断はこれか…

375:名無しさん@お腹いっぱい。
22/03/31 15:56:19.65 .net
IAのある地域、計画停電多すぎね?

376:名無しさん@お腹いっぱい。
22/03/31 21:03:04.51 .net
IA大好きなのにミクさんの影に隠れてんの納得できん

377:名無しさん@お腹いっぱい。
22/04/01 03:48:17.84 .net
過去スレ見てexpectedがアーカイブできない依頼って意味って思ってdeleteで再依頼したら担当者にブチキレられた
もう除外してますよって言われながら
停電してたらわかるわけない
別なアーカイブ削除依頼は除外されたとおもったら停電後に復活してやがるしどうなってんだかもうめんどいからいっそアーカイブサービス終了しないかな

378:名無しさん@お腹いっぱい。
22/04/01 03:51:17.86 .net
間違ったexpectedじゃなくてexcluded

379:名無しさん@お腹いっぱい。
22/04/01 03:56:34.44 .net
お、停電してない。This URL has been excluded from the Wayback Machine.って出た。けどやっぱり停電後は除外したはずのものがでちゃう感じ?陰謀論的なやつじゃないよな?ロシア関連。

380:名無しさん@お腹いっぱい。
22/04/01 04:05:16.10 .net
もう暫くはメールスルーされそう

381:名無しさん@お腹いっぱい。
22/04/01 07:25:14.90 .net
Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

382:名無しさん@お腹いっぱい。
22/04/01 12:29:02.69 .net
5gbのzipダウンロードするのに5時間とか言われてんだけど重すぎじゃね
他はそんなことないのに

383:名無しさん@お腹いっぱい。
22/04/01 14:08:12.38 .net
試しにトレント使ってダウンロードしてみるとか
使ったことないから速度どんだけ出るか知らんけど

384:名無しさん@お腹いっぱい。
22/04/02 10:14:31.27 .net
数日前からPDFは時間がかかる

385:名無しさん@お腹いっぱい。
22/04/02 11:11:06.20 .net
スプレッドシートのやつ結果のステータスが書き込まれなくなったんだけど俺だけ?
解決方法わかる人いますか?

386:名無しさん@お腹いっぱい。
22/04/02 13:43:58.22 .net
twitter保存するとjob failedが繰り返し出る現象何

387:名無しさん@お腹いっぱい。
22/04/02 14:45:50.01 .net
時間かかるうえに「Internal server error.」が何遍も出るのがなぁ
所要時間はどんどん後ろ倒しだし
「You may close your browser window and the page will still be saved.」とあるが、
こんなんではとても閉じるどころではない

388:名無しさん@お腹いっぱい。
22/04/02 14:52:37.84 .net
てかここ数日保存遅すぎでしょ
エイプリルフールのサイトをいくつか保存できなかった

389:名無しさん@お腹いっぱい。
22/04/02 16:49:11.25 .net
6時間待ちでアーカイブ失敗してリトライしたら8時間待ちって

390:名無しさん@お腹いっぱい。
22/04/02 20:13:46.58 .net
そういうときは後ろに適当に?とか付けて別のURLにすればカウント外れない?

391:名無しさん@お腹いっぱい。
22/04/02 20:51:05.90 .net
時々 寄付を募っているけど容量と人件費だけでお金が無くなるのだろうか

392:名無しさん@お腹いっぱい。
22/04/02 21:51:51.36 .net
IAはアメリカのチャリティ登録法人だから検索すれば決算の書類出てくるよ
その書類曰くサンフランシスコの年収1000万円台のサーバーエンジニアなど5人雇えるぐらい金あるんだから予算に問題なんかないよ
一番給料高い日系人のWendy Hanamuraってメディア担当の人で2019年の給料は21万4385ドル
創業者は0ドルで頑張ってるのに寄付してるのがバカバカしくなってくるけどな
でももうちょっとSave Page Nowの保存制限を前みたいに緩和してサーバー増強してほしいよね不安定すぎる

393:名無しさん@お腹いっぱい。
22/04/05 09:24:57.82 .net
久しぶりの不安定期かな

394:名無しさん@お腹いっぱい。
22/04/05 20:16:53.31 .net
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
なんだこれ初めて見たぞ

395:名無しさん@お腹いっぱい。
22/04/05 23:30:12.79 .net
Save Page Now servers are temporarily overloaded. Your captures may be delayed.

396:名無しさん@お腹いっぱい。
22/04/06 02:44:35.09 .net
過去のサイトの画像って正しく表示されない場合って見るのを諦めたほうがよろしい感じですか?
それとも見る方法があるのでしょうか

397:名無しさん@お腹いっぱい。
22/04/06 09:43:35.94 .net
>>392
表示されない=アーカイブされてないだから無理
最近は画像もアーカイブされるけど、昔はアーカイブされてないのが殆ど
念のため画像のURL単体で確認してみるといいんじゃない?

398:名無しさん@お腹いっぱい。
22/04/08 16:08:47.46 .net
ツイッターに編集機能が追加されるらしい
Internet Archiveの出番かな

399:名無しさん@お腹いっぱい。
22/04/08 21:28:34.27 .net
ロシア外交官追い出しニュースを見て、ロシア大使館のサイトを保存しようと思ったらtokyo.mid.ruごとブロックされてるんだけど
ブロックする理由あんのこれ?

400:名無しさん@お腹いっぱい。
22/04/09 04:57:08.67 .net
今はだめな時間帯か?

401:名無しさん@お腹いっぱい。
22/04/09 04:57:49.95 .net
>>395
ロシア政府が保存するなと通達すればそうなる

402:名無しさん@お腹いっぱい。
22/04/09 04:59:39.32 .net
>>386
たまに80:とかがドメインにくっついてる奴が謎

403:名無しさん@お腹いっぱい。
22/04/09 13:07:53.26 .net
>>398
あるURLの最古もしくは一番早いスナップショットがポート番号付きのURLでインデックスに登録された場合、
ポート番号付きのまま表示されてるだけなので特に意味はない。
といってもポート番号によって内容が変わるサイトもあるわけだから、違うポート番号を同じURL扱いするのはちょっととは思う。
将来的にはポート番号削ったURLに登録し直してほしいけど、ずっとこのままかもしれないな。
/*/でURLを並び替える時にちゃんと並ばないのは不便だけど。

404:名無しさん@お腹いっぱい。
22/04/09 18:28:59.17 .net
twitterのURL検索は前できなかった気がしたけど、今確認したらできるようになってるな。これ使えるね。

405:名無しさん@お腹いっぱい。
22/04/12 12:22:37 .net
Save Page Now servers are temporarily overloaded.
Your captures may be delayed.

406:名無しさん@お腹いっぱい。
22/04/19 09:35:09.69 .net
ここ最近アーカイブされてないTwitterやYouTubeのページ多すぎる。

407:名無しさん@お腹いっぱい。
22/04/19 12:42:45.35 .net
今でも保存遅いケースが多いぞ。
下記のURLはもう一日以上経ってるのに未だにアーカイブされてなくて見れない。
自分が見る前のデータ放置しやがったな…。
アーカイブしようにもエラーで失敗の続いてんのか?
URLリンク(youtu.be)
URLリンク(twitter.com)
(deleted an unsolicited ad)

408:名無しさん@お腹いっぱい。
22/04/19 19:18:40.19 .net
>>403 ・・・と思ったけどこの日の夜になってやっと更新されたことで対象のURLのデータを見る事が出来たー!
良かった!

409:名無しさん@お腹いっぱい。
22/04/20 21:08:13.94 .net
Hrm.
The Wayback Machine has not archived that URL.
This page is unavailable for archiving right now!
This page is available on the web but its quite busy. Please check again later.

410:名無しさん@お腹いっぱい。
22/04/22 00:08:02.62 .net
hrmってなんて発音するんや

411:名無しさん@お腹いっぱい。
22/04/22 00:31:29 .net
hrmの発音 ( Hard HRM から Soft HRM へ)
URLリンク(ja.forvo.com)

412:名無しさん@お腹いっぱい。
22/04/22 03:13:47.94 .net
かっこよすぎる

413:名無しさん@お腹いっぱい。
22/04/23 07:09:20 .net
URLリンク(translate.google.com)

414:名無しさん@お腹いっぱい。
22/04/23 14:43:44.50 .net
ハーム?

415:名無しさん@お腹いっぱい。
22/04/25 13:05:09.91 .net
SPN2 public API page docs に記載のある target_username と target_password の引数、
試しに BASIC 認証のページで使ってみたが上手く行かんな。
認証が通らず 401 エラーがアーカイブされてしまう。
URLリンク(web.archive.org)

416:名無しさん@お腹いっぱい。
22/04/27 18:49:56.15 .net
Save Page Now servers are temporarily overloaded. Your captures may be delayed.

417:名無しさん@お腹いっぱい。
22/04/30 16:41:25 .net
Ghost Archive
URLリンク(ghostarchive.org)
インスタのアーカイブ取れたり取れなかったりする

ただしエロや薬物系のページ�


418:ヘ禁止で、ページ容量の制限もあるので、ちょっと信用性の面では低い ttps://ghostarchive.org/about.html Momentoに対応してるのはいいけど、選択肢の1個としては使える



419:名無しさん@お腹いっぱい。
22/05/01 11:28:49.12 .net
todayをIAで取る技使えなくなってるのか
不便だな

420:名無しさん@お腹いっぱい。
22/05/03 16:05:03.01 .net
>>403
短縮URLじゃなくて最終的な転送先のURLで保存したほうがいいと思う。
転送先のURLじゃないとそのページ内までちゃんと保存されない可能性が出てくるので。
YouTubeの動画みたいに後から動画ファイルを保存される特殊な作業が必要になるものは特に。
めんどうなら両方SPNに突っ込んどけばいい。

421:名無しさん@お腹いっぱい。
22/05/05 23:53:11.23 .net
いろいろあるんだな

422:名無しさん@お腹いっぱい。
22/05/10 15:41:09.33 .net
metaタグやrobot.txtでクローラー除けしてるサイトを残す安定した方法ってある?
自分が知ってるのは「Google翻訳で日本語→日本語で表示してそのURLを保存」くらい。

423:名無しさん@お腹いっぱい。
22/05/10 19:24:45.13 .net
昔はpste.euを使ってコピーサイトを作って、それをarchive todayとかで保存するとかあったけど、pste.euが閉鎖されたから無理だね

424:名無しさん@お腹いっぱい。
22/05/10 21:26:57.64 .net
web串使うしかないね
後から参照できるように出来るだけ有名どころでURLに元のアドレスが乗っかるところが望ましい

425:名無しさん@お腹いっぱい。
22/05/11 01:35:01.48 .net
>>417
魚拓( megalodon.jp/ )だとmetaタグやrobot.txtはweb串通しても取れないな。
archive.org/web はそれらに引っ掛かる不便自体あまりないけど

426:名無しさん@お腹いっぱい。
22/05/11 04:49:25.53 .net
>>420
魚拓ってしょっちゅう消すわ通報もするわでオワコンじゃなかったっけ
投稿サイトと一緒で搾取サイトっていうか

427:名無しさん@お腹いっぱい。
22/05/11 20:05:23.57 .net
Archive Teamを利用する方法もある(この方法だとIAのブロックリストも回避可能)
本来意図された使い方じゃないから詳しくは書かないけど
リンク先見れば分かると思う
URLリンク(wiki.archiveteam.org)

428:名無しさん@お腹いっぱい。
22/05/12 20:32:18.74 .net
拒否URL関係まとめ
This URL has been excluded from the Wayback Machine.
URLリンク(note.com)
URLリンク(gigazine.net)
URLリンク(boards.4channel.org)
URLリンク(bokete.jp)
URLリンク(yoshidakenkou.net)
URLリンク(tanteifile.com)
URLリンク(motherless.com)
URLリンク(www.lancers.jp)
This URL is in our block list
URLリンク(finance.yahoo.co.jp) 以下全て
URLリンク(movie.eroterest.net)
URLリンク(anime.eroterest.net)
サイトの仕様で取れないもの
URLリンク(ch.dlsite.com) 記事本文が取得不可、todayなら取れる
URLリンク(www.pixiv.net) 投コメのみ取得可、todayなら取れる
ArchiveTeamのexcludedまとめ
URLリンク(wiki.archiveteam.org)

429:名無しさん@お腹いっぱい。
22/05/12 20:53:03.34 .net
niftyのなんちゃら

430:名無しさん@お腹いっぱい。
22/05/13 00:24:28 .net
gigazine駄目なのか
それどっちが原因だろう

431:名無しさん@お腹いっぱい。
22/05/13 05:08:07.05 .net
支援
>>サイトの仕様起因
>URLリンク(uso.kkx.one)
ユーザースタイルシートのカタログサイト、
Wayback Machineで保存しても白いページが表示されるのみ、
todayなら問題なく取れる

432:名無しさん@お腹いっぱい。
22/05/13 11:59:01.36 .net
【PC】「玄人志向」のサポート掲示板が終了へ、15年の歴史に幕 閉鎖後は過去の投稿も閲覧不可に [あずささん★]
だそうです

433:名無しさん@お腹いっぱい。
22/05/13 23:03:55.15 .net
FirefoxでもGoogle Chromeでも待機中が長くていつまで経っても保存されてない事が多いんだけど、どうしたらいいんだろう
テレビ局とか番組サイトのページなんだけど

434:名無しさん@お腹いっぱい。
22/05/14 00:02:33.03 .net
実際には保存が完了していても、保存中表示が切り替わらずそのままなのは良くある話

435:名無しさん@お腹いっぱい。
22/05/14 01:55:57.39 .net
エロルが出てなければいいのかな

436:名無しさん@お腹いっぱい。
22/05/14 02:53:15.43 .net
>>429
半日~一週間以上経っても保存されてない時といつの間にかされてる時があるから、ページの閲覧(ブラウザに開いたまま放置)をいつまでも経っても止める事が出来なくて困ってる
archives.todayをやウェブ魚拓の方が何倍も保存速いのに、何でweb archiveが未だに1番手で利用されてるっぽいんだろう
>>430
エロルって何ですか?
検索してもエロ動画とかエロ広告って書かれたページしか該当ヒットしない

437:名無しさん@お腹いっぱい。
22/05/14 03:26:23.22 .net
放置したところで、数分でセッション切れになるだろうから、タブを残したままにしてもあんまり意味ないと思うよ。

438:名無しさん@お腹いっぱい。
22/05/14 07:38:48.63 .net
ウラルと同じ形式だろう
山脈に非ず

439:429
22/05/14 12:11:45.08 .net
そもそも SAVE PAGE ボタンを押して Saving page http:~ のページに切り替わった後は、
それを閉じても保存に全く影響しないんだけどな。
ぐるぐる表示している間は何をやっているかというと、保存の進行状況を
タイマーで繰り返し表示しているだけ。
単に「保存が成功したか失敗したか、運が良ければ教えてくれる」だけで、
ページを閉じたからと言って保存が中止される訳ではないし、
タイマーが止まって表示が一切更新されなくなることすらある。
どーせギガバイト級のファイルでも 5 分もあれば保存できるのだから、
保存開始後しばらくしたら web.archive.org/web/2/ を付けた URL で
実際に保存できているか試したほうが良いと思うな。

440:429
22/05/14 12:13:07.09 .net
少し専門的な話。
Save Page Now 2 Public API のドキュメント
URLリンク(docs.google.com)
これと対比させて考えてみればよい。
保存開始のリクエスト方法は Capture request の節に書かれているが
同じ URLリンク(web.archive.org) の URL を使っていて、パラメータの与え方が異なるだけ。
保存のリクエストを出したら、それ以降はユーザ側で制御する必要は無し。
これとは別に、出されたリクエストの進行状況を調べる API が用意されていて、
それは Status request の節で説明されている。
ぐるぐるの表示中も、バックグラウンドでこれを繰り返し呼んでいるだけ。
(で、たまに止まってしまう。ブラウザのタブをバックグラウンドにするとかなりの確率で止まる。)
進行状況を調べる際に誰がいつ出したリクエストかを特定するために
job_id というパラメータが使われているが、これは Save Page Now のページから
リクエストを出した時も、保存中ページの HTML ソースから spn.watchJob の語を頼りに
拾うことができる。spn2- で始まる文字列がそれ。
> spn.watchJob("spn2-be5deb2f51d8cf21858418b09fefeef80e32938c", "/_static/",
この文字列に URLリンク(web.archive.org) を付けると Status request API の URL となり
JSON 形式のデータが返ってくるが、ブラウザで直接開くだけでも内容は確認できると思う。
> URLリンク(web.archive.org)
status の値が pending なら保存中、success なら保存成功、error ならエラー。
それから job_id の有効期限は保存開始から一時間くらい。
上の URL に今アクセスすると duration_sec、counters、timestamp 等
保存したときのデータが色々返ってくるが、今日の午後 1 時過ぎには
重要なデータは空になっているはず。

441:名無しさん@お腹いっぱい。
22/05/15 10:01:51.84 .net
resume upload
501 slow down
が何度も出て数値も異常なことになって
アップロードが終わらないんだけどどうすればいいの?

442:名無しさん@お腹いっぱい。
22/05/15 10:48:03.99 .net
>>436
スパムっぽいから間違いならメール送れ的な英文が書いてあるはずだが
何をアップロードしてるのかは知らんけど、Youtube関係ならtubeup使った方がいいぞ
デフォルトのアップローダーは規制されやすい

443:名無しさん@お腹いっぱい。
22/05/15 14:32:45.73 .net
最近IAへのアップロードが異様に遅くなって困ってる
前は上り1Gbps保ってたけど今はその100分の1くらい
IAにメール送ってもIA側が何かしたわけでもないって返答くるし理由が分からん…
ちなみにVPN通したら速度戻った(今は期限切れたので使えない)
スマホからのアップロードは以前と変わらず速い
それならとUASwitcherを使ったけどダメだった
帯域制限を疑って他サイトにアップロードしてみたけど速度は普通に出る
マジで困ってるから誰か教えてくれ…

444:名無しさん@お腹いっぱい。
22/05/17 03:01:44.67 .net
使ってるISPのアップロード制限とかは?

445:名無しさん@お腹いっぱい。
22/05/17 03:10:16.22 .net
あと去年3月にarchiveteamがニコ動の動画ページ(/watch/sm〜)を片っ端から保存してくれたけど、それ以降は動いてないのね
てっきりずっと動かしてるかと思ってたわ
URLリンク(archive.org)
URLリンク(wiki.archiveteam.org)
動画ファイル自体も保存しないと意味ないんだけどな

446:名無しさん@お腹いっぱい。
22/05/17 11:41:37 .net
>>440
あれはニコニコの削除された動画の情報が非表示になるから保存してただけなので
動画自体は対象に入ってない(というかサイズ的に現実的じゃない)

447:名無しさん@お腹いっぱい。
22/05/17 18:12:55.52 .net
>>439
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で
今は仮想マシン通したら速度出たからそうしてるよ 不便だけど

448:名無しさん@お腹いっぱい。
22/05/17 18:14:51.83 .net
>>439
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で
今は仮想マシン通したら速度出たからそうしてるよ 不便だけど

449:名無しさん@お腹いっぱい。
22/05/17 21:18:18.55 .net
録画した番組をエンコードしてアップしたいんだけど
デフォルト以外でおすすめのアップローダーを教えて

450:名無しさん@お腹いっぱい。
22/05/18 20:56:55.97 .net
1時間前に比べて重い

451:名無しさん@お腹いっぱい。
22/05/18 21:34:17.24 .net
ようやく解消

452:名無しさん@お腹いっぱい。
22/05/19 19:46:35.64 .net
いつもの寄付表示
今回は赤色だったり青だったり緑だったり
種類増えてて笑う

453:名無しさん@お腹いっぱい。
22/05/21 13:09:44.07 .net
archive.today壊れてらっしゃる?

454:名無しさん@お腹いっぱい。
22/05/21 15:50:47.29 .net
保存されたJAVAが別の画像(など)を動的に引用してる時に
「オリジナルの画像のアドレス」を呼んでしまってるせいで正しく動作しない(呼ばれてる画像自体はアーカイブにある)やつは
アーカイブ上で何とかならんもんだろうか

455:名無しさん@お腹いっぱい。
22/05/21 15:53:32.08 .net
>>441
容量もだが権利関係でやばいのが多すぎる気が

456:名無しさん@お腹いっぱい。
22/05/21 19:49:16.37 .net
curlでもIAログインモード、cookieのページみても出来ないぞ(IAが対策?)
数万urlは保存したいのだが(特に画像)

457:名無しさん@お腹いっぱい。
22/05/22 08:29:18.90 .net
curlで/save/から保存しようとすると「This URL is in our block list and cannot be captured」が出るけど
ウェブブラウザからだとちゃんと保存されるのに遭遇した
ちょっと上で書いてる人もいるけど、UserAgent以外の部分も見るのかなこれは

458:名無しさん@お腹いっぱい。
22/05/25 00:41:46.06 .net
>>451
Cookieは知らんが、今のSPNの制限内であっても、outlinksを辿って時間かからない単一の画像URLだけなら、
少なくとも1分間で4個のURLの保存できるだろうから、24時間で5760個、数万URLあっても1週間以内に保存終わるはず。

459:名無しさん@お腹いっぱい。
22/05/25 23:49:41.59 .net
5次元データストレージって実用化されたら凄そう
割れたら終わりな気もするけど

460:名無しさん@お腹いっぱい。
22/05/27 10:52:55.05 .net
質問です
Internet Archiveにおいて
著作権の扱いはどうなっているのでしょうか?
無断で複製禁止のものをアーカイブした場合
Internet Archive側が著作権侵害となるのでしょうか?
それともアーカイブユーザー側が著作権侵害となるのでしょうか?
ご回答よろしくお願いします

461:名無しさん@お腹いっぱい。
22/05/27 20:01:04.98 .net
アメリカのフェアユースと図書館法と非営利団体ということで守られるので問題ないですが、
「日本人が日本から投稿した」という部分が違法になり得るので、
そこを隠せてすぐに逃げられる形でやれば問題ないです

462:名無しさん@お腹いっぱい。
22/05/27 20:26:08.07 .net
>>456
治外法権はとっくに終わってるので「日本人が」は要らん

463:名無しさん@お腹いっぱい。
22/05/31 03:41:16.24 .net
他人のツイートを全部保存する方法ってないの?

464:名無しさん@お腹いっぱい。
22/05/31 08:31:12 .net
>>458
このツール使えば全ツイートのURLぶっこ抜ける
ArchiveTeamの人が管理してるから安定性もあるんじゃないかな
URLリンク(github.com)

465:名無しさん@お腹いっぱい。
22/06/01 11:47:43.48 .net
>>453 その自動化ツールってなんてやつ?

466:名無しさん@お腹いっぱい。
22/06/01 12:03:28.50 .net
SPNを自動化できるツールとかってある?

467:名無しさん@お腹いっぱい。
22/06/02 21:01:25.82 .net
「The capture is estimated to start in ** minutes.」
同じサイトでも出たり出なかったり

468:名無しさん@お腹いっぱい。
22/06/03 13:04:18.14 .net
ここ何日かjob failedが出るの多すぎ
特に今日はひどい

469:名無しさん@お腹いっぱい。
22/06/03 18:58:45 .net
「The capture is estimated to start in * hours, * minutes.」
昨日よりひどくなってる・・・

470:名無しさん@お腹いっぱい。
22/06/04 09:49:35 .net
ようやく正常に

471:名無しさん@お腹いっぱい。
22/06/04 23:35:18.33 .net
と思ったらまたか
○時間とかではないだけまだ良いが

472:名無しさん@お腹いっぱい。
22/06/06 22:07:55 .net
また○時間レベルでかかるようになってしまった
数時間前まではなんともなかったのに・・・

473:名無しさん@お腹いっぱい。
22/06/06 22:44:35.15 .net
確かにここのところjob failed多いな

474:名無しさん@お腹いっぱい。
22/06/07 23:09:12.43 .net
「The capture is estimated to start in * minutes. You may close your browser window and the page will still be saved.」
今日は21時台から使ってると30分ぐらいごとに出たり出なかったり波があるようだ
そのまま本当に取得できてる場合と「Internal server error.」と出る場合があるからおちおち閉じるわけにもいかないのがなぁ

475:名無しさん@お腹いっぱい。
22/06/08 02:39:39.28 .net
日付変わってすぐは正常だったのにしばらくしてまた「The capture is estimated to start in * hours, * minutes.」
それにしても今月になってから毎日のように時間かかること多いなぁ

476:名無しさん@お腹いっぱい。
22/06/08 13:00:04.29 .net
月初は時間かかるのが多い印象

477:名無しさん@お腹いっぱい。
22/06/08 15:33:31.27 .net
>>459
今のWeb版Twitterはゴテゴテ糞思いUIに改悪されまくりやがったのでワシはRSS串経由で取ったりしてる

【Feedly】RSSリーダー総合【Inoreader】
スレリンク(esite板)

478:名無しさん@お腹いっぱい。
22/06/11 02:19:49 .net
インフォシークとかサービス終了したサイトの終了告知を最優先で表示するのあれなんとかならねえの

479:名無しさん@お腹いっぱい。
22/06/11 03:02:27.42 .net
>>473
広告除去の拡張機能に自分でルールを追加すれば思いのまま。

480:名無しさん@お腹いっぱい。
22/06/12 00:51:33.91 .net
どういうことなの

481:名無しさん@お腹いっぱい。
22/06/13 22:24:09.42 .net
木曜あたりからは順調だったのに、結局また何時間単位とか・・・

482:名無しさん@お腹いっぱい。
22/06/14 09:


483:51:48 .net



484:名無しさん@お腹いっぱい。
22/06/14 12:37:06.24 .net
>>477
2年前のIPアドレスお漏らし騒動のときに運営がIAにアーカイブ除外申請したからそれ以降保存できなくなってる

485:名無しさん@お腹いっぱい。
22/06/15 20:52:24.39 .net
過疎サイトに突然大量アクセスが来たのですがロボットか誰かがせっせと保存してるのでしょうか…
URLリンク(i.imgur.com)

486:名無しさん@お腹いっぱい。
22/06/20 11:28:15.69 .net
既出だったら申し訳ないのですが、archive.orgでツイートやtwitterプロフィール画面をSave Page Nowで保存すると、モバイルサイトでの表示形式で保存されてしまいます。
どうすればPCの表示形式で保存できますか?

487:名無しさん@お腹いっぱい。
22/06/23 10:44:42.70 .net
>>480
Twitterの仕様変更のせいだと思うから無理だと思う
過去ログ見れば分かるけど一時期それで取れなくなった

488:名無しさん@お腹いっぱい。
22/06/23 18:07:01.22 .net
7000億突破したな

489:名無しさん@お腹いっぱい。
22/06/24 01:27:16.59 .net
俺も5000万ぐらい貢献したかな

490:名無しさん@お腹いっぱい。
22/06/24 23:15:31.53 .net
調子悪いな

491:名無しさん@お腹いっぱい。
22/06/25 01:43:20 .net
The capture will start in ~5 seconds because we are doing too many captures of www.youtube.com right now. You may close your browser window and the page will still be saved.

初めてこのエラーが出た
5秒以内に保存始まったが

492:名無しさん@お腹いっぱい。
22/06/25 10:04:48.83 .net
前から出てたエラーに詳細が追加されたんじゃない?

493:名無しさん@お腹いっぱい。
22/06/25 21:04:47 .net
普通に重いときは5秒どころか20秒ぐらいかかってる気がするんだがw

494:名無しさん@お腹いっぱい。
22/06/26 17:14:28.40 .net
>>481
やっぱり仕様変更なんですかね・・・・
見た目のよさと保険でNitter噛ませてみます

495:名無しさん@お腹いっぱい。
22/06/28 03:39:15 .net
困ったな

496:名無しさん@お腹いっぱい。
22/06/29 01:38:37.94 .net
最近YouTubeのURLをSPNで保存すると?v=動画ID&google_abuse=GOOGLE_ABUSE_EXEMPTION〜ってURLに飛ばされてることがある。
SPNのIPアドレスがYouTubeの一時アクセス制限に引っかかってるようで、ちゃんとページが保存されてない場合も。

497:名無しさん@お腹いっぱい。
22/06/30 21:27:00.59 .net
URLリンク(twitter.com)

反五輪の会 NO OLYMPICS 2020

組織委員会、明日ウェブサイト閉鎖!逃げ足早すぎる!!皆さん、資料の保存を急いで!!
#TOKYO2020 OCOG


    __
反五輪の会 NO OLYMPICS 2020@hangorinnokai
Jun 29
組織委員会、明日18:00ウェブサイト閉鎖。 tokyo2020.jp/ja/news/news-20…
東京2020組織委員会公式ウェブサイト閉鎖のお知らせ
  
(deleted an unsolicited ad)

498:名無しさん@お腹いっぱい。
22/07/02 10:35:52.35 .net
>This video is archived but not yet indexed for playback.Please try again tomorrow
ほう

499:名無しさん@お腹いっぱい。
22/07/02 10:43:22.92 .net
>>474
任意のアドレスを開いた時に一番古いアーカイブを呼ぶように強制できる?

500:名無しさん@お腹いっぱい。
22/07/02 21:15:53.79 .net
>>493
公式 Wayback Machine 拡張機能を入れれば?
「Oldest」ボタンを押せば表示される。
URLリンク(i.imgur.com)
The Official Wayback Machine Extension
URLリンク(chrome.google.com)
URLリンク(microsoftedge.microsoft.com)
URLリンク(addons.mozilla.org)
URLリンク(apps.apple.com)

501:名無しさん@お腹いっぱい。
22/07/04 20:52:32.70 .net
実質中身がなくなってるやつを判別してその直前がわかる


502:機能があればいいのにな 別のページへの転送になっている、あたりを基準にするとか



503:名無しさん@お腹いっぱい。
22/07/05 05:46:27.12 .net
見たいのに…

504:名無しさん@お腹いっぱい。
22/07/05 18:17:21.48 .net
/web/1/

505:名無しさん@お腹いっぱい。
22/07/05 19:52:58.59 .net
>>495
"Calendar" 表示の "Changes" をポチれば?

506:名無しさん@お腹いっぱい。
22/07/06 17:43:53 .net
お、なんだそれ

507:名無しさん@お腹いっぱい。
22/07/10 00:46:22.12 .net
>>480です。とりあえずですが解決方法が見つかりました。
ツイッターのURLにモバイルを入れると、アイコンの画質はガビガビになりますが、レイアウトは見やすく保存できました。
URLリンク(mobile.twitter.com)ユーザーネーム

508:名無しさん@お腹いっぱい。
22/07/11 10:14:42.46 .net
Sorry
Cannot start capture
{
"exception" : "Command # 1 (LLEN spn2-api) of pipeline caused error: OOM command not allowed when used memory > 'maxmemory'.",
"message" : "Cannot start capture",
"status" : "error",
"status_ext" : "error:celery"
}

509:名無しさん@お腹いっぱい。
22/07/11 11:48:38.84 .net
保存できんね

510:名無しさん@お腹いっぱい。
22/07/11 13:13:04 .net
今も無理だ、なんかあったのか?

511:名無しさん@お腹いっぱい。
22/07/11 13:26:31 .net
保存できなかったからこのスレきた

512:名無しさん@お腹いっぱい。
22/07/11 13:29:13 .net
昨日保存できたん?

513:名無しさん@お腹いっぱい。
22/07/11 15:13:44.90 .net
>>505
昨日どころか今朝もできてたのに9時直前から>>501の表示
>>471ということだったが、今月は月初でも調子良かったのに・・・

514:名無しさん@お腹いっぱい。
22/07/11 16:17:32.15 .net
ようやく回復か

515:名無しさん@お腹いっぱい。
22/07/13 09:55:00 .net
去年あたりから続いてた訴訟、そろそろ決着しそう
日本だと話題になってないけど、海外SNSだと結構議論されてる

Internet Archive(IA)と大手出版社4社の訴訟において、略式判決の要求が提出される
URLリンク(current.ndl.go.jp)

516:名無しさん@お腹いっぱい。
22/07/14 15:07:51.64 .net
Sorry.
This snapshot cannot be displayed due to an internal error.
どのサイトで試してもこれが出てアーカイブできない

517:名無しさん@お腹いっぱい。
22/07/14 17:09:48.59 .net
初書き込み失礼します。
私は先日、とあるお方のTwitterの過去の書き込みを分かりやすく見たいと身近な人物に相談したところ総合.ツイログが良いと言われ、
総合.ツイログから拝見させて頂いていたのですがそのときに誤って画面の右の方にある『Internet Archive Save Page Now』と書かれたボタンを押してしまい
WayBack Machineというサイトに登録されてしまったみたいなのです。色々と調べてここでなら相談できそうだと思い質問させて頂きたいのですが、
他者のTwitterのツイログを本人の同意なくWayBack Machineに登録してしまったことって違法になるのでしょうか?
一般的にTwitter等におけるコメント自体には個性がないから著作権は認められないし画像も無い、そんで海外のサービスやから大丈夫、捕まらないと思う。と説明はされたのですが
どうにも特定されて逮捕されそうという不安な気持ちが拭えません。
違法でない場合は良いサービスを知ったのでこれからは全部写真を撮って保存するのではなく登録した方が楽なので消さないで良いかと思うのですが、
違法である場合はどうにかして消したいのです。その場合は自分が登録されたTwitterの所有者でなくても消すことは出来るのでしょうか。
どうかご回答の程、よろしくお願い致します。

518:名無しさん@お腹いっぱい。
22/07/14 17:09:55.12 .net
ワイもThis snapshot cannot be displayed due to an internal error.で保存できん。
yahooニュースだからかと思ってたけど違うかねえ
URLリンク(news.yahoo.co.jp)

519:名無しさん@お腹いっぱい。
22/07/14 17:20:33.92 .net
>>510
ツイッターのアーカイブなんて腐るほど保存されてるからタイーホされないと思う。
総合.ツイログが万が一閉鎖されても、Internet Archiveに残ってれば安心や

520:名無しさん@お腹いっぱい。
22/07/14 17:49:00.21 .net
>>512さん
返信が遅くなってしまい誠に申し訳ございません。
『ツイッターのアーカイブなんて腐るほど保存されているからタイーホはないと思う。』
そうでしたか。これで安心できました。本当にありがとうございます。

521:名無しさん@お腹いっぱい。
22/07/15 20:18:27.49 .net
>>509だがどうやらSave outlinksを選択するとThis snapshot cannot be displayed due to an internal error. が出るみたい
なので現状は非会員と同じく一つ一つアーカイブやらなければならない羽目に

522:名無しさん@お腹いっぱい。
22/07/21 14:45:54.17 .net
503

523:名無しさん@お腹いっぱい。
22/07/21 19:20:36 .net
議員になった赤松健がIAが既にやってるゲームのアーカイブ保存を提唱してるな

524:名無しさん@お腹いっぱい。
22/07/22 03:29:22.94 .net
そこらへんうまくやっていってほしいね

525:名無しさん@お腹いっぱい。
22/07/23 11:18:24.80 .net
昨日から画面推移時にクラッシュ頻発する
SPNは問題ない

526:名無しさん@お腹いっぱい。
22/07/23 18:17:14 .net
We're sorry — something's gone wrong.
Our team has been notified.

昨日あたりからこれがよく出るが、
取得済みかどうか調べるときに不便

527:名無しさん@お腹いっぱい。
22/07/23 21:21:39 .net
>>519
俺もそれ出たわ
別の端末から使うか、別垢作ってそれでログインするかしたら方法回避できた

528:名無しさん@お腹いっぱい。
22/07/23 23:24:26.82 .net
>>519
URLリンク(web.archive.org)
にアクセスするとこの画面出るっぽいな
カレンダーとかSPNのページは上のリンクに繋がってるからエラーが出てるんだと思う

529:名無しさん@お腹いっぱい。
22/07/24 19:35:45.02 .net
This page is unavailable for archiving right now!
つべにて

530:名無しさん@お腹いっぱい。
22/07/24 23:42:58.94 .net
>>510
むしろみんなガンガン使ってる

531:名無しさん@お腹いっぱい。
22/07/25 17:09:30 .net
ここに保存されたユーチューブって実際のところ再生できるの

532:名無しさん@お腹いっぱい。
22/07/25 18:23:51.72 .net
>>524
webページを保存するのとは別にYouTube動画を保存するプロセスが特別に用意されてるっぽい
動画が保存されてアーカイブページに反映されるまでには若干時間がかかるけど、完了すれば再生できるようになる

533:名無しさん@お腹いっぱい。
22/07/27 04:46:52.44 .net
これまで見れてたサイトが、キャッシュは存在するのに読み込み途中でキャッシュされてないときの画面になるので、おかしいなと思ってここに来てみたのだが、ずっと挙動おかしいのか。

534:名無しさん@お腹いっぱい。
22/07/27 14:06:07.79 .net
まじか

535:名無しさん@お腹いっぱい。
22/07/27 22:53:13.53 .net
>>526
逆にNHKラジオのJavaScriptで動的にファイルを読み込んで作成するページが
だめだったけど、過去に「対応したかな?」と保存してみてだめだったページ
が表示されるようになった。表示できていないだけで保存されていた。
ひょっとして、聴き逃しページの配信ファイルの情報を記述したJSONも
保存されていているのかな? と思って調べたら保存されていて、誰かが
ページを保存してくれたおかげで期限が過ぎたやつを下載できた。

536:名無しさん@お腹いっぱい。
22/07/27 23:13:17.56 .net
redditをアーカイブしようとすると404NotFound出るの俺だけ?

537:名無しさん@お腹いっぱい。
22/07/30 13:36:46 .net
outlinksって何階層まで保存してくれるの?

538:名無しさん@お腹いっぱい。
22/07/30 15:15:46 .net
大量のURLを保存したいんだけどどうすればいい?

539:名無しさん@お腹いっぱい。
22/07/30 19:49:12.50 .net
Outlinksって一回でリンク70個しか保存してくれないのか…
2万控えてるってのに

540:名無しさん@お腹いっぱい。
22/07/31 01:03:56.96 .net
へー70までなんだ

541:名無しさん@お腹いっぱい。
22/08/01 08:19:55 .net
スレリンク(internet板)
こっちもスレあるけど、こことどっちが本スレでどっちに書き込めばいいの?

542:名無しさん@お腹いっぱい。
22/08/01 13:46:00 .net
ティーカップがあったはずなんだけど、知らない?

543:名無しさん@お腹いっぱい。
22/08/01 18:44:49 .net
>>534
このスレは archive.org のサービスについてのスレで、
向こうのスレはアーカイブ作業用(終了するサービスを記録したり保存を呼びかけたり)って感じじゃないかな

544:名無しさん@お腹いっぱい。
22/08/01 20:07:00.53 .net
>>536
なるほど。聞いてみてよかった。

545:名無しさん@お腹いっぱい。
22/08/02 15:45:38.64 .net
Before you continue to YouTubeが出て再生できない

546:名無しさん@お腹いっぱい。
22/08/06 12:31:32.23 .net
 
「いかがでしたか?」問題に「欲しい情報が出ない」問題… Google検索の第一人者が語る、検索で不満が募る“意外な理由”とは
スレリンク(newsplus板)
 

547:名無しさん@お腹いっぱい。
22/08/11 08:58:16.01 .net
調子悪い?

548:名無しさん@お腹いっぱい。
22/08/11 09:05:43.02 .net
昨日から「The capture will start in ~** minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.」
PDFの場合は表示されず

549:名無しさん@お腹いっぱい。
22/08/17 13:50:51.51 .net
昨日遅くからアクセスしづらいことが多い
それとは別件だが、
最近一部のサイトで正常に取得できてないのに、
なぜか取得できてる扱いを受けることが多い
できてるとみなされるものだから取得し直そうとすれば45分待たなければならない

550:名無しさん@お腹いっぱい。
22/08/18 17:24:07.29 .net
ここ数日深夜~早朝(日本時間)がつながりづらい
と思ったら今もとか・・・

551:名無しさん@お腹いっぱい。
22/08/18 19:54:57.84 .net
つながったと思えばそれも束の間でまたつながらず

552:名無しさん@お腹いっぱい。
22/08/19 17:17:16.09 .net
今日もまたつながりづらいことが多い(5chを含めてほかにはつながる)
新手の規制なのだろうか

553:名無しさん@お腹いっぱい。
22/08/20 00:59:46.23 .net
Before you continue to YouTube

554:名無しさん@お腹いっぱい。
22/08/20 01:17:48.76 .net
日付変わってからの傾向
・20分ごとにつながるときが来る
・使えるのは3分程度、それでまたつながらなくなるの繰り返し
話題にならないところを見ると俺環なんだろうが、
なぜIAだけつながらないのかが謎

555:名無しさん@お腹いっぱい。
22/08/20 23:47:28.88 .net
>>546
www-ghacks-net.translate.goog/2021/04/01/here-is-the-easiest-way-to-get-rid-of-googles-before-you-continue-to-youtube-prompt/?_x_tr_sl=en&_x_tr_tl=ja&_x_tr_hl=ja&_x_tr_pto=sc

これのこと?
プライベートモードではなく通常モードで使うべきということか
で、今は何事もなかったかのような状況
あとは「正常に取得できてないのに取得できてる扱い」がなんとかなれば・・・だが、
まともにつながるだけでも大違いか

556:名無しさん@お腹いっぱい。
22/08/21 12:21:06.05 .net
youtubeのshortの方は後で動画取りに来ない感じなのか

557:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
むしろそこが読めん

558:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
一昨日昨日とせっかく順調だったのにたった今・・・

559:名無しさん@お腹いっぱい。
22/08/23 23:29:24.71 .net
togetterって保存できても閲覧できないようになってる?
カレンダーから飛んでも現在のページに戻されてしまう

560:名無しさん@お腹いっぱい。
22/08/25 05:13:13.00 .net
最近ドメイン指定で/*/を見てるとArchiveteamがサイトマップのXMLファイルURLをいろんなブログで保存してるのを見かけるんだけど
そのサイトマップに載ってるブログ記事のURLの方を保存してほしいな
サイトマップだけじゃ意味ない

561:名無しさん@お腹いっぱい。
22/08/25 10:26:00.53 .net
archive.org
(failed)net::ERR_CONNECTION_TIMED_OUT

562:名無しさん@お腹いっぱい。
22/08/25 11:36:11.20 .net
IA自体が落ちるとか大丈夫なのか

563:名無しさん@お腹いっぱい。
22/08/25 11:57:50.22 .net
Internet Archiveに保存したデータって100年後も残ってると思う?
本当に永久に残せる気がしなくて悩んでる

564:名無しさん@お腹いっぱい。
22/08/25 13:45:37.67 .net
復旧まだ?

565:名無しさん@お腹いっぱい。
22/08/25 13:55:43.16 .net
>>556
デジタル情報を後世に残せる可能性が唯一あるのがInternet Archiveだろうね
ネット規制が年々厳しくなってるから情報を本にまとめて国立国会図書館に納本した方が案外残ってたりするかも?

566:名無しさん@お腹いっぱい。
22/08/25 15:35:07.68 .net
やっぱり落ちてたんだ なんらかの方法でアク禁喰らったかと思ったw

567:名無しさん@お腹いっぱい。
22/08/25 16:40:22.94 .net
アク禁喰らうほど負荷かけちゃ駄目よ

568:名無しさん@お腹いっぱい。
22/08/25 16:53:16.25 .net
「Temporarily Offline
Internet Archive services are temporarily offline.
Please check our Twitter feed for the latest information.
We apologize for the inconvenience.」
今日は俺環だけではなかったのか・・・

569:名無しさん@お腹いっぱい。
22/08/25 17:22:38.17 .net
10時サーバーが落ちていた
16時サーバーが落ちていた
17時サーバーが復旧してメンテ中になっていた
twitter.com/internetarchive/status/1562637688918142976
2022年8月25日(木)12:07:12 JST
> We are working to resolve the outage affecting
> URLリンク(archive.org) & @waybackmachine
お前らの行動あるある
archive.ph/foxJV
archive.ph/LMz1C
archive.ph/z1gVl
archive.ph/W61NL
(deleted an unsolicited ad)

570:名無しさん@お腹いっぱい。
22/08/25 17:55:50.65 .net
ほんとに落ちてて草
ここがサ終したらと思うとゾッとするわ

571:名無しさん@お腹いっぱい。
22/08/25 18:12:34.13 .net
>>1
URLリンク(twitter.com)
-
(deleted an unsolicited ad)

572:名無しさん@お腹いっぱい。
22/08/25 21:27:27.54 .net
直った

573:名無しさん@お腹いっぱい。
22/09/08 00:46:00.71 .net
kiwifarmsという掲示板住民の嫌がらせ対象となった活動家らがCloudflareに対して抗議
掲示板はCloudflareからのブロックに続き、Wayback Machineのアーカイブ対象からも除外されたことで物議を醸してる
URLリンク(i.imgur.com)
Reddit r/Archiveteam のスレでは賛否両論
URLリンク(www.reddit.com)
参考
ITmedia『Cloudflare、フォーラムKiwi Farmsをブロック 「命にかかわる脅威と判断」』
URLリンク(www.itmedia.co.jp)

574:名無しさん@お腹いっぱい。
22/09/08 01:06:13.64 .net
redditをSPNすると404になるやつ、まだ直ってないのか・・・

575:名無しさん@お腹いっぱい。
22/09/10 16:56:52.81 .net
昨日あたりから調子悪い?

576:名無しさん@お腹いっぱい。
22/09/11 01:37:35.36 .net
Not Fundになる

577:名無しさん@お腹いっぱい。
22/09/11 07:29:45.30 .net
404 not found継続中

578:名無しさん@お腹いっぱい。
22/09/11 12:04:17.42 .net
確かにここ何日か「Internal server error.」とか「Not Found」が頻繁に出てる

579:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
エラー出ても2、3回やれば保存が始まるか保存制限に引っ掛かるかのガチャだな
保存できる確率は1/3か1/4

580:名無しさん@お腹いっぱい。
22/09/11 23:57:16.77 .net
エラーになった後もう一度やると「The same snapshot had been made seconds/minutes ago」が返ってくることがある
保存できてるならちゃんと返してほしいが

581:名無しさん@お腹いっぱい。
22/09/12 12:47:12.64 .net
本当にできてるならまだ良いが、
できてないのにできてるとみなされて「The same snapshot had been made ** minutes, ** seconds ago. You can make new capture of this URL after 45 minutes.」なんてことも
本当にできてないのに45分待ちはきつい
ちなみに「web.archive.org/web/*/(URL)/*」では本当にできてる場合は緑or青、みなされてるだけの場合は赤or黄で表示

582:名無しさん@お腹いっぱい。
22/09/12 23:14:14.97 .net
>>574
> ちなみに「web.archive.org/web/*/(URL)/*」では本当にできてる場合は緑or青、みなされてるだけの場合は赤or黄で表示
嘘はいかんよ。
緑として記録されても、リダイレクトされた先で 403 や 404 (つまり赤) ってこともありうる。
IA の説明通り、HTTP のステータスコードのみで考えるべし。

583:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
直った気がする

584:名無しさん@お腹いっぱい。
22/09/13 11:03:38.19 .net
某M社からDMCA報告が来たらしく、アップしてた動画が削除された
IAも巡回してるんだな(YouTubeの元動画は放置なのが謎だけど)
MAD動画とかは--metadata=noindex:trueで上げた方がいいかも

585:名無しさん@お腹いっぱい。
22/09/15 13:39:05.63 .net
てか最近YouTubeの動画URLが一度&themeRefresh=1が付いたURLにリダイレクトされてもう一度リダイレクトされて元のURLに戻るようになってるんだけど
SPNの動画ファイルの保存までちゃんとできてる?

586:名無しさん@お腹いっぱい。
22/09/16 16:32:46.10 .net
>>575
済まない、「できてる場合:青、できてる場合とできてない場合と:緑」
communityserver.org/contents/2602/

587:sage
22/09/17 14:17:53.95 .net
最近、ラブライブや仮面ライダー関連のツイッターの返信コメント欄が保存されていないのは>>571>>572が原因かな?
URLリンク(twitter.com)の中の各返信コメント欄URLをインターネットアーカイブで検索しても見つからなかったし。
(deleted an unsolicited ad)

588:名無しさん@お腹いっぱい。
22/09/17 14:20:02.00 .net
最近、各ツイッターのページの返信コメント欄をインターネットアーカイブで探しても過去のデータでは見つからないパターンが多いな。
担当者さぼってんのか?それとも保存する人いなくなったのか?

589:名無しさん@お腹いっぱい。
22/09/19 01:06:12.59 .net
あらら?インターネットアーカイブが現状では見れなくなっている。

590:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
そうなってくるとインターネットアーカイブアーカイブがいるな

591:名無しさん@お腹いっぱい。
22/09/20 10:26:44.70 .net
>>581
Twitterを大量に保存してるのはArchiveTeamだから
youtubeの動画と違って公式じゃないんよね

592:名無しさん@お腹いっぱい。
22/09/21 03:41:43.60 .net
それはゲリラか何かなのか

593:名無しさん@お腹いっぱい。
22/09/26 02:13:39.95 .net
>>581
他人に頼ってないで重要だと思うなら自らSave Page NowにツイートのURL突っ込めんでいけばいいだろ
ArchiveTeamも全てのツイートURLを保存してるわけじゃないし抜けまくりだぞ

594:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
ニコニコ動画で「vipper吹き替え」と言う物が消えるのですが
お暇な方いればそのアーカイブ活動に協力していただきたいです

私がアーカイブしようとしている物は大体アーカイブできていて
あと「タグ」と「コメント」だけです
詳しい事はニコニコ大百科の掲示板にレスしています
URLリンク(dic.nicovideo.jp)
URLリンク(dic.nicovideo.jp)
(ID: Yv+WglHqgh のレスです)

595:名無しさん@お腹いっぱい。
22/09/26 11:32:22.44 .net
A screen shot was captured. View screen shot:
SPNでページのスクショ画像が一緒に保存されたりされなかったりする機能が始まってる様子

596:名無しさん@お腹いっぱい。
22/09/26 14:41:39.24 .net
何の意味があるんだろう
当時のレンダリングエンジンの記録?

597:名無しさん@お腹いっぱい。
22/09/26 15:55:53.05 .net
今どきの動的なサイトだとSPNじゃ取れなかったりするが
スクショなら見た目だけでもアーカイブ出来たりする

598:名無しさん@お腹いっぱい。
22/09/26 23:47:44.20 .net
(´‥∀‥`)ほう

599:名無しさん@お腹いっぱい。
22/09/28 09:19:48.78 .net
9月20日以降ツイートのアーカイブが自動で取られなくなってる?
めんどくせぇんだよなぁ膨大な数のツイート1つ1つ手動でアーカイブさせんの

600:名無しさん@お腹いっぱい。
22/10/02 14:01:31.65 .net
Sorry
Job failed

601:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
「Job failed」今日はやたら出るなぁ
取得したいサイトとの相性の問題かと思ったらあちらこちらでそんな感じ

602:名無しさん@お腹いっぱい。
22/10/06 08:09:49.83 .net
>>586 自分が初めて見る前のデータが見たいだけですが…。
仕事中などで見られなかったデータとか。
アクティブチームも最近全然見てないパターン多すぎ。
ちゃんとの人の事考えてるのか?
もう少し早くできないものか。

603:名無しさん@お腹いっぱい。
22/10/06 10:56:37.49 .net
>>595
文句言ってる暇があったら自分で実行すればいいだけでは?
アクティブチームが誰だかは知らんが、ArchiveTeamは誰でも参加できるぞ
URLリンク(wiki.archiveteam.org)

604:名無しさん@お腹いっぱい。
22/10/07 08:02:54.16 .net
インターネットアーカイブもすべてのYouTubeのURLを保存してるわけではないと思いますが・・・。
URLリンク(www.youtube.com)
URLリンク(www.youtube.com)
URLリンク(www.youtube.com)
これらのページの保存が遅すぎる。

605:名無しさん@お腹いっぱい。
22/10/07 23:59:11.39 .net
上でも書いてる人いるけど、/shorts/から始まるYoutubeのショート動画って動画ファイルの自動保存対応してないのかな?
watch?v=に置き換えたURLでも見れるので、念の為両方のURLで保存してるけど、ショート動画のファイルだけ保存できていないような・・・

606:名無しさん@お腹いっぱい。
22/10/08 15:48:17.11 .net
動画まで保存するとコスト凄そうだな

607:名無しさん@お腹いっぱい。
22/10/10 01:58:16.83 .net
>>592 最近ツイッターの公開直後のデータがアーカイブされなくなっているのはこれが原因だとしたら納得いく。
アクティブチームが膨大な数のツイート1つ1つ手動でアーカイブさせるのはめんどくさいのはわかるけど・・・。

608:名無しさん@お腹いっぱい。
22/10/10 01:59:45.27 .net
>>592 もしかするとYouTubeの動画の方もアーカイブが自動で取られなくなってるかもしれない。

609:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
>>598 >>601
ほう

610:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
つべとれてないね

611:名無しさん@お腹いっぱい。
22/10/11 17:46:02.12 .net
全くだ。
URLリンク(www.youtube.com)
上記のURLの保存が遅すぎる。
何やってんだ担当者は!

612:名無しさん@お腹いっぱい。
22/10/16 00:14:47.38 .net
>>604
人に文句言ってないで自分で保存しろ

613:名無しさん@お腹いっぱい。
22/10/16 10:20:41.68 .net
YouTubeの自動アーカイブって容量的に非現実的に思える

614:名無しさん@お腹いっぱい。
22/10/16 18:14:42.48 .net
でも本家はそれでやっていっているんでしょう?

615:名無しさん@お腹いっぱい。
22/10/16 19:05:29.39 .net
やっていってないぞ
クローラーは全ての動画を保存していないし、SPNでも全て保存する訳ではない。(CNNとかのニュースは割と保存される)
それに、インターネットアーカイブの人も「少数の人しか興味がなく、長い動画を、メタデータを付加することなく、ただインターネットアーカイブに突っ込むのはやめてね」(訳)と言っている。
URLリンク(www.reddit.com)
それでも雑談とゲームの動画をすぐに保存してほしいのなら、寄付するといいよ。開発に参加するのもいい。

616:名無しさん@お腹いっぱい。
22/10/17 19:38:48.84 .net
選別はどういう原理なんだろう

617:名無しさん@お腹いっぱい。
22/10/17 23:52:20.94 .net
アーカイブって著作権引っかかりそうで
手軽にできない
一応引用って形で引っかからないんだろうか
正直ページとしては残しておきたいもの結構あるんだけどなぁ…

618:名無しさん@お腹いっぱい。
22/10/18 01:15:56.16 .net
>>610
SPNの話ならフェアユースで合法だよ

619:名無しさん@お腹いっぱい。
22/10/18 13:57:43.00 .net
dtiがサービス終了だって

620:名無しさん@お腹いっぱい。
22/10/21 12:04:03.87 .net


621:名無しさん@お腹いっぱい。
22/10/23 09:50:10.13 .net
ファボ1万以上のツイートでもアーカイブチームが取りに来なくなってるな
どうしたんだろ?Twitter社からお𠮟りでも受けた?

622:名無しさん@お腹いっぱい。
22/10/25 10:08:14.34 .net
みんなSPNの話ばっかりでアイテムのアップロードは使わないの?

623:名無しさん@お腹いっぱい。
22/10/26 00:05:19.14 .net
ここ1週間何度試しても「Cannot resolve host (URL)」と表示されて取得できないサイトが
前はなんのこともなく取得できてたのに・・・

624:名無しさん@お腹いっぱい。
22/10/30 05:24:56.68 .net
Internal Server Error for URLリンク(www.excite.co.jp) (HTTP status=500).

625:名無しさん@お腹いっぱい。
22/11/01 19:41:42.25 .net
二人くらい垢消しが確定してるユーザーのツイートを一人で手動で片っ端からアーカイブ取ってたけど
量多くて時間はかかるし自分が動かなきゃ誰もやらんから自分がしくじったら一生残せなくなるという罪悪感もあるしで
兎に角ツラい こういう不毛な作業こそ全部ロボットにやらせるべきやろ
なんかいいツールでもないもんかねぇ

626:名無しさん@お腹いっぱい。
22/11/03 10:45:34.96 .net
>>605 だから仕事や睡眠の関係で早く保存できない場合があるから自分で早く保存しろと言われても・・・。

627:名無しさん@お腹いっぱい。
22/11/03 10:50:22.06 .net
>>614 ・・・ツイッター社からお叱りを受けたとしたらツイッターのページの自動アーカイブが出来なくなったのも納得がいく。
権利関係かな?

628:名無しさん@お腹いっぱい。
22/11/05 19:47:39.33 .net
archive.stが取れない…

629:名無しさん@お腹いっぱい。
22/11/06 12:06:34.61 .net
Saving page URLリンク(w.atwiki.jp)
Worker exited prematurely: signal 15 (SIGTERM) Job: 644.

630:名無しさん@お腹いっぱい。
22/11/06 12:24:09.00 .net
>>618
URLリンク(github.com)
これでURL集めて後はその辺のスクリプトでアーカイブすればいい

631:名無しさん@お腹いっぱい。
22/11/09 17:23:42.06 .net
YouTube動画の保存初めてやってみたんだけど
すごい時間かかるうえエラー出て何度やってみても保存できないのも多いし
うまく保存できてもコメント欄はなぜか明らかに違う動画のものだったり文字化けしまくりでめちゃくちゃだった…
あんまり使えないな

632:名無しさん@お腹いっぱい。
22/11/10 06:12:44.32 .net
12月までに保存じゃー
URLリンク(geolog.mydns.jp)

633:名無しさん@お腹いっぱい。
22/11/12 06:08:18.30 .net
ツイッター保存するとほぼ全てfirst archiveになる
何万もいいねされてバズってるのでもそう
もうツイッターは一切自動保存しないのかな…

634:名無しさん@お腹いっぱい。
22/11/12 11:26:29.99 .net
今週SPNで保存してもfaviconだけしか保存されない例が何回も起きたんだが
24時間後に同じURLを確認するとやっぱり保存できてなかったわ
保存できてるか確認したほうがいいよ

635:名無しさん@お腹いっぱい。
22/11/13 16:46:40.56 .net
>>625
zipかなんかに全部か分割して別の場所に投稿してほしい。
管理人見かけたら言っといて。

636:名無しさん@お腹いっぱい。
22/11/14 13:49:25.52 .net
>>625
学区以外のwww.geocitiesのページ開こうと思っても
まともに開けないくらい重いんだが

637:名無しさん@お腹いっぱい。
22/11/14 20:47:39.81 .net
>>622
このエラーが出たら数分後に自動で保存をやり直してくれる時とやってくれない時があるなー。
最近出るようになった他のセグメンテーション系エラーも同じ感じ。
>>624
今の所、コメント欄のJavaScript周りがおかしいので直してほしいね。

638:名無しさん@お腹いっぱい。
22/11/14 22:52:15.62 .net
今日は調子が良い気がするようなしないような

639:名無しさん@お腹いっぱい。
22/11/16 04:29:12.79 .net
5ちゃんのアーカイブもGone.になってしまうの多い
最近ここ調子悪いけど大丈夫なんかね
寄付金のお願いもずっと出てるし

640:名無しさん@お腹いっぱい。
22/11/16 20:08:56.54 .net
>>632
普通のブラウザでも同じ鯖に連続してアクセスするとGone.になるから、
時間を置いて取得するしかない。それがどのタイミングなのかは分からないけど

641:名無しさん@お腹いっぱい。
22/11/16 21:36:23.91 .net
締め付け厳しくなってるのか、
20分ぐらいつながらないことが

642:名無しさん@お腹いっぱい。
22/11/17 17:20:37.12 .net
worldstarhiphop.com
200万以上も魚拓が保存されているようだが、excludedと表示される

643:名無しさん@お腹いっぱい。
22/11/18 10:43:43.03 .net
最近重すぎる

644:名無しさん@お腹いっぱい。
22/11/18 19:58:05.57 .net
今日は「Job failed.」がやたら出るなぁ
あまりやり直すと1分あたり3件までのしばりで引っかかる
前はもう少しできたっけ・・・これも締め付け厳�


645:オくなってるような 取得できてるのかも怪しくて確認すると「Fail with status: 503」



646:名無しさん@お腹いっぱい。
22/11/18 22:06:53.56 .net
システム運用がカツカツなんだろうな

647:名無しさん@お腹いっぱい。
22/11/19 00:38:40.53 .net
SPNの最新ファイルを見てみると、
18日9時〜14時33分(日本時間18日午後6時〜午後11時33分)の間はファイルが全く追加されてなかったので、
5時間ほど保存できなかったっぽい
この間に保存しようとしたらjob failedエラーだらけだった
今は問題なく保存できるぜ

648:名無しさん@お腹いっぱい。
22/11/22 04:48:34.40 .net
WaybackMachineとなOpenLibraryとか
もっと知られてもいいもんだろこれ
知ってるのと知らないのじゃ全然便利さが違う
そもそもInternetArchiveが知られて無さすぎる

649:名無しさん@お腹いっぱい。
22/11/24 06:21:48.95 .net
そりゃまあ一般人はネットのアーカイブなんてこれっぽっちも
気にしてないからな

650:名無しさん@お腹いっぱい。
22/11/25 01:50:48.75 .net
誰も動かないから自分が動かなきゃいけない
自分がアーカイブ間に合っていれば遺せたのに
こんな使命感持っちまったせいで病んじまったわ
消える前に残すのも大事だが既に消えてしまった物を「消える前に残す」以外の手段で発掘する方法ってないもんかね

651:名無しさん@お腹いっぱい。
22/11/25 08:18:14.39 .net
哲学的じゃの
もうどうにも取り戻せないから「消えてしまった」と言うのだよ

652:名無しさん@お腹いっぱい。
22/11/25 20:11:50.98 .net
大げさだけどなんか人の命みたいだ
でも亡くなった人が自分の生きた証にみたいに一生懸命残してたブログとかが跡形もなく消えてしまってたりすると…悲しい

653:名無しさん@お腹いっぱい。
22/11/26 23:33:08.71 .net
また>>547に近い事態で困ってて別のブラウザでアクセスし直したらつながった
たまにつながらないこともあるが、回復は先に使ってたブラウザより早い
同じ時間帯に使い比べたら片方つながらないのに、もう片方はなんのこともなくつながったり
たまたまか、それともブラウザとの相性の問題か・・・

654:名無しさん@お腹いっぱい。
22/11/27 04:04:49.75 .net
>>645
まぁロードバランサが入ってるだろうし、アクセス毎に運試しをやってるようなもんだな

655:名無しさん@お腹いっぱい。
22/11/27 17:26:01.10 .net
前は重くても繋がってはいたが
最近はアクセスすら出来ないことが多い

656:名無しさん@お腹いっぱい。
22/11/27 17:46:34.00 .net
本当に繋がんないね
資金繰りヤバいんじゃないかと心配になる

657:名無しさん@お腹いっぱい。
22/11/27 19:23:05.98 .net
archive.todayを代用してください。

658:名無しさん@お腹いっぱい。
22/11/27 20:58:34.67 .net
結局ローカルでも保存するしかないやん

659:名無しさん@お腹いっぱい。
22/11/28 02:04:21.68 .net
Wayback Machine がダウンしているかタイムアウトで保存できない、
あるいは、保存に成功したのを開けないのが続いてて困る
URLリンク(archive.is)

660:名無しさん@お腹いっぱい。
22/12/01 08:14:56.48 .net
>>639
最新ファイルはどこで見れるか教えていただけませんか・

661:名無しさん@お腹いっぱい。
22/12/01 08:30:40.22 .net
>>652
>>269

662:名無しさん@お腹いっぱい。
22/12/01 09:32:56.82 .net
ありがとうございます

663:名無しさん@お腹いっぱい。
22/12/03 09:15:41.02 .net
テスト

664:名無しさん@お腹いっぱい。
22/12/03 09:16:59.78 .net
URLリンク(www.youtube.com)
URLリンク(www.youtube.com)
アクティブチームの皆さん、上記のURLのアーカイブが遅いぞ、もしかしてこの時はW杯で忙しかったのか?
自分は寝てました。

665:名無しさん@お腹いっぱい。
22/12/04 07:15:29.49 .net
>>656
URLリンク(archive.ragtag.moe)
URLリンク(hololivevideos.download)

666:名無しさん@お腹いっぱい。
22/12/04 10:51:22.42 .net
動画はtubeupで上げれば良くね?
URLリンク(github.com)

667:名無しさん@お腹いっぱい。
22/12/04 15:29:19.99 .net
>>658 権利が無いから無理です。

668:名無しさん@お腹いっぱい。
22/12/04 19:31:01.38 .net
もしInternetArchiveが無くなったら
割とひどい文化的な痛手になるんじゃないだろうか
どっか国立のサービスにデータ引き渡すのかな

669:名無しさん@お腹いっぱい。
22/12/04 22:22:21.88 .net
YouTubeの動画の再生ページでもアーカイブが自動で取られなくなっている・・・?

670:名無しさん@お腹いっぱい。
22/12/05 17:04:47.22 .net
>>660
ジオシティーズがなくなった時の損失の比ではなさそうだな…

671:名無しさん@お腹いっぱい。
22/12/06 18:59:20.83 .net
ここ最近、公開直後にアーカイブされてないこと多いよな。
運営も最善を尽くすと言っていたが、やはり難しいのか・・・?
と思ってたら対象の下記のURLをアーカイブ保存するのに時間がかかっている。
URLリンク(www.youtube.com)
もしかするとシステムのエラーが引っ掛かっているかも・・・。

672:名無しさん@お腹いっぱい。
22/12/07 14:49:59.21 .net
そもそも動画保存はオマケなので
確実にするならローカルに保存すべき

673:名無しさん@お腹いっぱい。
22/12/07 18:58:22.97 .net
私は動画公開直後のページのデータを求めているのです。

674:名無しさん@お腹いっぱい。
22/12/07 23:36:49.30 .net
>>665
youtubeのページのデータならなおさら不安定だと思うが
yt-dlpとかでメタデータごと落とせば?

675:名無しさん@お腹いっぱい。
22/12/08 00:06:43.49 .net
>>664
何でもそうだが誰でも好きな時に見れるようにしてようやくアーカイブと言えるんだよなぁ
自分一人だけの手元にずっとあっても意味がないんだよ

676:名無しさん@お腹いっぱい。
22/12/09 18:57:23.93 .net
Twitterマスク氏、15億アカウントを削除すると発表 対象は休眠ユーザー
スレリンク(newsplus板)
これ故人のも全部消えてしまうんだろうか

677:名無しさん@お腹いっぱい。
22/12/10 13:28:20.80 .net
Twitterのフルアーカイブってどうすればいいのでしょうか?
単純にアーカイブしたいアカウントのトップをアーカイブしても
ある程度直近のツイートがアーカイブされるだけで
スクロールした場合などの古いツイートはアーカイブされないのですが…
現状個別にツイート開いてアーカイブするしかないんでしょうか?

678:名無しさん@お腹いっぱい。
22/12/10 16:22:21.70 .net
このサイトでアーカイブすればいい
URLリンク(archive.md)

679:名無しさん@お腹いっぱい。
22/12/10 19:54:05.27 .net
最近waybackmachineでツイートのアーカイブがされにくくなってる。
俺は手動で片っ端から保存してるけど、量が膨大過ぎて到底追いつかん。

680:名無しさん@お腹いっぱい。
22/12/12 11:30:16.44 .net
されにくい、じゃなくてされてない
そのせいで今まで通り勝手に録ってくれれば残ってた物が残らなくなって滅茶苦茶腹立つ
そうでなくても勝手に録られてた頃でさえそれ以前の過去は録ってくれない無能だった
人一人の力で1日にアーカイブにブッ込めるのは1000くらいが限界だっての

681:名無しさん@お腹いっぱい。
22/12/12 17:23:21.95 .net
そんなにアーカイブをするのは確固たる出典が欲しいウィキペディアン?

682:名無しさん@お腹いっぱい。
22/12/12 19:02:11.51 .net
保存したページ見ようとしたら延々と読み込みが続いて見れないんだがサイト側が保存対策でもしたんだろうか

683:名無しさん@お腹いっぱい。
22/12/12 23:24:17.63 .net
Twitterは保存する人が多すぎで時間かかるわって表示されるね

684:名無しさん@お腹いっぱい。
22/12/13 18:18:36.60 .net
>>670
archive.md は古い端末からだと画像認証やり難くなってしまった…。
11月までは画像認証じたい要求されなかったけど

685:名無しさん@お腹いっぱい。
22/12/13 18:23:17.04 .net
>>675
Nitter変換( >>488 )で拓取るほうがたぶん楽。
Twitter公式はUIがムチャクチャ重くなってしまった

686:名無しさん@お腹いっぱい。
22/12/14 00:48:53.31 .net
Nitterも本家ツイートが消えると連動して消えるから結局手間は同じなんだよな…
ちょっとくらい猶予くれたら完璧に録れるのだが

687:名無しさん@お腹いっぱい。
22/12/14 13:53:28.10 .net
>>669
>>623

688:名無しさん@お腹いっぱい。
22/12/14 16:15:23.92 .net
また取得エンジン不具合か・・・

689:名無しさん@お腹いっぱい。
22/12/15 10:52:17.55 .net
>>670
>>679
ありがとうございます
もう故人になったアカとかのアーカイブが捗ります
参考にさせていただきます

690:名無しさん@お腹いっぱい。
22/12/15 14:09:48.67 .net
最近サムネが沢山あるサイトを開くとサムネが表示されない事がある

691:名無しさん@お腹いっぱい。
22/12/17 18:54:58.46 .net
archive todayはwaybackmachineと違って全ツイートが保存できるんでしょうか?
初歩的な質問で、すみません

692:名無しさん@お腹いっぱい。
22/12/18 18:14:08.31 .net
>>683
全ツイート保存は無理だけどtodayの方が保存件数多いみたいね
数えてみたらWayBack で保存されるツイートは40件くらいだけど、 today は百数十件保存されてた
全ツイート保存は愚直に1ツイートずつ投げていくしかない

693:名無しさん@お腹いっぱい。
22/12/19 08:35:36.36 .net
例のWayback拒否ニュースサイトが記事にWaybackのリンクを貼るのはおかしいだろ

694:名無しさん@お腹いっぱい。
22/12/19 23:05:57.30 .net
>>684
それが数百程度で済むならいいんだが数千、数万超えると自分一人だけの力だと到底取り切れなくなる
生半可な覚悟で挑戦して、中途半端に記録して挫折して、再開するかと思ったら鍵かけられたり最悪ツイ消し垢消し
これで何度苛付かされたか!
指定の垢のツイートをひたすら遡ってツイート1つ1つのURLをWaybackmachineにブチ込んでいく
これやらせるの別に生身の人間じゃなくても十分可能だと思うんだけど

695:名無しさん@お腹いっぱい。
22/12/19 23:45:24.38 .net
todayはIPバレるみたいな話がありましたけど、今もそうなんですか?

696:名無しさん@お腹いっぱい。
22/12/20 07:55:12.74 .net
>>687
URLリンク(archive.is)
2020 年に入ってからお漏らししなくなってるかな。

697:名無しさん@お腹いっぱい。
22/12/20 17:03:59.68 .net
>>688
そうなんですね
ありがとうございます

698:名無しさん@お腹いっぱい。
22/12/23 12:23:17.31 .net
過去tweetの確認ですがwayback machineでjsonで保存されているやつは中身を見ることは出来ないんでしょうか

699:名無しさん@お腹いっぱい。
22/12/24 16:14:40.64 .net
>>690
俺が知ってる限りない
もし元のツイートが現存してるならお手数おかけするが改めて取り直しておいて欲しい
マジで無能だと思うよ 折角取ったのにjsonとかいうよくわからん形式で保存しよってからに

700:名無しさん@お腹いっぱい。
22/12/24 16:56:04.32 .net
>>691
ありがとうございます 承知いたしました

701:名無しさん@お腹いっぱい。
22/12/25 12:02:04.99 .net
>>690
textがツイート本文なので、そこを変換すれば見れるよ
URLリンク(tech-unlimited.com)
jsonでも表示形式が違うだけでデータは保存されてる

702:名無しさん@お腹いっぱい。
22/12/26 12:48:15.60 .net
もうすぐ2023か…
インターネット上の情報がまた一つ年をとるのか…
残していかないとな

703:名無しさん@お腹いっぱい。
22/12/26 14:51:38.79 .net
>>693
見ること出来ました!大変ありがとうございました!

704:名無しさん@お腹いっぱい。
22/12/27 16:49:50.40 .net
広告画像のドメインは大半がブロックリストに入ってるけど
個人的にはああいうのも重要だと思うんだけどなぁ

705:名無しさん@お腹いっぱい。
23/01/01 12:33:10.80 .net
ゲームアツマールがサービス終了するらしいけど
サイトの構造的にアーカイブは厳しいかな?

706:
23/01/01 14:05:31.41 .net
ツイッターはモバイル用サイト(mobile.~)だと正常に保存されないのね
PC用サイトのURLを入力して保存する必要があるからスマホからだと気をつけないとならない

707:名無しさん@お腹いっぱい。
23/01/01 15:17:22.03 .net
>>698



708: φ(..)メモメモ



709:名無しさん@お腹いっぱい。
23/01/03 01:24:57.31 .net
archive todayでインスタ保存できるんやね
今日初めて知った
インスタはウェイバックで保存できないが故に記録が手薄になってるのは禍根を残すと思う

710:名無しさん@お腹いっぱい。
23/01/03 05:00:02.49 .net
>>700
Wayback Machineで上手く保存できない所はArchive today使ってるなぁ
例えばboothの商品ページとかArchive today使ってる一方商品画像そのものはWayback Machineで録ってる
結局は最終的に原本が消える前にどこかに残せさえすればいい

711:名無しさん@お腹いっぱい。
23/01/07 11:52:29.07 .net
中の人曰く去年帯域幅を80Gbpsから140Gbpsに増やしたらしい
twitter.com/textfiles/status/1547365784770543618
だからちょっと早くなってるはず
(deleted an unsolicited ad)

712:名無しさん@お腹いっぱい。
23/01/08 12:48:26.32 .net
twitterの保存がスムーズになってるな

713:名無しさん@お腹いっぱい。
23/01/08 20:48:19.82 .net
今InternetArchiveの総データ量って
何PBになってるんだろうか
てかPBって冷静に考えるとクソ多いな

714:名無しさん@お腹いっぱい。
23/01/08 23:56:10.95 .net
>>704
運用コスト馬鹿にならないだろうなぁ
ストレージ(サーバ)に回線にデータバックアップに、気が遠くなりそう

715:名無しさん@お腹いっぱい。
23/01/09 00:42:30.99 .net
2021年12月時点で保存容量は212ペタバイトみたいだね
そのうち57ペタバイトをwaybackが占めているんだと
URLリンク(archive.org)
そこらのサービスと違ってうっかりデータ破損でもした時に
賠償しますでは済まないのが恐ろしいね
人類が将来参照できる史料が一瞬で失われてしまうんだもの

716:名無しさん@お腹いっぱい。
23/01/09 00:46:01.79 .net
保存容量というよりデータ量といった方が正しいか

717:名無しさん@お腹いっぱい。
23/01/09 19:41:49.29 .net
インターネットアーカイブそのもののバックアップが将来的には必要だと思うけどね

718:名無しさん@お腹いっぱい。
23/01/10 08:41:36.86 .net
There was a delay in registering this snapshot with the Wayback Machine.
The snapshot may not be available right now, please try again later.
→このスナップショットを Wayback Machine に登録するのに遅延がありました。
スナップショットは現在利用できない可能性があります。後でもう一度試してください。
後日忘れたころに取得できてるなら良いが、やり直さなきゃなんない可能性て・・・

719:名無しさん@お腹いっぱい。
23/01/10 16:06:49.97 .net
スナップショット取得完了後にその保存ページを確認しても、のちに消えている可能性があるということ?

720:名無しさん@お腹いっぱい。
23/01/10 23:41:52.58 .net
そう、それが心配
せっかく時間かけても消えてたら(取得できてなかったら)悲しい
今は「Job failed.」が出やすい
ようやく取得できたと思ったら今度は・・・
There was a delay in registering this snapshot with the Wayback Machine.
You may be redirected to a previous version right now. This snapshot will be available later.
→このスナップショットを Wayback Machine に登録するのに遅延がありました。
現在、以前のバージョンにリダイレクトされる場合があります。このスナップショットは後で利用可能になります。
本当に可能なら良いが

721:名無しさん@お腹いっぱい。
23/01/10 23:49:16.56 .net
取得できたと思ったら→Doneになったと思ったら(取得できてるのかはまだ確実ではない)

722:名無しさん@お腹いっぱい。
23/01/19 00:07:06.28 .net
最近のインターネットアーカイブ、この辺の時間ずっと落ちてるな

723:名無しさん@お腹いっぱい。
23/01/19 06:33:50.54 .net
>>713
ありゃりゃ

724:名無しさん@お腹いっぱい。
23/01/20 18:32:14.50 .net
今日はいつもに増して「Job failed.」が出る
やり直しも1分あたり3件までのしばりで非効率

725:名無しさん@お腹いっぱい。
23/01/21 10:48:18.26 .net
皆様におかれましては既知であるとは思われますが、今やっと見付けたので共有いたしまする
Time Travel
timetravel.mementoweb.org
あっちこっちのWeb archiveを串刺しで検索してくれる

726:名無しさん@お腹いっぱい。
23/01/21 15:18:06.87 .net
>>716
それは自分が
「このページの魚拓をとりたい」
と思ってもとれないんですよね。
たしか。

727:名無しさん@お腹いっぱい。
23/01/21 16:19:21.13 .net
某有名人のインスタ調べたけど全くと言っていいほど保存されてなくて笑った。
もう少しインスタやらSNSやらの保存も強化しても良いんじゃないかと思った(まあ口出すなら寄付しろと言われるかもしれんが)

728:名無しさん@お腹いっぱい。
23/01/21 21:17:47.90 .net
>>717
> あっちこっちのWeb archiveを串刺しで検索してくれる

729:名無しさん@お腹いっぱい。
23/01/22 02:50:05.38 .net
Internet Archive にアップロードされた DVD-ROM ディスクイメージから
中のファイルを直接ダウンロードすると、1 ギガバイトあたりでちょん切れる問題
URLリンク(archive.org)
ここの TI308752D0A_2.ISO の中の ZZIMAGES/ZZIMAGES/PREINST7.SWM をダウンロードすると、
1485739900 バイトのはずが 1074528256 バイトで終わってしまう。
HTTP の Content-Length ヘッダは送られて来ないので、ダウンローダでの検知は不可能。
元の .iso をダウンロードすれば済む話なんだけどね。
パッケージの中のファイルが見える機能は便利でよく使うけど、こういう制限があるんだなぁ、と。
UDF 以外のファイルシステム (ISO 9660 とか Joliet とか) でも起こるかは未確認。
他のパッケージ形式 (.tar とか .7z とか .zip とか) で起こるかも未確認。


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch