Internet Archive総合 (web.archive.org) #4at ESITE
Internet Archive総合 (web.archive.org) #4 - 暇つぶし2ch600:名無しさん@お腹いっぱい。
22/10/02 14:01:31.65 .net
Sorry
Job failed

601:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
「Job failed」今日はやたら出るなぁ
取得したいサイトとの相性の問題かと思ったらあちらこちらでそんな感じ

602:名無しさん@お腹いっぱい。
22/10/06 08:09:49.83 .net
>>586 自分が初めて見る前のデータが見たいだけですが…。
仕事中などで見られなかったデータとか。
アクティブチームも最近全然見てないパターン多すぎ。
ちゃんとの人の事考えてるのか?
もう少し早くできないものか。

603:名無しさん@お腹いっぱい。
22/10/06 10:56:37.49 .net
>>595
文句言ってる暇があったら自分で実行すればいいだけでは?
アクティブチームが誰だかは知らんが、ArchiveTeamは誰でも参加できるぞ
URLリンク(wiki.archiveteam.org)

604:名無しさん@お腹いっぱい。
22/10/07 08:02:54.16 .net
インターネットアーカイブもすべてのYouTubeのURLを保存してるわけではないと思いますが・・・。
URLリンク(www.youtube.com)
URLリンク(www.youtube.com)
URLリンク(www.youtube.com)
これらのページの保存が遅すぎる。

605:名無しさん@お腹いっぱい。
22/10/07 23:59:11.39 .net
上でも書いてる人いるけど、/shorts/から始まるYoutubeのショート動画って動画ファイルの自動保存対応してないのかな?
watch?v=に置き換えたURLでも見れるので、念の為両方のURLで保存してるけど、ショート動画のファイルだけ保存できていないような・・・

606:名無しさん@お腹いっぱい。
22/10/08 15:48:17.11 .net
動画まで保存するとコスト凄そうだな

607:名無しさん@お腹いっぱい。
22/10/10 01:58:16.83 .net
>>592 最近ツイッターの公開直後のデータがアーカイブされなくなっているのはこれが原因だとしたら納得いく。
アクティブチームが膨大な数のツイート1つ1つ手動でアーカイブさせるのはめんどくさいのはわかるけど・・・。

608:名無しさん@お腹いっぱい。
22/10/10 01:59:45.27 .net
>>592 もしかするとYouTubeの動画の方もアーカイブが自動で取られなくなってるかもしれない。

609:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
>>598 >>601
ほう

610:名無しさん@お腹いっぱい。
[ここ壊れてます] .net
つべとれてないね

611:名無しさん@お腹いっぱい。
22/10/11 17:46:02.12 .net
全くだ。
URLリンク(www.youtube.com)
上記のURLの保存が遅すぎる。
何やってんだ担当者は!

612:名無しさん@お腹いっぱい。
22/10/16 00:14:47.38 .net
>>604
人に文句言ってないで自分で保存しろ

613:名無しさん@お腹いっぱい。
22/10/16 10:20:41.68 .net
YouTubeの自動アーカイブって容量的に非現実的に思える

614:名無しさん@お腹いっぱい。
22/10/16 18:14:42.48 .net
でも本家はそれでやっていっているんでしょう?

615:名無しさん@お腹いっぱい。
22/10/16 19:05:29.39 .net
やっていってないぞ
クローラーは全ての動画を保存していないし、SPNでも全て保存する訳ではない。(CNNとかのニュースは割と保存される)
それに、インターネットアーカイブの人も「少数の人しか興味がなく、長い動画を、メタデータを付加することなく、ただインターネットアーカイブに突っ込むのはやめてね」(訳)と言っている。
URLリンク(www.reddit.com)
それでも雑談とゲームの動画をすぐに保存してほしいのなら、寄付するといいよ。開発に参加するのもいい。

616:名無しさん@お腹いっぱい。
22/10/17 19:38:48.84 .net
選別はどういう原理なんだろう

617:名無しさん@お腹いっぱい。
22/10/17 23:52:20.94 .net
アーカイブって著作権引っかかりそうで
手軽にできない
一応引用って形で引っかからないんだろうか
正直ページとしては残しておきたいもの結構あるんだけどなぁ…

618:名無しさん@お腹いっぱい。
22/10/18 01:15:56.16 .net
>>610
SPNの話ならフェアユースで合法だよ

619:名無しさん@お腹いっぱい。
22/10/18 13:57:43.00 .net
dtiがサービス終了だって

620:名無しさん@お腹いっぱい。
22/10/21 12:04:03.87 .net


621:名無しさん@お腹いっぱい。
22/10/23 09:50:10.13 .net
ファボ1万以上のツイートでもアーカイブチームが取りに来なくなってるな
どうしたんだろ?Twitter社からお𠮟りでも受けた?

622:名無しさん@お腹いっぱい。
22/10/25 10:08:14.34 .net
みんなSPNの話ばっかりでアイテムのアップロードは使わないの?

623:名無しさん@お腹いっぱい。
22/10/26 00:05:19.14 .net
ここ1週間何度試しても「Cannot resolve host (URL)」と表示されて取得できないサイトが
前はなんのこともなく取得できてたのに・・・

624:名無しさん@お腹いっぱい。
22/10/30 05:24:56.68 .net
Internal Server Error for URLリンク(www.excite.co.jp) (HTTP status=500).

625:名無しさん@お腹いっぱい。
22/11/01 19:41:42.25 .net
二人くらい垢消しが確定してるユーザーのツイートを一人で手動で片っ端からアーカイブ取ってたけど
量多くて時間はかかるし自分が動かなきゃ誰もやらんから自分がしくじったら一生残せなくなるという罪悪感もあるしで
兎に角ツラい こういう不毛な作業こそ全部ロボットにやらせるべきやろ
なんかいいツールでもないもんかねぇ

626:名無しさん@お腹いっぱい。
22/11/03 10:45:34.96 .net
>>605 だから仕事や睡眠の関係で早く保存できない場合があるから自分で早く保存しろと言われても・・・。

627:名無しさん@お腹いっぱい。
22/11/03 10:50:22.06 .net
>>614 ・・・ツイッター社からお叱りを受けたとしたらツイッターのページの自動アーカイブが出来なくなったのも納得がいく。
権利関係かな?

628:名無しさん@お腹いっぱい。
22/11/05 19:47:39.33 .net
archive.stが取れない…

629:名無しさん@お腹いっぱい。
22/11/06 12:06:34.61 .net
Saving page URLリンク(w.atwiki.jp)
Worker exited prematurely: signal 15 (SIGTERM) Job: 644.

630:名無しさん@お腹いっぱい。
22/11/06 12:24:09.00 .net
>>618
URLリンク(github.com)
これでURL集めて後はその辺のスクリプトでアーカイブすればいい

631:名無しさん@お腹いっぱい。
22/11/09 17:23:42.06 .net
YouTube動画の保存初めてやってみたんだけど
すごい時間かかるうえエラー出て何度やってみても保存できないのも多いし
うまく保存できてもコメント欄はなぜか明らかに違う動画のものだったり文字化けしまくりでめちゃくちゃだった…
あんまり使えないな

632:名無しさん@お腹いっぱい。
22/11/10 06:12:44.32 .net
12月までに保存じゃー
URLリンク(geolog.mydns.jp)

633:名無しさん@お腹いっぱい。
22/11/12 06:08:18.30 .net
ツイッター保存するとほぼ全てfirst archiveになる
何万もいいねされてバズってるのでもそう
もうツイッターは一切自動保存しないのかな…

634:名無しさん@お腹いっぱい。
22/11/12 11:26:29.99 .net
今週SPNで保存してもfaviconだけしか保存されない例が何回も起きたんだが
24時間後に同じURLを確認するとやっぱり保存できてなかったわ
保存できてるか確認したほうがいいよ

635:名無しさん@お腹いっぱい。
22/11/13 16:46:40.56 .net
>>625
zipかなんかに全部か分割して別の場所に投稿してほしい。
管理人見かけたら言っといて。

636:名無しさん@お腹いっぱい。
22/11/14 13:49:25.52 .net
>>625
学区以外のwww.geocitiesのページ開こうと思っても
まともに開けないくらい重いんだが

637:名無しさん@お腹いっぱい。
22/11/14 20:47:39.81 .net
>>622
このエラーが出たら数分後に自動で保存をやり直してくれる時とやってくれない時があるなー。
最近出るようになった他のセグメンテーション系エラーも同じ感じ。
>>624
今の所、コメント欄のJavaScript周りがおかしいので直してほしいね。

638:名無しさん@お腹いっぱい。
22/11/14 22:52:15.62 .net
今日は調子が良い気がするようなしないような

639:名無しさん@お腹いっぱい。
22/11/16 04:29:12.79 .net
5ちゃんのアーカイブもGone.になってしまうの多い
最近ここ調子悪いけど大丈夫なんかね
寄付金のお願いもずっと出てるし

640:名無しさん@お腹いっぱい。
22/11/16 20:08:56.54 .net
>>632
普通のブラウザでも同じ鯖に連続してアクセスするとGone.になるから、
時間を置いて取得するしかない。それがどのタイミングなのかは分からないけど

641:名無しさん@お腹いっぱい。
22/11/16 21:36:23.91 .net
締め付け厳しくなってるのか、
20分ぐらいつながらないことが

642:名無しさん@お腹いっぱい。
22/11/17 17:20:37.12 .net
worldstarhiphop.com
200万以上も魚拓が保存されているようだが、excludedと表示される

643:名無しさん@お腹いっぱい。
22/11/18 10:43:43.03 .net
最近重すぎる

644:名無しさん@お腹いっぱい。
22/11/18 19:58:05.57 .net
今日は「Job failed.」がやたら出るなぁ
あまりやり直すと1分あたり3件までのしばりで引っかかる
前はもう少しできたっけ・・・これも締め付け厳�


645:オくなってるような 取得できてるのかも怪しくて確認すると「Fail with status: 503」



646:名無しさん@お腹いっぱい。
22/11/18 22:06:53.56 .net
システム運用がカツカツなんだろうな

647:名無しさん@お腹いっぱい。
22/11/19 00:38:40.53 .net
SPNの最新ファイルを見てみると、
18日9時〜14時33分(日本時間18日午後6時〜午後11時33分)の間はファイルが全く追加されてなかったので、
5時間ほど保存できなかったっぽい
この間に保存しようとしたらjob failedエラーだらけだった
今は問題なく保存できるぜ

648:名無しさん@お腹いっぱい。
22/11/22 04:48:34.40 .net
WaybackMachineとなOpenLibraryとか
もっと知られてもいいもんだろこれ
知ってるのと知らないのじゃ全然便利さが違う
そもそもInternetArchiveが知られて無さすぎる

649:名無しさん@お腹いっぱい。
22/11/24 06:21:48.95 .net
そりゃまあ一般人はネットのアーカイブなんてこれっぽっちも
気にしてないからな

650:名無しさん@お腹いっぱい。
22/11/25 01:50:48.75 .net
誰も動かないから自分が動かなきゃいけない
自分がアーカイブ間に合っていれば遺せたのに
こんな使命感持っちまったせいで病んじまったわ
消える前に残すのも大事だが既に消えてしまった物を「消える前に残す」以外の手段で発掘する方法ってないもんかね

651:名無しさん@お腹いっぱい。
22/11/25 08:18:14.39 .net
哲学的じゃの
もうどうにも取り戻せないから「消えてしまった」と言うのだよ

652:名無しさん@お腹いっぱい。
22/11/25 20:11:50.98 .net
大げさだけどなんか人の命みたいだ
でも亡くなった人が自分の生きた証にみたいに一生懸命残してたブログとかが跡形もなく消えてしまってたりすると…悲しい

653:名無しさん@お腹いっぱい。
22/11/26 23:33:08.71 .net
また>>547に近い事態で困ってて別のブラウザでアクセスし直したらつながった
たまにつながらないこともあるが、回復は先に使ってたブラウザより早い
同じ時間帯に使い比べたら片方つながらないのに、もう片方はなんのこともなくつながったり
たまたまか、それともブラウザとの相性の問題か・・・

654:名無しさん@お腹いっぱい。
22/11/27 04:04:49.75 .net
>>645
まぁロードバランサが入ってるだろうし、アクセス毎に運試しをやってるようなもんだな

655:名無しさん@お腹いっぱい。
22/11/27 17:26:01.10 .net
前は重くても繋がってはいたが
最近はアクセスすら出来ないことが多い

656:名無しさん@お腹いっぱい。
22/11/27 17:46:34.00 .net
本当に繋がんないね
資金繰りヤバいんじゃないかと心配になる

657:名無しさん@お腹いっぱい。
22/11/27 19:23:05.98 .net
archive.todayを代用してください。

658:名無しさん@お腹いっぱい。
22/11/27 20:58:34.67 .net
結局ローカルでも保存するしかないやん

659:名無しさん@お腹いっぱい。
22/11/28 02:04:21.68 .net
Wayback Machine がダウンしているかタイムアウトで保存できない、
あるいは、保存に成功したのを開けないのが続いてて困る
URLリンク(archive.is)

660:名無しさん@お腹いっぱい。
22/12/01 08:14:56.48 .net
>>639
最新ファイルはどこで見れるか教えていただけませんか・

661:名無しさん@お腹いっぱい。
22/12/01 08:30:40.22 .net
>>652
>>269

662:名無しさん@お腹いっぱい。
22/12/01 09:32:56.82 .net
ありがとうございます

663:名無しさん@お腹いっぱい。
22/12/03 09:15:41.02 .net
テスト

664:名無しさん@お腹いっぱい。
22/12/03 09:16:59.78 .net
URLリンク(www.youtube.com)
URLリンク(www.youtube.com)
アクティブチームの皆さん、上記のURLのアーカイブが遅いぞ、もしかしてこの時はW杯で忙しかったのか?
自分は寝てました。

665:名無しさん@お腹いっぱい。
22/12/04 07:15:29.49 .net
>>656
URLリンク(archive.ragtag.moe)
URLリンク(hololivevideos.download)

666:名無しさん@お腹いっぱい。
22/12/04 10:51:22.42 .net
動画はtubeupで上げれば良くね?
URLリンク(github.com)

667:名無しさん@お腹いっぱい。
22/12/04 15:29:19.99 .net
>>658 権利が無いから無理です。

668:名無しさん@お腹いっぱい。
22/12/04 19:31:01.38 .net
もしInternetArchiveが無くなったら
割とひどい文化的な痛手になるんじゃないだろうか
どっか国立のサービスにデータ引き渡すのかな

669:名無しさん@お腹いっぱい。
22/12/04 22:22:21.88 .net
YouTubeの動画の再生ページでもアーカイブが自動で取られなくなっている・・・?

670:名無しさん@お腹いっぱい。
22/12/05 17:04:47.22 .net
>>660
ジオシティーズがなくなった時の損失の比ではなさそうだな…

671:名無しさん@お腹いっぱい。
22/12/06 18:59:20.83 .net
ここ最近、公開直後にアーカイブされてないこと多いよな。
運営も最善を尽くすと言っていたが、やはり難しいのか・・・?
と思ってたら対象の下記のURLをアーカイブ保存するのに時間がかかっている。
URLリンク(www.youtube.com)
もしかするとシステムのエラーが引っ掛かっているかも・・・。

672:名無しさん@お腹いっぱい。
22/12/07 14:49:59.21 .net
そもそも動画保存はオマケなので
確実にするならローカルに保存すべき

673:名無しさん@お腹いっぱい。
22/12/07 18:58:22.97 .net
私は動画公開直後のページのデータを求めているのです。

674:名無しさん@お腹いっぱい。
22/12/07 23:36:49.30 .net
>>665
youtubeのページのデータならなおさら不安定だと思うが
yt-dlpとかでメタデータごと落とせば?

675:名無しさん@お腹いっぱい。
22/12/08 00:06:43.49 .net
>>664
何でもそうだが誰でも好きな時に見れるようにしてようやくアーカイブと言えるんだよなぁ
自分一人だけの手元にずっとあっても意味がないんだよ

676:名無しさん@お腹いっぱい。
22/12/09 18:57:23.93 .net
Twitterマスク氏、15億アカウントを削除すると発表 対象は休眠ユーザー
スレリンク(newsplus板)
これ故人のも全部消えてしまうんだろうか

677:名無しさん@お腹いっぱい。
22/12/10 13:28:20.80 .net
Twitterのフルアーカイブってどうすればいいのでしょうか?
単純にアーカイブしたいアカウントのトップをアーカイブしても
ある程度直近のツイートがアーカイブされるだけで
スクロールした場合などの古いツイートはアーカイブされないのですが…
現状個別にツイート開いてアーカイブするしかないんでしょうか?

678:名無しさん@お腹いっぱい。
22/12/10 16:22:21.70 .net
このサイトでアーカイブすればいい
URLリンク(archive.md)

679:名無しさん@お腹いっぱい。
22/12/10 19:54:05.27 .net
最近waybackmachineでツイートのアーカイブがされにくくなってる。
俺は手動で片っ端から保存してるけど、量が膨大過ぎて到底追いつかん。

680:名無しさん@お腹いっぱい。
22/12/12 11:30:16.44 .net
されにくい、じゃなくてされてない
そのせいで今まで通り勝手に録ってくれれば残ってた物が残らなくなって滅茶苦茶腹立つ
そうでなくても勝手に録られてた頃でさえそれ以前の過去は録ってくれない無能だった
人一人の力で1日にアーカイブにブッ込めるのは1000くらいが限界だっての

681:名無しさん@お腹いっぱい。
22/12/12 17:23:21.95 .net
そんなにアーカイブをするのは確固たる出典が欲しいウィキペディアン?

682:名無しさん@お腹いっぱい。
22/12/12 19:02:11.51 .net
保存したページ見ようとしたら延々と読み込みが続いて見れないんだがサイト側が保存対策でもしたんだろうか

683:名無しさん@お腹いっぱい。
22/12/12 23:24:17.63 .net
Twitterは保存する人が多すぎで時間かかるわって表示されるね

684:名無しさん@お腹いっぱい。
22/12/13 18:18:36.60 .net
>>670
archive.md は古い端末からだと画像認証やり難くなってしまった…。
11月までは画像認証じたい要求されなかったけど

685:名無しさん@お腹いっぱい。
22/12/13 18:23:17.04 .net
>>675
Nitter変換( >>488 )で拓取るほうがたぶん楽。
Twitter公式はUIがムチャクチャ重くなってしまった

686:名無しさん@お腹いっぱい。
22/12/14 00:48:53.31 .net
Nitterも本家ツイートが消えると連動して消えるから結局手間は同じなんだよな…
ちょっとくらい猶予くれたら完璧に録れるのだが

687:名無しさん@お腹いっぱい。
22/12/14 13:53:28.10 .net
>>669
>>623

688:名無しさん@お腹いっぱい。
22/12/14 16:15:23.92 .net
また取得エンジン不具合か・・・

689:名無しさん@お腹いっぱい。
22/12/15 10:52:17.55 .net
>>670
>>679
ありがとうございます
もう故人になったアカとかのアーカイブが捗ります
参考にさせていただきます

690:名無しさん@お腹いっぱい。
22/12/15 14:09:48.67 .net
最近サムネが沢山あるサイトを開くとサムネが表示されない事がある

691:名無しさん@お腹いっぱい。
22/12/17 18:54:58.46 .net
archive todayはwaybackmachineと違って全ツイートが保存できるんでしょうか?
初歩的な質問で、すみません

692:名無しさん@お腹いっぱい。
22/12/18 18:14:08.31 .net
>>683
全ツイート保存は無理だけどtodayの方が保存件数多いみたいね
数えてみたらWayBack で保存されるツイートは40件くらいだけど、 today は百数十件保存されてた
全ツイート保存は愚直に1ツイートずつ投げていくしかない

693:名無しさん@お腹いっぱい。
22/12/19 08:35:36.36 .net
例のWayback拒否ニュースサイトが記事にWaybackのリンクを貼るのはおかしいだろ

694:名無しさん@お腹いっぱい。
22/12/19 23:05:57.30 .net
>>684
それが数百程度で済むならいいんだが数千、数万超えると自分一人だけの力だと到底取り切れなくなる
生半可な覚悟で挑戦して、中途半端に記録して挫折して、再開するかと思ったら鍵かけられたり最悪ツイ消し垢消し
これで何度苛付かされたか!
指定の垢のツイートをひたすら遡ってツイート1つ1つのURLをWaybackmachineにブチ込んでいく
これやらせるの別に生身の人間じゃなくても十分可能だと思うんだけど

695:名無しさん@お腹いっぱい。
22/12/19 23:45:24.38 .net
todayはIPバレるみたいな話がありましたけど、今もそうなんですか?

696:名無しさん@お腹いっぱい。
22/12/20 07:55:12.74 .net
>>687
URLリンク(archive.is)
2020 年に入ってからお漏らししなくなってるかな。

697:名無しさん@お腹いっぱい。
22/12/20 17:03:59.68 .net
>>688
そうなんですね
ありがとうございます

698:名無しさん@お腹いっぱい。
22/12/23 12:23:17.31 .net
過去tweetの確認ですがwayback machineでjsonで保存されているやつは中身を見ることは出来ないんでしょうか

699:名無しさん@お腹いっぱい。
22/12/24 16:14:40.64 .net
>>690
俺が知ってる限りない
もし元のツイートが現存してるならお手数おかけするが改めて取り直しておいて欲しい
マジで無能だと思うよ 折角取ったのにjsonとかいうよくわからん形式で保存しよってからに

700:名無しさん@お腹いっぱい。
22/12/24 16:56:04.32 .net
>>691
ありがとうございます 承知いたしました

701:名無しさん@お腹いっぱい。
22/12/25 12:02:04.99 .net
>>690
textがツイート本文なので、そこを変換すれば見れるよ
URLリンク(tech-unlimited.com)
jsonでも表示形式が違うだけでデータは保存されてる

702:名無しさん@お腹いっぱい。
22/12/26 12:48:15.60 .net
もうすぐ2023か…
インターネット上の情報がまた一つ年をとるのか…
残していかないとな

703:名無しさん@お腹いっぱい。
22/12/26 14:51:38.79 .net
>>693
見ること出来ました!大変ありがとうございました!

704:名無しさん@お腹いっぱい。
22/12/27 16:49:50.40 .net
広告画像のドメインは大半がブロックリストに入ってるけど
個人的にはああいうのも重要だと思うんだけどなぁ

705:名無しさん@お腹いっぱい。
23/01/01 12:33:10.80 .net
ゲームアツマールがサービス終了するらしいけど
サイトの構造的にアーカイブは厳しいかな?

706:
23/01/01 14:05:31.41 .net
ツイッターはモバイル用サイト(mobile.~)だと正常に保存されないのね
PC用サイトのURLを入力して保存する必要があるからスマホからだと気をつけないとならない

707:名無しさん@お腹いっぱい。
23/01/01 15:17:22.03 .net
>>698



708: φ(..)メモメモ



709:名無しさん@お腹いっぱい。
23/01/03 01:24:57.31 .net
archive todayでインスタ保存できるんやね
今日初めて知った
インスタはウェイバックで保存できないが故に記録が手薄になってるのは禍根を残すと思う

710:名無しさん@お腹いっぱい。
23/01/03 05:00:02.49 .net
>>700
Wayback Machineで上手く保存できない所はArchive today使ってるなぁ
例えばboothの商品ページとかArchive today使ってる一方商品画像そのものはWayback Machineで録ってる
結局は最終的に原本が消える前にどこかに残せさえすればいい

711:名無しさん@お腹いっぱい。
23/01/07 11:52:29.07 .net
中の人曰く去年帯域幅を80Gbpsから140Gbpsに増やしたらしい
twitter.com/textfiles/status/1547365784770543618
だからちょっと早くなってるはず
(deleted an unsolicited ad)

712:名無しさん@お腹いっぱい。
23/01/08 12:48:26.32 .net
twitterの保存がスムーズになってるな

713:名無しさん@お腹いっぱい。
23/01/08 20:48:19.82 .net
今InternetArchiveの総データ量って
何PBになってるんだろうか
てかPBって冷静に考えるとクソ多いな

714:名無しさん@お腹いっぱい。
23/01/08 23:56:10.95 .net
>>704
運用コスト馬鹿にならないだろうなぁ
ストレージ(サーバ)に回線にデータバックアップに、気が遠くなりそう

715:名無しさん@お腹いっぱい。
23/01/09 00:42:30.99 .net
2021年12月時点で保存容量は212ペタバイトみたいだね
そのうち57ペタバイトをwaybackが占めているんだと
URLリンク(archive.org)
そこらのサービスと違ってうっかりデータ破損でもした時に
賠償しますでは済まないのが恐ろしいね
人類が将来参照できる史料が一瞬で失われてしまうんだもの

716:名無しさん@お腹いっぱい。
23/01/09 00:46:01.79 .net
保存容量というよりデータ量といった方が正しいか

717:名無しさん@お腹いっぱい。
23/01/09 19:41:49.29 .net
インターネットアーカイブそのもののバックアップが将来的には必要だと思うけどね

718:名無しさん@お腹いっぱい。
23/01/10 08:41:36.86 .net
There was a delay in registering this snapshot with the Wayback Machine.
The snapshot may not be available right now, please try again later.
→このスナップショットを Wayback Machine に登録するのに遅延がありました。
スナップショットは現在利用できない可能性があります。後でもう一度試してください。
後日忘れたころに取得できてるなら良いが、やり直さなきゃなんない可能性て・・・

719:名無しさん@お腹いっぱい。
23/01/10 16:06:49.97 .net
スナップショット取得完了後にその保存ページを確認しても、のちに消えている可能性があるということ?

720:名無しさん@お腹いっぱい。
23/01/10 23:41:52.58 .net
そう、それが心配
せっかく時間かけても消えてたら(取得できてなかったら)悲しい
今は「Job failed.」が出やすい
ようやく取得できたと思ったら今度は・・・
There was a delay in registering this snapshot with the Wayback Machine.
You may be redirected to a previous version right now. This snapshot will be available later.
→このスナップショットを Wayback Machine に登録するのに遅延がありました。
現在、以前のバージョンにリダイレクトされる場合があります。このスナップショットは後で利用可能になります。
本当に可能なら良いが

721:名無しさん@お腹いっぱい。
23/01/10 23:49:16.56 .net
取得できたと思ったら→Doneになったと思ったら(取得できてるのかはまだ確実ではない)

722:名無しさん@お腹いっぱい。
23/01/19 00:07:06.28 .net
最近のインターネットアーカイブ、この辺の時間ずっと落ちてるな

723:名無しさん@お腹いっぱい。
23/01/19 06:33:50.54 .net
>>713
ありゃりゃ

724:名無しさん@お腹いっぱい。
23/01/20 18:32:14.50 .net
今日はいつもに増して「Job failed.」が出る
やり直しも1分あたり3件までのしばりで非効率

725:名無しさん@お腹いっぱい。
23/01/21 10:48:18.26 .net
皆様におかれましては既知であるとは思われますが、今やっと見付けたので共有いたしまする
Time Travel
timetravel.mementoweb.org
あっちこっちのWeb archiveを串刺しで検索してくれる

726:名無しさん@お腹いっぱい。
23/01/21 15:18:06.87 .net
>>716
それは自分が
「このページの魚拓をとりたい」
と思ってもとれないんですよね。
たしか。

727:名無しさん@お腹いっぱい。
23/01/21 16:19:21.13 .net
某有名人のインスタ調べたけど全くと言っていいほど保存されてなくて笑った。
もう少しインスタやらSNSやらの保存も強化しても良いんじゃないかと思った(まあ口出すなら寄付しろと言われるかもしれんが)

728:名無しさん@お腹いっぱい。
23/01/21 21:17:47.90 .net
>>717
> あっちこっちのWeb archiveを串刺しで検索してくれる

729:名無しさん@お腹いっぱい。
23/01/22 02:50:05.38 .net
Internet Archive にアップロードされた DVD-ROM ディスクイメージから
中のファイルを直接ダウンロードすると、1 ギガバイトあたりでちょん切れる問題
URLリンク(archive.org)
ここの TI308752D0A_2.ISO の中の ZZIMAGES/ZZIMAGES/PREINST7.SWM をダウンロードすると、
1485739900 バイトのはずが 1074528256 バイトで終わってしまう。
HTTP の Content-Length ヘッダは送られて来ないので、ダウンローダでの検知は不可能。
元の .iso をダウンロードすれば済む話なんだけどね。
パッケージの中のファイルが見える機能は便利でよく使うけど、こういう制限があるんだなぁ、と。
UDF 以外のファイルシステム (ISO 9660 とか Joliet とか) でも起こるかは未確認。
他のパッケージ形式 (.tar とか .7z とか .zip とか) で起こるかも未確認。

730:名無しさん@お腹いっぱい。
23/01/23 18:48:19.71 .net
PANDORATV
ウェブリブログ
Lobi

1月31日にサービス終了

731:名無しさん@お腹いっぱい。
23/01/28 23:14:25.28 .net
>>721
一度に複数のサービスがあと数日とかこんなん一人~少人数が人力でカバーすんの無理やろ

732:名無しさん@お腹いっぱい。
23/01/29 22:55:14.90 .net
重い

733:名無しさん@お腹いっぱい。
23/01/30 15:32:24.15 .net
LINE BLOG サービス終了のお知らせ
URLリンク(lineblog.me)

734:名無しさん@お腹いっぱい。
23/01/30 15:46:52.71 .net
それにつながらないことが多くて作業を進めづらいし

735:名無しさん@お腹いっぱい。
23/01/30 22:39:37.25 .net
>>724
LINE BLOGさえも終わりか…

736:名無しさん@お腹いっぱい。
23/01/31 20:50:43.21 .net
ただ今制限を設けております

737:名無しさん@お腹いっぱい。
23/02/01 19:31:42.08 .net
一時応答しなくなってた

738:名無しさん@お腹いっぱい。
23/02/02 00:15:32.12 .net
ところでさ、最近Save Page Nowの同時保存制限が3個から4個に変わった?
タブ4個開いて数秒で立て続けに保存ボタン押してもYou have already reachedって出ないんだけど。
5個目は今まで通り出て待たされるが。

739:名無しさん@お腹いっぱい。
23/02/03 11:48:23.73 .net
>>729
>>435のドキュメントのLimitationsを見ると、匿名ユーザーは1分間に4までって書いてるから合ってる
SPN2 APIを使ってる人に聞きたいんだけど、User statusって取得できてる?
ドキュメントの通りに送ってもログインしろよ的なエラーが返ってくるんだが
キーが合ってるのは確認済み

740:名無しさん@お腹いっぱい。
23/02/04 14:47:54.24 .net
>>729
確かにそのようだ
締めつけ厳しい傾向の中でありがたい
あとはつながらないことが多い問題がなぁ

741:名無しさん@お腹いっぱい。
23/02/04 19:44:00.52 .net
Firefoxユーザーだが今年に入ってから接続エラーばかりでweb.archive.org自体見れない状態が続いてたが、
about:supportにある「起動時キャッシュの消去」をしてみたら見れるようになって解決した。
同じ状況の人がいるなら自己責任で試してみるといいよ。一番上のリフレッシュのボタンは初期化されるから押さないように。
これをやった後でもたまに同じエラーが表示されるが前よりはマシになった。

742:名無しさん@お腹いっぱい。
23/02/05 19:08:01.22 .net
どうもユーザの新規登録周りがおかしくなってるような。
メアドやパスワードを入れて、認証メールが来るところまでは良いんだけど
ある条件の時、メールに記載された URL を開いても常に Sorry, we're kinda busy になってしまう。
ユーザ名が英数字のみの時は問題なし、かな漢字や絵文字を使うとダメ。
おそらくプロフページの URL が archive.org/details/@user_数字
となるようなケースで問題が起きてるのではないかと。

743:名無しさん@お腹いっぱい。
23/02/05 21:09:01.70 .net
>>730
問題無いけどなぁ。
GET /save/status/user HTTP/1.1
Accept: application/json
Authorization: LOW xxxxxxxxxxxxxxxx:xxxxxxxxxxxxxxxx
Connection: close
Host: web.archive.org
HTTP/1.1 200 OK
Server: nginx/1.19.5
Date: Sun, 05 Feb 2023 12:06:03 GMT
Content-Type: application/json
Content-Length: 79
Connection: close
x-app-server: wwwb-app53
x-ts: 200
x-tr: 79
X-location: save2stat
X-RL: 0
X-NA: 1
X-Page-Cache: MISS
X-NID: -
Referrer-Policy: no-referrer-when-downgrade
Permissions-Policy: interest-cohort=()
{"available":8,"daily_captures":0,"daily_captures_limit":100000,"processing":0}

744:名無しさん@お腹いっぱい。
23/02/06 11:45:14.45 .net
>>734
まじかー・・・、ありがとう
もう一度確認してみるわ

745:名無しさん@お腹いっぱい。
23/02/12 06:52:17.87 .net
リンク先が画像の場合は自動で保存してほしいんだよなぁ。
サムネだけ保存しても意味無いし。

746:名無しさん@お腹いっぱい。
23/02/12 11:00:21.26 .net
>>736
Save outlinks 使えよ

747:名無しさん@お腹いっぱい。
23/02/12 21:00:12.74 .net
>>736
ChatGPT(人工知能)を学習させといた
URLリンク(i.imgur.com)
問: Internet Archive の wayback machine を知っていますか?
答: はい、私は Internet Archive の Wayback Machine について知っています。(以下省略)
問: Wayback Machine の "Save Page Now" で保存したいページ内のリンク先のページも同時に保存する方法を教えてください。
答: Wayback Machine の "Save Page Now" を使用して、ページ内のリンク先のページも同時に保存することはできません。Wayback Machine は、単独のページを保存することしかできません。(以下省略)
問: あなたの回答は、間違っています。Wayback Machine の "Save Page Now" で外部リンクを保存するには、Internet Archive にログインすると使えるようになる "Save outlinks" オプションを使います。
答: 申し訳あります。その通りです。Wayback Machine の "Save Page Now" 機能には、Internet Archive にログインすると使える "Save outlinks" オプションがあります。このオプションを使用することで、ページ内の外部リンクも同時に保存することができます。再度、お詫び申し上げます。ありがとうございました。

748:名無しさん@お腹いっぱい。
23/02/13 00:02:24.47 .net
>>738
それ学習してるのはログインしてる間だけだろ?
次回ログイン後や他のユーザーからは学習効果ない

749:名無しさん@お腹いっぱい。
23/02/13 19:59:01.85 .net
>>737
ページが複数階層で全部の階層に大量のリンクあっても同じ事言えるんか?
Outlinksぐらいとっくに知っとるわボケが

750:名無しさん@お腹いっぱい。
23/02/13 20:23:37.77 .net
>>740
手で掘れよ、どーせ暇なんだろ?

751:名無しさん@お腹いっぱい。
23/02/15 10:15:39.14 .net
curlでの保存確認が途中から429エラーになる。

752:名無しさん@お腹いっぱい。
23/02/15 18:49:59.88 .net
URLリンク(web.archive.org)
ベタベタ貼ってるアフィのせいか延々と読み込み繰り返して見れないんだが何か対応策とかないかね

753:名無しさん@お腹いっぱい。
23/02/16 04:32:39.08 .net
>>742
Status: 429 - Too Many Requests
API で User status を調べて available が1以上になるまで待ってから次の処理をする
{"available":8,"daily_captures":58,"daily_captures_limit":100000,"processing":0}
{"available":0,"daily_captures":170,"daily_captures_limit":100000,"processing":24}

754:名無しさん@お腹いっぱい。
23/02/16 06:56:24.96 .net
>>738
Bing の AI Chat が使えるようになたので Wayback Machine について
訊いてみたら、AI が Wayback Machine を使ってユーザーの質問に
答えることができると言っていた
URLリンク(i.imgur.com)

755:LBXBB
23/02/16 13:28:08.07 .net
3日前ぐらいから、Internet Archiveに繋がりにくくなっているんですけど、同じ症状に悩んでる同士いますか?

756:名無しさん@お腹いっぱい。
23/02/17 07:27:55.83 .net
「The capture will start in ~* hour, ** minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.」
数分単位はここ数日見かけるが、○時間単位とか久々

757:名無しさん@お腹いっぱい。
23/02/17 12:27:29.15 .net
twitter保存できなくなった?
保存してもツイートが表示されない
自分だけ?

758:名無しさん@お腹いっぱい。
23/02/17 19:10:36.19 .net
>>748
モバイル用URLを突っ込んでない?

759:名無しさん@お腹いっぱい。
23/02/18 08:47:18.37 .net
748とは別だけど、モバイルドメイン関係なく昨日の夜からツイートのURLを保存しようとするとJob failedしか出ないわ

760:名無しさん@お腹いっぱい。
23/02/18 10:55:10.00 .net
てかツイートを保存しようとするとapi.twitter.comの方にリダイレクトされてちゃんと保存されてないな。
Twitter APIの改悪は関係あるのかこれ。

761:名無しさん@お腹いっぱい。
23/02/19 07:27:45.62 .net
>>751
たしかにAPI改悪と関係ありそうだな
アーカイブ取得エンジン(というのかな)がWebブラウザ(擬似)によるアクセスと認識されなくなったとか

762:名無しさん@お腹いっぱい。
23/02/19 13:34:25.72 .net
すまん、748だけど数日経って確認したら保存できてたわ。 保存の仕様が変わってtweetが見れるようになるまで時間がかかることがあるみたい。 直近3200ツイートを同時保存する機能も追加されてる。

763:名無しさん@お腹いっぱい。
23/02/21 00:31:31.75 .net
>>753
>>直近3200ツイートを同時保存する機能
これってどこの話?見つからないけど

764:名無しさん@お腹いっぱい。
23/02/21 21:53:11.17 .net
>>754
save page nowにtwitterのリンク入れると出るよ。

765:名無しさん@お腹いっぱい。
23/02/22 03:03:59.75 .net
>>755
あなたは、選ばれし者のようですね。
 □ Archive up to 3,200 most recent Tweets from this Twitter profile
こちらでは、twitter_archiver は "display: none" として隠されていました。
URLリンク(i.imgur.com)
|<div id="wm-twitter-archiver" style="display: none;">
| <input type="checkbox" name="twitter_archiver" id="twitter_archiver">
| <label for="twitter_archiver">Archive up to 3,200 most recent Tweets from this Twitter profile</label>
|</div>

766:名無しさん@お腹いっぱい。
23/02/22 03:56:35.13 .net
URLリンク(web.archive.org)
クッキーを読んでログインユーザだと判定すると
#wm-capture-outlinks や #wm-capture-screenshot 等を非表示解除してるけど、
それとは別の条件で #wm-twitter-archiver の非表示を解除してるなぁ。

767:名無しさん@お腹いっぱい。
23/02/22 04:37:36.03 .net
>>756
display: none消して、style変更してチェックボックス出現させたら動作してくれたりしない?

768:名無しさん@お腹いっぱい。
23/02/22 10:58:16.45 .net
ボタンが表示される条件分かったわ
トップページのSave Page Nowに入力するだけだと表示されない
遷移後のページ( URLリンク(web.archive.org) )で再入力すると表示される
対応URLはTwittetのプロフィールページ
(mobile.twitter.comは非対応)

769:名無しさん@お腹いっぱい。
23/02/22 10:58:31.78 .net
神機能だな

770:名無しさん@お腹いっぱい。
23/02/24 04:07:00.59 .net
重い重い
URLリンク(o.5ch.net)

771:名無しさん@お腹いっぱい。
23/02/24 04:25:43.53 .net
重いというか、午前1時頃以降に保存しようとした分は保存できてないっぽい。
SPNの復帰まで待つしかないな。

772:名無しさん@お腹いっぱい。
23/02/24 05:25:25.65 .net
つながらないよりは増しとはいえ、4時間待ちか・・・
閉じても保存されてるという建前だが、待った挙げ句「Job failed.」とかfaviconだけ(>>627)とかでおちおち閉じるわけにも

>>729
数日前3件までに戻ったようだ
1件の差とはいえ・・・

773:名無しさん@お腹いっぱい。
23/02/24 05:47:30.05 .net
と思ったらつながりづらい
これでは二重苦
今のうちに保存しなきゃなんないものが多いときにかぎ・・・いえ、なんでも

774:名無しさん@お腹いっぱい。
23/02/24 13:49:21.36 .net
3200ツイート保存できるやつ、使ってる人がいたら何日位で完了したか教えてほしい
自分は2日経ったけどまだ完了メールが来ない

775:名無しさん@お腹いっぱい。
23/02/24 18:30:54.01 .net
763の件、今は数分~10数分に落ち着いた

776:名無しさん@お腹いっぱい。
23/02/26 13:10:11.40 .net
>>765だけど今見たら完了してた
あと下のエラーが出たから、1日に合計1万ツイートが限界っぽい
複数ユーザーをアーカイブしたいときは注意
This host has been already captured 10,000 times today by this user account.

777:名無しさん@お腹いっぱい。
23/03/01 03:57:25.37 .net
初心者なんですけどアーカイブしたあともとのURLを無くしたら発掘するのは不可能ですか?
もちろん検索機能なんてないですよね

778:名無しさん@お腹いっぱい。
23/03/01 04:05:45.32 .net
フリーワードで検索できるよ

779:名無しさん@お腹いっぱい。
23/03/01 13:22:58.05 .net
【中居正広】 ワク接種 ⇒ 虫垂炎 ⇒ ターボ癌
://mao.2ch.sc/test/read.cgi/cancer/1668137860/l50
URLリンク(o.5ch.net)

780:名無しさん@お腹いっぱい。
23/03/01 14:11:13.39 .net
対策すると運営にお願いせずともアーカイブとるの不可能なんだな
URLリンク(x0o0x.ml)

781:名無しさん@お腹いっぱい。
23/03/01 14:58:25.32 .net
>>768-769
検索できるけどドメイン単位だからURLを無くしたら事実上発掘不可能
Collection Searchに含まれてるなら可能性はあるけど、まぁまず無理と考えていい

782:名無しさん@お腹いっぱい。
23/03/01 17:02:04.45 .net
>>771
見せたくない情報ならそもそもネット上に載せるなと言いたいね

783:名無しさん@お腹いっぱい。
23/03/02 00:05:27.82 .net
ニュース記事とかだったらtwitterに共有された短縮リンクの残骸とかが残ってたりするから、twitterで検索かけたりしてみてみるのもあり。

784:名無しさん@お腹いっぱい。
23/03/06 23:55:19.29 .net
20数分待ち
また○時間単位まで膨れ上がってしまうのかどうか

785:名無しさん@お腹いっぱい。
23/03/07 01:01:54.86 .net
残念ながら本当に膨れ上がった

786:名無しさん@お腹いっぱい。
23/03/07 07:36:38.75 .net
と思ったら今度は>>764

787:名無しさん@お腹いっぱい。
23/03/09 20:01:49.70 .net
ようやく8000億突破したね

788:名無しさん@お腹いっぱい。
23/03/10 22:36:33.18 .net
>>778
過去6年分遡って表示されてるページ数確認してみた
毎年約1.2倍ペースで指数関数的に増えてるみたい
URLリンク(i.imgur.com)
※2016年10月に数え方が変わったか何かで大幅に数字が減少してたから2017年から表示してる

789:名無しさん@お腹いっぱい。
23/03/10 22:38:45.08 .net
>>765
3月頭にリクエストしたのが1週間後にメールきた
Twitterの一括保存は大分時間かかるね

790:名無しさん@お腹いっぱい。
23/03/14 12:04


791::02.25 .net



792:名無しさん@お腹いっぱい。
23/03/15 13:50:39.43 .net
>>779
集計方法がURLの数からWebページの数に変わったから数字が減少したんだと思う
多分だけど

793:名無しさん@お腹いっぱい。
23/03/15 18:29:13.47 .net
また>>775

794:名無しさん@お腹いっぱい。
23/03/15 21:00:18.98 .net
その後39分待ちをピークに落ち着いた

795:名無しさん@お腹いっぱい。
23/03/16 08:48:47.33 .net
反応はあるけど落ちてる
URLリンク(o.5ch.net)

796:名無しさん@お腹いっぱい。
23/03/16 10:03:03.66 .net
<a href="URLリンク(o.5ch.net) src="URLリンク(o.5ch.net) />

797:名無しさん@お腹いっぱい。
23/03/16 18:56:40.40 .net
1時間待ち
よりによって取得しなきゃなんないものが多(ry
ただ時間がかかるだけならわからないではない(のちのち無事取得できてるなら良い)
だが待った挙げ句「Job failed」で取得できてないこともあるし、
早く済ませたいからと取得するものがあまり多いと「429 Too Many Requests」が出たり、
最悪つながらなかったり

798:名無しさん@お腹いっぱい。
23/03/16 20:35:28.47 .net
787の件は落ち着いた

799:名無しさん@お腹いっぱい。
23/03/16 22:53:47.10 .net
せっかく落ち着いたと思ったらまた20数分待ちか

800:名無しさん@お腹いっぱい。
23/03/19 00:40:27.17 .net
This host has been already captured 100,845.0 times today. Please try again tomorrow. Please email us at "info@archive.org" if you would like to discuss this more.
みんなでYoutubeの様々なページを10万個保存し続けたらこの制限エラーが出るわけか?
アメリカ時間基準でも1日が始まってから15時間半でこの表示が出たら結構困るんだけど。
SNS系サイトのドメインは制限取っ払って欲しいな。

801:名無しさん@お腹いっぱい。
23/03/19 01:01:44.26 .net
>>790
>>107-117

802:790
23/03/19 02:05:20.29 .net
どうも。その書き込みの1つ(>>113)は俺だから覚えてるけど、
YoutubeのURLを保存しようとしてこのエラーが出たのは初めて見かけたので、報告の意味で書いた。
制限取っ払ってほしい状況は1年半前と変わってない。

803:名無しさん@お腹いっぱい。
23/03/19 02:23:57.43 .net
>>790
俺も初めてこの表示出た
APIドキュメントにも記載は無いし、バグだと思いたいが・・・

804:名無しさん@お腹いっぱい。
23/03/22 05:38:12.76 .net
Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.
1回でただけだが

805:名無しさん@お腹いっぱい。
23/03/22 12:15:17.01 .net
40数分待ち
ただし、PDFは除く(過去には逆にPDFが時間かかるということがあったが)

806:名無しさん@お腹いっぱい。
23/03/22 13:17:49.38 .net
>>794
このエラーが出たら、保存できてる時と、できてないときがあるので、あとで確認したほうがいい。
ページがないって言ってる割にはエラーの判定がおかしいよな。
>>795
PDFや画像やテキストファイル系はページについてるファイルを巡回しないからなのか判らんが、
overloadedが出て待たされてる時でも順番の割り込みできる仕様になってるみたい。
急いでるなら画像のURLだけを保存かけてみるのも手。

807:名無しさん@お腹いっぱい。
23/03/22 21:50:02.10 .net
zippyshare閉鎖マジ?

808:名無しさん@お腹いっぱい。
23/03/23 11:48:24.14 .net
noteてとれないんだっけ

809:名無しさん@お腹いっぱい。
23/03/23 13:26:31.42 .net
Note.comはSPNで保存できるけど、robots.txtでia_archiveをブロックしてるから保存してるのを見れないって状態。
Noteが閉鎖してrobots.txtが消されて解消するか、IAがrobots.txtを完全無視する方針になったら多分復活するはず。
保存できるならしとくだけしといたほうがいい。Availability APIでも保存されてるスナップショットはないって返ってきちゃうけどね。
何年か前に投稿者のIPアドレスかホスト名が載ってた時のも含めてデータ自体はどこかに残ってる。

810:名無しさん@お腹いっぱい。
23/03/23 17:28:19.93 .net
>>771
こういうのとかってアーカイブ取る方法ないですか?
GIGAZINEとかも。

811:名無しさん@お腹いっぱい。
23/03/23 19:27:09.83 .net
>>800
GIGAZINEみたいなexcluded系はIAには保存されてる、閲覧が制限されてるだけ
見れることが重要ならtodayを使えばいい
771の様にサイト側で対策されてるタイプは難しい

812:名無しさん@お腹いっぱい。
23/03/23 20:35:30.06 .net
>>800
Webプロキシを間に挟んで間接的に取る方法もある
信頼性とか参照可能性が損なわれるのが欠点

813:名無しさん@お腹いっぱい。
23/03/25 13:44:06.78 .net
IAがフェアユースに基づくと主張して電子書籍を公開していたことに対して、
出版社が著作権侵害を申し立てた裁判の判決が下された
判決は出版社の主張が認められ、IAの敗訴
IAはこの判決を不服とし控訴すると宣言
URLリンク(i.imgur.com)
【関連記事】
The Fight Continues
URLリンク(blog.archive.org)
The Internet Archive has lost its first fight to scan and lend e-books like a library
URLリンク(www.theverge.com)
U.S. judge rules Internet Archive's digital book lending violates copyrights
URLリンク(www.reuters.com)
Judge Decides Against Internet Archive
URLリンク(file770.com)

814:名無しさん@お腹いっぱい。
23/03/25 14:11:37.65 .net
>>801 , >>802
ありがとうございます。

815:名無しさん@お腹いっぱい。
23/03/28 22:14:09.96 .net
doi.orgを保存しようとすると403エラーで保存できないって返ってくるのはちょっとまずいな。
サイト閉鎖したら転送先の論文URLを探すの大変だわ。

816:名無しさん@お腹いっぱい。
23/03/29 00:46:01.00 .net
LinkedIn も Internet Archive をブロック
999 とか変なエラーコード返して来てるw
URLリンク(o.5ch.net)

817:名無しさん@お腹いっぱい。
23/03/29 02:14:03.72 .net
日付が変わってすぐは数分待ちだったのが、1時間待ちに

818:名無しさん@お腹いっぱい。
23/03/29 19:37:54.81 .net
>>799
ほー 勉強になあるわ

819:名無しさん@お腹いっぱい。
23/03/29 19:39:49.22 .net
>>803
同 ps://scan.netsecurity.ne.jp/article/2023/03/28/49118.html

820:名無しさん@お腹いっぱい。
23/03/29 23:39:14.48 .net
PDF以外もPDFも数十分待ち

821:名無しさん@お腹いっぱい。
23/03/30 01:20:09.90 .net
2時間待ち
昨日の比ではない膨れ上がり方・・・

822:名無しさん@お腹いっぱい。
23/03/30 05:23:29.98 .net
今の所1時間45分待ち
午前0時半にボタン押した分が20230329172xxxだから日本時間で午前2時半に保存完了してた
1時間50分後ぐらいだから予定時間通りの遅れ

823:名無しさん@お腹いっぱい。
23/03/30 06:18:00.83 .net
こっちは4時間待ちに
環境によるのか・・・

824:名無しさん@お腹いっぱい。
23/03/30 14:24:03.48 .net
昨日からsave待ちメッセージ いったいなんなのよ ということで

The capture will start in ~4 hours, 12 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.

825:名無しさん@お腹いっぱい。
23/03/30 14:51:09.40 .net
>>798-799
過去にIAにいくつか保存したnote記事が、note側がIA保存対策したのか、その後IA上に残ってなかった覚えがある。(非公開のままか、本当にキャッシュを削除したのは不明)

saveしたとしても、後にサイト側からの要求でキャッシュ一斉削除される可能性は0ではないんだろうなと。

826:名無しさん@お腹いっぱい。
23/03/30 15:04:06.33 .net
test

827:名無しさん@お腹いっぱい。
23/03/30 15:04:44.65 .net
保存してキャッシュがその時は見れてたのに、ある日を境に、
web.archive.org/web/*/ note.com/{.../記事ID}
でいうカレンダーページに、何もキャッシュが残ってなかったっていうことね。

828:名無しさん@お腹いっぱい。
23/03/30 19:57:54.23 .net
昨日の夕方だか夜からの長時間待ち、まだ落ち着いてないなぁ
環境によるだろうが、こっちは3時間台

829:名無しさん@お腹いっぱい。
23/03/30 20:55:02.40 .net
>>815-817
そもそもアーカイブされた内容の「削除」って、出来るのか?
サイト別に分けて保存している訳じゃあるまいし
申し出のあったサイトについて、前方一致か何かで非表示にしてるだけだろ
ちなみに例の事件の直後、note から IA へ連絡が行ったようで
全体が excluded になった話は前スレで既出
robots.txt 云々と過去の仕様の話をしてる奴は無視するに限る

830:名無しさん@お腹いっぱい。
23/03/30 22:07:48.83 .net
1時間待ちだの24分待ちだの今日は長過ぎる・・・何の制限なんだ

831:名無しさん@お腹いっぱい。
23/03/30 23:17:44.96 .net
>>819
DMCA関係なら削除は出来るはず
昔あったpixivのパクリサイトは完全に消えてる(一度も取られてないとは考えにくい)
まぁ815のnoteの話は違うと思うけど

832:名無しさん@お腹いっぱい。
23/03/31 01:41:44.50 .net
ついに5時間台
こりゃ落ち着きそうにない

833:名無しさん@お腹いっぱい。
23/03/31 08:42:19.81 .net
The capture will start in ~7 hours, 52 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.

珍しい。

834:名無しさん@お腹いっぱい。
23/03/31 12:29:09.15 .net
やっとオーバーロードの表示出なくなったのはいいんだけど、
ボタン押して保存始まるまで1分ぐらい待たされてる感じがあるのは俺環か気のせい?
何時間も待たされるよりはいいけどさ。

835:名無しさん@お腹いっぱい。
23/03/31 12:40:18.39 .net
10分経たずに9時間待ちに戻っちゃった。短い昼休みだったな〜

836:名無しさん@お腹いっぱい。
23/03/31 20:01:21.74 .net
同じIPアドレスのまま初めの2〜3回目は待ち時間なしで、3〜4回目を保存しようとすると急に30分〜9時間待ちの表示が出る仕様になってる?
昼ぐらいから何度か試したけど、このパターンにハマることがやけに多いんだが。スマホ回線で試しても同じパターン。
このスレでもここ数日は人や環境によって表示される待ち時間がバラバラになってるようだし。
ちょっと時間を空けると同じIPアドレスでも待ち時間なしに戻る。この仮説が正しいとするとひどいイジワルされてる気持ちになるわ。
大量のURLにすぐに保存したい人にとっては作業時間増えてイライラするだろうな。

837:名無しさん@お腹いっぱい。
23/04/01 17:23:00.03 .net
イジワルねえ…

あくまでも無料なんだからさ(無料だからっていう理由も不明だが)。ボランティアみたいなもんだろうからさ。

「すぐに保存したい」っていうのが「IAに投げる自分の作業をすぐに完了させたい」という意味なら、その作業を自動的にする環境を自前で作るしかないような。

838:名無しさん@お腹いっぱい。
23/04/01 19:18:22.71 .net
占有すんなってことかね

839:名無しさん@お腹いっぱい。
23/04/01 22:42:50.18 .net
826の件は多分昨日だけだったんじゃね?今日は起きてないし
それよりもエイプリルフールのサイトは日付変わる前にできるだけ保存しとけよ
二度と見れなくなるぞ

840:名無しさん@お腹いっぱい。
23/04/02 17:09:52.15 .net
ブルーアーカイブとかいうゲームが登場したせいでスレッド検索がしづらくなったな

841:名無しさん@お腹いっぱい。
23/04/02 23:30:28.00 .net
最後にドット付けて「archive.」で検索すれば一発でこのスレ出てくるよ。
使ってるスレ検索で対応してればだけど。正規表現も対応してたら他のスレも出てくるかも。

842:memo
23/04/03 11:15:59.88 .net
Sorry
Please try again in ~32 min. Crawling this host is paused because they notified us that they are overloaded right


843: now.



844:名無しさん@お腹いっぱい。
23/04/03 21:04:58.51 .net
「Archive up to 3,200 most recent Tweets from this Twitter profile」
これ

845:名無しさん@お腹いっぱい。
23/04/03 21:12:00.39 .net
やべっ誤操作で途中で書き込まれちゃった。

「Archive up to 3,200 most recent Tweets from this Twitter profile」
未ログインでも出てくるこのオプションって、ログインしないと有効にならないの?
未ログインでそのオプション付けても付けなくても41件しか取れてないようだった。

846:名無しさん@お腹いっぱい。
23/04/04 08:58:54.78 .net
3/31夜~さっきまで順調だったのに・・・
>>826がいうように引っかかってしまったのだろうか
今のところ数分待ちで済んでるからまだ良いが、また数時間待ちとかなりかねないのが心配
>>824
確かにオーバーロードの表示がないのに始まらないことがあるなぁ

847:名無しさん@お腹いっぱい。
23/04/04 10:36:57.65 .net
/*/のページだけど1度しか保存されてないURLはリンク先が/*/じゃなくて直接保存されてるスナップショットURLに変わった?

848:名無しさん@お腹いっぱい。
23/04/04 23:41:19.62 .net
835の件、結局1時間待ちに
先月末の膨れ上がり方よりは増しとはいえ・・・

849:名無しさん@お腹いっぱい。
23/04/05 07:46:24.46 .net
皆さんインスタって何で保存してますか?
evernote良かったんですけど無料版の容量少なすぎる…
WAYBACKもarchive.todayもfreezepageもzoom.itも保存出来ないし…

850:
23/04/05 19:17:06.47 .net
別スレッド(スレリンク(internet板:874番))に書き込んだ874だが、
>>838は、私の書き込みではないのであしからず。(マルチポストではない。)
念のため書いとくわ。

851:名無しさん@お腹いっぱい。
23/04/06 15:26:20.14 .net
TwitterのAPIが止まったら最新3200個の選択肢のやつもダメなわけ?
それでもsnscrapeはAPI止まった今でも使えるんだよな。だからツイートURL取り出すだけなら今もできるはず。

852:名無しさん@お腹いっぱい。
23/04/07 05:30:57.28 .net
This URL has been excluded from the Wayback Machine.



URLリンク(sakue.com)

853:名無しさん@お腹いっぱい。
23/04/07 08:31:01.98 .net
上の方も書き込んでおられましたが、やはりwaybackは1万URLしか保存できず、古いものから順番に消えていくのでしょうか?

archivestodayも2700個しか見れず、それより古いものは見れないような。

854:名無しさん@お腹いっぱい。
23/04/07 10:15:52.32 .net
>>842
作文の勉強からやり直せ

855:名無しさん@お腹いっぱい。
23/04/07 16:20:44.43 .net
>>842
todayの方は知らないけど、/*/のページのことなら、そのドメインかディレクトリ以下のURLは1万件までしか検索結果として表示されてないだけで、削除されたわけじゃない。
もうちょっと細かくディレクトリ指定をすれば探してるページを見つけられるのでは?
2021年12月までは10万件まで表示されてたんだけどね >>209

856:名無しさん@お腹いっぱい。
23/04/07 20:41:57.08 .net
全URL欲しい場合は>>332 に書いてあるWayback CDX Server API 使うのが良さそうだね
データ整形が面倒だけど
URLリンク(github.com)

857:39
23/04/08 09:05:42.83 .net
ここ一週間ほど、訳あって非ログイン且つ Tor 経由で作業してるけど
今日初めて、それも 8:50 になってからやっとこのメッセージを見た。
>>39 より保存数の制限は厳しくなってるけど、24 時間で使いきれるかどうかの線なのね。

9:00 まで待ったら保存できたのは言うまでもない。
sssp://o.5ch.net/20ui0.png

858:名無しさん@お腹いっぱい。
23/04/10 12:39:35.47 .net
なろう系の金字塔オーバーロード

859:名無しさん@お腹いっぱい。
23/04/10 12:43:02.28 .net
薬屋のひとりごとを知らん情弱め

860:名無しさん@お腹いっぱい。
23/04/11 19:42:57.17 .net
>>826
3~4回目どころかすぐに30分待ち・・・

861:名無しさん@お腹いっぱい。
23/04/12 01:12:07.58 .net
3200ツイートのやつを使おうとしたときに出たエラー
Sorry.
This snapshot cannot be displayed due to an internal error.

862:名無しさん@お腹いっぱい。
23/04/12 05:51:06.28 .net
4時間待ち
今月になってから最もひどい

863:名無しさん@お腹いっぱい。
23/04/12 15:05:08.26 .net
非ログイン状態で3200ツイート取れるの無くなってるな
やっぱバグだったのか

864:名無しさん@お腹いっぱい。
23/04/12 16:52:17.80 .net
俺の環境では表示されるけど。ただし一度も保存に成功した事ない。
「twitter.com/アカウント名」だけでURL最後に/があると表示されない。

865:名無しさん@お腹いっぱい。
23/04/12 18:15:30.16 .net
851の件は今は3時間台
あれから落ち着いてるのか、一旦落ち着いてからまた膨れ上がってるのか・・・

866:名無しさん@お腹いっぱい。
23/04/12 22:54:00.64 .net
>>853
ああなるほど、確かに最後の/を抜いたら表示されたわ
でも850のエラーが出てしまう

867:名無しさん@お腹いっぱい。
23/04/13 01:02:45.12 .net
同時に2つ保存しようとしたらそれぞれ40分と5時間40分待ちになった
826と似た状態がまだ続いてるのか?
ページ削除される時間がわかってるなら都合の悪いURLを長時間待ち状態して保存されないよう時間稼ぎする悪用方法が思いついたわw

868:名無しさん@お腹いっぱい。
23/04/13 07:11:45.73 .net
>>856
こっちも5時間台
昨日はずっとひどくて今日も相変わらず

>>787の問題は閉じても取得はできるという建前どおり閉じることで回避できる反面、
建前どおり閉じたら閉じたで一部が取得できてないリスクがなぁ・・・

869:名無しさん@お腹いっぱい。
23/04/13 12:36:26.31 .net
>>857
建前も何もSPNボタンを押した時点で保存ジョブは開始されてる
>>434-435に詳しく書いてあるが、待機中はジョブの状態について問い合わせを繰り返してるだけ
無駄な負荷になってるからさっさと閉じるべき

失敗するときは閉じようが閉じまいが失敗してる

870:名無しさん@お腹いっぱい。
23/04/13 18:06:06.44 .net
>失敗するときは閉じようが閉じまいが失敗してる
 それは確かにそうだが・・・
 閉じなければ「Job failed」が出てるのかどうかで区別がつくが、
 閉じたらどれが取得できててどれが失敗してるのか調べないとなぁ
 取得するものが少ないときはそれでも良いが多いときは・・・

871:名無しさん@お腹いっぱい。
23/04/13 19:39:11.99 .net
ようやく数時間待ちから数十分待ちに
数十分ですら増しに思えてくる状況

872:名無しさん@お腹いっぱい。
23/04/13 23:56:28.81 .net
アーカイブされたWEBページ見ると
管理人プロフィールに電話番号書いてあったり
住所書いてあったりすることあるな…
リンクからアーカイブURL探さないとまともに辿れないから
検索機能が進化しなきゃ今の所問題にはならないんだろうけど
問題になった時アーカイブ大量削除されそうで怖いな

873:名無しさん@お腹いっぱい。
23/04/14 01:08:04.96 .net
ネットで匿名で物を売りたいやつは特商法違反なんで警察と消費者庁へ通報どうぞ

874:名無しさん@お腹いっぱい。
23/04/15 05:41:20.90 .net
めっちゃ見当違いの書き込みだな

875:名無しさん@お腹いっぱい。
23/04/15 23:11:43.58 .net
We're sorry — something's gone wrong.
Our team has been notified.
保存できない

876:名無しさん@お腹いっぱい。
23/04/19 02:17:11.56 .net
やっぱり非ログイン状態で3200ツイートをやろうとするとこのエラー(>>850)が出るな
バグというか、本来はログインしてない状態で表示しちゃいけないやつかな

877:名無しさん@お腹いっぱい。
23/04/20 11:08:02.25 .net
この前非ログインで保存かけて2日後に/*/を見てみると、十数個のツイートURLがボタン押した時間以降に短期間で保存されてるのを確認した。
非ログインでエラー出ても一応動いてるっぽいけど、3200ツイートの保存はしてくれなかった。不安定すぐる

878:名無しさん@お腹いっぱい。
23/04/22 06:58:40.51 .net
昨日ぐらいからTwitterのHTMLとJavascriptの仕様が変わったようで、
IA側が対応できてないからちゃんと保存されない模様。
犬の404エラーしか保存されない。

879:名無しさん@お腹いっぱい。
23/04/22 17:51:26.36 .net
ついでにsnscrapeも動かなくなってるな

880:名無しさん@お腹いっぱい。
23/04/22 23:15:29.71 .net
>>867
今やったけど普通に保存できたよ
>>868
一昨日辺りから非ログイン状態でツイート検索が出来なくなったから
その影響かも

881:名無しさん@お腹いっぱい。
23/04/23 09:23:51.94 .net
質問です。
Imgurの規約が変更され
ポルノコンテンツなどが削除される可能性があるため
5ちゃんのスレの画像などをアーカイブしようと考えています
その際、InternetArchive側の規約違反になる可能性はありますか?
アメリカなどはポルノコンテンツに厳しいイメージがあるのですが…

882:名無しさん@お腹いっぱい。
23/04/23 10:43:26.06 .net
別にならんでしょ
むしろポルノコンテンツ大国では?
児ポとかには厳しいが

883:名無しさん@お腹いっぱい。
23/04/23 14:25:34.24 .net
>>871
JKとかのエロイラストとかも
スレによってはあるのであっちの児ポに該当しないか心配です
該当していたとしたらInternet Archiveの規約には違反するのでしょうかね…?

884:名無しさん@お腹いっぱい。
23/04/24 07:22:51.76 .net
違反したところで保存したスナップショットが見えなくなるだけだから気にしなくてもいいよ。
気になるなら「俺が保存したぞ〜」と足がつくような記録をネットに残さなきゃいいし。
逆にそういう選別をしてたら時間もったいないと思うけど。

885:名無しさん@お腹いっぱい。
23/04/25 00:03:49.91 .net
IAで弾かれるがfoではなんともないっていうパターンは普通なんかな

886:名無しさん@お腹いっぱい。
23/04/25 09:50:53.63 .net
>>873
ありがとうございます
とりあえず保存することにします

887:名無しさん@お腹いっぱい。
23/04/26 05:44:19.35 .net
Hrm.
sssp://o.5ch.net/20yls.png

888:名無しさん@お腹いっぱい。
23/04/27 03:02:44.39 .net
Twitter、ログインしないと検索できないの不便過ぎるなぁ・・・
そのうち非ログイン状態では閲覧できないとかやりそうなのが

889:名無しさん@お腹いっぱい。
23/04/27 05:37:25.46 .net
>>877
インスタグラムみたいに閉鎖的なサービスに改悪されるのはありそうだな…

890:名無しさん@お腹いっぱい。
23/05/03 21:36:51.26 .net
このサイト、ストリートビューのアーカイブって見れる?
アーカイブのデータ自体はいっぱいあるんだけど読込が遅すぎて

891:名無しさん@お腹いっぱい。
23/05/05 09:00:04.44 .net
テスト

892:名無しさん@お腹いっぱい。
23/05/05 09:06:07.95 .net
ここ最近ようつべの動画の再生ページがウェイバックマシンに保存されるの遅すぎだろ・・・。
公開から1~4時間後って。
自動アーカイブも全然機能されてないし。
何やってんだよアクティブチームといつもアーカイブを取ってる人は、やる気あんのか?

もしかしてエラーでも引っかかって保存されるのに時間かかってんのか?

893:名無しさん@お腹いっぱい。
23/05/05 10:28:31.41 .net
ここ最近YouTubeの再生ページのアーカイブが自動で取られなくなってる?
もしかしてYouTube側から御叱りを受けたのか?
それともエラーにでも引っかかって早期保存が難しくなっているとか?
みんなめんどくさいのに何故!?

894:名無しさん@お腹いっぱい。
23/05/06 13:22:01.40 .net
Haasie: imgurの画像をアーカイブするサイト
URLリンク(haasie.com)<) のリンクを改行区切りで入力して Backup をクリック
保存後は URLリンク(i.haasie.com) のリンクから閲覧可能


5月15日に、ポルノ画像・匿名ユーザーが投稿した非アクティブコンテンツが削除されるという報告を受けて開発に至ったとのこと
↓開発者の投稿
URLリンク(news.ycombinator.com)

895:名無しさん@お腹いっぱい。
23/05/09 00:54:02.23 .net
imgurはアーカイブチームが保存してるっぽい
URLリンク(tracker.archiveteam.org)

896:名無しさん@お腹いっぱい。
23/05/09 05:01:50.46 .net
>>884
URLリストを持ってる人はIRCに投げれば保存してくれるみたいだね

このサイトでアップロードして
URLリンク(transfer.archivete.am)
このIRCチャンネルで保存依頼
URLリンク(webirc.hackint.org)

詳細はarchive teamのwiki参照
URLリンク(wiki.archiveteam.org)

897:名無しさん@お腹いっぱい。
23/05/10 05:12:07.55 .net
IRC覗いてたら、ガチ勢がプロキシ8000個動かして
ブルートフォースでimgurの5文字URL特定しててワロタ
半日で全走査して約3億5千個集まったらしい

898:名無しさん@お腹いっぱい。
23/05/10 16:53:16.14 .net
IRCってなんですか?

899:名無しさん@お腹いっぱい。
23/05/10 21:45:15.69 .net
>>885
ArchiveTeamはIRCっていうチャットツールを使って活動してる
チャット除いてるとアーカイブの進捗状況とかわかるよ リンク>>885

900:名無しさん@お腹いっぱい。
23/05/10 23:53:14.82 .net
知識ある人はWarriorをダウンロードすればアーカイブに参加出来て面白いよ
自分も1GB程度imgurのアーカイブに貢献してる

URLリンク(wiki.archiveteam.org)

901:名無しさん@お腹いっぱい。
23/05/11 10:35:00.71 .net
Internet Relay Chat

902:名無しさん@お腹いっぱい。
23/05/12 01:27:00.00 .net
Twitterのプロフィールページ、SPNだと取れてるのにSPN-outlinksだと取れてないの不思議だな
通常のSPNとoutlinksとで環境が別なのか?

903:名無しさん@お腹いっぱい。
23/05/14 15:50:31.49 .net
twitter・google の検索画面とnoteはarchive .todayで保存可能なのか

904:名無しさん@お腹いっぱい。
23/05/16 04:12:02.04 .net
先月からGoogle Spreadsheetからアーカイブのキュー入れられるやつが全く機能してないんだが原因は何なのだろう
URLリンク(archive.org)

Outlinks機能が使えて、URLのリストをまとめて保存できる手段なにかないですか?
pythonで試してみたんだけど、うまくいかず。。。
URLリンク(pastebin.com)

905:名無しさん@お腹いっぱい。
23/05/16 18:04:49.90 .net
Python は使ったこと無いけど、/save/ に GET メソッド?
あそこ POST の時しか認証情報見てくれないでしょ。
クッキーも、Authorization: ヘッダで S3 API Keys を送った場合も然り。
認証情報と capture_outlinks=1 を見てもらえるようになったら、
今度は 1 つの URL から outlinks の保存のために並行プロセス数が
20 とか 30 とかに増えてしまうのに、それが 5 秒なんかで終わる訳が無い。
きちんと URLリンク(web.archive.org) で空きをチェックしなよ。

906:名無しさん@お腹いっぱい。
23/05/17 19:48:53.67 .net
1時間待ちとか今月になって初めてか
○時間待ちでないほうが珍しいぐらいの先月だか先々月よりは増しとはいえ・・・

907:名無しさん@お腹いっぱい。
23/05/17 23:34:39.99 .net
2時間待ち

908:名無しさん@お腹いっぱい。
23/05/17 23:48:40.78 .net
どこをどう頑張っても数分待ちにしかならんw

909:名無しさん@お腹いっぱい。
23/05/18 07:55:22.17 .net
ようやく落ち着いた
>>897
上のほうにあるが、環境によってバラバラなのがなぁ

910:名無しさん@お腹いっぱい。
23/05/19 23:59:40.14 .net
イーロンがここまで終わってるとは思わなかった
URLリンク(twitter.com)
(deleted an unsolicited ad)

911:名無しさん@お腹いっぱい。
23/05/20 07:54:28.80 .net
PDFファイルのURLを保存させたらその1ページ目しか保存されないのだけど仕様?
なわけないよなぁ

912:名無しさん@お腹いっぱい。
23/05/20 14:46:31.42 .net
>>900
閲覧環境によっては、1ページ目しか表示されない場合がある
(iOSとかだとダメっぽいな)
解決策は、閲覧したいページのURLを編集して数字の後ろにid_ をつけ加えると保存されたまんまの状態で表示されるから、これで全ページ閲覧できるようになるよ
↓こんな感じ
URLリンク(web.archive.org)数字id_/ページURL

913:名無しさん@お腹いっぱい。
23/05/21 08:54:49.03 .net
>>901
thx。たしかにiOSのSafariで見てた
保存ではなく閲覧環境の問題なのね

914:名無しさん@お腹いっぱい。
23/05/22 06:19:18.94 .net
>>893
URLリンク(github.com)
これいいよーs3キーも渡せて
URLリストがあるテキストファイルも渡せる
あと便利なのが再試行機能がある

915:名無しさん@お腹いっぱい。
23/05/22 23:11:28.24 .net
>>903
WSL使うのが嫌だったので遠ざけていましたが使ってみます。
ありがとうございます。

916:名無しさん@お腹いっぱい。
23/05/23 00:08:11.50 .net
画像類似検索に対応しないのだろうか

917:名無しさん@お腹いっぱい。
23/05/23 00:11:24.51 .net
「リンクと画像の抜き出しツール」のアーカイブから画像のURLを入れると画像が保存されているか確認できる。

918:名無しさん@お腹いっぱい。
23/05/23 00:13:41.17 .net
「URLからタイトルゲット君」というサイトも保存確認できる。

919:名無しさん@お腹いっぱい。
23/05/23 05:22:57.93 .net
>>904
そんなに量がないんだったら無料版Colabで走らせてもいいかもね

920:名無しさん@お腹いっぱい。
23/05/23 20:02:46.33 .net
>>892
3月までtodayでアーカイブしたGoogle検索結果をorgで重バックアップしたり出来たが(アクセス環境により検索ワード化けが生じるため)、4月からエラーで弾かれるようになってしまった。
ヤフオクの出品物もorgから取れなくなったし

921:名無しさん@お腹いっぱい。
23/05/25 06:53:09.12 .net
302エラーの無限ループってなんか解決法ある

922:名無しさん@お腹いっぱい。
23/05/25 23:16:17.83 .net
Something went wrong. Try reloading.
ツイッターのアーカイブ閲覧しようとするとこうなるけど、おま環?

923:名無しさん@お腹いっぱい。
23/05/27 13:07:42.53 .net
ふとIAの動画ブラウジングしてたんだけど字幕付きのアニメとか滅茶苦茶うpされて、無法地帯になっててワロタ
アメリカのフェアユースってそんな強いのか

924:名無しさん@お腹いっぱい。
23/05/28 00:55:59.95 .net
>>912
いや普通にアウトだし消されてるよ、いたちごっこだけど
IAの人も何が重要なデータか分からなくなるから止めろってツイートしてたりする
基本的にIAのアカウントがアップしたもの以外は信用しない方がいい

925:名無しさん@お腹いっぱい。
23/05/30 00:40:42.53 .net
502エラーだ

926:名無しさん@お腹いっぱい。
23/06/07 14:18:47.51 .net
アイテムの方にある動画、一定以上のサイズだとブラウザで再生出来ないっぽいな
自分が見たのは20GB超だけど読み込みがされなかった
curlでダウンロードしてローカルで再生は出来たので、ちゃんとアーカイブはされてるらしい

927:名無しさん@お腹いっぱい。
23/06/07 16:00:32.06 .net
それってエンコード時の設定に依ったりしない?
例えば mp4 なら moov atom をファイル先頭に持ってきていないとか。

928:名無しさん@お腹いっぱい。
23/06/11 12:01:40.24 .net
トップページの保存数(Explore more than XXX billion)がたまに十億単位で減るの
何なんだろうか?

929:名無しさん@お腹いっぱい。
23/06/14 11:09:59.33 .net
詳しいことよく知らなくてTorのブラウザでarchivetoday使おうとしたらTor使ってないときでもarchivetodayにアクセスできなくなった
クッキー消去したらまた使えるようになったけどブラックリスト的なものに載ってないか不安

930:名無しさん@お腹いっぱい。
23/06/14 13:17:02.82 .net
>>918
まともにTor使ってるなら、生IPとの関連付けが出来ないんだからTor使ってないときにアクセス不可になるはずがない
それすら分からないならtorは使わない方が良いよ、絶対にどこかでやらかす

931:名無しさん@お腹いっぱい。
23/06/14 13:48:21.90 .net
なんでわざわざTorブラウザでarchivetoday使おうとしたの?普通のブラウザでも使えるよ

932:名無しさん@お腹いっぱい。
23/06/14 14:07:59.22 .net
>>920
10年以上前にTor使えばInstagramでも魚拓取れるって書き込みを見つけたので試したくなったんです
無知ですいませんでした

933:名無しさん@お腹いっぱい。
23/06/14 15:38:07.85 .net
IP紐づいてなくてもフィンガープリントで同一デバイスだと疑われてる可能性はある

とは言っても、torブラウザでtoday使うとCloudflareにブロックされて要JSの認証要求されるから回避も難しいんだよな

唯一の回避策は、使えそうなweb串探してtor→web串→todayでアクセスするくらいか

フィンガープリント追跡防止の拡張機能とかもあるからそういうのを普段使いしてみるのも対策の一つになるかもね

934:名無しさん@お腹いっぱい。
23/06/16 02:07:18.67 .net
今更だけど3200ツイート保存のやつエラーで動かなくなってる
Twitterの仕様が変わった辺りからかな?確認してなかった

935:名無しさん@お腹いっぱい。
23/06/16 14:06:14.26 .net
collections情報死んでるなぁ

936:名無しさん@お腹いっぱい。
23/06/22 18:22:40.12 .net
IAでTwitter取れなくなってる?

937:925
23/06/23 19:17:09.24 .net
今やったら取れた、何だったんだろう

938:名無しさん@お腹いっぱい。
23/06/23 19:17:24.81 .net
>>867>>869
Twitterの鍵垢を保存したら犬のエラーが保存されたわ。原因はこれじゃない?

939:名無しさん@お腹いっぱい。
23/06/24 10:29:59.86 .net
>>927
いや普通の公開アカウントだった
なぜか木曜日だけどのツイートも犬のエラーになってた

940:名無しさん@お腹いっぱい。
23/06/27 20:37:16.58 .net
URLリンク(esica.shop)

↑みたいなサイトを保存すると保存直後は画像が表示されてるのに数か月後保存ページにアクセスすると、
一部画像が表示されないって事が多々あるんだけどおま環?
そのページの画像(大きい小さい表示されるの全て)を一括で保存する方法って無いのかな

941:名無しさん@お腹いっぱい。
23/06/28 09:49:10.92 .net
>>929
数か月後どころか、保存直後も大量の画像が欠落してるんだけど・・・

スクリプトで読み込ませてる画像の一括取得は現状では無理。
ブラウザでアーカイブを表示したときに初めて取得リクエストが発行されるが、
毎分 2 個か 3 個の画像を取得するだけで、あとは 429 Too Many Requests エラーが返ってしまう。
必要な画像を拾い終えるまで、同じアーカイブを数分おきにブラウザで繰り返し表示するしかない。

昨晩ここの画像を全部拾わせてみたので、数か月後にどうなってるか見てみよう。
URLリンク(web.archive.org)

942:名無しさん@お腹いっぱい。
23/06/29 14:23:51.75 .net
今風のスクリプトマシマシ動的サイトはアーカイブするのが難しいからね
画像だけ欠落するならまだマシで、サイト自体が取れないことも珍しくない

943:名無しさん@お腹いっぱい。
23/06/30 19:13:53.48 .net
Twitterの投稿、wayback machineはアーカイブできるけどarchive todayはできなくなってない?

944:名無しさん@お腹いっぱい。
23/06/30 23:57:35.95 .net
>>932
Twitterの仕様変更でログイン状態じゃないとログインページにリダイレクトされるようになったっぽいな
Internet Archiveは何か特別な処理挟んでるのかね

945:名無しさん@お腹いっぱい。
23/07/01 08:31:58.04 .net
save-page-now-outlinksって今動いてないの?
リンク先の保存もやらなきゃいけないじゃんか

946:名無しさん@お腹いっぱい。
23/07/01 23:20:07.49 .net
>>933
ほんとだログインしたらアーカイブできた
どうやってログイン状態検出してるのかも謎だ

947:名無しさん@お腹いっぱい。
23/07/02 15:59:18.82 .net
Pixivのページを保存したいとき、英語ページのURL(en)へ転送されないようにするにはヘッダーに何を指定すればいい?
なんか方法ある?

948:名無しさん@お腹いっぱい。
23/07/02 17:27:30.52 .net
Pixiv から user_language=ja ってクッキーを食べたことにしておけば、
つまりそれを capture_cookie 引数に与えて Save Page Now すれば
転送はされなくなるけど・・・どこも真っ白だぁ

949:名無しさん@お腹いっぱい。
23/07/02 18:18:54.77 .net
waybackもtodayもtwitter保存できねえ

950:名無しさん@お腹いっぱい。
23/07/02 19:09:16.35 .net
Twitter自体が現在不調だからね直してもらわないと

951:名無しさん@お腹いっぱい。
23/07/02 20:01:41.67 .net
仕様やぞ

952:名無しさん@お腹いっぱい。
23/07/03 00:38:46.97 .net
Twitterの仕様変更で
魚拓取れなくなるのかな…
アカウント必須になったら魚拓取れない…

953:名無しさん@お腹いっぱい。
23/07/05 02:00:10.44 .net
Twitterは仕様変更するわ、IAは保存しても読み込めるまで1日以上かかるわ、インターネットに波乱起きすぎ

954:名無しさん@お腹いっぱい。
23/07/05 17:06:56.09 .net
やっとTwitter直ったか?

955:名無しさん@お腹いっぱい。
23/07/06 15:44:51.95 .net
今保存できない?

956:名無しさん@お腹いっぱい。
23/07/06 16:39:15.39 .net
archive.org/details/save-page-now?sort=-addeddate
日本時間13時21分のファイル以降、SPNの新しいコレクションファイルが増えてないので止まってたっぽいが、今は復帰して保存できるっぽい。

957:名無しさん@お腹いっぱい。
23/07/07 16:44:02.26 .net
Twitter、一応取れるようにはなったが単体ツイートしか取れなくなったな
前はリプライも全部保存出来たが不可能になった
あとプロフィールページも保存出来ない

IAの問題ではなく、Twitter側が非ログイン状態での表示を止めたせい

958:名無しさん@お腹いっぱい。
23/07/10 20:27:23.81 .net
5chもぼちぼちアーカイブしていかないとヤバイ感じか?

959:名無しさん@お腹いっぱい。
23/07/10 21:07:05.59 .net
5ちゃんのスレも個人的に保存はちょくちょくやってはいるんだけど、すぐ人大杉になって作業が止まるのが難点。
自分の住民やってるスレやその過去スレからでいいので、やっておいた方がいいよ。

960:名無しさん@お腹いっぱい。
23/07/11 00:09:37.44 .net
これはヤバいな
過去ログごと消えたら洒落にならない

961:名無しさん@お腹いっぱい。
23/07/11 00:36:08.07 .net
筑波大吉田光男准教授が公開してる5chスレタイのデータセット
URLリンク(open.ceek.jp)

962:名無しさん@お腹いっぱい。
23/07/11 06:54:39.48 .net
IAのチームに過去ログ全部クロールして欲しいな。今はなんとか過去ログが見れるけど、明日急に全部見れなくなっても全く不思議じゃないからヒヤヒヤしてる
似たようなサイトでredditって過去ログ保管されてるんだろうか

963:名無しさん@お腹いっぱい。
23/07/12 22:56:55.39 .net
threadsってアーカイブ出来ないタイプのサイトかぁ・・・

964:名無しさん@お腹いっぱい。
23/07/12 22:56:57.12 .net
threadsってアーカイブ出来ないタイプのサイトかぁ・・・

965:名無しさん@お腹いっぱい。
23/07/14 06:06:05.56 cnQfqv0Jq
2022年07月19日 13時00分メモ
大手出版社に著作権侵害で訴えられた「電子図書館」を電子フロンティア財団が支持、デジタル世界の図書館は成り立つのか議論が白熱
URLリンク(gigazine.net)

2023年03月17日 08時00分ネットサービス
大手出版社に著作権侵害で訴えられたインターネットアーカイブが「すべての図書館の将来を脅かす訴訟だ」と主張して支持を求める
URLリンク(gigazine.net)

2023年03月27日 12時42分ネットサービス
インターネットアーカイブが電子書籍の著作権を巡る大手出版社との著作権訴訟の一審で敗訴
URLリンク(gigazine.net)

966:名無しさん@お腹いっぱい。
23/07/14 06:06:42.35 .net
埋まるからちとscに貼っとこ

967:名無しさん@お腹いっぱい。
23/07/15 00:51:33.90 .net
「好き嫌い.com」は魚拓サイトで魚拓を取ってもコメント欄だけが保存されない

どうすればコメント欄も保存できるかな?

i.imgur.com/2uPwBGz.png archive.li/6nRmy

968:名無しさん@お腹いっぱい。
23/07/15 05:12:26.78 .net
5chを保存しようとクロールしたらクロールが全く意味を成さないわね…なにかいい方法あるだろうか?

969:名無しさん@お腹いっぱい。
23/07/15 20:07:35.02 .net
Internet ArchiveのFlashエミュレータが改良されてより多くの作品をサポートできるようになった模様
これにより今まで利用できなかった作品がコレクションに加わるとのこと

詳細
URLリンク(mastodon.archive.org)
新たに実行可能になった作品例
URLリンク(twitter.com)
(deleted an unsolicited ad)

970:名無しさん@お腹いっぱい。
23/07/16 13:40:10.97 .net
これからAI時代になると、IAのデータってますます重要になりそうだな(AIとIAでややこしい)

971:名無しさん@お腹いっぱい。
23/07/17 19:01:14.10 .net
5chの過去ログほとんどアーカイブされてないのか

972:名無しさん@お腹いっぱい。
23/07/18 18:40:50.87 .net
yahooニュースのコメント保存できるようになったな

973:名無しさん@お腹いっぱい。
23/07/19 01:28:09.90 .net
>>960
板にもよるだろうけど軽く触ってみた感じは全部first archiveだな
URLリンク(litter.catbox.moe)

974:名無しさん@お腹いっぱい。
23/07/19 08:24:09.27 .net
過去ログ取ろうとしたけど膨大やな
自分の環境だと七時間で2500urlぐらい

975:名無しさん@お腹いっぱい。
23/07/20 17:51:13.77 .net
>>962
2chから5chにURL変わった影響もありそう

てかTwitterの会話取れなくなったの不便すぎるな

976:名無しさん@お腹いっぱい。
23/07/20 17:53:22.93 .net
ここ最近やる気を感じないな、アクティブチームは。
自動アーカイブも全然取れてないし。

977:名無しさん@お腹いっぱい。
23/07/20 22:16:04.23 .net
>>965
>>595

アクティブチームw


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch