23/01/22 02:50:05.38 .net
Internet Archive にアップロードされた DVD-ROM ディスクイメージから
中のファイルを直接ダウンロードすると、1 ギガバイトあたりでちょん切れる問題
URLリンク(archive.org)
ここの TI308752D0A_2.ISO の中の ZZIMAGES/ZZIMAGES/PREINST7.SWM をダウンロードすると、
1485739900 バイトのはずが 1074528256 バイトで終わってしまう。
HTTP の Content-Length ヘッダは送られて来ないので、ダウンローダでの検知は不可能。
元の .iso をダウンロードすれば済む話なんだけどね。
パッケージの中のファイルが見える機能は便利でよく使うけど、こういう制限があるんだなぁ、と。
UDF 以外のファイルシステム (ISO 9660 とか Joliet とか) でも起こるかは未確認。
他のパッケージ形式 (.tar とか .7z とか .zip とか) で起こるかも未確認。
730:名無しさん@お腹いっぱい。
23/01/23 18:48:19.71 .net
PANDORATV
ウェブリブログ
Lobi
1月31日にサービス終了
731:名無しさん@お腹いっぱい。
23/01/28 23:14:25.28 .net
>>721
一度に複数のサービスがあと数日とかこんなん一人~少人数が人力でカバーすんの無理やろ
732:名無しさん@お腹いっぱい。
23/01/29 22:55:14.90 .net
重い
733:名無しさん@お腹いっぱい。
23/01/30 15:32:24.15 .net
LINE BLOG サービス終了のお知らせ
URLリンク(lineblog.me)
734:名無しさん@お腹いっぱい。
23/01/30 15:46:52.71 .net
それにつながらないことが多くて作業を進めづらいし
735:名無しさん@お腹いっぱい。
23/01/30 22:39:37.25 .net
>>724
LINE BLOGさえも終わりか…
736:名無しさん@お腹いっぱい。
23/01/31 20:50:43.21 .net
ただ今制限を設けております
737:名無しさん@お腹いっぱい。
23/02/01 19:31:42.08 .net
一時応答しなくなってた
738:名無しさん@お腹いっぱい。
23/02/02 00:15:32.12 .net
ところでさ、最近Save Page Nowの同時保存制限が3個から4個に変わった?
タブ4個開いて数秒で立て続けに保存ボタン押してもYou have already reachedって出ないんだけど。
5個目は今まで通り出て待たされるが。
739:名無しさん@お腹いっぱい。
23/02/03 11:48:23.73 .net
>>729
>>435のドキュメントのLimitationsを見ると、匿名ユーザーは1分間に4までって書いてるから合ってる
SPN2 APIを使ってる人に聞きたいんだけど、User statusって取得できてる?
ドキュメントの通りに送ってもログインしろよ的なエラーが返ってくるんだが
キーが合ってるのは確認済み
740:名無しさん@お腹いっぱい。
23/02/04 14:47:54.24 .net
>>729
確かにそのようだ
締めつけ厳しい傾向の中でありがたい
あとはつながらないことが多い問題がなぁ
741:名無しさん@お腹いっぱい。
23/02/04 19:44:00.52 .net
Firefoxユーザーだが今年に入ってから接続エラーばかりでweb.archive.org自体見れない状態が続いてたが、
about:supportにある「起動時キャッシュの消去」をしてみたら見れるようになって解決した。
同じ状況の人がいるなら自己責任で試してみるといいよ。一番上のリフレッシュのボタンは初期化されるから押さないように。
これをやった後でもたまに同じエラーが表示されるが前よりはマシになった。
742:名無しさん@お腹いっぱい。
23/02/05 19:08:01.22 .net
どうもユーザの新規登録周りがおかしくなってるような。
メアドやパスワードを入れて、認証メールが来るところまでは良いんだけど
ある条件の時、メールに記載された URL を開いても常に Sorry, we're kinda busy になってしまう。
ユーザ名が英数字のみの時は問題なし、かな漢字や絵文字を使うとダメ。
おそらくプロフページの URL が archive.org/details/@user_数字
となるようなケースで問題が起きてるのではないかと。
743:名無しさん@お腹いっぱい。
23/02/05 21:09:01.70 .net
>>730
問題無いけどなぁ。
GET /save/status/user HTTP/1.1
Accept: application/json
Authorization: LOW xxxxxxxxxxxxxxxx:xxxxxxxxxxxxxxxx
Connection: close
Host: web.archive.org
HTTP/1.1 200 OK
Server: nginx/1.19.5
Date: Sun, 05 Feb 2023 12:06:03 GMT
Content-Type: application/json
Content-Length: 79
Connection: close
x-app-server: wwwb-app53
x-ts: 200
x-tr: 79
X-location: save2stat
X-RL: 0
X-NA: 1
X-Page-Cache: MISS
X-NID: -
Referrer-Policy: no-referrer-when-downgrade
Permissions-Policy: interest-cohort=()
{"available":8,"daily_captures":0,"daily_captures_limit":100000,"processing":0}
744:名無しさん@お腹いっぱい。
23/02/06 11:45:14.45 .net
>>734
まじかー・・・、ありがとう
もう一度確認してみるわ
745:名無しさん@お腹いっぱい。
23/02/12 06:52:17.87 .net
リンク先が画像の場合は自動で保存してほしいんだよなぁ。
サムネだけ保存しても意味無いし。
746:名無しさん@お腹いっぱい。
23/02/12 11:00:21.26 .net
>>736
Save outlinks 使えよ
747:名無しさん@お腹いっぱい。
23/02/12 21:00:12.74 .net
>>736
ChatGPT(人工知能)を学習させといた
URLリンク(i.imgur.com)
問: Internet Archive の wayback machine を知っていますか?
答: はい、私は Internet Archive の Wayback Machine について知っています。(以下省略)
問: Wayback Machine の "Save Page Now" で保存したいページ内のリンク先のページも同時に保存する方法を教えてください。
答: Wayback Machine の "Save Page Now" を使用して、ページ内のリンク先のページも同時に保存することはできません。Wayback Machine は、単独のページを保存することしかできません。(以下省略)
問: あなたの回答は、間違っています。Wayback Machine の "Save Page Now" で外部リンクを保存するには、Internet Archive にログインすると使えるようになる "Save outlinks" オプションを使います。
答: 申し訳あります。その通りです。Wayback Machine の "Save Page Now" 機能には、Internet Archive にログインすると使える "Save outlinks" オプションがあります。このオプションを使用することで、ページ内の外部リンクも同時に保存することができます。再度、お詫び申し上げます。ありがとうございました。
748:名無しさん@お腹いっぱい。
23/02/13 00:02:24.47 .net
>>738
それ学習してるのはログインしてる間だけだろ?
次回ログイン後や他のユーザーからは学習効果ない
749:名無しさん@お腹いっぱい。
23/02/13 19:59:01.85 .net
>>737
ページが複数階層で全部の階層に大量のリンクあっても同じ事言えるんか?
Outlinksぐらいとっくに知っとるわボケが
750:名無しさん@お腹いっぱい。
23/02/13 20:23:37.77 .net
>>740
手で掘れよ、どーせ暇なんだろ?
751:名無しさん@お腹いっぱい。
23/02/15 10:15:39.14 .net
curlでの保存確認が途中から429エラーになる。
752:名無しさん@お腹いっぱい。
23/02/15 18:49:59.88 .net
URLリンク(web.archive.org)
ベタベタ貼ってるアフィのせいか延々と読み込み繰り返して見れないんだが何か対応策とかないかね
753:名無しさん@お腹いっぱい。
23/02/16 04:32:39.08 .net
>>742
Status: 429 - Too Many Requests
API で User status を調べて available が1以上になるまで待ってから次の処理をする
{"available":8,"daily_captures":58,"daily_captures_limit":100000,"processing":0}
{"available":0,"daily_captures":170,"daily_captures_limit":100000,"processing":24}
754:名無しさん@お腹いっぱい。
23/02/16 06:56:24.96 .net
>>738
Bing の AI Chat が使えるようになたので Wayback Machine について
訊いてみたら、AI が Wayback Machine を使ってユーザーの質問に
答えることができると言っていた
URLリンク(i.imgur.com)
755:LBXBB
23/02/16 13:28:08.07 .net
3日前ぐらいから、Internet Archiveに繋がりにくくなっているんですけど、同じ症状に悩んでる同士いますか?
756:名無しさん@お腹いっぱい。
23/02/17 07:27:55.83 .net
「The capture will start in ~* hour, ** minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.」
数分単位はここ数日見かけるが、○時間単位とか久々
757:名無しさん@お腹いっぱい。
23/02/17 12:27:29.15 .net
twitter保存できなくなった?
保存してもツイートが表示されない
自分だけ?
758:名無しさん@お腹いっぱい。
23/02/17 19:10:36.19 .net
>>748
モバイル用URLを突っ込んでない?
759:名無しさん@お腹いっぱい。
23/02/18 08:47:18.37 .net
748とは別だけど、モバイルドメイン関係なく昨日の夜からツイートのURLを保存しようとするとJob failedしか出ないわ
760:名無しさん@お腹いっぱい。
23/02/18 10:55:10.00 .net
てかツイートを保存しようとするとapi.twitter.comの方にリダイレクトされてちゃんと保存されてないな。
Twitter APIの改悪は関係あるのかこれ。
761:名無しさん@お腹いっぱい。
23/02/19 07:27:45.62 .net
>>751
たしかにAPI改悪と関係ありそうだな
アーカイブ取得エンジン(というのかな)がWebブラウザ(擬似)によるアクセスと認識されなくなったとか
762:名無しさん@お腹いっぱい。
23/02/19 13:34:25.72 .net
すまん、748だけど数日経って確認したら保存できてたわ。 保存の仕様が変わってtweetが見れるようになるまで時間がかかることがあるみたい。 直近3200ツイートを同時保存する機能も追加されてる。
763:名無しさん@お腹いっぱい。
23/02/21 00:31:31.75 .net
>>753
>>直近3200ツイートを同時保存する機能
これってどこの話?見つからないけど
764:名無しさん@お腹いっぱい。
23/02/21 21:53:11.17 .net
>>754
save page nowにtwitterのリンク入れると出るよ。
765:名無しさん@お腹いっぱい。
23/02/22 03:03:59.75 .net
>>755
あなたは、選ばれし者のようですね。
□ Archive up to 3,200 most recent Tweets from this Twitter profile
こちらでは、twitter_archiver は "display: none" として隠されていました。
URLリンク(i.imgur.com)
|<div id="wm-twitter-archiver" style="display: none;">
| <input type="checkbox" name="twitter_archiver" id="twitter_archiver">
| <label for="twitter_archiver">Archive up to 3,200 most recent Tweets from this Twitter profile</label>
|</div>
766:名無しさん@お腹いっぱい。
23/02/22 03:56:35.13 .net
URLリンク(web.archive.org)
クッキーを読んでログインユーザだと判定すると
#wm-capture-outlinks や #wm-capture-screenshot 等を非表示解除してるけど、
それとは別の条件で #wm-twitter-archiver の非表示を解除してるなぁ。
767:名無しさん@お腹いっぱい。
23/02/22 04:37:36.03 .net
>>756
display: none消して、style変更してチェックボックス出現させたら動作してくれたりしない?
768:名無しさん@お腹いっぱい。
23/02/22 10:58:16.45 .net
ボタンが表示される条件分かったわ
トップページのSave Page Nowに入力するだけだと表示されない
遷移後のページ( URLリンク(web.archive.org) )で再入力すると表示される
対応URLはTwittetのプロフィールページ
(mobile.twitter.comは非対応)
769:名無しさん@お腹いっぱい。
23/02/22 10:58:31.78 .net
神機能だな
770:名無しさん@お腹いっぱい。
23/02/24 04:07:00.59 .net
重い重い
URLリンク(o.5ch.net)
771:名無しさん@お腹いっぱい。
23/02/24 04:25:43.53 .net
重いというか、午前1時頃以降に保存しようとした分は保存できてないっぽい。
SPNの復帰まで待つしかないな。
772:名無しさん@お腹いっぱい。
23/02/24 05:25:25.65 .net
つながらないよりは増しとはいえ、4時間待ちか・・・
閉じても保存されてるという建前だが、待った挙げ句「Job failed.」とかfaviconだけ(>>627)とかでおちおち閉じるわけにも
>>729
数日前3件までに戻ったようだ
1件の差とはいえ・・・
773:名無しさん@お腹いっぱい。
23/02/24 05:47:30.05 .net
と思ったらつながりづらい
これでは二重苦
今のうちに保存しなきゃなんないものが多いときにかぎ・・・いえ、なんでも
774:名無しさん@お腹いっぱい。
23/02/24 13:49:21.36 .net
3200ツイート保存できるやつ、使ってる人がいたら何日位で完了したか教えてほしい
自分は2日経ったけどまだ完了メールが来ない
775:名無しさん@お腹いっぱい。
23/02/24 18:30:54.01 .net
763の件、今は数分~10数分に落ち着いた
776:名無しさん@お腹いっぱい。
23/02/26 13:10:11.40 .net
>>765だけど今見たら完了してた
あと下のエラーが出たから、1日に合計1万ツイートが限界っぽい
複数ユーザーをアーカイブしたいときは注意
This host has been already captured 10,000 times today by this user account.
777:名無しさん@お腹いっぱい。
23/03/01 03:57:25.37 .net
初心者なんですけどアーカイブしたあともとのURLを無くしたら発掘するのは不可能ですか?
もちろん検索機能なんてないですよね
778:名無しさん@お腹いっぱい。
23/03/01 04:05:45.32 .net
フリーワードで検索できるよ
779:名無しさん@お腹いっぱい。
23/03/01 13:22:58.05 .net
【中居正広】 ワク接種 ⇒ 虫垂炎 ⇒ ターボ癌
://mao.2ch.sc/test/read.cgi/cancer/1668137860/l50
URLリンク(o.5ch.net)
780:名無しさん@お腹いっぱい。
23/03/01 14:11:13.39 .net
対策すると運営にお願いせずともアーカイブとるの不可能なんだな
URLリンク(x0o0x.ml)
781:名無しさん@お腹いっぱい。
23/03/01 14:58:25.32 .net
>>768-769
検索できるけどドメイン単位だからURLを無くしたら事実上発掘不可能
Collection Searchに含まれてるなら可能性はあるけど、まぁまず無理と考えていい
782:名無しさん@お腹いっぱい。
23/03/01 17:02:04.45 .net
>>771
見せたくない情報ならそもそもネット上に載せるなと言いたいね
783:名無しさん@お腹いっぱい。
23/03/02 00:05:27.82 .net
ニュース記事とかだったらtwitterに共有された短縮リンクの残骸とかが残ってたりするから、twitterで検索かけたりしてみてみるのもあり。
784:名無しさん@お腹いっぱい。
23/03/06 23:55:19.29 .net
20数分待ち
また○時間単位まで膨れ上がってしまうのかどうか
785:名無しさん@お腹いっぱい。
23/03/07 01:01:54.86 .net
残念ながら本当に膨れ上がった
786:名無しさん@お腹いっぱい。
23/03/07 07:36:38.75 .net
と思ったら今度は>>764
787:名無しさん@お腹いっぱい。
23/03/09 20:01:49.70 .net
ようやく8000億突破したね
788:名無しさん@お腹いっぱい。
23/03/10 22:36:33.18 .net
>>778
過去6年分遡って表示されてるページ数確認してみた
毎年約1.2倍ペースで指数関数的に増えてるみたい
URLリンク(i.imgur.com)
※2016年10月に数え方が変わったか何かで大幅に数字が減少してたから2017年から表示してる
789:名無しさん@お腹いっぱい。
23/03/10 22:38:45.08 .net
>>765
3月頭にリクエストしたのが1週間後にメールきた
Twitterの一括保存は大分時間かかるね
790:名無しさん@お腹いっぱい。
23/03/14 12:04
791::02.25 .net
792:名無しさん@お腹いっぱい。
23/03/15 13:50:39.43 .net
>>779
集計方法がURLの数からWebページの数に変わったから数字が減少したんだと思う
多分だけど
793:名無しさん@お腹いっぱい。
23/03/15 18:29:13.47 .net
また>>775
794:名無しさん@お腹いっぱい。
23/03/15 21:00:18.98 .net
その後39分待ちをピークに落ち着いた
795:名無しさん@お腹いっぱい。
23/03/16 08:48:47.33 .net
反応はあるけど落ちてる
URLリンク(o.5ch.net)
796:名無しさん@お腹いっぱい。
23/03/16 10:03:03.66 .net
<a href="URLリンク(o.5ch.net) src="URLリンク(o.5ch.net) />
797:名無しさん@お腹いっぱい。
23/03/16 18:56:40.40 .net
1時間待ち
よりによって取得しなきゃなんないものが多(ry
ただ時間がかかるだけならわからないではない(のちのち無事取得できてるなら良い)
だが待った挙げ句「Job failed」で取得できてないこともあるし、
早く済ませたいからと取得するものがあまり多いと「429 Too Many Requests」が出たり、
最悪つながらなかったり
798:名無しさん@お腹いっぱい。
23/03/16 20:35:28.47 .net
787の件は落ち着いた
799:名無しさん@お腹いっぱい。
23/03/16 22:53:47.10 .net
せっかく落ち着いたと思ったらまた20数分待ちか
800:名無しさん@お腹いっぱい。
23/03/19 00:40:27.17 .net
This host has been already captured 100,845.0 times today. Please try again tomorrow. Please email us at "info@archive.org" if you would like to discuss this more.
みんなでYoutubeの様々なページを10万個保存し続けたらこの制限エラーが出るわけか?
アメリカ時間基準でも1日が始まってから15時間半でこの表示が出たら結構困るんだけど。
SNS系サイトのドメインは制限取っ払って欲しいな。
801:名無しさん@お腹いっぱい。
23/03/19 01:01:44.26 .net
>>790
>>107-117
802:790
23/03/19 02:05:20.29 .net
どうも。その書き込みの1つ(>>113)は俺だから覚えてるけど、
YoutubeのURLを保存しようとしてこのエラーが出たのは初めて見かけたので、報告の意味で書いた。
制限取っ払ってほしい状況は1年半前と変わってない。
803:名無しさん@お腹いっぱい。
23/03/19 02:23:57.43 .net
>>790
俺も初めてこの表示出た
APIドキュメントにも記載は無いし、バグだと思いたいが・・・
804:名無しさん@お腹いっぱい。
23/03/22 05:38:12.76 .net
Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.
1回でただけだが
805:名無しさん@お腹いっぱい。
23/03/22 12:15:17.01 .net
40数分待ち
ただし、PDFは除く(過去には逆にPDFが時間かかるということがあったが)
806:名無しさん@お腹いっぱい。
23/03/22 13:17:49.38 .net
>>794
このエラーが出たら、保存できてる時と、できてないときがあるので、あとで確認したほうがいい。
ページがないって言ってる割にはエラーの判定がおかしいよな。
>>795
PDFや画像やテキストファイル系はページについてるファイルを巡回しないからなのか判らんが、
overloadedが出て待たされてる時でも順番の割り込みできる仕様になってるみたい。
急いでるなら画像のURLだけを保存かけてみるのも手。
807:名無しさん@お腹いっぱい。
23/03/22 21:50:02.10 .net
zippyshare閉鎖マジ?
808:名無しさん@お腹いっぱい。
23/03/23 11:48:24.14 .net
noteてとれないんだっけ
809:名無しさん@お腹いっぱい。
23/03/23 13:26:31.42 .net
Note.comはSPNで保存できるけど、robots.txtでia_archiveをブロックしてるから保存してるのを見れないって状態。
Noteが閉鎖してrobots.txtが消されて解消するか、IAがrobots.txtを完全無視する方針になったら多分復活するはず。
保存できるならしとくだけしといたほうがいい。Availability APIでも保存されてるスナップショットはないって返ってきちゃうけどね。
何年か前に投稿者のIPアドレスかホスト名が載ってた時のも含めてデータ自体はどこかに残ってる。
810:名無しさん@お腹いっぱい。
23/03/23 17:28:19.93 .net
>>771
こういうのとかってアーカイブ取る方法ないですか?
GIGAZINEとかも。
811:名無しさん@お腹いっぱい。
23/03/23 19:27:09.83 .net
>>800
GIGAZINEみたいなexcluded系はIAには保存されてる、閲覧が制限されてるだけ
見れることが重要ならtodayを使えばいい
771の様にサイト側で対策されてるタイプは難しい
812:名無しさん@お腹いっぱい。
23/03/23 20:35:30.06 .net
>>800
Webプロキシを間に挟んで間接的に取る方法もある
信頼性とか参照可能性が損なわれるのが欠点
813:名無しさん@お腹いっぱい。
23/03/25 13:44:06.78 .net
IAがフェアユースに基づくと主張して電子書籍を公開していたことに対して、
出版社が著作権侵害を申し立てた裁判の判決が下された
判決は出版社の主張が認められ、IAの敗訴
IAはこの判決を不服とし控訴すると宣言
URLリンク(i.imgur.com)
【関連記事】
The Fight Continues
URLリンク(blog.archive.org)
The Internet Archive has lost its first fight to scan and lend e-books like a library
URLリンク(www.theverge.com)
U.S. judge rules Internet Archive's digital book lending violates copyrights
URLリンク(www.reuters.com)
Judge Decides Against Internet Archive
URLリンク(file770.com)
814:名無しさん@お腹いっぱい。
23/03/25 14:11:37.65 .net
>>801 , >>802
ありがとうございます。
815:名無しさん@お腹いっぱい。
23/03/28 22:14:09.96 .net
doi.orgを保存しようとすると403エラーで保存できないって返ってくるのはちょっとまずいな。
サイト閉鎖したら転送先の論文URLを探すの大変だわ。
816:名無しさん@お腹いっぱい。
23/03/29 00:46:01.00 .net
LinkedIn も Internet Archive をブロック
999 とか変なエラーコード返して来てるw
URLリンク(o.5ch.net)
817:名無しさん@お腹いっぱい。
23/03/29 02:14:03.72 .net
日付が変わってすぐは数分待ちだったのが、1時間待ちに
818:名無しさん@お腹いっぱい。
23/03/29 19:37:54.81 .net
>>799
ほー 勉強になあるわ
819:名無しさん@お腹いっぱい。
23/03/29 19:39:49.22 .net
>>803
同 ps://scan.netsecurity.ne.jp/article/2023/03/28/49118.html
820:名無しさん@お腹いっぱい。
23/03/29 23:39:14.48 .net
PDF以外もPDFも数十分待ち
821:名無しさん@お腹いっぱい。
23/03/30 01:20:09.90 .net
2時間待ち
昨日の比ではない膨れ上がり方・・・
822:名無しさん@お腹いっぱい。
23/03/30 05:23:29.98 .net
今の所1時間45分待ち
午前0時半にボタン押した分が20230329172xxxだから日本時間で午前2時半に保存完了してた
1時間50分後ぐらいだから予定時間通りの遅れ
823:名無しさん@お腹いっぱい。
23/03/30 06:18:00.83 .net
こっちは4時間待ちに
環境によるのか・・・
824:名無しさん@お腹いっぱい。
23/03/30 14:24:03.48 .net
昨日からsave待ちメッセージ いったいなんなのよ ということで
The capture will start in ~4 hours, 12 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.
825:名無しさん@お腹いっぱい。
23/03/30 14:51:09.40 .net
>>798-799
過去にIAにいくつか保存したnote記事が、note側がIA保存対策したのか、その後IA上に残ってなかった覚えがある。(非公開のままか、本当にキャッシュを削除したのは不明)
saveしたとしても、後にサイト側からの要求でキャッシュ一斉削除される可能性は0ではないんだろうなと。
826:名無しさん@お腹いっぱい。
23/03/30 15:04:06.33 .net
test
827:名無しさん@お腹いっぱい。
23/03/30 15:04:44.65 .net
保存してキャッシュがその時は見れてたのに、ある日を境に、
web.archive.org/web/*/ note.com/{.../記事ID}
でいうカレンダーページに、何もキャッシュが残ってなかったっていうことね。
828:名無しさん@お腹いっぱい。
23/03/30 19:57:54.23 .net
昨日の夕方だか夜からの長時間待ち、まだ落ち着いてないなぁ
環境によるだろうが、こっちは3時間台
829:名無しさん@お腹いっぱい。
23/03/30 20:55:02.40 .net
>>815-817
そもそもアーカイブされた内容の「削除」って、出来るのか?
サイト別に分けて保存している訳じゃあるまいし
申し出のあったサイトについて、前方一致か何かで非表示にしてるだけだろ
ちなみに例の事件の直後、note から IA へ連絡が行ったようで
全体が excluded になった話は前スレで既出
robots.txt 云々と過去の仕様の話をしてる奴は無視するに限る
830:名無しさん@お腹いっぱい。
23/03/30 22:07:48.83 .net
1時間待ちだの24分待ちだの今日は長過ぎる・・・何の制限なんだ
831:名無しさん@お腹いっぱい。
23/03/30 23:17:44.96 .net
>>819
DMCA関係なら削除は出来るはず
昔あったpixivのパクリサイトは完全に消えてる(一度も取られてないとは考えにくい)
まぁ815のnoteの話は違うと思うけど
832:名無しさん@お腹いっぱい。
23/03/31 01:41:44.50 .net
ついに5時間台
こりゃ落ち着きそうにない
833:名無しさん@お腹いっぱい。
23/03/31 08:42:19.81 .net
The capture will start in ~7 hours, 52 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.
珍しい。
834:名無しさん@お腹いっぱい。
23/03/31 12:29:09.15 .net
やっとオーバーロードの表示出なくなったのはいいんだけど、
ボタン押して保存始まるまで1分ぐらい待たされてる感じがあるのは俺環か気のせい?
何時間も待たされるよりはいいけどさ。
835:名無しさん@お腹いっぱい。
23/03/31 12:40:18.39 .net
10分経たずに9時間待ちに戻っちゃった。短い昼休みだったな〜
836:名無しさん@お腹いっぱい。
23/03/31 20:01:21.74 .net
同じIPアドレスのまま初めの2〜3回目は待ち時間なしで、3〜4回目を保存しようとすると急に30分〜9時間待ちの表示が出る仕様になってる?
昼ぐらいから何度か試したけど、このパターンにハマることがやけに多いんだが。スマホ回線で試しても同じパターン。
このスレでもここ数日は人や環境によって表示される待ち時間がバラバラになってるようだし。
ちょっと時間を空けると同じIPアドレスでも待ち時間なしに戻る。この仮説が正しいとするとひどいイジワルされてる気持ちになるわ。
大量のURLにすぐに保存したい人にとっては作業時間増えてイライラするだろうな。
837:名無しさん@お腹いっぱい。
23/04/01 17:23:00.03 .net
イジワルねえ…
あくまでも無料なんだからさ(無料だからっていう理由も不明だが)。ボランティアみたいなもんだろうからさ。
「すぐに保存したい」っていうのが「IAに投げる自分の作業をすぐに完了させたい」という意味なら、その作業を自動的にする環境を自前で作るしかないような。
838:名無しさん@お腹いっぱい。
23/04/01 19:18:22.71 .net
占有すんなってことかね
839:名無しさん@お腹いっぱい。
23/04/01 22:42:50.18 .net
826の件は多分昨日だけだったんじゃね?今日は起きてないし
それよりもエイプリルフールのサイトは日付変わる前にできるだけ保存しとけよ
二度と見れなくなるぞ
840:名無しさん@お腹いっぱい。
23/04/02 17:09:52.15 .net
ブルーアーカイブとかいうゲームが登場したせいでスレッド検索がしづらくなったな
841:名無しさん@お腹いっぱい。
23/04/02 23:30:28.00 .net
最後にドット付けて「archive.」で検索すれば一発でこのスレ出てくるよ。
使ってるスレ検索で対応してればだけど。正規表現も対応してたら他のスレも出てくるかも。
842:memo
23/04/03 11:15:59.88 .net
Sorry
Please try again in ~32 min. Crawling this host is paused because they notified us that they are overloaded right
843: now.
844:名無しさん@お腹いっぱい。
23/04/03 21:04:58.51 .net
「Archive up to 3,200 most recent Tweets from this Twitter profile」
これ
845:名無しさん@お腹いっぱい。
23/04/03 21:12:00.39 .net
やべっ誤操作で途中で書き込まれちゃった。
「Archive up to 3,200 most recent Tweets from this Twitter profile」
未ログインでも出てくるこのオプションって、ログインしないと有効にならないの?
未ログインでそのオプション付けても付けなくても41件しか取れてないようだった。
846:名無しさん@お腹いっぱい。
23/04/04 08:58:54.78 .net
3/31夜~さっきまで順調だったのに・・・
>>826がいうように引っかかってしまったのだろうか
今のところ数分待ちで済んでるからまだ良いが、また数時間待ちとかなりかねないのが心配
>>824
確かにオーバーロードの表示がないのに始まらないことがあるなぁ
847:名無しさん@お腹いっぱい。
23/04/04 10:36:57.65 .net
/*/のページだけど1度しか保存されてないURLはリンク先が/*/じゃなくて直接保存されてるスナップショットURLに変わった?
848:名無しさん@お腹いっぱい。
23/04/04 23:41:19.62 .net
835の件、結局1時間待ちに
先月末の膨れ上がり方よりは増しとはいえ・・・
849:名無しさん@お腹いっぱい。
23/04/05 07:46:24.46 .net
皆さんインスタって何で保存してますか?
evernote良かったんですけど無料版の容量少なすぎる…
WAYBACKもarchive.todayもfreezepageもzoom.itも保存出来ないし…
850:
23/04/05 19:17:06.47 .net
別スレッド(スレリンク(internet板:874番))に書き込んだ874だが、
>>838は、私の書き込みではないのであしからず。(マルチポストではない。)
念のため書いとくわ。
851:名無しさん@お腹いっぱい。
23/04/06 15:26:20.14 .net
TwitterのAPIが止まったら最新3200個の選択肢のやつもダメなわけ?
それでもsnscrapeはAPI止まった今でも使えるんだよな。だからツイートURL取り出すだけなら今もできるはず。
852:名無しさん@お腹いっぱい。
23/04/07 05:30:57.28 .net
This URL has been excluded from the Wayback Machine.
URLリンク(sakue.com)
853:名無しさん@お腹いっぱい。
23/04/07 08:31:01.98 .net
上の方も書き込んでおられましたが、やはりwaybackは1万URLしか保存できず、古いものから順番に消えていくのでしょうか?
archivestodayも2700個しか見れず、それより古いものは見れないような。
854:名無しさん@お腹いっぱい。
23/04/07 10:15:52.32 .net
>>842
作文の勉強からやり直せ
855:名無しさん@お腹いっぱい。
23/04/07 16:20:44.43 .net
>>842
todayの方は知らないけど、/*/のページのことなら、そのドメインかディレクトリ以下のURLは1万件までしか検索結果として表示されてないだけで、削除されたわけじゃない。
もうちょっと細かくディレクトリ指定をすれば探してるページを見つけられるのでは?
2021年12月までは10万件まで表示されてたんだけどね >>209
856:名無しさん@お腹いっぱい。
23/04/07 20:41:57.08 .net
全URL欲しい場合は>>332 に書いてあるWayback CDX Server API 使うのが良さそうだね
データ整形が面倒だけど
URLリンク(github.com)
857:39
23/04/08 09:05:42.83 .net
ここ一週間ほど、訳あって非ログイン且つ Tor 経由で作業してるけど
今日初めて、それも 8:50 になってからやっとこのメッセージを見た。
>>39 より保存数の制限は厳しくなってるけど、24 時間で使いきれるかどうかの線なのね。
9:00 まで待ったら保存できたのは言うまでもない。
sssp://o.5ch.net/20ui0.png
858:名無しさん@お腹いっぱい。
23/04/10 12:39:35.47 .net
なろう系の金字塔オーバーロード
859:名無しさん@お腹いっぱい。
23/04/10 12:43:02.28 .net
薬屋のひとりごとを知らん情弱め
860:名無しさん@お腹いっぱい。
23/04/11 19:42:57.17 .net
>>826
3~4回目どころかすぐに30分待ち・・・
861:名無しさん@お腹いっぱい。
23/04/12 01:12:07.58 .net
3200ツイートのやつを使おうとしたときに出たエラー
Sorry.
This snapshot cannot be displayed due to an internal error.
862:名無しさん@お腹いっぱい。
23/04/12 05:51:06.28 .net
4時間待ち
今月になってから最もひどい
863:名無しさん@お腹いっぱい。
23/04/12 15:05:08.26 .net
非ログイン状態で3200ツイート取れるの無くなってるな
やっぱバグだったのか
864:名無しさん@お腹いっぱい。
23/04/12 16:52:17.80 .net
俺の環境では表示されるけど。ただし一度も保存に成功した事ない。
「twitter.com/アカウント名」だけでURL最後に/があると表示されない。
865:名無しさん@お腹いっぱい。
23/04/12 18:15:30.16 .net
851の件は今は3時間台
あれから落ち着いてるのか、一旦落ち着いてからまた膨れ上がってるのか・・・
866:名無しさん@お腹いっぱい。
23/04/12 22:54:00.64 .net
>>853
ああなるほど、確かに最後の/を抜いたら表示されたわ
でも850のエラーが出てしまう
867:名無しさん@お腹いっぱい。
23/04/13 01:02:45.12 .net
同時に2つ保存しようとしたらそれぞれ40分と5時間40分待ちになった
826と似た状態がまだ続いてるのか?
ページ削除される時間がわかってるなら都合の悪いURLを長時間待ち状態して保存されないよう時間稼ぎする悪用方法が思いついたわw
868:名無しさん@お腹いっぱい。
23/04/13 07:11:45.73 .net
>>856
こっちも5時間台
昨日はずっとひどくて今日も相変わらず
>>787の問題は閉じても取得はできるという建前どおり閉じることで回避できる反面、
建前どおり閉じたら閉じたで一部が取得できてないリスクがなぁ・・・
869:名無しさん@お腹いっぱい。
23/04/13 12:36:26.31 .net
>>857
建前も何もSPNボタンを押した時点で保存ジョブは開始されてる
>>434-435に詳しく書いてあるが、待機中はジョブの状態について問い合わせを繰り返してるだけ
無駄な負荷になってるからさっさと閉じるべき
失敗するときは閉じようが閉じまいが失敗してる
870:名無しさん@お腹いっぱい。
23/04/13 18:06:06.44 .net
>失敗するときは閉じようが閉じまいが失敗してる
それは確かにそうだが・・・
閉じなければ「Job failed」が出てるのかどうかで区別がつくが、
閉じたらどれが取得できててどれが失敗してるのか調べないとなぁ
取得するものが少ないときはそれでも良いが多いときは・・・
871:名無しさん@お腹いっぱい。
23/04/13 19:39:11.99 .net
ようやく数時間待ちから数十分待ちに
数十分ですら増しに思えてくる状況
872:名無しさん@お腹いっぱい。
23/04/13 23:56:28.81 .net
アーカイブされたWEBページ見ると
管理人プロフィールに電話番号書いてあったり
住所書いてあったりすることあるな…
リンクからアーカイブURL探さないとまともに辿れないから
検索機能が進化しなきゃ今の所問題にはならないんだろうけど
問題になった時アーカイブ大量削除されそうで怖いな
873:名無しさん@お腹いっぱい。
23/04/14 01:08:04.96 .net
ネットで匿名で物を売りたいやつは特商法違反なんで警察と消費者庁へ通報どうぞ
874:名無しさん@お腹いっぱい。
23/04/15 05:41:20.90 .net
めっちゃ見当違いの書き込みだな
875:名無しさん@お腹いっぱい。
23/04/15 23:11:43.58 .net
We're sorry — something's gone wrong.
Our team has been notified.
保存できない
876:名無しさん@お腹いっぱい。
23/04/19 02:17:11.56 .net
やっぱり非ログイン状態で3200ツイートをやろうとするとこのエラー(>>850)が出るな
バグというか、本来はログインしてない状態で表示しちゃいけないやつかな
877:名無しさん@お腹いっぱい。
23/04/20 11:08:02.25 .net
この前非ログインで保存かけて2日後に/*/を見てみると、十数個のツイートURLがボタン押した時間以降に短期間で保存されてるのを確認した。
非ログインでエラー出ても一応動いてるっぽいけど、3200ツイートの保存はしてくれなかった。不安定すぐる
878:名無しさん@お腹いっぱい。
23/04/22 06:58:40.51 .net
昨日ぐらいからTwitterのHTMLとJavascriptの仕様が変わったようで、
IA側が対応できてないからちゃんと保存されない模様。
犬の404エラーしか保存されない。
879:名無しさん@お腹いっぱい。
23/04/22 17:51:26.36 .net
ついでにsnscrapeも動かなくなってるな
880:名無しさん@お腹いっぱい。
23/04/22 23:15:29.71 .net
>>867
今やったけど普通に保存できたよ
>>868
一昨日辺りから非ログイン状態でツイート検索が出来なくなったから
その影響かも
881:名無しさん@お腹いっぱい。
23/04/23 09:23:51.94 .net
質問です。
Imgurの規約が変更され
ポルノコンテンツなどが削除される可能性があるため
5ちゃんのスレの画像などをアーカイブしようと考えています
その際、InternetArchive側の規約違反になる可能性はありますか?
アメリカなどはポルノコンテンツに厳しいイメージがあるのですが…
882:名無しさん@お腹いっぱい。
23/04/23 10:43:26.06 .net
別にならんでしょ
むしろポルノコンテンツ大国では?
児ポとかには厳しいが
883:名無しさん@お腹いっぱい。
23/04/23 14:25:34.24 .net
>>871
JKとかのエロイラストとかも
スレによってはあるのであっちの児ポに該当しないか心配です
該当していたとしたらInternet Archiveの規約には違反するのでしょうかね…?
884:名無しさん@お腹いっぱい。
23/04/24 07:22:51.76 .net
違反したところで保存したスナップショットが見えなくなるだけだから気にしなくてもいいよ。
気になるなら「俺が保存したぞ〜」と足がつくような記録をネットに残さなきゃいいし。
逆にそういう選別をしてたら時間もったいないと思うけど。
885:名無しさん@お腹いっぱい。
23/04/25 00:03:49.91 .net
IAで弾かれるがfoではなんともないっていうパターンは普通なんかな
886:名無しさん@お腹いっぱい。
23/04/25 09:50:53.63 .net
>>873
ありがとうございます
とりあえず保存することにします
887:名無しさん@お腹いっぱい。
23/04/26 05:44:19.35 .net
Hrm.
sssp://o.5ch.net/20yls.png
888:名無しさん@お腹いっぱい。
23/04/27 03:02:44.39 .net
Twitter、ログインしないと検索できないの不便過ぎるなぁ・・・
そのうち非ログイン状態では閲覧できないとかやりそうなのが
889:名無しさん@お腹いっぱい。
23/04/27 05:37:25.46 .net
>>877
インスタグラムみたいに閉鎖的なサービスに改悪されるのはありそうだな…
890:名無しさん@お腹いっぱい。
23/05/03 21:36:51.26 .net
このサイト、ストリートビューのアーカイブって見れる?
アーカイブのデータ自体はいっぱいあるんだけど読込が遅すぎて
891:名無しさん@お腹いっぱい。
23/05/05 09:00:04.44 .net
テスト
892:名無しさん@お腹いっぱい。
23/05/05 09:06:07.95 .net
ここ最近ようつべの動画の再生ページがウェイバックマシンに保存されるの遅すぎだろ・・・。
公開から1~4時間後って。
自動アーカイブも全然機能されてないし。
何やってんだよアクティブチームといつもアーカイブを取ってる人は、やる気あんのか?
もしかしてエラーでも引っかかって保存されるのに時間かかってんのか?
893:名無しさん@お腹いっぱい。
23/05/05 10:28:31.41 .net
ここ最近YouTubeの再生ページのアーカイブが自動で取られなくなってる?
もしかしてYouTube側から御叱りを受けたのか?
それともエラーにでも引っかかって早期保存が難しくなっているとか?
みんなめんどくさいのに何故!?
894:名無しさん@お腹いっぱい。
23/05/06 13:22:01.40 .net
Haasie: imgurの画像をアーカイブするサイト
URLリンク(haasie.com)<) のリンクを改行区切りで入力して Backup をクリック
保存後は URLリンク(i.haasie.com) のリンクから閲覧可能
5月15日に、ポルノ画像・匿名ユーザーが投稿した非アクティブコンテンツが削除されるという報告を受けて開発に至ったとのこと
↓開発者の投稿
URLリンク(news.ycombinator.com)
895:名無しさん@お腹いっぱい。
23/05/09 00:54:02.23 .net
imgurはアーカイブチームが保存してるっぽい
URLリンク(tracker.archiveteam.org)
896:名無しさん@お腹いっぱい。
23/05/09 05:01:50.46 .net
>>884
URLリストを持ってる人はIRCに投げれば保存してくれるみたいだね
このサイトでアップロードして
URLリンク(transfer.archivete.am)
このIRCチャンネルで保存依頼
URLリンク(webirc.hackint.org)
詳細はarchive teamのwiki参照
URLリンク(wiki.archiveteam.org)
897:名無しさん@お腹いっぱい。
23/05/10 05:12:07.55 .net
IRC覗いてたら、ガチ勢がプロキシ8000個動かして
ブルートフォースでimgurの5文字URL特定しててワロタ
半日で全走査して約3億5千個集まったらしい
898:名無しさん@お腹いっぱい。
23/05/10 16:53:16.14 .net
IRCってなんですか?
899:名無しさん@お腹いっぱい。
23/05/10 21:45:15.69 .net
>>885
ArchiveTeamはIRCっていうチャットツールを使って活動してる
チャット除いてるとアーカイブの進捗状況とかわかるよ リンク>>885
900:名無しさん@お腹いっぱい。
23/05/10 23:53:14.82 .net
知識ある人はWarriorをダウンロードすればアーカイブに参加出来て面白いよ
自分も1GB程度imgurのアーカイブに貢献してる
URLリンク(wiki.archiveteam.org)
901:名無しさん@お腹いっぱい。
23/05/11 10:35:00.71 .net
Internet Relay Chat
902:名無しさん@お腹いっぱい。
23/05/12 01:27:00.00 .net
Twitterのプロフィールページ、SPNだと取れてるのにSPN-outlinksだと取れてないの不思議だな
通常のSPNとoutlinksとで環境が別なのか?
903:名無しさん@お腹いっぱい。
23/05/14 15:50:31.49 .net
twitter・google の検索画面とnoteはarchive .todayで保存可能なのか
904:名無しさん@お腹いっぱい。
23/05/16 04:12:02.04 .net
先月からGoogle Spreadsheetからアーカイブのキュー入れられるやつが全く機能してないんだが原因は何なのだろう
URLリンク(archive.org)
Outlinks機能が使えて、URLのリストをまとめて保存できる手段なにかないですか?
pythonで試してみたんだけど、うまくいかず。。。
URLリンク(pastebin.com)
905:名無しさん@お腹いっぱい。
23/05/16 18:04:49.90 .net
Python は使ったこと無いけど、/save/ に GET メソッド?
あそこ POST の時しか認証情報見てくれないでしょ。
クッキーも、Authorization: ヘッダで S3 API Keys を送った場合も然り。
認証情報と capture_outlinks=1 を見てもらえるようになったら、
今度は 1 つの URL から outlinks の保存のために並行プロセス数が
20 とか 30 とかに増えてしまうのに、それが 5 秒なんかで終わる訳が無い。
きちんと URLリンク(web.archive.org) で空きをチェックしなよ。
906:名無しさん@お腹いっぱい。
23/05/17 19:48:53.67 .net
1時間待ちとか今月になって初めてか
○時間待ちでないほうが珍しいぐらいの先月だか先々月よりは増しとはいえ・・・
907:名無しさん@お腹いっぱい。
23/05/17 23:34:39.99 .net
2時間待ち
908:名無しさん@お腹いっぱい。
23/05/17 23:48:40.78 .net
どこをどう頑張っても数分待ちにしかならんw
909:名無しさん@お腹いっぱい。
23/05/18 07:55:22.17 .net
ようやく落ち着いた
>>897
上のほうにあるが、環境によってバラバラなのがなぁ
910:名無しさん@お腹いっぱい。
23/05/19 23:59:40.14 .net
イーロンがここまで終わってるとは思わなかった
URLリンク(twitter.com)
(deleted an unsolicited ad)
911:名無しさん@お腹いっぱい。
23/05/20 07:54:28.80 .net
PDFファイルのURLを保存させたらその1ページ目しか保存されないのだけど仕様?
なわけないよなぁ
912:名無しさん@お腹いっぱい。
23/05/20 14:46:31.42 .net
>>900
閲覧環境によっては、1ページ目しか表示されない場合がある
(iOSとかだとダメっぽいな)
解決策は、閲覧したいページのURLを編集して数字の後ろにid_ をつけ加えると保存されたまんまの状態で表示されるから、これで全ページ閲覧できるようになるよ
↓こんな感じ
URLリンク(web.archive.org)数字id_/ページURL
913:名無しさん@お腹いっぱい。
23/05/21 08:54:49.03 .net
>>901
thx。たしかにiOSのSafariで見てた
保存ではなく閲覧環境の問題なのね
914:名無しさん@お腹いっぱい。
23/05/22 06:19:18.94 .net
>>893
URLリンク(github.com)
これいいよーs3キーも渡せて
URLリストがあるテキストファイルも渡せる
あと便利なのが再試行機能がある
915:名無しさん@お腹いっぱい。
23/05/22 23:11:28.24 .net
>>903
WSL使うのが嫌だったので遠ざけていましたが使ってみます。
ありがとうございます。
916:名無しさん@お腹いっぱい。
23/05/23 00:08:11.50 .net
画像類似検索に対応しないのだろうか
917:名無しさん@お腹いっぱい。
23/05/23 00:11:24.51 .net
「リンクと画像の抜き出しツール」のアーカイブから画像のURLを入れると画像が保存されているか確認できる。
918:名無しさん@お腹いっぱい。
23/05/23 00:13:41.17 .net
「URLからタイトルゲット君」というサイトも保存確認できる。
919:名無しさん@お腹いっぱい。
23/05/23 05:22:57.93 .net
>>904
そんなに量がないんだったら無料版Colabで走らせてもいいかもね
920:名無しさん@お腹いっぱい。
23/05/23 20:02:46.33 .net
>>892
3月までtodayでアーカイブしたGoogle検索結果をorgで重バックアップしたり出来たが(アクセス環境により検索ワード化けが生じるため)、4月からエラーで弾かれるようになってしまった。
ヤフオクの出品物もorgから取れなくなったし
921:名無しさん@お腹いっぱい。
23/05/25 06:53:09.12 .net
302エラーの無限ループってなんか解決法ある
922:名無しさん@お腹いっぱい。
23/05/25 23:16:17.83 .net
Something went wrong. Try reloading.
ツイッターのアーカイブ閲覧しようとするとこうなるけど、おま環?
923:名無しさん@お腹いっぱい。
23/05/27 13:07:42.53 .net
ふとIAの動画ブラウジングしてたんだけど字幕付きのアニメとか滅茶苦茶うpされて、無法地帯になっててワロタ
アメリカのフェアユースってそんな強いのか
924:名無しさん@お腹いっぱい。
23/05/28 00:55:59.95 .net
>>912
いや普通にアウトだし消されてるよ、いたちごっこだけど
IAの人も何が重要なデータか分からなくなるから止めろってツイートしてたりする
基本的にIAのアカウントがアップしたもの以外は信用しない方がいい
925:名無しさん@お腹いっぱい。
23/05/30 00:40:42.53 .net
502エラーだ
926:名無しさん@お腹いっぱい。
23/06/07 14:18:47.51 .net
アイテムの方にある動画、一定以上のサイズだとブラウザで再生出来ないっぽいな
自分が見たのは20GB超だけど読み込みがされなかった
curlでダウンロードしてローカルで再生は出来たので、ちゃんとアーカイブはされてるらしい
927:名無しさん@お腹いっぱい。
23/06/07 16:00:32.06 .net
それってエンコード時の設定に依ったりしない?
例えば mp4 なら moov atom をファイル先頭に持ってきていないとか。
928:名無しさん@お腹いっぱい。
23/06/11 12:01:40.24 .net
トップページの保存数(Explore more than XXX billion)がたまに十億単位で減るの
何なんだろうか?
929:名無しさん@お腹いっぱい。
23/06/14 11:09:59.33 .net
詳しいことよく知らなくてTorのブラウザでarchivetoday使おうとしたらTor使ってないときでもarchivetodayにアクセスできなくなった
クッキー消去したらまた使えるようになったけどブラックリスト的なものに載ってないか不安
930:名無しさん@お腹いっぱい。
23/06/14 13:17:02.82 .net
>>918
まともにTor使ってるなら、生IPとの関連付けが出来ないんだからTor使ってないときにアクセス不可になるはずがない
それすら分からないならtorは使わない方が良いよ、絶対にどこかでやらかす
931:名無しさん@お腹いっぱい。
23/06/14 13:48:21.90 .net
なんでわざわざTorブラウザでarchivetoday使おうとしたの?普通のブラウザでも使えるよ
932:名無しさん@お腹いっぱい。
23/06/14 14:07:59.22 .net
>>920
10年以上前にTor使えばInstagramでも魚拓取れるって書き込みを見つけたので試したくなったんです
無知ですいませんでした
933:名無しさん@お腹いっぱい。
23/06/14 15:38:07.85 .net
IP紐づいてなくてもフィンガープリントで同一デバイスだと疑われてる可能性はある
とは言っても、torブラウザでtoday使うとCloudflareにブロックされて要JSの認証要求されるから回避も難しいんだよな
唯一の回避策は、使えそうなweb串探してtor→web串→todayでアクセスするくらいか
フィンガープリント追跡防止の拡張機能とかもあるからそういうのを普段使いしてみるのも対策の一つになるかもね
934:名無しさん@お腹いっぱい。
23/06/16 02:07:18.67 .net
今更だけど3200ツイート保存のやつエラーで動かなくなってる
Twitterの仕様が変わった辺りからかな?確認してなかった
935:名無しさん@お腹いっぱい。
23/06/16 14:06:14.26 .net
collections情報死んでるなぁ
936:名無しさん@お腹いっぱい。
23/06/22 18:22:40.12 .net
IAでTwitter取れなくなってる?
937:925
23/06/23 19:17:09.24 .net
今やったら取れた、何だったんだろう
938:名無しさん@お腹いっぱい。
23/06/23 19:17:24.81 .net
>>867>>869
Twitterの鍵垢を保存したら犬のエラーが保存されたわ。原因はこれじゃない?
939:名無しさん@お腹いっぱい。
23/06/24 10:29:59.86 .net
>>927
いや普通の公開アカウントだった
なぜか木曜日だけどのツイートも犬のエラーになってた
940:名無しさん@お腹いっぱい。
23/06/27 20:37:16.58 .net
URLリンク(esica.shop)
↑みたいなサイトを保存すると保存直後は画像が表示されてるのに数か月後保存ページにアクセスすると、
一部画像が表示されないって事が多々あるんだけどおま環?
そのページの画像(大きい小さい表示されるの全て)を一括で保存する方法って無いのかな
941:名無しさん@お腹いっぱい。
23/06/28 09:49:10.92 .net
>>929
数か月後どころか、保存直後も大量の画像が欠落してるんだけど・・・
スクリプトで読み込ませてる画像の一括取得は現状では無理。
ブラウザでアーカイブを表示したときに初めて取得リクエストが発行されるが、
毎分 2 個か 3 個の画像を取得するだけで、あとは 429 Too Many Requests エラーが返ってしまう。
必要な画像を拾い終えるまで、同じアーカイブを数分おきにブラウザで繰り返し表示するしかない。
昨晩ここの画像を全部拾わせてみたので、数か月後にどうなってるか見てみよう。
URLリンク(web.archive.org)
942:名無しさん@お腹いっぱい。
23/06/29 14:23:51.75 .net
今風のスクリプトマシマシ動的サイトはアーカイブするのが難しいからね
画像だけ欠落するならまだマシで、サイト自体が取れないことも珍しくない
943:名無しさん@お腹いっぱい。
23/06/30 19:13:53.48 .net
Twitterの投稿、wayback machineはアーカイブできるけどarchive todayはできなくなってない?
944:名無しさん@お腹いっぱい。
23/06/30 23:57:35.95 .net
>>932
Twitterの仕様変更でログイン状態じゃないとログインページにリダイレクトされるようになったっぽいな
Internet Archiveは何か特別な処理挟んでるのかね
945:名無しさん@お腹いっぱい。
23/07/01 08:31:58.04 .net
save-page-now-outlinksって今動いてないの?
リンク先の保存もやらなきゃいけないじゃんか
946:名無しさん@お腹いっぱい。
23/07/01 23:20:07.49 .net
>>933
ほんとだログインしたらアーカイブできた
どうやってログイン状態検出してるのかも謎だ
947:名無しさん@お腹いっぱい。
23/07/02 15:59:18.82 .net
Pixivのページを保存したいとき、英語ページのURL(en)へ転送されないようにするにはヘッダーに何を指定すればいい?
なんか方法ある?
948:名無しさん@お腹いっぱい。
23/07/02 17:27:30.52 .net
Pixiv から user_language=ja ってクッキーを食べたことにしておけば、
つまりそれを capture_cookie 引数に与えて Save Page Now すれば
転送はされなくなるけど・・・どこも真っ白だぁ
949:名無しさん@お腹いっぱい。
23/07/02 18:18:54.77 .net
waybackもtodayもtwitter保存できねえ
950:名無しさん@お腹いっぱい。
23/07/02 19:09:16.35 .net
Twitter自体が現在不調だからね直してもらわないと
951:名無しさん@お腹いっぱい。
23/07/02 20:01:41.67 .net
仕様やぞ
952:名無しさん@お腹いっぱい。
23/07/03 00:38:46.97 .net
Twitterの仕様変更で
魚拓取れなくなるのかな…
アカウント必須になったら魚拓取れない…
953:名無しさん@お腹いっぱい。
23/07/05 02:00:10.44 .net
Twitterは仕様変更するわ、IAは保存しても読み込めるまで1日以上かかるわ、インターネットに波乱起きすぎ
954:名無しさん@お腹いっぱい。
23/07/05 17:06:56.09 .net
やっとTwitter直ったか?
955:名無しさん@お腹いっぱい。
23/07/06 15:44:51.95 .net
今保存できない?
956:名無しさん@お腹いっぱい。
23/07/06 16:39:15.39 .net
archive.org/details/save-page-now?sort=-addeddate
日本時間13時21分のファイル以降、SPNの新しいコレクションファイルが増えてないので止まってたっぽいが、今は復帰して保存できるっぽい。
957:名無しさん@お腹いっぱい。
23/07/07 16:44:02.26 .net
Twitter、一応取れるようにはなったが単体ツイートしか取れなくなったな
前はリプライも全部保存出来たが不可能になった
あとプロフィールページも保存出来ない
IAの問題ではなく、Twitter側が非ログイン状態での表示を止めたせい
958:名無しさん@お腹いっぱい。
23/07/10 20:27:23.81 .net
5chもぼちぼちアーカイブしていかないとヤバイ感じか?
959:名無しさん@お腹いっぱい。
23/07/10 21:07:05.59 .net
5ちゃんのスレも個人的に保存はちょくちょくやってはいるんだけど、すぐ人大杉になって作業が止まるのが難点。
自分の住民やってるスレやその過去スレからでいいので、やっておいた方がいいよ。
960:名無しさん@お腹いっぱい。
23/07/11 00:09:37.44 .net
これはヤバいな
過去ログごと消えたら洒落にならない
961:名無しさん@お腹いっぱい。
23/07/11 00:36:08.07 .net
筑波大吉田光男准教授が公開してる5chスレタイのデータセット
URLリンク(open.ceek.jp)
962:名無しさん@お腹いっぱい。
23/07/11 06:54:39.48 .net
IAのチームに過去ログ全部クロールして欲しいな。今はなんとか過去ログが見れるけど、明日急に全部見れなくなっても全く不思議じゃないからヒヤヒヤしてる
似たようなサイトでredditって過去ログ保管されてるんだろうか
963:名無しさん@お腹いっぱい。
23/07/12 22:56:55.39 .net
threadsってアーカイブ出来ないタイプのサイトかぁ・・・
964:名無しさん@お腹いっぱい。
23/07/12 22:56:57.12 .net
threadsってアーカイブ出来ないタイプのサイトかぁ・・・
965:名無しさん@お腹いっぱい。
23/07/14 06:06:05.56 cnQfqv0Jq
2022年07月19日 13時00分メモ
大手出版社に著作権侵害で訴えられた「電子図書館」を電子フロンティア財団が支持、デジタル世界の図書館は成り立つのか議論が白熱
URLリンク(gigazine.net)
2023年03月17日 08時00分ネットサービス
大手出版社に著作権侵害で訴えられたインターネットアーカイブが「すべての図書館の将来を脅かす訴訟だ」と主張して支持を求める
URLリンク(gigazine.net)
2023年03月27日 12時42分ネットサービス
インターネットアーカイブが電子書籍の著作権を巡る大手出版社との著作権訴訟の一審で敗訴
URLリンク(gigazine.net)
966:名無しさん@お腹いっぱい。
23/07/14 06:06:42.35 .net
埋まるからちとscに貼っとこ
967:名無しさん@お腹いっぱい。
23/07/15 00:51:33.90 .net
「好き嫌い.com」は魚拓サイトで魚拓を取ってもコメント欄だけが保存されない
どうすればコメント欄も保存できるかな?
i.imgur.com/2uPwBGz.png archive.li/6nRmy
968:名無しさん@お腹いっぱい。
23/07/15 05:12:26.78 .net
5chを保存しようとクロールしたらクロールが全く意味を成さないわね…なにかいい方法あるだろうか?
969:名無しさん@お腹いっぱい。
23/07/15 20:07:35.02 .net
Internet ArchiveのFlashエミュレータが改良されてより多くの作品をサポートできるようになった模様
これにより今まで利用できなかった作品がコレクションに加わるとのこと
詳細
URLリンク(mastodon.archive.org)
新たに実行可能になった作品例
URLリンク(twitter.com)
(deleted an unsolicited ad)
970:名無しさん@お腹いっぱい。
23/07/16 13:40:10.97 .net
これからAI時代になると、IAのデータってますます重要になりそうだな(AIとIAでややこしい)
971:名無しさん@お腹いっぱい。
23/07/17 19:01:14.10 .net
5chの過去ログほとんどアーカイブされてないのか
972:名無しさん@お腹いっぱい。
23/07/18 18:40:50.87 .net
yahooニュースのコメント保存できるようになったな
973:名無しさん@お腹いっぱい。
23/07/19 01:28:09.90 .net
>>960
板にもよるだろうけど軽く触ってみた感じは全部first archiveだな
URLリンク(litter.catbox.moe)
974:名無しさん@お腹いっぱい。
23/07/19 08:24:09.27 .net
過去ログ取ろうとしたけど膨大やな
自分の環境だと七時間で2500urlぐらい
975:名無しさん@お腹いっぱい。
23/07/20 17:51:13.77 .net
>>962
2chから5chにURL変わった影響もありそう
てかTwitterの会話取れなくなったの不便すぎるな
976:名無しさん@お腹いっぱい。
23/07/20 17:53:22.93 .net
ここ最近やる気を感じないな、アクティブチームは。
自動アーカイブも全然取れてないし。
977:名無しさん@お腹いっぱい。
23/07/20 22:16:04.23 .net
>>965
>>595
アクティブチームw
978:名無しさん@お腹いっぱい。
23/07/20 23:04:52.71 .net
アクティブチームって何だArchive-teamのこと?
979:名無しさん@お腹いっぱい。
23/07/21 00:44:18.55 .net
URLが.phから.isに変わった?
980:名無しさん@お腹いっぱい。
23/07/21 03:00:05.35 .net
>>968
すれち&時代遅れ
URLリンク(itest.5ch.net)
981:名無しさん@お腹いっぱい。
23/07/22 00:46:07.17 .net
うーん、ボタンを押しても即座にこれが�
982:ヤってくる sssp://o.5ch.net/21i4q.png
983:名無しさん@お腹いっぱい。
23/07/22 01:02:42.11 .net
俺もや、ついに規制くらったかと思ったけど
サーバー側の問題か
984:名無しさん@お腹いっぱい。
23/07/22 01:16:32.28 .net
どこか特定のサイトを取得する場合の問題かと思ったら別のサイトで試しても>>970
985:969
23/07/22 06:28:15.78 .net
URLリンク(web.archive.org)
復活っ!!
986:名無しさん@お腹いっぱい。
23/07/23 01:54:01.56 .net
URLリンク(web.archive.org)
過去ログdatのアーカイブ取ってる人って居ないよなぁ
987:名無しさん@お腹いっぱい。
23/07/23 04:07:26.60.net
過去ログはとってるけど全然追いついてないな
988:名無しさん@お腹いっぱい。
23/07/24 07:55:27.47.net
放置してたらURL8万行分集めてて、もう飽きたからこれアーカイブしてdatアーカイブやめます
保存されるやつみたら文字化けしてるし意味あるのかなといった感じでもある
普通の過去ログやる方が有意義におもう
989:名無しさん@お腹いっぱい。
23/07/25 22:01:25.69.net
スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ
990:名無しさん@お腹いっぱい。
23/07/25 23:00:40.88.net
Twitchもyoutubeみたいにアーカイブ保存出来るようにならんかなぁ
というかyoutubeと違って一定期間で消えるから、むしろこっちを優先して欲しいまである
991:名無しさん@お腹いっぱい。
23/07/26 07:00:14.47.net
動画ファイルバカでかいししゃーないでしょ
キリないもん、あとtubeupえばupはできると思う
だけどあれ待機時間がすげー長いんだよなぁ
992:名無しさん@お腹いっぱい。
23/07/26 16:48:33.58.net
>>977
それなに? スクリプト使ってないから知らない
993:名無しさん@お腹いっぱい。
23/07/27 08:29:32.45 .net
>>976
どうやって8万行も集めたの?
詳しく聞かせてほしい
Googleの拡張機能でアーカイブ常に取る設定にしてたとか?
994:名無しさん@お腹いっぱい。
23/07/27 16:31:17.56.net
>>981
ただずっと>903のスクリプト動かしてただけ
outlinkの取得先は全板の過去ログのurlを指定した
995:名無しさん@お腹いっぱい。
23/07/27 18:44:11.66.net
スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ
996:名無しさん@お腹いっぱい。
23/07/28 05:52:22.75.net
次スレたのんます
997:名無しさん@お腹いっぱい。
23/07/28 07:03:23.87.net
Internet Archive総合 (web.archive.org) #5
スレリンク(esite板)
998:名無しさん@お腹いっぱい。
23/07/28 16:20:58.19.net
おつでごわす
999:名無しさん@お腹いっぱい。
23/07/31 10
1000::21:47.20 .net
1001:名無しさん@お腹いっぱい。
23/08/01 08:12:52.33 .net
1週前ぐらいに取得した(ことになってる)はずなのに取得できてないのがいくつも・・・
The snapshot may not be available right now, please try again later.
最近が↑たまに出るが、
それとの関係だろうか・・・
せっかく時間かけて取得したはずができてないのは残念
1002:名無しさん@お腹いっぱい。
23/08/01 08:14:32.08 .net
最近が↑→最近↑が
1003:名無しさん@お腹いっぱい。
23/08/09 21:27:34.47 .net
>>976
エアプ乙w
1004:名無しさん@お腹いっぱい。
23/08/09 22:47:57.99 .net
todayの話題はここでいいの?
1005:名無しさん@お腹いっぱい。
23/08/10 05:28:04.06 .net
archive.isはもう3日ほど繋がらないし
Wayback Machineは相変わらずツイッタープロフィールとリプがダメで
リプで繋がってるものも個々でしか取れないから面倒くさい
1006:名無しさん@お腹いっぱい。
23/08/10 18:48:05.30 .net
todayは普通に使えるが
おま環では?
1007:名無しさん@お腹いっぱい。
23/08/10 21:07:26.73 .net
archive.today は、まだ Cloudflare の DNS(1.1.1.1) を拒否しているのかな?
1008:名無しさん@お腹いっぱい。
23/08/11 20:59:13.51 .net
>>992
おま環なのかわからないけどtodayは4日前までは普通に繋がってたけど
急に繋がらくなって今も繋がない
このサイトにアクセスできませんarchive.is により途中で接続が切断されましたって出る
chrome・edge・Fire Foxの全部で繋がらないから環境だとしたら何が原因なのかさっぱり
因みにCloudflare の DNS(1.1.1.1)ではないよ
1009:名無しさん@お腹いっぱい。
23/08/11 21:46:49.16 .net
レス間違えましたすみません
>>995 は >>993 が正しいです
1010:名無しさん@お腹いっぱい。
23/08/11 23:46:35.07 .net
>>994
とか言うだけで、実際に叩いてみたりしないんだ
所詮その程度w
sssp://o.5ch.net/21n1h.png
1011:名無しさん@お腹いっぱい。
23/08/13 12:11:34.23 .net
あれarchive.org落ちてる?spnエラー吐いてる
1012:名無しさん@お腹いっぱい。
23/08/13 12:18:35.35 .net
直ってた
1013:名無しさん@お腹いっぱい。
23/08/16 22:02:08.32 qUaMqCKh6
防衛名目の軍拡利権.少子化名目の私利私欲利権.旅行支援名目の気侯変動災害連発騷音私権侵害の強盗殺人利権による白々しい増税の数々
安全保障を取り巻く状況とか何も変わってないし,原爆使ってみたかった某ならず者国家はWW2で曰本に先制攻撃させるエ作してたわけた゛か゛、
キチガイナセ゛レンスキ一と共謀しての□シア攻撃と同し゛手法て゛,台湾ついて゛に曰本も巻き込んて゛自民公明と共謀してクソシナ攻撃したいだけな
貧乏人か゛子供なんて作ったら遺棄罪て゛逮捕するのが筋だろうに.孑供給付とか孑や嫁と得た効用の対価を赤の他人から奪い取る不当利得だわな
他人の子を連れ込んて゛育てる行為を推進するとか、乱交推進して誰の孑か分からなくするとかしないと、憲法の下の平等なんて確保できんた゛ろ
小池デタラメ百合子なんて私立に行かせてる金持ちの親に毎年10万くれてやるとか.税金で個人の資産形成させるなら税金泥棒公務員利権の
ナマポやら廃止して給付付き税額控除とかやるのか゛筋だろ.つか風俗て゛働いて孑育てしてる自立した女はいくらでもいるた゛ろうに,そんな女と
陳情寄生虫女と.温室効果ガスに騒音にコ□ナにとまき散らして人殺して他人の権利を強奪して儲けてる強盜殺人女とクズっぷり比較してみろ
創価学會員は、何百万人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最惡の殺人腐敗組織公明党を
池田センセ-か゛口をきけて容認するとか本気で思ってるとしたら侮辱にもほどがあるぞ!
hтtΡs://i,imgur,сom/hnli1ga.jpeg
1014:過去ログ ★
[過去ログ]
■ このスレッドは過去ログ倉庫に格納されています