【保存・記録】ウェブアーカイブ総合 Page.01at INTERNET
【保存・記録】ウェブアーカイブ総合 Page.01 - 暇つぶし2ch445:192.168.0.774
20/09/11 18:38:50.57 FY5rw0Vj0.net
>>436
なるほどな、確かにArchiveTeamに動きがなかったら保存されないね
ArchiveTeamが今どういう状況なのかがよく分からないんだけど、本当にNAVERまとめは一切手付かずなのかな?

446:192.168.0.774
20/09/11 19:41:43.80 vIEy03BU0.net
>>437
いろいろ保存してるけど本当に2ページ以降はクロールされてないよ


447: クローラーの仕様でGoogle検索に出る1ページだけは保存されるけど だから人力で保存されてる記事はあんまりないね



448:192.168.0.774
20/09/12 09:44:43.85 +xgSs3Ql0.net
>>438
もう自分でクローラソフト動かしてローカルに保存した方が安心じゃね?
ネットのデータなんて今じゃいつ消えるか分からない
もうバックアップのバックアップ(調子悪くてバックアップ後に取り外したHDDに入れっぱなしのデータ等)くらいのオマケ
アーカイブサイトに保存して安心してたら見られなくなってて、
txtでちょっとメモした断片的情報しか手元に残ってなくて絶望したわ

449:192.168.0.774
20/09/12 12:00:07.88 G5q1lmCg0.net
>>439
確かにそれもそうだし愛読書のごとく読むようなウェブページはpdf化してるけどさ
やはりローカル保存じゃ限界がある、数万記事とか保存しようものならHDD持たないし
それにアーカイブに保存する理由はみんなが見れるからね、知恵袋や古い2chの過去ログ見ててそこのリンクがリンク切れになっても大丈夫なようにある
インターネットアーカイブが消えるときってやっぱり削除要請に応じてるからなのかな
今のところ自分で保存した記事で消えた経験はないが、削除要請以外の自動削除はないと信じたい

450:192.168.0.774
20/09/12 12:06:20.24 G5q1lmCg0.net
ちなみにArchivetodayや他の魚拓サイトは個人経営らしいから経営者が死んだらサーバー更新できず見られなくなるから、そこに大事なものがあればローカル保存したほうがいい、数十年後に見られなくなってる可能性あるし
やはり数百年後の人類に情報を残すなら法人経営のインターネットアーカイブ

451:192.168.0.774
20/09/12 14:19:44.63 smUg5j0l0.net
>>439
そうなんだよなあ
前にインターネットアーカイブで閲覧してた削除済みのサイトが
「This URL has been excluded from the Wayback Machine」で
見られなくなってしまってローカルに保存していなくて今も後悔してるわ
前は見られていた分ショックがでかい
こういうのってドメイン再取得した人が解除申請出すしかまた見られる
方法ないのかね?
これって「完全に削除」されたわけじゃなくて単純に「除外」された状態らしいから

452:192.168.0.774
20/09/12 19:09:30.26 G5q1lmCg0.net
>>442
除外したってことはやっぱりサーバーの容量不足とかじゃなくて要請に応えただけか
サービス終了とかじゃなくてそのページがあると都合が悪いからって意図的に消してるのはローカル保存しかないと思うよ
俺は何回も読むサイトは1ページだけならpdf化してる
さすがに保存対象のURLが何個もあるサイトを全部やるのは面倒だけど
ドメイン再取得していけるかはわからんけど管理者であったことを証明しないとさすがに難しいんじゃないか?でも今の管理者ではダメとも限らないしなー

453:192.168.0.774
20/09/12 19:14:06.20 GdLneOCP0.net
>>443
クローラソフトで.mhtやindex.html等で階層いくつ潜るか設定してクロールすればいいじゃん

454:192.168.0.774
20/09/12 19:35:49.12 smUg5j0l0.net
>>443
>>444
微妙なラインだよなー
ぶっちゃけるとそのサイトはジオシティーズドメインのページで、ジオシティーズの
URLは普通にアーカイブ何万も保存されてて見られるんだけど、そのドメインのサイトは
除外されてるんだよな
自分はそもそもの管理者じゃなくてそのページのファンで、もしまた見られるなら
自分が読んで楽しみたいだけなんだけど、やっぱ厳しいかもしれんな

455:192.168.0.774
20/09/14 03:08:56.33 W68LNMti0.net
ArchiveTeamがNAVERまとめのアーカイブ作業に取り組み始めてくれてたみたい
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね
>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ

456:435
20/09/14 04:11:09.04 Np2NU3M80.net
>>446
なるほど、どうもありがとう
ArchiveTeamが動いてくれたなら最悪の事態は避けられるはずだな...
もちろん>>432(446)の収集したURLあってこその事だから自分も見習わないといけないが

457:446
20/09/14 11:29:54.09 sR0ATY0Y0.net
NAVERまとめデータ共有
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
URLリンク(web.archive.org)
※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない

458:192.168.0.774
20/09/14 15:27:58.62 Np2NU3M80.net
>>448
503エラーのページがアーカイブされているんだが

459:192.168.0.774
20/09/14 15:30:52.44 fWxNFkB80.net
ごめんなさい。恥ずかしいのですがarchiveteamって何ですか?

460:192.168.0.774
20/09/14 15:32:16.47 Np2NU3M80.net
Wayback Machineが一時的に落ちてただけだった
何回かリロードしたらちゃんとダウンロード出来たわ、すまん

461:192.168.0.774
20/09/14 15:36:10.18 Np2NU3M80.net
>>450
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
URLリンク(ja.wikipedia.org)
URLリンク(www.archiveteam.org)

462:192.168.0.774
20/09/17 17:02:04.46 /9nSrgLL0.net
【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは?  [すらいむ★]
スレリンク(scienceplus板)

463:192.168.0.774
20/09/24 21:11:36.87 kg/LREFg0.net
Braveの機能を使って少額寄付した

464:192.168.0.774
20/09/25 12:26:47.34 Cm7cjbfH0.net
>>454
Braveいいよね特にスマホ
ポイントサイトで乞食活動やるよか割もいいし

465:192.168.0.774
20/09/28 05:48:18.46 ydgdSdUA0.net
今更NAVERまとめをローカルに落とそうとしているのだが
Website Explorer・WinHTTrack・Cyotek WebCopy
はうまくいかず(設定ミスがあるのか?)
NAVER&FC2まとめダウンローダ
URLリンク(shimarisu.webcrow.jp)
は画像もhtmlも一応取れるのだがhtmlにダウンロードした画像
はリンクされてない。
後はmhtとpdfぐらいしか無く……
他の人はどのようにローカルに落としているのでしょうか?

466:192.168.0.774
20/09/29 11:41:45.96 IYXlvscX0.net
そもそもローカルに落として�


467:ネいな... Wayback Machineに頼ってる



468:192.168.0.774
20/09/30 00:31:14.62 6Ozi/51l0.net
Naverまとめはほぼバックアップされてるっぽいから安心した
ただNaverのトピックのアーカイブの表示がいろいろおかしい、まったく違う記事名出たりする
どうやらNaver側はURLの大文字と小文字を区別してるのにウェイバックマシン側では区別してないから発生するバグっぽい
トピック見れなかったら別の時間のアーカイブ参照すると見れることがある
例えばトピックのIDがaaabbの場合IDがAaaBbやAAABBの別トピックもウェイバックマシン側がaaabbとして扱うから収集された時間で記事が混在する
2ページ以降のトピック表示は2ページ目の存在による
aaabbにだけ2ページ目以降が存在すればaaabbしか表示されない、他のIDにもあると2ページ以降も混在状態になる
aaabbに2ページ目がなくてAaaBbにある場合もURLいじったりして2ページ以降行くとAaaBbの2ページ目が表示される
NAVERまとめ共有データの中を特定のワードで検索してそこのまとめにアクセスして所属トピック押せばある程度好きなトピックに飛べるから有効に使えると思ったけど少し難ありか
記事にはまったく関係ないから大丈夫、トピックURLが英数字5文字で大文字小文字の違いで別ID扱いされる仕様により起きてるだけだから
記事の中身のURLで個別化されている部分は全部数字だから大丈夫

469:192.168.0.774
20/09/30 14:43:23.75 g0DIZp7G0.net
ツイッターを見ているとNAVERまとめがなくなったことを喜んでる人結構多いし、
何なら「あんなの保存しとく価値はない」みたいな意見も見受けられる
でも、アーカイブが必要かどうかを判断するのは現在生きている自分たちじゃなく将来の人々だと思うんだよね
自分もYahooブログが終わった時は「あんなの保存したってしょうがないだろう」と思っていた側だったんだけど、サ終してしばらく経ったある時、
自分の専門分野に関するとある重要な記録がYahooブログ上で公開されていたらしいこと、
なおかつブログ主が亡くなっていて再公開の見込みもないこと、
そしてどこにもそのアーカイブが残っていないらしいことが判明して、かなり後悔した事があった
これはあくまで一例に過ぎないけども、とにかくWebアーカイブを取る必要があるかどうかは取る側の人間ですら判断できるものじゃないんだと思うわ
長文&自分語りすまない

470:192.168.0.774
20/09/30 14:52:44.90 g0DIZp7G0.net
しかしまあNAVERまとめをブログ代わりに使ってた人結構多かったみたいだな

471:192.168.0.774
20/09/30 15:31:27.75 aEbDHVq00.net
>>459
バカッターなんて結論決まってて後押し(確証バイアス)がほしい時だけ見るもんだよ
今回のなんて馬鹿は想像力も共感力も低くて他人の痛みが分からないから見るだけ無駄だったわけだし

472:192.168.0.774
20/09/30 17:47:30.32 g0DIZp7G0.net
>>461
確かにそれはそういうものなのかもしれないな

473:192.168.0.774
20/10/04 01:53:55.83 t5NF2s3S0.net
ArchiveTeamのリソースほんとすごいな...

474:192.168.0.774
20/10/05 21:28:33.39 PD0n9p530.net
「Webスペース」 サービス提供終了について
URLリンク(www.so-net.ne.jp)
平素はSo-netをご利用いただき、誠にありがとうございます。
このたび、誠に勝手ながら、2021年1月28日(木)をもちまして、「Webスペース」サービスの提供を終了させていただくこととなりました。

475:192.168.0.774
20/10/05 21:28:48.86 PD0n9p530.net
URLリンク(www.so-net.ne.jp)
U-page+は、2021年1月28日(木)15:00 にサービスの提供を終了します

476:192.168.0.774
20/10/06 12:42:46.60 phjE2/zo0.net
so-netが終了したらまた古のインターネットが色々消えるな

477:192.168.0.774
20/10/06 22:52:50.75 DBLhvSyO0.net
So-netブログはSeesaaに成ったからブログ以外か…

478:192.168.0.774
20/10/07 04:16:18.40 dojvgnQy0.net
自分のブクマに入ってたのはこれくらいだな
埋もれてるけど価値があるページはかなり沢山ありそうな気がする
URLリンク(www002.upp.so-net.ne.jp)
URLリンク(www004.upp.so-net.ne.jp)
URLリンク(www004.upp.so-net.ne.jp)
URLリンク(www004.upp.so-net.ne.jp)

479:GeoLog Project
20/10/11 16:23:42.66 wq/dYYyR0.net
so-netのURL収集を始めることにしました
知っているURLがあれば追加してください
現時点でユーザー名単位で2万程度、個別URLでは300万くらいDBに入ってます
URLリンク(geolog.mydns.jp)
特にJavaScript等から呼び出されるファイル群は網羅が難しいので、何か良い手があれば

480:
20/10/13 01:07:49.82 y1bzU/4u0.net
>>469
日本語版ウィキペディアの外部リンクから2000個ほど抽出したんですが、スクリプトでの送信とかって受け付けてます?
(既に収集済みのものとだいぶ被りがありそうですが)

481:GeoLog Project
20/10/13 19:39:50.63 5fIpkaAP0.net
>>470
特に制限はしてないですが、処理速度的に現実的ではない気がするので、
フォームを改行区切りで複数受け付けられるように直したいと思います

482:GeoLog Project
20/10/13 22:03:48.69 5fIpkaAP0.net
>>470
複数行投入できるようにしました

483:192.168.0.774
20/10/13 23:27:30.09 vjEziSOV0.net
geocitiesのときはそれなりに貢献できたけど今回はブクマ見てもso-netなかったわ・・・

484:あめ
20/10/18 05:37:28.91 SRaefsBF0.net
【告知】ニコニコ動画のコメントサーバーリニューアルについて
URLリンク(blog.nicovideo.jp)
> マイメモリー機能の提供を終了
> ・マイメモリーの新規作成や、 既存マイメモリーの視聴ができなくなります
> 削除された動画へのコメント投稿とコメント表示の終了
> ・ 動画タイトルや説明文などの情報も表示されなくなります
期限は「2021年の春までに実施」とのこと

485:192.168.0.774
20/10/18 15:46:35.08 kWrTLNjS0.net
削除済み動画を全部リストアップして、動画説明文/タイトル/コメントなどの情報を取得していく感じか
コメントに関してはXML形式で取得する手法があったような気がする
マイメモリー機能は使ったことないから分からん

486:192.168.0.774
20/10/18 15:47:20.86 kWrTLNjS0.net
sm1から順に数字をカウントアップしていけばいいのかな

487:192.168.0.774
20/10/19 19:56:27.93 PssRg44Z0.net
>>472
検索で引っかかったサイトは送信した
WaybackMachineにも保存できないかな

488:192.168.0.774
20/10/20 00:42:22.74 U91haJxZ0.net
モバイルサイトのないサイトは来春インデックスから消える? Googleアナリストが明言
URLリンク(internet.watch.impress.co.jp)

489:192.168.0.774
20/10/20 18:21:05.26 eWiUZHxk0.net
>>478
Google検索なんて糞化が酷くてもう使ってないからどーでもいい

490:192.168.0.774
20/10/20 23:29:11.48 Puq2k3e00.net
世界一使われてる検索エンジンだしな
個人の好みとしてはGoogleが何をしたってどうでもいいとしても、
影響力を考えると決して無視はできないよ

491:192.168.0.774
20/10/21 03:05:19.74 2kIOGutW0.net
数年前からネットサーフィン=スマホに成ったからなぁ…

492:192.168.0.774
20/10/21 18:11:15.59 le0ESoNU0.net
Google 絶対じゃなくなったんであまり件数ヒットしない検索ワードは Bing や Yandex 併用だよ。

493:192.168.0.774
20/10/21 22:24:10.23 Yfu1DTmm0.net
DuckDuckGoで出ない時だけGoogle

494:192.168.0.774
20/10/23 16:57:51.30 qVAboCuj0.net
>>477
誰かがArchiveTeamにURLリスト渡してくれれば多分保存できる
NAVERまとめの時はアーカイブ開始までに1ヶ月くらいかかったから保存したい場合は早めに相談したほうがいいかも

495:192.168.0.774
20/11/03 09:39:05.85 q2UfgLtS0.net
wgetでWARC.GZファイルを書き出したとき画像ファイルとかも格納される?
どなたかご存知だったらお願いします

496:192.168.0.774
20/11/04 22:28:08.38 iEXbTPK90.net
>>485
WARCは画像ファイルや音声ファイルも含めてページを丸ごと保存する仕組みになっているから、
--page-requisitesオプションを付けて確実に画像がダウンロードされるように指定すれば、ちゃんと画像が格納されるはず

497:192.168.0.774
20/11/04 22:30:48.96 iEXbTPK90.net
WARCの概要を解説してる日本語サイトをいくつか貼っておく
URLリンク(warp.ndl.go.jp)
URLリンク(qiita.com)

498:192.168.0.774
20/11/05 16:18:21.95 bSeXiffE0.net
>>487
ありがとです
--page-requisitesがうまく反映されてなかったみたいでした

499:192.168.0.774
20/11/05 17:30:05.38 M9nLXqV10.net
コロナ騒動の最中に消えていったお店のサイトも手動で保存している。

500:192.168.0.774
20/11/08 00:21:48.98 c3JWvanA0.net
「Infoseek」一部サービス終了のお知らせ(11/2追記)
URLリンク(plaza.rakuten.co.jp)
Infoseekトップページ変更、翻訳、辞書が終了

501:192.168.0.774
20/11/22 08:30:10.87 q2CdPGCc0.net
>>469 を使ってみた
URLをページ内検索で探したらなかったのに、送信するとDBにあると出た...
ページ内検索がダメなのかな
あと、文字化けしているところがあるけど大丈夫なのかな

502:GeoLog Project
20/11/22 13:39:23.43 nA7b/lhh0.net
>>491
どのURLでしょう?
ロジック上は文字コードを考慮していないので、文字化けはそのせいかもしれないです
一応UTF-8のはずなんですが

503:192.168.0.774
20/11/26 12:16:05.64 8QHBEnW70.net
URLリンク(archive.st) が全然取れなくなってしまった

504:192.168.0.774
20/12/04 19:50:57.91 UDGmJ95l0.net
>>493
復旧した?

505:192.168.0.774
20/12/04 21:37:24.55 Onk8N+kv0.net
そこってサイトによって取れたり取れなかったりしない?

506:192.168.0.774
20/12/05 10:13:49.51 jr20iitY0.net
>>493
そこって消える前のフリーウェアとかアーカイブ出来ないクソじゃね

507:192.168.0.774
20/12/10 20:48:32.73 vQ+C+6Ux0.net
>>496
自分の目的が果たせないものをクソ扱いするのは幼稚だからやめような
フリーウェアはInternet Archiveに持っていくとか、
証拠に使うから削除されたくないものは削除申請が通りにくいarchive.today使うとか、
各サービスを使い分けるのがより無難だよ

508:192.168.0.774
20/12/12 15:13:48.12 ELOCcQrr0.net
「Yahoo!ライフマガジン」サービス終了のお知らせ
この度「Yahoo!ライフマガジン」は、2021年3月31日(水)をもちまして、サービスを終了させていただくことになりました。
記事コンテンツは、引き続き「Yahoo! MAP」アプリ上でご覧いただけます。
これまで長きにわたりご利用いただき、ありがとうございました。

509:192.168.0.774
20/12/14 04:34:30.82 h53jvyxt0.net
chakuwiki


510:存亡の危機 友人との永遠のお別れ https://midorikawa.themedia.jp/posts/10408887/ 運営していた谷口 一刀さんが8月に亡くなられた事により 12月にドメイン名でのアクセスが不能になった。 (IP https://52.69.139.163/ では可能) 遺族は存続に消極的みたいな模様。 バックアップはしてみたいものの かなりの容量だと思われるからなあ~ どのぐらいの大きさなんだろうな。



511:192.168.0.774
20/12/14 06:32:22.27 9FaOalLE0.net
もっと早く情報投げて貰えればドメイン失効前にどうにか出来たのに

512:192.168.0.774
20/12/14 07:41:39.26 gA+U1PtW0.net
>>499
URLリンク(chakuriki-alb-971307490.ap-northeast-1.elb.amazonaws.com)
も可能

513:192.168.0.774
20/12/14 14:54:55.41 9FaOalLE0.net
ChakuwikiってMediaWikiだったのか
それなら一応記事のエクスポート機能があるから、これに頼るのが現実的かな
URLリンク(www.mediawiki.org)

514:192.168.0.774
20/12/14 16:04:34.06 gA+U1PtW0.net
>>502
[[特別:統計]]によると記事だけで17,306個もあるみたい
Botとかで一度にエクスポートできるの?

515:192.168.0.774
20/12/14 16:08:04.03 gA+U1PtW0.net
>>503
勘違いしてた。一度にできる方法があるのか

516:192.168.0.774
20/12/14 16:32:18.01 9FaOalLE0.net
chakuwikiスレにこのスレッドのURLを書くだけ書いてきた

517:192.168.0.774
20/12/14 17:13:49.04 evtrCVrO0.net
みんな有能やん

518:192.168.0.774
20/12/14 17:25:23.30 4RCQuIfW0.net
archive teamにwiki保存担当のwiki teamってのがあるからそこで事情を話せば多分保存してくれる
wiki teamのチャットルーム
URLリンク(webirc.hackint.org)
wiki teamについて
URLリンク(www.archiveteam.org)

519:507
20/12/14 18:15:31.65 4RCQuIfW0.net
どうなるか分からないけどwiki teamに伝えておいた
今調べてくれてるらしい

520:192.168.0.774
20/12/14 19:01:14.69 9FaOalLE0.net
>>508
GJ

521:507
20/12/14 19:29:16.39 4RCQuIfW0.net
SSLの問題で通常のwikiのダンプツールが機能しないらしい
詳しい人いますか?

522:507
20/12/14 19:38:36.21 4RCQuIfW0.net
すまんアーカイブの準備がある程度できたらしい
wiki team

523:507
20/12/14 20:10:05.26 4RCQuIfW0.net
変更になるかもしれないけど今のところChakuwikiのアーカイブ状況は
このページから確認できる (ident: 2ns616z58rh5gawijen5s2foi)
URLリンク(dashboard.at.ninjawedding.org)
アーカイブ対象のURLは URLリンク(52.69.139.163)
ある程度時間が経ったらWayback Machineに反映されるよ

524:192.168.0.774
20/12/14 20:33:04.32 azqdHITb0.net
乙!

525:192.168.0.774
20/12/14 20:33:12.40 u61g8tyn0.net
有能

526:192.168.0.774
20/12/14 21:19:05.89 v8wPmt2c0.net
教えて下さい。
Chakuwikiのこのページをアーカイブ化したいんですが、
なぜかうまくいきません。
URLリンク(52.69.139.163)中野_(中野区)
なにかエラーかバグが起きているようなのですが、
回避策はないのでしょうか。

527:192.168.0.774
20/12/14 21:26:38.73 9FaOalLE0.net
>>515
Internet ArchiveのSave Page Nowで'Job failed'とか出るということなら、それはInternet Archive側の内部エラーだからどうにもならない

528:192.168.0.774
20/12/14 21:27:56.18 h53jvyxt0.net
>>512
アーカイブ対象はIPで保存しているようだけど
Wayback Machineにはドメイン名でアクセスできるのでしょうか?

529:192.168.0.774
20/12/14 21:34:23.14 9FaOalLE0.net
>>517
無理なはず
アーカイブをした対象のURLがIPアドレスであるならば、Wayback MachineにもIPアドレスのまま保存されます
chakuwiki側がドメインを改めてIPに紐づけた上で、もう一度アーカイブを取り直すしかないです <


530:192.168.0.774
20/12/14 22:27:22.40 y0BEHrZG0.net
>>507
archive.org にサイト指定してarchive bot走らせること依頼出来るの知らんかった
ニコニコ実況もできたのかな

531:192.168.0.774
20/12/14 22:49:25.71 9FaOalLE0.net
>>515
さっきそのページ試してみたけど普通に取れましたよ
多分chakuwikiかInternet Archiveのどちらかでたまたま内部エラーが起きたんじゃないかと思う

532:192.168.0.774
20/12/14 23:07:45.15 v8wPmt2c0.net
>>520
ありがとうございます。
教えてちゃん状態で申し訳ありません。
こちらのページは可能でしょうか。半角記号が間に入ると保存できないということなのかと思いましたが、常にそうでもないようで……
URLリンク(52.69.139.163)玉造_(大阪市)
URLリンク(52.69.139.163)小阪_(東大阪市)
URLリンク(52.69.139.163)仁川_(兵庫)

533:520
20/12/15 00:35:35.36 Y7gKbm450.net
>>521
全て保存できてます
507氏の申請により、海外のArchiveTeamという非営利団体がbotをぶん回して現在進行系でアーカイブを取ってくれてます
ArchiveTeamのbotが収集したデータはInternet Archive上に移管されるようになっているので、わざわざ手動でアーカイブ取る意味は薄いです

534:192.168.0.774
20/12/15 01:45:51.77 L/BURrrN0.net
やはりArchiveTeamはつよい

535:192.168.0.774
20/12/15 03:45:40.17 Y7gKbm450.net
chakuwikiのAWSの契約がいつ切れるか分からない以上、時間との戦いって感じかね
保存対象として読み込まれてるリソースの数は現時点で総計173万個
さすがに1ヶ月後までには終わってると思うんだけど心配だな

536:192.168.0.774
20/12/15 07:57:43.86 Vnn2vEmu0.net
>>507
>>522
ありがとうございます。
因みにそのアーカイブサイト上のChakuwikiページはどちらになるか、わかりますでしょうか。

537:192.168.0.774
20/12/15 11:39:28.70 BgcXnTgc0.net
>>525
反映される時期は不明だけどWayback Machineから
URLリンク(52.69.139.163) で始まるURLで検索すれば閲覧できるようになるよ
ちなみに保存されたルートはアーカイブされたページの右上にあるAbout this captureを押せばわかる
Live Web Proxy Crawlsは一般人が通常通り手動で保存した場合で、Archive teamとかだったらbot経由で保存されてる
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)

538:192.168.0.774
20/12/15 12:51:45.53 K0GtvYEh0.net
少なくともChakuwiki関係者の誰かがドメイン取って
Chakuwiki.netから52.69.139.163に転送するようにすればつながるのかな?
確かサイト移転どかで転送する際はアーカイブでも転送してくれたっけ?

539:192.168.0.774
20/12/15 15:14:02.30 Y7gKbm450.net
>>527
そこまで至れり尽くせりではない
Internet Archiveがドメインの名前解決をしてくれるわけじゃないので、
新しくドメインを取ったところで、52.69.139.163で取られたアーカイブには転送されない

540:192.168.0.774
20/12/15 15:23:48.12 agHpSR5h0.net
URLリンク(blog.nicovideo.jp)
2021年の春までにニコニコ動画の削除跡地の動画タイトル、説明文、コメントが消えるらしいので
どうにかしてアーカイブを取りたい
ただ、保存ツールはNicomentXenoglossiaが使いやすいんだけど、
アクセス制限の関係上1時間で250件くらいしか落とせないから全削除動画を落とすのは現実的じゃない
仕方ないからコメントは諦めて動画タイトルと説明文だけでも視聴ページからアーカイブしたいと思ったんだけど、
今年に入ってから削除動画は非ログイン状態だと一切表示できなくなってるんだよね…
ArchiveTeamはログイン状態でアーカイブすることって出来るんですか?

541:192.168.0.774
20/12/15 1


542:7:13:19.13 ID:Y7gKbm450.net



543:192.168.0.774
20/12/15 17:55:09.16 agHpSR5h0.net
>>530
ありがとうございます
交渉してみます

544:192.168.0.774
20/12/15 18:52:56.51 Vnn2vEmu0.net
>>526
ありがとうございます。
こちらのスレの皆様には本当に助けていただきました。
ありがとうございました。

545:192.168.0.774
20/12/15 21:45:39.63 /3eTgo780.net
>>530
今の機械翻訳は優秀だし、日本の教育水準はなんだかんだ高いから、
高校まで真面目に英語やってれば大学でサボってても機械翻訳のおかしなところ微調整で長文も余裕

546:192.168.0.774
20/12/16 00:43:03.58 ZACL66BA0.net
このスレへの書き込みのみを見る限り、chakuwikiはこのスレが建ってから初めて大規模アーカイブにまで持ち込めた案件ってことになるのかな
実際に依頼したのは>>507ではあるけど

547:192.168.0.774
20/12/16 00:44:24.01 ZACL66BA0.net
でも情報をここに書き込んでくれた>>499がいなかったらそもそもArchiveTeamへの連絡にこぎつけることもできなかった訳だしな

548:192.168.0.774
20/12/16 01:04:34.43 p+5BPWXT0.net
連絡しなくてもサイト全体をダウンロードする方法を書いてくれた人もいるのに、
ここの住民は知識だけで人に任せるしかできず、初めからやる気がないんだろ

549:192.168.0.774
20/12/16 04:37:34.04 ZACL66BA0.net
>>536
上で書かれてるサイト全体をアーカイブする方法は、主に使ってる技術とサイトの規模の問題で全く使い物にならない
ArchiveTeamは実績も知見も関係各所へのコネもあるところなので、
大規模なサイトを対象にする場合はあそこの力を借りるしかない
こういう言い方はしたくないが、知識もなければ自前でクローラ回したこともない癖にイチャモン付けないで欲しいわ

550:192.168.0.774
20/12/16 11:52:40.02 vM349Ric0.net
>>537
個人でやれる事なんてせいぜい大型個人サイトまでだもんね
wikiみたく大勢が集まって作っていくようなのは漏れが出やすいしね

551:192.168.0.774
20/12/16 14:39:30.07 ZACL66BA0.net
ジオシティーズもGeoLogプロジェクトが半年くらいかけて収集してたけど、ArchiveTeamはその10倍くらいの量を60%くらいの時間で処理してた記憶

552:192.168.0.774
20/12/16 19:10:33.02 JSA/MYWc0.net
>>539
有能すぎて草

553:192.168.0.774
20/12/16 23:02:03.61 ukZ3LQFO0.net
>>531
自分も保存したいと思ってた
IRCログだとアクセス間隔を開けないといけないという話で終わっている気がするけどどうなるんだろう‥
とりあえず具体的な日程が出次第即IRC側に報告しよう

554:192.168.0.774
20/12/17 12:28:41.32 uZBzbV0r0.net
記事のアーカイブ化
URLリンク(52.69.139.163)

555:192.168.0.774
20/12/17 20:15:51.98 YcW6IKDX0.net
お尋ねしたいんですが、Webarchiveで一度アーカイブされていて、
きちんとその状況が確認できていたものが、
アーカイブから消されることってあるのでしょうか。
因みにアーカイブしていたのはChakuwikiの一部ページです。

556:192.168.0.774
20/12/17 21:28:26.50 67XwC+lO0.net
前からたまになかったっけ?このスレでも上の方で何度か言われてたような

557:192.168.0.774
20/12/17 23:12:31.52 A7vSM


558:MBJ0.net



559:192.168.0.774
20/12/17 23:17:57.23 A7vSMMBJ0.net
あとInternet Archiveのサーバはよく不具合を起こす
これのせいで、ちゃんと取れているはずのアーカイブが一時的に見れなくなったり、
アーカイブはちゃんと取れているのに、まだ取られていないという誤った表示が出てきたりすることがある
多分だけど>>543はその不具合にたまたま遭遇したんだと思う
これはInternet Archiveのサーバ内部の問題なので、こちらが取れる対処法はない
サーバの調子が良くなってまた見れるようになるのを待つしかない

560:192.168.0.774
20/12/17 23:20:53.20 A7vSMMBJ0.net
借井戸に「今週月曜日に取ったはずのアーカイブがごっそり消えている」って報告があったけど、
これは>>546で説明したサーバ不具合の典型的症状やね...

561:192.168.0.774
20/12/18 20:05:26.93 I5zRjHzA0.net
Chakuwikiのアーカイブについて
URLリンク(52.69.139.163)
のドメインで今アーカイブをとっているのですが、"()"の他に"!"や"&"がURLに入っているページもWayback Machineではうまく保存できないことが判明しました
(archive.todayでは保存できたのですが…)

562:192.168.0.774
20/12/19 02:11:50.74 Xqo4Hlfy0.net
>>548
もしかしてAPIでチェックしてる?
APIでは一部記号(自分が確認出来たのは"&")が入ってるとアーカイブされててもレスポンスが空の不具合がある
カレンダー側では問題なく確認出来るよ

563:192.168.0.774
20/12/19 15:18:27.59 hlXdl83U0.net
今日Chakuwikiのアーカイブを見て回ったら多くのページが保存されていました。
少なくとも普通に閲覧に支障がないレベルでアーカイブ化が完了しております。

564:192.168.0.774
20/12/22 00:11:10.59 ck8IlUdE0.net
攻略サイトのアーカイブがあったら便利だと思う

565:192.168.0.774
20/12/22 13:53:42.96 A07YUt/w0.net
@wikiとか?
~wikiとかwiki系で攻略wiki作ってるの多いよね

566:192.168.0.774
20/12/22 14:12:52.20 FQJnL9rZ0.net
atwiki系のサイトがサービス終了したら影響大きいだろうな

567:192.168.0.774
20/12/22 15:44:40.36 dhdxyEHd0.net
ランス10みたく色んなwikiに情報あるならまだマシだけど、
攻略サイト作成者や利用者が声がデカイ一部の一強厨にゴリ押しされて、
2番手移行を併合しようとするような流れになったら困る
分かれてるのは作成者とその周辺と気が合わないというのもあるだろうけど、
いつ消えるか分からないこのご時世、何かあった時のための避難所0では無保険過ぎて不安だし

568:192.168.0.774
20/12/23 22:26:51.27 Ff2Y6ihq0.net
chakuwiki、とうとうサーバ自体が消えたっぽい

569:192.168.0.774
20/12/23 22:40:04.53 Y66pe0em0.net
あらら

570:192.168.0.774
20/12/23 23:32:41.83 Ff2Y6ihq0.net
もうちょっと早めに分かってればなぁ
Mediawkiの機能を使った記事や画像のエクスポート自体は完了しているらしいのが不幸中の幸いかな

571:192.168.0.774
20/12/24 16:06:55.70 JkNaumUN0.net
chakuwiki.org

572:192.168.0.774
20/12/24 16:07:47.57 JkNaumUN0.net
>>558
クローンサイトらしい

573:192.168.0.774
20/12/25 00:43:20.22 cNkRqGyv0.net
>>552
HTMLで書かれた個人サイトも忘れずに

574:192.168.0.774
20/12/25 22:50:27.91 9qhqNqL90.net
今時個人サイトのゲーム攻略は絶滅危惧種でしょ
だからこそ保存しなきゃいけない訳だが

575:192.168.0.774
20/12/26 15:11:07.30 8pI8HusK0.net
>>561
ぶっちゃけエロゲ攻略サイト以外の個人ゲーム攻略サイトなくね?w
どーでもいい、スクショもない感想サイトや呟きレベルならあるけど

576:192.168.0.774
20/12/26 17:11:37.89 BbmhGsC00.net
>>562
昔はエロゲ以外のゲームのやつも結構あったんだよ
だからこそ「絶滅危惧種」って言った訳

577:192.168.0.774
20/12/27 07:00:17.63 1AIVcw2g0.net
Wayback machine がFlashをアーカイブして2021年以降も使えるようになるって本当?

578:192.168.0.774
20/12/27 12:27:01.23 OAvLElxI0.net
>>564
どの程度網羅してるのかはわからないけどここから確認できるね
URLリンク(archive.org)
好きなのクリックすればPCからでもスマホからでもflash playerなしで実行できる
データ持ってる場合はアカウント作ってこの記事の下辺りにある手順でアップロードすればいいらしい
URLリンク(blog.archive.org)

579:192.168.0.774
20/12/27 12:49:34.69 nAtd+FF20.net
過去にwayback machineで保存されたWebページからデータからぶっこ抜いてinternet archiveにアップロードしてみんなが使えるようにしてる人もいるみたい
URLリンク(twitter.com)
(deleted an unsolicited ad)

580:192.168.0.774
20/12/29 00:49:00.02 fGs7aR1x0.net
Wayback MachineでアーカイブされているサイトのFlashで作られたメニューって2021年以降に見られるのかな?
調べてもよくわからない…

581:192.168.0.774
20/12/30 18:17:22.94 90IN69Gr0.net
若干スレチかもしれないけどどこに書けばいいのかわからないので
ニコニコ動画の「テクノ」の記事に貼ってあった
URLリンク(techno.org)
このサイト、とても参考になるけど全体がFlashで出来ていて、ローカルに保存したswfでもRuffleを使ってみても(今のところ)きちんと動かなくて
このままじゃ来年見られ無くなっちゃうから元のサイト(www.di.fm)の方にFlash以外での形式で公開してほしいって伝えたいけど自分には英語力がない…
誰か英語のできる人が伝えてほしい

582:192.168.0.774
20/12/30 18:22:29.55 90IN69Gr0.net
>>568
568です
ニコニコ動画→ニコニコ大百科の間違いでした

583:192.168.0.774
20/12/30 20:33:01.57 7rdlBseX0.net
>>568
よく分からないけどこのサイトってどこかの法人が運営してるものっぽいね
他のページは更新されてるのにこれはFlashのまま放棄されているあたり、運営側としても更新する予定はないんだと思うけど

584:192.168.0.774
20/12/30 20:34:00.97 7rdlBseX0.net
あと、依頼するならここよりもテクノ系の5chスレッドを探して書き込んだ方がいいと思うよ

585:192.168.0.774
20/12/31 12:32:10.38 5dDGXSjX0.net
>>565
有名なものならあるようですね
もっと増えて欲しいな

586:192.168.0.774
20/12/31 15:27:29.78 jUqjw1pb0.net
URLリンク(automaton-media.com)
こういったものもあるみたい
仕組みはいまいちよく分からないが

587:192.168.0.774
21/01/01 17:14:31.78 vTF78S5L0.net
URLリンク(ch.nicovideo.jp)
【ニコニコ動画】コメントサーバー・システムのリニューアルと、それにともなう一部機能の終了について
前にも出てたが動画跡地の他にコメントの過去ログも完全には見られなくなる模様。
うp直後のコメントとか見たい時があるので取得しておきたいけど何か良い方法は無いかな

588:192.168.0.774
21/01/01 17:57:54.92 61If5RTI0.net
だいたい再現ってのはコメントの一部を消すってことじゃなくてコン�


589:}以下の秒数とか表示位置が若干変わるってことじゃないかな? 過去のコメントアートが楽しめなくなるってことだから結局よろしくないんだけど



590:192.168.0.774
21/01/01 18:04:16.35 VRDQC31q0.net
どんどんつまらないインターネットになってくな

591:192.168.0.774
21/01/01 23:46:40.12 ORqqm+qO0.net
削除動画のコメントについてはArchiveTeamに依頼しようとしてた人いたよね
どうなったんだろう

592:192.168.0.774
21/01/08 20:40:53.18 23QpLw4X0.net
>>559
アフィで原住民ともめた曰く付きが管理人

593:192.168.0.774
21/01/10 11:31:17.49 rsgyZDHH0.net
2ch(5ch)が閉鎖されたら過去ログはどこかアーカイブしてるのかな

594:192.168.0.774
21/01/12 00:33:19.63 aav8V+4w0.net
>>579
ある程度は既にアーカイブされてるんじゃないだろうか
まあ閉鎖が発表されたら誰かがアーカイブプロジェクト立ち上げるだろうけど

595:192.168.0.774
21/01/12 01:22:47.19 uojRCtJs0.net
完全ではないけどmimizunとかログ速とか

596:192.168.0.774
21/01/12 21:45:06.15 tYoR8j5L0.net
そもそも昔から2ch過去ログサイトはいっぱいあるよね
まあ最近見ないから消えたかもしれんけど

597:192.168.0.774
21/01/13 03:35:42.25 XzQwgawd0.net
過去ログサイトとウェブアーカイブってちょっと違うような気はする
まあWayback Machineに入ってないスレは沢山あるだろうね

598:192.168.0.774
21/01/16 17:03:51.78 3A5W7IEK0.net
ニコ動そのものがサービス終了したら動画のアーカイブはどうなるんだろう
やっぱりArchiveTeamかな

599:192.168.0.774
21/01/18 19:39:35.39 1x0bZ4YH0.net
動画データってアーカイブ可能なの!?
じゃあ…Pornhubのデータは…

600:192.168.0.774
21/01/18 21:20:43.57 IjzqQxcQ0.net
>>585
一般に動画のアーカイブは技術的に難しい
ストリーミング配信の動画なんかは特に難しい

601:192.168.0.774
21/01/18 22:35:35.34 +jP6yxXM0.net
動画ダウンローダあるんだからアーカイブ自体は可能
無劣化は無理っぽいけど

602:192.168.0.774
21/01/19 22:37:31.86 lxRWFQ6M0.net
mp4のまま丸々上げてるサイトなら別だけど普通は無理だよ
自分でダウンロードして動画のアーカイブの方にアップロードするしかない

603:192.168.0.774
21/01/19 22:51:33.07 7KqAH0Yd0.net
そりゃ情弱には無理
痛いpc雑誌読者以下の情弱っぽいし

604:192.168.0.774
21/01/20 07:30:47.61 WT4rpqz70.net
ストリーミング形式はHeritrixも無理らしいという話は聞いたことがある
本当かは知らん

605:192.168.0.774
21/01/20 20:17:20.26 EkoIINwL0.net
そういえば既に知っている人もいるかも知れないが、URLのリストから一括でSavePageNowできるアドオンがある
Firefox、Chromeともにウェブストアにはないけど起動時に読み込めば、一括保存(BulkSave)、右クリックで保存とかができる
URLリンク(github.com)
ここのInstalling the Latest Buildのところにインストール方法が載ってる

606:192.168.0.774
21/01/20 23:22:59.02 dMVBuuQl0.net
>>591
野良だからな~
コード読める人、こういうの↓の検証頼む
【Firefox,Chrome】危険なアドオン・拡張機能の一覧を作るスレ【Edge,etc】 [無断転載禁止]&#169;2ch.net
スレリンク(software板:33番)
33 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2018/02/13(火) 11:00:20.51 ID:aB7Xo92Z0
ソース見てXMLHttpRequestかfetchが書いてある場合は注意した方が良い。



607:XMLHttpRequestかfetchはpostで情報送信できるので。manifestのパーミッションも不要だし。 拡張で情報送信できるのはこの2つの関数だけだと思う。



608:GeoLog Project
21/01/26 22:50:10.34 A19kfSBt0.net
ArchiveTeamがso-netも始めたみたいですね
URLリンク(wiki.archiveteam.org)

609:192.168.0.774
21/01/28 22:55:09.92 qWdIByIL0.net
WayBackMachineにSo-netが追加されてた
今回は全てを取得することはできなかったみたいだがほとんどを取得できたみたい
感謝ですね

610:192.168.0.774
21/01/29 13:46:14.84 fKGUCp210.net
so-netもサービス終了か

611:192.168.0.774
21/01/30 05:46:22.13 jbLv2ZF+0.net
外出自粛で引きこもり増えてるんだからウェブサービス全盛かと思うのにな
サービス終了ラッシュで流れ弾のどれかに当たって鬱こもり増えそう

612:192.168.0.774
21/01/30 18:06:31.16 9LlaKpOV0.net
IPFSが普及すれば価値のある情報がもうちょっとは残りやすくなるのかな
ピン打つだけでローカルに保存できるの便利

613:192.168.0.774
21/01/30 22:13:26.31 g+UddPtz0.net
>>596
家でもスマホって人が多数派だろうからPC向けのサービスには辛い時代

614:192.168.0.774
21/02/07 22:03:08.65 PATKCzwG0.net
そういや自分で適当にサイト立ち上げてそこにバックアップしたいURL書き込み、してIAでsave outlinks使えば実質的にそこに書いてあるURL一括でバックアップできるよな?
save outlinksは会員限定機能で特定のページ内に書いてあるURL全部バックアップする機能

615:192.168.0.774
21/02/07 22:19:27.61 PATKCzwG0.net
これ思いついて今までURLに置換ツールで/save/つけてクリップボード一括開きしてたのが馬鹿らしくなった
あれサーバーに負担かけるしエラーの確認だので時間とられるし
注意点としては余計なリンク作らないことだな、だからブログとかでやるのはやめたほうがいい
何回も同じリンクをバックアップするから規制される可能性もあるし、真っ白なページ作ってURL記述が最善
読取用にHTMLでURL記述する必要があるが置換ツール使うかブックマークインポート使えば簡単にできるはず

616:192.168.0.774
21/02/08 11:45:19.12 bbPCsvBH0.net
何個だったか忘れたが、save outlinksは読み込める外部リンクの数に上限があったはずだからそれは要注意だな

617:192.168.0.774
21/02/08 12:45:54.21 AksXCukq0.net
やってみたらできた
URLの一覧をHTMLコードに変換してホームページ作成サイトにアップロードしてからそのリンクをバックアップ
save outlinksでバックアップできるURLは100個が限界で100個超えてたらランダムに選ばれるみたいだから要注意
FC2ホームページ使うと最後にPowered by FC2ホームページ っていうリンクが強制で1つ最後に入ってしまうから実質は99個が限界かな
完全に真っ白なページ(広告もなし)作れれば理想なんだがどっかないかな、ちなみにAndroidスマホをWebサーバー化したらバックアップ時にエラーが出た

618:192.168.0.774
21/02/08 14:34:59.59 bbPCsvBH0.net
>>602
GitHub PagesかNetlify使ったら?
前者はGitの知識がないと厳しいから実質後者一択かな

619:192.168.0.774
21/02/08 20:07:50.66 AksXCukq0.net
>>603
なるほど、やってみたけどやはり手軽なのはFC2だな、indexファイル含めたフォルダごとアップロードしないといけないのは地味に手間だ
FC2はファイルマネージャーにドラッグドロップするだけでアクセスできるようになるからかなり時間効率はいい
複数バックアップのリスクもこれ見る限りでは大丈夫そうではあるな
URLリンク(imgur.com)


620:g



621:192.168.0.774
21/02/08 20:10:39.63 AksXCukq0.net
ただ複数ファイル最初からアップロードするならNetlify使ってやったほうがやりやすいかもね
100ジャストだから数えやすいし
URLに/ファイル名 つけるだけでまとめてアップロードしたhtmlにはアクセス可能

622:192.168.0.774
21/02/08 22:35:56.52 AksXCukq0.net
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)
とりあえずまとめてバックアップしてみたけど上限の100個でも問題なくできるね
特定のURLがずっとSavingが続く場合は画面のURLをバックアップ成功したの含めて全部コピーしてメモ帳に貼り付けしてサクラエディタとかで「Done!」が入ってる行を一括削除処理するとバックアップできてないURLだけメモ帳に残せる
そしたらサクラエディタで/web/2/付け足して数日経ったらまとめて開いて保存できてるか確認、一見ずっとsavingになってても後で確認したら保存できてる可能性が高い、バックアップできてなければ再度バックアップ
これで、手間がだいぶ減る
あとFC2ホームページは日本語の入ってるURLは文字化けするね、netlifyは特に何も設定しなくても文字化けはしない

623:192.168.0.774
21/02/08 23:09:30.63 AksXCukq0.net
あと、これやるならsave error pagesのチェックは毎回外したほうがいいかも
大量にやるとバックアップされる側が一時重くなるのもあるから404ページが保存されてしまうかもしれない

624:192.168.0.774
21/02/09 01:20:04.21 WeH/rIuE0.net
ゲームやりながらほぼ放置でURL1600個バックアップできた、一度に100個保存できるのは革命だな
やはりsave error pagesのチェック外すのは必須、結構高い頻度でgatewayエラー出るから
多くて100個中5個くらい、出るときはだいたい1.2個エラーになる
チェック外しておくとwaybackmahineがどのURLがエラーで保存できなかったか通知してくれるからそれは手動で個別にバックアップ

625:192.168.0.774
21/02/09 16:38:32.21 zDnBjMvk0.net
>>608
さすがに大量のリンクをアーカイブするのはSPN側のキャパもあるだろうしArchiveTeamに頼んでSPNじゃないところでアーカイブしたほうがいいと思う。
じゃないとSPNのサービス縮小、最悪の場合はSPN終了になりかねない
ArchiveTeamのIRCでDeepl翻訳とか使って言うと対応してくれるらしいので
URLリンク(webirc.hackint.org)

626:192.168.0.774
21/02/10 00:34:19.03 z46S15zT0.net
Save Page Nowあんまり使いすぎてSPN自体が無くなったらどうしようもないから、自分はSPNでアーカイブする量をセーブしてる
多くても週300くらい

627:192.168.0.774
21/02/10 18:55:46.65 m/SVxvNY0.net
>>609
Save outlinks自体が大量バックアップしてくれっていうような機能だし大丈夫じゃないか?
ブログとかだったら意図的じゃなくても1ページ50リンク以上あるとかザラだし、大量バックアップ推奨してなかったらあんな機能普通つけないよ
個人的に無会員で大量にタブ開いてバックアップするのが一番負担かけるやり方だと思うわ、それよりはかなり負担少ないように感じる
save outlinksが会員限定機能な以上邪魔になったらアカウント制限しにくるだけ、何個も重複してバックアップとか意図的に負担かけるようなことしなければ平気だとは思うけど、ただしやりすぎは禁物かもね
あと正直archive teamは画像のバックアップを正常にとれないみたいだから画像ありきのページだと正直依頼するには微妙かもしれない、Naverまとめとか画像まともに表示されてないものが多い、手動で保存したものはしっかり表示される
waybackmachineの自動クロールも画像保存されないことある、手動だとやはり保存される
負担減らしたいならバックアップ済はバックアップしないってチェック項目あればいいのにね

628:192.168.0.774
21/02/11 10:34:08.22 f+DQ9uVI0.net
別に問題ないと思うよ
よく負荷がどうこうっていうけど、個人サイトじゃあるまいし影響は無い

629:192.168.0.774
21/02/12 02:19:02.11 D+7XoyFI0.net
容量の負荷は軽�


630:ク出来るが処理負荷は増えそう



631:192.168.0.774
21/02/15 17:24:11.93 BROhNSp40.net
【告知】ニコニコ動画のコメントサーバーリニューアルに向けた機能提供終了・変更のお知らせ【PC版ニコニコ動画】|ニコニコインフォ
URLリンク(blog.nicovideo.jp)

632:192.168.0.774
21/02/15 18:01:13.52 KmI3cA970.net
>>614
■ 実施スケジュール
実施日時 実施内容
2021年3月1日(月)
過去ログ機能の変更
過去ログのURL共有機能を提供
2021年3月15日(月)
削除された動画へのコメント投稿とコメント表示の終了
 - 動画タイトルや説明文などの情報も表示されなくなります
マイメモリー機能の提供を終了
 - マイメモリーの新規作成や、 既存マイメモリーの視聴ができなくなります
2021年 春以降
動画コメントサーバーを新コメントサーバーに順次リニューアル
2021年リニューアル
完了後
動画投稿一覧などに表示される最新コメントに、投稿者用NG設定を適用
「コメント投稿ユーザーをNG登録」する機能の効果を永続化
自分が投稿したコメントを削除できるように

633:192.168.0.774
21/02/21 10:24:19.04 0mwGDu3d0.net
会員になることのメリットって何かある?

634:192.168.0.774
21/02/21 12:57:56.20 Ya0mID5E0.net
outlinksとGoogleSpreadsheetのバッチ処理が使える。

635:192.168.0.774
21/02/22 10:04:51.68 +ks65Y9m0.net
超便利

636:192.168.0.774
21/02/23 10:23:00.62 uox55Xkf0.net
iRONNA終了
> 2014年10月にスタートした総合オピニオンサイト「iRONNA」は、
> 諸般の事情により2021年3月下旬をもって新規コンテンツの公開を終了することになりました。(中略)
>  尚、終了後もこれまでのiRONNAのコンテンツが閲覧できる環境を維持するための態勢構築を進めています。(後略)
URLリンク(ironna.jp)
閲覧は維持してくれるらしいので緊急性はない。

637:192.168.0.774
21/02/23 16:53:36.76 qBkXHra00.net
総記事数1万7000くらいか

638:192.168.0.774
21/02/23 17:22:19.47 BW828Cy80.net
せっかくwaybackmachineでアーカイブしたのに、どうアーカイブされているか見ようとしたら別の日にアーカイブされたものに飛ばされてしまった。
少し待たないとダメな感じ?

639:192.168.0.774
21/02/23 18:18:35.09 uox55Xkf0.net
基本少し待って確認だけどそれでも反映されてなかったり、反映されてるけど取れてなかったりする。

640:192.168.0.774
21/02/24 22:58:36.25 3JX98v140.net
ここ最近は調子悪いからしばらく様子見たほうがいいよ

641:192.168.0.774
21/02/27 08:23:57.01 6CS9oMdW0.net
この前読んだ漫画に、WaybackMachineを使っているシーンがあった
1コマ程度だけど

642:192.168.0.774
21/02/27 20:23:05.25 Ly2ncyWo0.net
Archive Teamでニコ動のコメントとメタデータ(タイトルとか説明文)の保存が始まった
動画の中でも日本からしか見れないものとかはArchiveTeamの人からは取得できないらしく
Dockerを扱える人いたらWarriorというパッケージを導入すれば誰でも貢献できるのでやってくれるとありがたい
URLリンク(hub.docker.com)
URLリンク(wiki.archiveteam.org)

643:192.168.0.774
21/02/27 21:59:52.26 Jb4WnfRj0.net
わおナイス

644:192.168.0.774
21/03/01 00:57:53.21 ihnmbLOX0.net
最近ニコ動の調子が悪いのはこれのせいなの?
落とすようなのはリスクあるから自分とこのIPではあまりやりたくないな…

645:192.168.0.774
21/03/01 01:35:46.84 wfxDiFoy0.net
割と可能性はあるな
【3/1 0時追記】動画が視聴できない不具合など【調査中・ニコニコ動画】
連日の不具合に�


646:ツき、ご利用の皆様にご不便をおかけし、大変申し訳ございません。 本不具合について、海外からの通常の量ではないアクセスにより、引き起こされております。 現在、さらなる原因調査と、追加の対応を行っております。 不具合発生時間 2021年2月28日(日) 06:06頃~ https://blog.nicovideo.jp/niconews/148255.html



647:192.168.0.774
21/03/01 02:04:13.92 wfxDiFoy0.net
この公式ページの情報によると2月27日23時頃から断続的に不具合が起こってるらしいね
ニコ動アーカイブのトラッカーはここから確認できるっぽい
残り70万/3500万で今も動いてる
URLリンク(tracker.archiveteam.org)

648:192.168.0.774
21/03/01 02:11:24.07 0zo7s6Wq0.net
luaスクリプト読んでみたら、waitもかけずに全力でぶん回すようになってるじゃん
そりゃニコ動も不安定になるわ。DDoSそのものだもん
URLリンク(github.com)

649:192.168.0.774
21/03/01 06:14:48.33 L+5MH82N0.net
>>630
間隔を1秒たりとも空けてないとは思わなかった
プルリクエストした方がええんかな
ArchiveTeam側に連絡取れるようならあちら側で対処してもらうよう依頼した方が良さそうかな

650:192.168.0.774
21/03/01 06:26:19.58 L+5MH82N0.net
今気付いたがアーカイブする対象の動画はどういう指定になってるんだろう
sm+数字連番とかで指定されているようならnmはどうなるんだ

651:192.168.0.774
21/03/01 06:34:33.80 LwaG001V0.net
間隔なしでアクセスしてたのか
連絡できる方お願いします

652:192.168.0.774
21/03/02 21:56:05.22 lV2sHV+Y0.net
URLリンク(entame.nifty.com)

653:192.168.0.774
21/03/03 21:00:06.05 qMU8PBl90.net
>>629
保存が止まってるような気がする

654:192.168.0.774
21/03/03 22:36:32.38 IvY6bDaH0.net
意図的に止めたか、UserAgentとかでブロックされたか

655:192.168.0.774
21/03/04 19:19:41.51 0W4MjtMV0.net
今日archive.isでページを保存しようとしたら
「One more step
Please complete the security check to access archive.is」という画面になった
(そのページのURLは�URLリンク(archive.is)”、あと”私はロボットではありません”っていうのも出てくる)
こうなるのはなぜ?

656:192.168.0.774
21/03/04 19:42:08.01 bGr5q6NW0.net
>>637
ボットからのアクセスからじゃないかをチェックするため
「私はロボットではありません」ってボックスをクリックかタップするとボットでは無いことを証明出来る

657:192.168.0.774
21/03/06 07:37:06.43 hlDxyvDV0.net
>>636
>>628で「対策を行なった」らしいから止められている可能性もあるね

658:192.168.0.774
21/03/07 20:08:35.16 9bQuMkRs0.net
訴えられればいいのに電脳ゴミ屋敷屋

659:192.168.0.774
21/03/13 23:55:10.58 8jEEmAHJ0.net
ニコ動のやつWaybackMachineで見れるようになってる
けど、コメントは無い模様
URLリンク(www.nicovideo.jp)">URLリンク(web.archive.org))

660:192.168.0.774
21/03/13 23:59:45.89 dBDnkJKI0.net
上の方で、「はてな」のサービス終了に触れてるのを見かけたけど、2020年1月末で終わったはてなグループについては誰も言及してないあたりそんなにも影が薄いサービスだったんだろうか…
はてなグループ終了時に運営がデータエクスポートしてくれるやつを実際に頼んだ人っているんだろうかね。

661:192.168.0.774
21/03/14 17:08:52.84 P0VVc7Hv0.net
はてなグループなついw
Twitter調べたらエクスポート依頼してる人いたよ 掲示板やタスクのデータはjson形式で送られてるみたい

662:192.168.0.774
21/03/23 13:54:01.80 cJkTjzqf0.net
ニコニコのユーザーブロマガもサービス終了
URLリンク(site.nicovideo.jp)
>2021年10月7日をもってユーザーブロマガの提供を終了することとなりました。

663:192.168.0.774
21/03/23 14:43:54.48 dIBn548U0.net
最近のニコニコはサービスの改善を図ってか古いものを終了させてるね
いちユーザーとしてはようやくニコニコが大規模に改修されるのかという安堵があるけど、アーカイブしなければならないものが増えるのは厄介だな

664:192.168.0.774
21/03/23 16:22:26.81 dIBn548U0.net
MMDモデルのライセンス情報をブロマガに書いてた人もいるらしい
全員が全員とも引っ越しできるはずはないからライセンス関係のトラブルが起きそう

665:192.168.0.774
21/03/23 17:16:07.79 v4cm6WhT0.net
ブロマガは地味に有用な情報埋まってるからなあ

666:192.168.0.774
21/03/23 22:13:36.29 jZ9ukRPV0.net
長く続いていたところだが、掲示板サービス終了らしい
URLリンク(www.aimix-z.com)

667:192.168.0.774
21/03/23 22:53:01.21 F3Q9JjE00.net
来年の今頃はau3G終了で古い掲示板が更に無くなりそう…

668:192.168.0.774
21/03/24 14:26:11.85 hCLf6Q2s0.net
「Webメディア『WHAT’s IN? tokyo』終了のお知らせ」
URLリンク(tokyo.whatsin.jp)
3月末日をもって終了らしい

669:192.168.0.774
21/03/24 14:30:00.31 hCLf6Q2s0.net
>>650
結構有名なアーティストのインタビューとかライブレポートが載ってるから早めにやった方がいいかも

670:192.168.0.774
21/03/24 19:19:31.06 Dbq8uDYn0.net
>>651
自分でいくつかアーカイブ作業したけど記事やコラムもいっぱいあるから自力でやるには限界がある…
Archive Teamに頼めないかな(でも画像の表示とかできるようになるか心配、有名人の写真とか結構載ってるから)

671:192.168.0.774
21/03/25 10:53:09.11 CDcBUVtC0.net
>>652
>>507あたりから読んでみるといいかも

672:192.168.0.774
21/03/25 13:43:04.79 dIw+mgHL0.net
今ざっと確認してみた感じほとんど保存されてるから
頼む必要はなさそう

673:192.168.0.774
21/03/27 09:00:04.94 IQF/ehSw0.net
>>654
保存されてないものも多いようだけど..

674:192.168.0.774
21/03/27 22:55:42.50 kNI170E5C
「コンサル・IT業界」を俺が全解説する やりたい事ない就活生は全員集合!
URLリンク(www.youtube.com)
努力不足でSESに転職
URLリンク(www.youtube.com)
【転職】日系大手企業から外資系企業への転職は困難な道だ
URLリンク(www.youtube.com)
【就活】非体育会系はどう戦うべきなのか?
URLリンク(www.youtube.com)
「圧倒的努力」と言いたがる奴www
URLリンク(www.youtube.com)

675:192.168.0.774
21/03/28 06:18:56.92 Qy1cjUak0.net
【2ちゃんねる】#山本一郎のYahooニュース個人記事全削除に西村ひろゆきも思わずコメント [みつを★]
スレリンク(mnewsplus板)

676:192.168.0.774
21/03/28 10:20:45.25 7uSirFX90.net
質問です
なぜWayback Machineやarchive.isでのTwitterのページは昔のUIの表示で保存されるのですか?

677:192.168.0.774
21/03/28 10:25:32.20 wf8cUzOd0.net
>>658
Waybackmachineのユーザーエージェント情報が不明または古いブラウザのものだから

678:192.168.0.774
21/03/28 23:27:36.83 W


679:3XigIE00.net



680:192.168.0.774
21/03/30 16:11:02.65 iT+KYP130.net
>>658
Twitterの旧UIは2年くらい前に廃止されたはずだけど、それ以前に取られたアーカイブの話してる?
もしそうなら、それがウェブアーカイブというものだからですとしか答えられない
廃止以後に取られたアーカイブで旧UIになってるものはそもそも遭遇した事がない

681:192.168.0.774
21/03/30 16:13:47.90 iT+KYP130.net
>>654
保存されてないの結構あるから依頼の必要があると思う
もう少し注意して確認してみてくれ

682:192.168.0.774
21/03/30 21:13:15.91 us3SRCC+0.net
>>662
今waybackのAPIで7300記事の保存状況を確認したところエラーが起きたのは30記事くらいだった
念のためこれはアーカイブし直してるけど何か抜けてたりミスしてるところがあるのかな

683:192.168.0.774
21/03/31 02:52:17.69 sigMsPVG0.net
テレビ番組表の記録
っていう2007年からの膨大な番組表データを記録しているサイトがあるんだけど、
番組の詳細内容が表示されなくなったり過剰なアクセス制限があったりと最近改悪が激しい
Waybackのクロールも拒否してるし、
貴重なデータの割にこのサイトにしか残っていない情報が多いので今後ちょっと不安だ

684:192.168.0.774
21/03/31 03:15:05.06 sigMsPVG0.net
ググってみたら最近アーカイブし始めた方がいるみたい
スレリンク(tv板)

685:192.168.0.774
21/04/01 00:28:51.15 b0/dZpQp0.net
503のせいで四月馬鹿サイトのキャプチャができない

686:192.168.0.774
21/04/02 02:20:51.93 E098KUjC0.net
aimix-BBSというレンタル掲示板を見たら今月末でサービス終了するそうだ…

687:192.168.0.774
21/04/02 02:49:27.61 N4klKkfU0.net
【よほど都合が悪いようだ】LINEに否定的だった山本一郎氏、自身のヤフー記事1000本がヤフーによって削除される    [Toy Soldiers★]
スレリンク(newsplus板)

688:192.168.0.774
21/04/02 04:18:45.08 E098KUjC0.net
あら>>648で既出かすまん

689:192.168.0.774
21/04/02 19:27:58.48 SuFyZiNQ0.net
>>668
グロ 右翼のオナニー

690:192.168.0.774
21/04/04 23:07:03.32 1NgTlwaH0.net
503はでなくなったぽいな
ちゃんと保存出来てる

691:192.168.0.774
21/04/06 10:45:21.00 bcYYdv9U0.net
archive.todayの検索したページ全部ローカルに落としたいんですけどいい方法ありませんか?

692:192.168.0.774
21/04/06 10:49:57.61 bcYYdv9U0.net
一つ一つだと時間が、、、

693:192.168.0.774
21/04/06 12:52:00.97 zmjScz9w0.net
「同人用語の基礎知識」
URLリンク(www.paradisearmy.com)
が閉鎖されたようだ。
4日までは存在、5日に閉鎖されたようだ
まあ大体アーカイブに保存されてるようだが。

694:192.168.0.774
21/04/06 13:11:01.58 si5uHLGE0.net
選択範囲のリンクをコピーするアドオンでコピー。
改行置換できるテキストエディタで
「(改行)URLリンク(archive.ph)」を 「.zip(改行)URLリンク(archive.fo)」に 置換してダウンローダーに登録。

695:192.168.0.774
21/04/06 21:44:46.66 bcYYdv9U0.net
>>675
ごめん。素人すぎて理解できない。ありがとう

696:192.168.0.774
21/04/06 22:36:34.89 kP1K0WKb0.net
>>674
つながるけど

697:192.168.0.774
21/04/07 22:24:00.01 jaaDWMPS0.net
>>644 に出てるブロマガってarchive teamで動いてる?
動いてなかったら誰か頼んでもらえます?

698:192.168.0.774
21/04/09 20:51:54.18 qy0N6K120.net
>>674
今試したが繋がるね
サーバダウンかドメインの期限切れだったのでは

699:192.168.0.774
21/04/14 12:17:08.79 48TpJwRy0.net
ここ�


700:ナ聞いていいかわからないけどiPhoneでサイト丸ごと保存できるようなアプリってある?



701:192.168.0.774
21/04/14 18:25:29.79 bpOyJRlR0.net
ローカルの話だったらプリントしてpdfとして保存するのが楽
ネット使っていいならInternet archive

702:192.168.0.774
21/04/14 18:27:41.00 bpOyJRlR0.net
safariでできる、真ん中のボタン押してプリント押してpdfプレビュー見えたら拡大してから右上のボタン押してファイルに保存

703:192.168.0.774
21/04/14 18:29:19.40 ZWSQBuck0.net
横からだけど、それでサイトを丸ごと保存できるの?

704:192.168.0.774
21/04/15 00:23:03.00 CGl/6bWS0.net
>>683
「サイト丸ごと」が全てのページって意味なら無理
IAのアカウント作ってTOPページからアーカイブすれば近い事は出来るけど

705:192.168.0.774
21/04/15 00:25:00.78 EOF13stj0.net
1ページ全部保存できるよ、pdfのページの切れ目は気になるかもしれんけど

706:192.168.0.774
21/04/15 18:46:33.49 NH0zTLbd0.net
そのページだけでなくサイト全体、全てのページという意味でした
紛らわしくて申し訳ない

707:192.168.0.774
21/04/22 02:30:48.66 AxQTCk/Z0.net
以下全然関係ないメモ
wget --spiderでやってログをTxtファイルに出力
TxtファイルからURLを抽出して別のTxtファイルに出力
GoogleSpreadSheetを開いてファイル>インポート、アップロードのタブを開いてTxtファイルをインポート
Internet ArchiveのBatchでArchiveする

708:192.168.0.774
21/04/22 12:02:39.96 /9qqH/bs0.net
ClipTrapっていう神ツール見つけた
これ使うと起動中にクリップボードを勝手にメモ帳に書き込んでくれる、URL収集が格段に楽になった
今までコピーして自分でメモ帳に貼り付けてたのが起動してURLをコピーするだけでよくなる
URLリンク(web.archive.org)

709:192.168.0.774
21/05/01 11:40:31.74 9IzoZg0U0.net
いいねそのツール
aimix bbsはまだ繋がるけど時間の問題か

710:192.168.0.774
21/05/02 01:11:35.64 lC3RPbeK0.net
試しに自分が使ってたコミュニティのaimixbbsログ取ってるけど
7件ごとしか表示できないからクッソめんどいねコレ
あとWAで保存したあとに表示されるURLがバグってページ内に使われてるjavascriptのURLが出たりする
しばらくして保存指定したURLで見るとちゃんと取れてるけども

711:192.168.0.774
21/05/02 13:35:59.09 vaVxAMxx0.net
「There are no running processes.」を真に受けて複数同時にBatchを走らせちまった

712:192.168.0.774
21/05/03 07:15:00.86 /kznU+lx0.net
みんカラのブログはUserAgent無しだとwgetがエラーになるっぽいな

713:192.168.0.774
21/05/08 07:51:11.20 9Fhy2QW70.net
さすがにUserAgentは適当なブラウザのを指定しとけよw
UserAgentにbotって入ってるだけでブロックするクソサイトもあるし

714:192.168.0.774
21/05/18 21:27:51.57 oveHwTzF0.net
最近思うけど個人サイトっていくら有名でも10年後に見られる保証はないんだよね…
そこはか通信とかchakuwikiみたいに管理してた人が突然亡くなっちゃうこともあるし(幸い両方とも移転したけど)

715:192.168.0.774
21/05/19 19:21:18.50 jJ5ExFLB0.net
>>694
本当にその通りだと思うわ
見つけた時にできる限り保存しておくに限る

716:192.168.0.774
21/05/21 15:01:04.55 7xzrhdl00.net
bbspinkのスレを取得しようとすると403になってうまくいかないなー昔は出来たぽいのに
5chのほうは今もスレURLそのままでいけるんだけど

717:192.168.0.774
21/05/28 21:25:26.51 2ckbrUc60.net
こころんにあるミラーってWaybackMachineに保存しようとすると504を返してきて保存できないね

718:192.168.0.774
21/06/15 21:34:37.24 fVgCsqNm0.net
【重要】PC版GREEのサービス終了のお知らせ
2021年6月24日 15:00(木)をもちまして、PC版GREEのサービス提供を終了させていただくこととなりました。
■提供を終了するサービス
サービス終了後は、下記を含む全ての機能がご利用いただけなくなります。
・ゲームプレイ
・ゲーム内アイテムの利用
・GREEコインの購入
・チャットやコミュニティなどのSNS機能
・アバター機能
・会員登録/退会
・日記の外部ブログへの転載機能
※日記の転載先として登録済URLは削除されます
※外部ブログから投稿済の日記はそのまま残ります
URLリンク(jp.apps.gree.net)

719:192.168.0.774
21/06/16 20:55:19.05 O3qSVHMS0.net
ガラケー版GREEは2021年11月25日終了

720:192.168.0.774
21/06/16 23:50:49.53 ghZg6gWC0.net
うい

721:192.168.0.774
21/07/05 03:42:36.80 BBrljrOf0.net
SiteMixというレン鯖の調子が悪いらしい。
URLリンク(it.srad.jp)
まだ消滅しないとは思うけど、個人HPがたくさん残ってるのと、
適当なURLをarchive.org/wayback/availableに投げたら、結構保存されてないので、
消える前に保存したほうがいいかも。

722:192.168.0.774
21/07/05 09:11:16.10 8On27QWK0.net
iPhoneアプリのOffice Pagesってもう機能してないのかな
使ってる人います?

723:192.168.0.774
21/07/06 01:28:03.18 7zXDsYGH0.net
>>701
手遅れの可能性もある

724:192.168.0.774
21/07/19 13:30:59.74 fiblEnSF0.net
今日最初の保存でYou have already reached the limit of active sessions.出すな

725:192.168.0.774
21/07/22 10:00:06.11 Ar5GRjJC0.net
フリーソフトの再配布まとめもほしいなあ

726:192.168.0.774
21/08/17 08:48:52.70 5NZSHDeK0.net
わかる

727:192.168.0.774
21/09/02 11:41:25.91 3hkeXiph0.net
2020年頃からtwitterのツイートも一個一個自動でアーカイブ取るようになったけど
取るようになる以前のツイートとか元鍵垢の鍵かかってた頃のツイートとか兎に角過去に遡ってまでやってくれないのは無能だと思う
前に鍵垢が一時的に開いてたのがあって夜通し手動でアーカイブ取ってたが500くらいしか録れない内に鍵かけ直されちゃった
アクセストークンとか使えたらわざわざいつ開くかわからん鍵が開くまで待つ必要もなくなるんだが…

728:192.168.0.774
21/09/02 11:42:26.46 3hkeXiph0.net
>>707
書き忘れたけどWaybackMachineの話ね

729:192.168.0.774
21/09/05 13:32:33.59 QmbZsHyP0.net
『ウェブクロウ』サービス終了のお知らせ
『スターサーバーフリー』「フリーWPプラン」「フリーWPプレミアムプラン」の提供終了のお知らせ
URLリンク(www.netowl.jp)
URLリンク(www.netowl.jp)
どちらも2022年3月31日正午サービス終了とのこと

730:192.168.0.774
21/09/05 15:40:36.27 mfjx+saw0.net
工エエェェ(´д`)ェェエエ工

731:192.168.0.774
21/09/05 16:10:23.55 wlPS8xY70.net
この辺のドメインのサイトは全滅するってことなのかな
・ウェブクロウ初期ドメイン
webcrow.jp
・ウェブクロウプラス初期ドメイン一覧(138種類)
URLリンク(www.webcrow.jp)

732:192.168.0.774
21/09/05 16:25:46.16 hHeoYwam0.net
mpeg4.jpってのは全然使われてなさそうだな

733:GeoLog Project
21/09/05 19:14:31.17 ukXe2CKd0.net
アーカイブする余裕はないですが、URL収集�


734:セけは作りますか…



735:192.168.0.774
21/09/05 22:04:48.06 hHeoYwam0.net
おお、ありがとう!

736:GeoLog Project
21/09/06 01:55:14.24 asulMEb90.net
URLリンク(geolog.mydns.jp)

737:192.168.0.774
21/09/07 10:24:27.31 tjiIa94U0.net
現状、Wayback Machine とGeoLogでアーカイブが存在しないジオシティーズのサイトは
もう2度と見ることは不可能ですか?
親父との思い出がすべて消えてしまったようなので非常に残念

738:192.168.0.774
21/09/07 13:09:59.05 LYRD7+970.net
>>521
無理だね
ただほとんどアーカイブされてるからアーカイブされてないやつは少ない

739:192.168.0.774
21/09/07 13:10:38.87 LYRD7+970.net
>>717
安価ミス
>>716

740:192.168.0.774
21/09/08 18:41:42.82 yT2ioJcy0.net
今日archiveis落ちてます?

741:192.168.0.774
21/09/09 11:25:30.05 FyBcnQE10.net
ふとArchiveTodayのURL見てて思ったんだけど
ここのURLって大小英数字で5文字だけど、これだと(26*2+10)^5で9億チョイにしかならないんだよね
9億ってInternet archiveの1か月分にすらならないんだけど流石に少なすぎない?
本当に全部アーカイブしてるのかな

742:192.168.0.774
21/09/09 11:31:57.72 FyBcnQE10.net
>>720
ごめん自己解決した
運営ブログに書いてあった
URLリンク(blog.archive.today)
冷静に考えたらIAのアーカイブ量が多すぎるだけか

743:192.168.0.774
21/09/10 13:52:15.68 1Zu8rxzZ0.net
ニコニコのブロマガがそろそろ終わる
URLはナンバー割り振りだからスクリプト等での取得は楽そうだが…

744:192.168.0.774
21/09/10 21:29:09.64 xVzJmdtd0.net
それ分からない

745:192.168.0.774
21/09/15 15:02:30.62 eir66lMu0.net
5chの過去ログの閲覧が有料会員限定になってしまった
sc使えば見られるらしいが有益なスレは念のため魚拓とるようにした方がいいかも

746:192.168.0.774
21/09/16 00:58:25.90 1xT4uIKN0.net
itestだけだな
PC版は見れる

747:192.168.0.774
21/09/16 03:17:33.64 zSMJSyx20.net
PC版を見れるうちに ってことかな

748:192.168.0.774
21/09/16 05:05:04.36 0ExHl1wP0.net
>>724
scも最近はクロールがすぐいかれるので必要なログはちゃんと押さえておく必要がある
/test/read.cgi/patisserie/1506253827/l50

749:192.168.0.774
21/09/16 12:27:15.17 HjXFmpnmO.net
2ちゃんねる過去ログは「ぬこ」使え。過去過ぎるのはほぼ消えたけど。

750:192.168.0.774
21/09/17 00:20:21.39 9TrqYaCb0.net
itestの過去ログまた見れるようになったな
あれも専ブラみたいなもんだからたぶん仕様変更による不具合、元々専ブラじゃ過去ログは見れないし
PC版はHTMLだから影響なかった

751:192.168.0.774
21/09/23 16:38:00.26 SnlBsIcL0.net
「東京大学見聞伝ゼミナール」 URLリンク(kenbunden.net)
「dacapo」 URLリンク(dacapo.piichi.jp)
どっちもここ数年更新されてないからアーカイブしたほうがいいのだろうか?

752:192.168.0.774
21/09/23 19:18:56.23 5qf7Ids20.net
みんなクイック魚拓javaでinternet archiveとarchive todayの取得していないのか? URLのリストがあれば一括で取得できるけど
まだ消えていない個人ブログならfeedlyに登録して、Title-Only Viewで記事の一覧を上から下まで選択して、copy selected linksでURLのリストを取得できる
Screaming Frog SEO Spiderとかを使ってURL取得する方法もあるけど

753:192.168.0.774
21/09/23 19:19:54.95 5qf7Ids20.net
それとYoutubeの各動画の説明欄にある帰属情報の表示ページが2021年9月以降に廃止されるらしい
帰属情報にはクリエイティブ・コモンズ情報(CC-3.0)が記されている動画があって、そういった動画はまるまるウィキメディア・コモンズに動画を転載して実質的なバックアップとすることができる。もちろん、ウィキメディアのコミュニティが教育的でないと判断したら削除されるが、結構生き残るから試して見る価値はある
帰属情報欄が消されると、ウィキメディアの査読者たちがYoutube上でクリエイティブ・コモンズの動画かどうか確認できないから、消されてしまう。それを回避するためには各動画ページのアーカイブを取得する必要がある

754:192.168.0.774
21/09/26 06:38:01.90 w6nU2vk/0.net
archive.phで.txtをアーカイブした場合、プレーンテキストを表示させるにはどうしたら良い?

755:192.168.0.774
21/10/08 09:10:38.92 DAZmEcuV0.net
URLリンク(wayforward.archive.org)

756:192.168.0.774
21/10/09 16:11:44.25 wG4zenqO0.net
「音楽文」サービス終了のお知らせ
URLリンク(ongakubun.com)

757:192.168.0.774
21/10/29 01:31:40.54 aL+Cspmv0.net
スレ違い気味ですみません
URLリンク(tojinomiko-tomoshibi.jp)
上記の冒頭での「斬る」エフェクトアニメがどうしても保存できません
どうすればいいでしょうか?

758:192.168.0.774
21/10/29 11:12:11.18 QSc2canI0.net
>>736
アニメーションを自分の端末に保存したいってことかな?
ソースを見ると1枚の画像をブラウザの処理で変形させてアニメーションにしてるから
画面収録とかして保存するしかないと思う

759:192.168.0.774
21/10/29 11:55:15.50 aL+Cspmv0.net
>>737
サンクス
やっぱりそうかあ>1枚の画像をブラウザの処理で変形させてアニメーションにしてる
静止画保存で妥協します

760:192.168.0.774
21/10/29 12:33:00.97 aL+Cspmv0.net
って、開発者モードから静止画が取れないみたいですね
キャプチャ(画面撮影)くらいしか方法がないのかな?

761:192.168.0.774
21/10/29 14:40:08.52 QSc2canI0.net
>>739
画像はここから確認できるよ
URLリンク(tojinomiko-tomoshibi.jp)

762:192.168.0.774
21/10/29 19:43:33.53 aL+Cspmv0.net
>>740
いやもう本当にサンクス おかげで助かりました

763:192.168.0.774
21/11/16 17:17:26.39 JttJ7yZa0.net
>>730
kenbunden.net Internet Archiveに保存されてなかった80ページほどのURLを昨日SPNに投げて保存しといた
dacapo.piichi.jp こっちも保存されてなかった1700ページぐらいをSPNに投げて保存した
>>735
10月末にArchiveteamが巡回保存済、誰か依頼出したみたい

764:192.168.0.774
21/11/16 21:13:44.38 YQB5gBe+0.net
Archiveteamがやってくれるなら、ノンアフィまとめサイトも一括で魚拓取ってほしい
記事数が1年で1万近くあるから手動じゃ無理だわ
URLリンク(himasoku1123.blogspot.com)<)

765:192.168.0.774
21/11/17 12:33:14.44 In0ODzl20.net
自動化してまとめ記事作ってるところもあるだろうし際限なさそう

766:192.168.0.774
21/11/19 12:17:06.05 CyrJshBK0.net
>>742
729です ありがとうございます
いま見聞伝の昔のサイト「KENBUNDEN2009」(URLリンク(kenbunden.net))のアーカイブをInternet Archiveで途中までとっているのですが
URLリンク(kenbunden.net)
URLリンク(kenbunden.net)
URLリンク(kenbunden.net)


767:%E3%83%BC%EF%BC%89/ ttp://kenbunden.net/wpmu/?attachment_id=1097 ttp://kenbunden.net/wpmu/blog/2009/07/13/%E3%80%8C%E8%A1%97%E3%83%B2%E6%83%B3%E3%83%95%E3%80%8D/ ttp://kenbunden.net/wpmu/blog/2009/07/13/%E3%80%8C%E8%87%AA%E5%88%86%E4%BA%8B%E5%8C%96%E3%80%8D%E3%81%99%E3%82%8B%E3%80%82/ ttp://kenbunden.net/wpmu/?attachment_id=1068 ttp://kenbunden.net/wpmu/blog/2009/12/01/%E2%97%86intro-2/ ttp://kenbunden.net/wpmu/hiroyasu/2009/09/23/nins%E3%82%B7%E3%83%B3%E3%83%9D%E3%82%B8%E3%82%A6%E3%83%A0%E4%BA%8B%E5%89%8D%E5%8F%96%E6%9D%90%E6%9D%BE%E6%B2%A2%E5%85%88%E7%94%9F/ これらのページがURLに含まれる記号等のせいかきちんとアーカイブできません



768:192.168.0.774
21/11/19 18:59:05.02 Pk06F6JR0.net
>>745です
上記のURLの内
URLリンク(kenbunden.net)
URLリンク(kenbunden.net)
以外はアーカイブできました これより後だと
URLリンク(kenbunden.net)
URLリンク(kenbunden.net)
URLリンク(kenbunden.net)
URLリンク(kenbunden.net)
URLリンク(kenbunden.net)
が時間を置いても今のところだめです

769:192.168.0.774
21/11/21 04:32:28.52 clopneT/0.net
>>745-746
Save Page Nowから保存しようとすると俺の環境でも出来なかったけど、
curl使って/save/に投げたら保存できた
?attachment_id=1063と?attachment_id=1068はNot Foundでページが自体が無いけど、
Save Page Nowで保存できたよ
取りこぼし無ければ俺が確認できたブログ記事118ページ全て保存できてるはず

770:192.168.0.774
21/11/23 18:21:37.02 W/yKXnUq0.net
ツイセーブってアーカイヴ的な意味でTwitterの保存に使えるのかな

771:192.168.0.774
21/12/11 19:00:09.35 2OqI6BpU0.net
エキサイトフレンズサービス
URLリンク(friends.excite.co.jp)
サービス提供の終了 2022年4月27日(水)15時

772:192.168.0.774
21/12/22 16:07:43.18 i8v1M90L0.net
URLリンク(ameblo.jp)
今井ゆうぞうさんのブログが明後日の19時に閉鎖されるそうです

773:192.168.0.774
22/01/01 08:02:10.22 1JWOwe190.net


774:192.168.0.774
22/01/30 10:58:40.76 2zlArtBu0.net
URLリンク(shop.plaza.rakuten.co.jp)
店長の部屋Plus+は2022年1月をもって提供を終了致します。長きに渡りご愛読ありがとうございました。

775:192.168.0.774
22/02/03 07:58:26.18 sxAD5/Ob0.net
スクウェア・エニックスの開発資料を管理するプロジェクト「SAVE」のセッションをレポート。ゲーム開発の過去を探ることで,未来につなげる
URLリンク(www.4gamer.net)

776:192.168.0.774
22/02/04 13:46:00.41 IFofhrOr0.net
気色悪すぎるポエマー基地外婆
痛い妄想婆。芸能人のゴシップネタに顔文字で嘲笑い中傷しか少ししたら即消し。
自分にひたすら赤ポチ付け命懸け
周囲に青ポチ連打。
若ぶってる還暦近いニート婆
URLリンク(news.yahoo.co.jp)

777:192.168.0.774
22/02/08 15:54:59.53 23mO94fl0.net
「ウェブリブログサービス終了(2023/1)のお知らせ」
URLリンク(info.at.webry.info)

778:192.168.0.774
22/02/11 21:11:14.31 hbmD4GnQ0.net
あけおめ

779:192.168.0.774
22/02/15 14:21:23.44 73XsCTsE0.net
TechCrunch Ja


780:panおよびエンガジェット日本版 終了のお知らせ https://www.beboundless.jp/press/corporate-announcement-02-15-2022 これ誰かArchive Teamに連絡してもらえないかな どちらも日本のITニュースサイトの草分け的なサイトで、過去記事が完全に無くなってしまうと結構な影響が出る



781:192.168.0.774
22/02/15 16:50:44.74 SFqpnXng0.net
>>757
なくなるのか…。

782:756
22/02/15 20:04:52.81 73XsCTsE0.net
>>757
CCPA(カリフォルニア州消費者プライバシー法)
の問題で米国のIPアドレスからはアクセス出来ないという話もあるから、
アーカイブ時は日本国内でクローラ動かす方が無難かもしれないということを補記しておきます
URLリンク(twitter.com)
URLリンク(twitter.com)
(deleted an unsolicited ad)

783:192.168.0.774
22/02/16 03:26:15.80 BKSYw+Hj0.net
キチガイ糞ヤフコメ民
こいつに青ポチいっぱい頼む
URLリンク(news.yahoo.co.jp)

784:192.168.0.774
22/02/16 15:41:04.72 Z1Ikjh2D0.net
>>757
TechCrunch Japanは現時点で3190ページまである
各20記事載ってるから計63800記事くらい
URLリンク(jp.techcrunch.com)


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch