【保存・記録】ウェブアーカイブ総合 Page.01at INTERNET
【保存・記録】ウェブアーカイブ総合 Page.01 - 暇つぶし2ch237:192.168.0.774
19/09/15 22:34:40.70 6+5CjbXu0.net
興味あるので保守

238:215
19/09/20 05:31:59.01 QM3MI5eR0.net
アーカイブしたいサイトがある時、どうやって保存するの?
Winなら巡集みたいなソフト使ってやるの? Macではターミナル?

239:192.168.0.774
19/09/23 03:23:58.52 TCqq29480.net
ニコ生アラートのバイナリ保存されていない…残念

240:192.168.0.774
19/09/23 03:47:25.00 TCqq29480.net
>>235 >>175



242:215
19/09/23 05:25:08.76 2+4wj0ye0.net
>>237
Windowsしか書いてないけど、macで行ける?

243:192.168.0.774
19/09/23 08:45:19.53 TCqq29480.net
Macはもってないので分からない。
>>175のやつWindowsでも機能していない可能性がある。保存されたって出てるけど実際は保存されていないとか。

244:192.168.0.774
19/09/25 18:16:46.74 TR/fy2AH0.net
サービス終了に関するご報告
URLリンク(www.rich.co.jp)
>この度、2015年よりサービスを続けてまいりましたメディア「ヘルスケア大学」について、当社事業領域の整理に伴い社内リソースを別領域に集中させることに決定し、2019年9月30日にサービスを終了することとなりました。

245:192.168.0.774
19/09/27 23:51:14.06 4H4+28EN0.net
ワイ「古い車買ったろ。整備は大変そうやけど、ネットには先人の知恵がいっぱいや」
1 :名無しさん@おーぷん:19/09/27(金)23:31:11 ID:2JG主 ×
ジオシティーズ「ん?」
ディオン「んん?」
ニフティー「んんん?」
2:名無しさん@おーぷん:19/09/27(金)23:31:38 ID:2JG主 ×
先人の知恵、消える
3:名無しさん@おーぷん:19/09/27(金)23:31:46 ID:6EZ ×
しゃーない
5:名無しさん@おーぷん:19/09/27(金)23:32:30 ID:cUL ×
悲しいなぁ…

246:192.168.0.774
19/09/28 08:08:34.63 bq44L+WV0.net
各アーカイブサービスの検索機能が優秀なら良いんだけどな
保存してもそれを探し出せないなら死蔵と変わらんな

247:192.168.0.774
19/09/29 01:09:52.47 q9QXqdnD0.net
無料ソフトウェアのサイトは保存されてても実行ファイルを含むzipファイルは保存されていません。
可能な限り保存します。

248:192.168.0.774
19/09/29 01:34:12.78 T/2cpgi20.net
>>242
単にアーカイブしたファイルの中身に対して検索を行えるかどうかの話。
それを優秀などという語でしか表現できない貧弱なボキャブラリー。

249:192.168.0.774
19/09/29 02:04:44.22 q9QXqdnD0.net
Googleとかで「 site:web.archive.org」を付けて検索するのが現実的かと。

250:192.168.0.774
19/09/29 11:02:46.70 IeSWqng50.net
wikiうんぬんの話が出ているので、いくつか使ったことがあるから書いておくけど
atwiki SeesaaWiki FC2wiki などはそれぞれ記法が独特でバックアップが取れない
atwikiは特に仕様がころころ変わる上に不具合発生率も高くて、書き込みだけに集中できないし
アカウントを削除してもサーバーからデーターが完全削除されないみたい
pukiwiki/pukiwiki plusベースのところはdumpデーターは取得できるけど
運営が個人だったり個人で会社を作ってやっているところはその人がどうにかなると連絡が取れなくなる
それでもサーバーやドメインが維持されいるとサービスは利用できるけど
ある日突然使えなくなることがある

251:192.168.0.774
19/09/29 12:20:42.26 T/2cpgi20.net
コンテンツ制作側としてのバックアップの話をここでやってどーするの。

252:192.168.0.774
19/09/29 12:33:23.11 IeSWqng50.net
個人サイトで無料/有料に関わらず共用サーバーを使っている場合
サーバー管理会社によってサーバーのスペック変更が行われると
サービスが終了していなくてもサイトが閲覧不可になることがあるよね
PHP5.3までしか対応していないものを使ってサイト運営をしているのに
サーバー側がPHP7.2にしちゃったとか
サーバーを丸ごと交換してデフォルトがUTF-8になったのに
サイトのほうでcharsetを指定していないとか
DBのバージョンが上がってデーターが呼び出せなくなった
等の理由で、閲覧が困難になるケース
閲覧しに行って真っ白だったり文字化けしていたりするのはこの辺の理由

253:192.168.0.774
19/09/29 12:56:37.11 T/2cpgi20.net
なんだ、新手のスレ埋め立てかw

254:192.168.0.774
19/09/29 1


255:3:09:54.41 ID:T/2cpgi20.net



256:192.168.0.774
19/09/29 17:04:53.57 q9QXqdnD0.net
このスレで使うwikiが消滅する場合の対策の話じゃないの。

257:192.168.0.774
19/09/29 22:23:17.96 n8nVup7e0.net
>>244
人の揚げ足取る暇があったらアーカイブしろ

258:242=252
19/09/29 22:32:55.86 n8nVup7e0.net
だいたいページ内容の走査だけで検索機能実装しても優秀とは到底言えないからな
検索エンジンサービスのようにページランク等を考慮して初めて、優秀というかようやく使いものになる
アーカイブサービスのように膨大な数のページを検索しなきゃいけない場合は、そういったアルゴリズムの必要性がさらに高まる
こういう話をいちいちするのが面倒だから話を全部ひっくるめて「優秀」の一語で表現した
これで満足か?

259:192.168.0.774
19/09/29 22:36:12.79 n8nVup7e0.net
ページランクは固有名詞に近いからランキングアルゴリズムと言うべきだったかもしれない

260:192.168.0.774
19/09/29 22:40:09.36 n8nVup7e0.net
クソリプが跋扈するツイッターや人口の多い他の5ch板ならまだしも、
このご時世にこんな専門板で、横からいきなり会話してる訳でもない相手からレスが飛んでくるとは思わなかった
随分面食らったわ

261:192.168.0.774
19/09/29 22:48:43.54 T/2cpgi20.net
Wiki立てる話自体が消えたと思ってたw

262:192.168.0.774
19/09/30 11:04:24.16 MZVGPwZn0.net
>>256
また話が出るかもしれないから一応書いておいただけ
atwiki上のサイトで差分が見れないところがあったから
archive.orgで探してみたけど
archive.orgのbotをatwikが蹴っているみたいで最近はエラーページが保存されちゃってる
意図的にそのページを残したい人がarchive.orgのアカウントを作って残す場合は別として
消えちゃったページを後からarchive.orgで探すのは難しくなっていると思うよ
クローリングの期間がだいぶ開いている
これはGoogleのキャッシュもそうだと思う
サイトを運営している人がGoogleのアカウントを取得して
Google Search Consoleからクローリングのリクエストを出して当然ってなってきているみたい

263:192.168.0.774
19/09/30 15:43:12.38 yT22Xmkr0.net
>>245
実際に検索してみると分かるけど、その方法だと引っかからないアーカイブが結構あるんだよな
Googleのクローリングが追いついてないんだと思うけど

264:192.168.0.774
19/09/30 17:16:29.06 yT22Xmkr0.net
【ヤフー】Yahoo!ブログ【アーカイブ】
スレリンク(blog板)/
74 Trackback(774) 2019/09/30(月) 17:07:59.58ID:th5gp/Yr
Internet ArchiveでYahooブログを保存すると遷移スクリプトが発火する話なんだけど、
web.archive.org/save のページから「Save outlinks」にチェックを入れて保存すると
どうもYahooのトップページに遷移されずにアーカイブできるみたいだ
さっき偶然発見して何回か試したけど今のところ全て上手く保存されてる

265:192.168.0.774
19/10/08 01:13:45.16 MXp0IOeT0.net
Twitter埋め込みが一切保存されない問題

266:215
19/10/08 08:01:40.33 GswYVQiV0.net
>>260
アメリカの図書�


267:ルにいけよ



268:192.168.0.774
19/10/08 14:30:06.60 fXMCPs+v0.net
アメリカの図書館はもうTwitterの全保存やめたんじゃなかったか

269:192.168.0.774
19/10/18 01:06:58 F6Bah8760.net
当時の「魔法のiらんど」上で作られたサイトは現在ではほとんど残っていない。
WebArchiveでも表層しか掘れないサイトばかりである。
当時の掲示板でのやりとり等はもちろん、かのクレリアさんが自サイトに書き記していた構築解説ですらも現在は散逸してしまった。

270:192.168.0.774
19/10/25 10:22:59.94 ZZgmHhFq0.net
手動で一ページずつやってもToo Many Requestsになって捗らないな。
Wayback Machineは金払うから一気に取得かアップロードさえて欲しい。

271:192.168.0.774
19/11/03 20:32:03.04 I05N5XH+0.net
もしかしたらしたらば掲示板やばいかもしれんな

272:192.168.0.774
19/11/03 22:05:54.91 IGp2y1Ub0.net
>>265
理由は?

273:192.168.0.774
19/11/04 01:30:31.73 d2EYioZ60.net
>>264
有料取得依頼みたいなんなかったっけ
最近Archive Today重いのは俺だけかい?
すぐNetwork Errorになる

274:192.168.0.774
19/11/04 07:36:42.44 1kde+9Me0.net
したらば掲示板が丸一日メンテナンスしてたみたいですな。

275:192.168.0.774
19/11/05 18:04:06.02 P7AeCNyG0.net
>>258
そういや最近グーグルってサイト作成者がクロール要求しないと
なかなかクロールしてくれないってどっかの記事で読んだような気がする。
↓こういうのをテキストエディタで作ってからIrvineの「URLを展開して貼り付け」をすると全頁まとめて登録できる。画像一覧とかも同様
URLリンク(blogs.yahoo.co.jp)最後のページ番号]
例のスクリプトの登録漏れをある程度減らせると思う。

276:192.168.0.774
19/11/10 04:30:49.20 gZ07cm7t0.net
誰かここに載ってるサイトだけでも保全してくれ
yahoo!ブログ使用サイト - DoldoWorkz
URLリンク(moondoldo.com)

277:192.168.0.774
19/11/10 19:44:29.07 OJOj/1ou0.net
何故自分でやらないのか

278:192.168.0.774
19/11/10 22:43:10.93 Qg+FaNtt0.net
ジオシティーズの時もそうだったが、特定サービスのアーカイブって何だかんだ言ってかなりの時間と労力を必要とするんだよ
自分でやりたいのは山々だが、そこに労力を注ぎ込める余裕がない
なのでアーカイブをやっている人が多少は集まっているであろうここに投げた

279:270=272
19/11/10 22:45:26.50 Qg+FaNtt0.net
>>270のサイトの作者と自分は何にも関係ないことは一応断っておく

280:192.168.0.774
19/11/11 09:12:05.10 DmcMWPY20.net
Yahooブログにアーカイブすべき物なんてあるのか?

281:192.168.0.774
19/11/11 10:42:59.86 HD2VAMf80.net
単なる日常記録も多いけど、そこらのジオシティーズよりも濃い情報が詰まってるものも多いよ
自分が知ってる範囲だと、今は消えた街並みの記録や京都のマイナーな神社の訪問記、イギリスでの聖人信仰の研究サイト、ゲーム業界の裏話やゲーム攻略などがあるよ
自分が知ってる範囲のブログだけはいくつかWayback Machineに突っ込んだが、他にも有益な情報がたくさん眠ってると思うよ
Yahooブログなんて消えても誰も困らないだろうと思ってる人が結構いるみたいだが、とんでもない偏見だよ

282:GeoLog Project
19/11/11 20:36:22.34 kHI2SrFf0.net
>>270
試しにhttrackに突っ込んだら画像のリンクが取れず、
調べたら元のHTMLにはないリンクを後から生成して突っ込んでますね。。。
動的サイト嫌いです。。。

283:192.168.0.774
19/11/11 23:27:18.77 HD2VAMf80.net
動的サイトのWebアーカイブ用クローリングとなるとHeritrix(Internet Archiveが使ってるクローラ)の出番ですね
実績もあるし高性能で拡張性もそれなりにあるものの、マシンの要求スペックが比較的高めなのが難点か

284:192.168.0.774
19/11/14 17:49:41.79 zR5VNa+N0.net
Heritrixの最低動作スペック自体はそこまで高くないよ
ただ、リッチなコンテンツを含むページをアーカイブしようとするとメモリを食うことがある
あと基本的にLinux環境しかサポートしていないので、人によっては手が出しにくいかもしれない

285:GeoLog Project
19/11/15 00:48:08.16 jfECE9r+0.net
Windows でも動くには動きますね
しかしやたら遅い・・・

286:192.168.0.774
19/11/17 22:45:04.48 n+VdMpHA0.net
メモリ持て余してるけどストレージが足りない
ArchiveTeamWarrior的なのがあれば参加するんだけど

287:192.168.0.774
19/11/19 15:35:27.56 WcaVo5T50.net
ArchiveTeamに常駐してる人がここにいれば捗るんだが

288:192.168.0.774
19/11/22 05:16:46 8zBYuW1S0.net
むしろ元のHTMLの方には正しいリンク先URLがあるんじゃないの。
それで画像取得できないだろうか

289:GeoLog Project
19/11/22 20:15:18.83 fS5sbz5I0.net
>>282
拡大すると大きめの画像のあるページってどこかありますか?

290:192.168.0.774
19/11/24 23:10:35.97 Sj5SnpvV0.net
>>283
「拡大すると大きめの画像のある」って言うのがどういう意味かよく分からないので、もう少し詳しく説明をお願いしたい

291:215
19/11/25 05:25:36 U4MdffN+0.net
>>284
ライトボックスとかじゃない?

292:GeoLog Project
19/11/25 20:34:05.84 KvWZhxVE0.net
>>284
言葉足らずですみません
Yahoo!ブログは画像をクリックすると別ページに飛んで元の大きい画像が見られるらしいのですが、
ページのimgタグに書いてある画像より、元画像の方が大きい例があるかどうかを気にしました
>>282 の「元のHTML」に元画像へのリンクがあるのか確認したかったので

293:192.168.0.774
19/11/27 13:24:37 +cJOWs3G0.net
Twitter、休眠アカウント削除へ 対象アカウントに12月11日までにログインするよう警告
URLリンク(www.itmedia.co.jp)

これ亡くなった著名人などのアカウントも容赦なく削除するらしいから、期限までに出来る限りアーカイブしておきたいところ
Twitterで #休眠アカウント削除 がトレンド入りしてるから、アカウントが消えるのが嘆かれてる故人のアカウントはこれでかなり拾えると思う

294:215
19/11/27 18:54:59.39 y0cHyaRo0.net
>>287
やり方おせーてくれたら手伝えるけど

295:192.168.0.774
19/11/27 19:47:11.55 +cJOWs3G0.net
ArchiveTeamが動き出したな
URLリンク(twitter.com)
(deleted an unsolicited ad)

296:192.168.0.774
19/11/27 21:52:41.92 +cJOWs3G0.net
>>288
とりあえず一番手っ取り早い方法は、>>289のツイートに貼られてるリンク先の入力フォームから、
保存して欲しいアカウントのIDを入力して送ること
もしかしたら他にも誰かが保存プロジェクトをやってるかもしれないから要調査だな

297:192.168.0.774
19/11/30 02:24:56 mj1OwWx+0.net
minori official web


298: site http://www.minori.ph/ このサイト、キャプチャできない



299:192.168.0.774
19/11/30 04:08:01.49 IS98dA580.net
>>291
海外からのアクセスに対し 403 Forbidden エラーを返すよう
設定されているみたいですから、Internet Archive や Archive.is では
無理でしょうね。
さらにそのエラーページは他サイトへの遷移スクリプトが
埋め込んであるので、フツーの人はエラー扱いされていることすら
気付けないでしょう。
当該エラーページの HTML ソースを貼っておきます。
URLリンク(pastebin.com)

300:215
19/11/30 05:13:24.84 Yk7eFuvo0.net
>>290
DLだけ、自分でってことはできないの?

301:192.168.0.774
19/11/30 10:31:13.20 b+Bfz/GQ0.net
>>293
自分のPC中にアーカイブをローカルで保存することは出来ないかってこと?
Heritrixなど動的サイトを処理できるクローラを使えば問題なく出来る、出来るけどアーカイブは死蔵してたら意味が無いからね
自分だけで閲覧する用に保存しておくこともありうるけどそれはアーカイブとは言えない
ArchiveTeamが収集したファイルはWayback Machineに登録されるようになってるので、そういう意味では安全

302:192.168.0.774
19/12/02 04:15:35.70 Z+Zveon+0.net
最近のToday
URLリンク(i.imgur.com)

303:192.168.0.774
19/12/03 03:09:24.37 zKh+7e4i0.net
Current Running Warrior Project: Yahoo! Groups

304:192.168.0.774
19/12/03 03:21:33.26 W45k6bBP0.net
Yahoo GroupsはYahooブログとは全くの別サービスだから早とちりすんなよ

305:192.168.0.774
19/12/03 03:23:09.41 W45k6bBP0.net
これのことだよ
URLリンク(japanese.engadget.com)

306:192.168.0.774
19/12/04 17:38:24.46 OvwZOsOX0.net
本日のToday
URLリンク(i.imgur.com)

307:192.168.0.774
19/12/06 00:57:47 QIt7pou20.net
300

308:192.168.0.774
19/12/14 23:22:02.29 AA4HPrSj0.net
Ci-en移行に伴うDLsite blogサービス提供終了予定のお知らせ
URLリンク(home-info.dlsite.com)

309:192.168.0.774
19/12/15 18:24:18.14 r3L4BzMu0.net
Yahooブログ今日までか

310:192.168.0.774
19/12/16 16:10:29.42 RltCXRJ+0.net
ほとんど何もできなかった

311:192.168.0.774
19/12/16 19:43:00.36 oxia7Ong0.net
少しは頑張れよ

312:192.168.0.774
19/12/16 22:27:54.54 P9Fjib/40.net
人いねえもの
呼び掛けが不十分だとこうなってしまう

313:192.168.0.774
19/12/17 00:52:29.58 SWkI+H1w0.net
>>272 >>294
リンク構造維持できて程々の容量に収まるなら分割rarやzipに纏めてもらってもいい。
今は低速スマホしか使う余裕無くなったから巡集やWeboxみたいな取り込みアプリで一括アーカイブ化するのも無理だし
読売の縮刷版CD/DVDなんかは1年分で12万もするし

314:192.168.0.774
19/12/17 04:05:12 FbEfAMeJ0.net
スマホ(笑

315:192.168.0.774
19/12/17 23:19:41.41 ZjrTQ21f0.net
ネットサービス企業は、スマホからの収益がメインやから、
PCだけに成ったら大倒産時代や

316:192.168.0.774
19/12/18 01:13:33 7iAMrhRQ0.net
色々と話がとっ散らかって来たな
>>306からして何が言いたいのか今一つ要領を得ない

317:192.168.0.774
19/12/19 20:23:09.25 s5RLoz8q0.net
もうyaplogに行ってる

318:192.168.0.774
19/12/19 22:41:03.12 yyGOrfnZ0.net
yaplogって1月でサービス終了するらしいけど
URLリンク(nlab.itmedia.co.jp)

319:192.168.0.774
19/12/19 23:36:07.17 P9Gt+F0u0.net
geocitiesのアーカイブサイトは複数ある様だけどYahoo!ブログも�


320:Lる?



321:192.168.0.774
19/12/20 01:21:34.83 W2QHpneb0.net
>>312
Yahooブログスレの方にも載ってないから今のところないんじゃないかな

322:192.168.0.774
19/12/28 07:55:33.34 GiJFu1gz0.net
Archive.TodayはグーグルやBingのキャッシュを保存した場合でも原本URLを認識できるのが素晴らしい。

323:
19/12/29 21:46:36.02 3C6Rg8sC0.net
archive.todayのTwitterの魚拓がモバイル版にならなくなった?
アカウントは新UI、ツイートは旧PC用UI

324:
19/12/30 13:29:31.10 dXRB6Vq/0.net
>>315
それどころかアカウントの魚拓がかなり下の方までスクロールされた状態で保存されるようになった
つまり1回の魚拓でかなりたくさんのツイートが保存されるようになった
いいね

325:192.168.0.774
19/12/30 23:49:45.17 Sts0O97Y0.net
>>314
検索で出ないことあるからやっぱ微妙だった

326:192.168.0.774
19/12/31 18:45:45.57 eDEktBsz0.net
Webサイトの保存ってみんなどうやってしてるの?
このスレにすでに書いてたらすまん

327:192.168.0.774
20/01/02 07:10:20.03 5F6LDkXn0.net
ローカル保存&魚拓

328:192.168.0.774
20/01/02 10:39:14.28 ucP82yGj0.net
魚拓ってのは
URLリンク(megalodon.jp)
でローカル保存ってのはchromeなんかにあるオフラインで読む系機能であってる?

329:192.168.0.774
20/01/03 19:36:03.17 c4MpYdMH0.net
それであってる

330:192.168.0.774
20/01/04 18:01:40.04 G3xvEvXn0.net
激重で読み込めない…

331:192.168.0.774
20/01/04 20:37:51.83 YBh70eiZ0.net
Scheduled Maintenance
The Internet Archive's sites are offline for scheduled maintenance and upgrades.
Please check our twitter feed @internetarchive for updates.
Sorry for the inconvenience.

332:192.168.0.774
20/01/05 21:23:51.28 JtWpXhr50.net
Yaplog取ってたらこんなの出てた
URLリンク(web.archive.org)

333:192.168.0.774
20/01/06 15:29:48.32 HEWxGNJX0.net
>>321
ありがとう

334:192.168.0.774
20/01/09 07:45:46.22 0Jucozb10.net
4年以上未ログインの Yahoo! JAPAN ID、2020年2月から順次利用停止へ
URLリンク(japanese.engadget.com)
これひょっとしてYahooボックスで公開されてるファイルとかもごっそり消えちゃうんじゃ・・・
と思ったけどほとんど見かけないから影響あんまり無いかな

335:192.168.0.774
20/01/09 21:40:15.88 y/kpjRu/0.net
Yahooボックスってサービス終了して無かったのか…

336:192.168.0.774
20/01/18 22:33:46.55 Mw+axOW50.net
魔法のiらんどは2020年春に大リニューアルします! - 魔法のiらんど URLリンク(maho.jp)
オワタ

337:192.168.0.774
20/01/19 04:35:51.86 qrJ0vAPo0.net
やったぜ

338:192.168.0.774
20/01/19 06:21:23 c42zUqjI0.net
>>328

魔法のiらんど はまだ存在しているのかw

339:192.168.0.774
20/01/24 17:33:52.87 TbU4PUEj0.net
URLリンク(archive.org)
ここに
URLリンク(ishidate.my.coocan.jp)
の、「Visual C++の勉強部屋」は保存できてるようなんだけど
「Visual Studio Community 2017でPythonを始める」が
トップだけあって他のリンクが上手く保存が出来てないようなんだけど
残す方法ありますか?始めてやろうとしてるので変な残し方をしたら気まずい・・・

340:192.168.0.774
20/01/24 17:40:24.75 TbU4PUEj0.net
あれ?慌てただけで反映されてなかっただけかな?
URLリンク(ishidate.my.coocan.jp)
上から2個目まではアーカイブされてました、すみません
一個ずつセーブしていくのかな?2個目はやってないはずなんだけど
トップページをセーブすると、自動で全部の保存処理をしてくれてるのだろうか?

341:192.168.0.774
20/01/24 19:35:46 DGrUFhpx0.net
>>331-332
すみません、反映するまで時間が掛かってただけのようです
順調に保存が進みました

342:192.168.0.774
20/01/30 04:23:53 DpjoWFqw0.net
上の保存出来たと思ったら何も変わってなかった
もう訳が解らん、個人的にローカルへ残す事にします・・・

343:192.168.0.774
20/01/30 09:17:01 QEGy6HlG0.net
最近財政難を表明してからInternet Archiveはやけに不安定だからなあ
Internet Archiveのシステムはページをクロールする部分とクロールしたページを表示する部分に分かれてるんだけど、最近は後者の部分がやけに不安定だったりする
閲覧できてないだけで実は保存できてたりすることもあるけど、不安ならオフラインコピーや他のアーカイブサイトを使うといい

344:192.168.0.774
20/01/30 09:18:37 QEGy6HlG0.net
まあ財政難表明する以前からちょくちょく不安定になることはあったんだけど、最近は不安定になる頻度がやたら高くなってきてる
保存されるアーカイブの量にリソースが追いついてないらしい

345:GeoLog Project
20/02/10 00:45:52.91 QUFKIIvC0.net
魔法のiらんど のURL収集を始めることにしました
知っているURLがあれば追加してください
URLリンク(geolog.mydns.jp)

346:192.168.0.774
20/02/10 15:13:07.48 GaTPIR040.net
Geocitiesのときはいくつかブックマークから追加したけどiらんどはなかったよ・・・

347:192.168.0.774
20/02/17 12:57:14.40 JLl8Pqxs0.net
Wayback Machine ツイッターが簡単に登録できなくなったね
try againになる

348:192.168.0.774
20/02/21 08:24:33 SqQJO7aU0.net
ウェブ魚拓にロボット扱いされるようになった。
手動でやってるのに。
URLリンク(i.imgur.com)

349:192.168.0.774
20/02/21 08:42:25.85 SqQJO7aU0.net
と思ったらReCaptcha導入でgyo.tc/urlまでもが廃止されたのかよ。
ReCaptchaの画面に飛ばしてくれればいいだけなのに。
タイトル画像詐欺になってるがな。

350:192.168.0.774
20/02/21 08:50:19.65 SqQJO7aU0.net
右下のリキャプチャマーク表示されてから5秒数えてから押せばいけるっぽい?

351:192.168.0.774
20/02/25 14:42:33.24 RVV1cF750.net
URLリンク(web.archive.org)
ここ一週間くらい調子悪いね?
保存できたと思って翌日くらいに見ようとしたら消えてて見られなくなってる

352:192.168.0.774
20/02/25 23:55:53.96 jlsY//Cy0.net
Internet Archiveはアーカイブ実行用クローラ(Heritrix)と
保存したアーカイブの専用ビューワ(Wayback)を組み合わせて動いてるんで、
保存したアーカイブがサーバ不調で一時的に見られなくなってても、
アーカイブさえきちんと出来てればそのうち問題なく見られるようになる

353:192.168.0.774
20/02/27 12:58:06.64 mwbfDK4S0.net
>>344
本当ですね!
さっき見てみたら復旧されたようでちゃんと保存できてました!

354:192.168.0.774
20/02/29 11:53:24.69 zPIV21fz0.net
アーカイヴトゥデイがGoogleキャッシュだけでなくBingキャッシュも原本と関連付けてくれれば神なんだが。

355:215
20/03/20 19:04:44 JhAw491V0.net
大住:僕は父親が来て、探偵ファイルをやめるべき理由を膨大に書き連ね
「これ以上やるなら親子関係を考えざるを得ない」と結んだ手紙を置いていきました。

wwwwwwwww

356:192.168.0.774
20/03/24 15:24:23.68 y1vf31FW0.net
Mが九つ…これはリッジレーサーのあの曲ですねぇ…間違い無い

357:192.168.0.774
20/03/29 00:39:38.40 fQaeQ4aI0.net
【リマインド】 魔法のiらんど
2020年 3/31 リニューアルに伴いホームページ機能終了
アーカイブの必要がある場合は早急に対応を。
URLリンク(maho.jp)

358:192.168.0.774
20/04/11 13:13:02 wGeDLnxf0.net
削除されたなろう小説や Wayback Machineでも見れないサイトを見たいなあ

359:192.168.0.774
20/04/12 03:38:35.21 9mojHch+0.net
レビューサイトや攻略サイトはどんなに古くても価値があると思う

360:192.168.0.774
20/04/17 16:09:58.55 jHjl/hvx0.net
Todayにリキャプチャ付いた。かわりに画像単体のキャプチャができるようになっていた。

361:192.168.0.774
20/04/17 17:07:42.90 hEp8fbMZ0.net
archive.today (archive.is)
URLがいくつもあるわけだが
archive.today
archive.is
archive.li
archive.fo
archive.vn
archive.md
archive.ph
ひとつがサーバーダウンしている時には
他のURLも使えないのかどうか。

362:192.168.0.774
20/04/17 19:43:09.88 DEdL3XQ50.net
>>353
名前を色々と増やし始めたのはこれが発端。
スレリンク(esite板:587番)-590
ドメイン名乗っ取り攻撃に対する冗長性確保が目的。
何れかの名前が乗っ取られても他の名前で利用できるようにしてあるだけで、
> ひとつがサーバーダウンしている時には
> 他のURLも使え
~るといった 20 年前みたいな事は意図していないはず。
URLリンク(o.5ch.net)

363:192.168.0.774
20/05/10 10:41:36 qgpD+Q890.net
「DLsite blog」サービス終了予定のお知らせ【5/28(木) 13:59まで】
URLリンク(home-info.dlsite.com)
月末ではなく28日昼まで

364:192.168.0.774
20/05/10 18:31:31.05 0BWUOz3X0.net
>>355
> 「DLsite blog」
そんなブログサービスがあるということを今はじめて知った

365:192.168.0.774
20/05/13 22:57:43 +6V16oE90.net
>>351
そう簡単に常識が変わるわけではないジャンルだしな

366:192.168.0.774
20/05/21 20:23:00.43 tw1fIQhk0.net
ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
URLリンク(greasyfork.org)

367:192.168.0.774
20/05/25 18:40:03 DqvUJCjh0.net
2020年6月30日
連合型SNS『マストドン』 日本2位,3位のインスタンスが閉鎖
・msdtn.jp (登録20万人, 5500万トゥート)
・mastodon.cloud (利用者数6万人, 340万トゥート)

SNS『mstdn.jp』、誹謗中傷への対応の事務負担増に耐えられないと判断して6月30日で閉鎖へ
URLリンク(news.yahoo.co.jp)

運営引き継ぎも募集しているらしい
URLリンク(mstdn.jp)

368:192.168.0.774
20/06/12 19:07:45.35 Ex7ysahg0.net
コレで問題無しかな?
>>359
終了予定だった国内最大級のマストドンインスタンス「mstdn.jp」、サービス譲渡し継続
URLリンク(nlab.itmedia.co.jp)

369:192.168.0.774
20/06/12 20:04:22.23 kaj5j2rY0.net
>>360
外資は儲からないと判断するとすぐ撤退する傾向が強いからなあ。不安。

370:192.168.0.774
20/06/12 23:01:41.40 r8G+EqEg0.net
「誹謗中傷の証拠取得用に」と謳った「Twitter魚拓」なるWebサービスが出来てバズってるが、
やってることは単にスクショ撮ってimgurに上げるだけらしい
スクショはブラウザの開発者機能でいくらでも改竄できるし、
これならArchive.isの方がずっと優秀だな
スクショに法的な証拠能力ってあるのかな

371:192.168.0.774
20/06/12 23:03:10.00 r8G+EqEg0.net
>>361
買収先は確かTwitter非公式クライアントの開発チームじゃなかったっけ
儲からないのは織り込み済みじゃないかな?

372:
20/06/15 08:25:53.32 8HydZjTx0.net
webrecorder.ioの名前とURLが変わった
URLリンク(blog.conifer.rhizome.org)
新しいURL
URLリンク(conifer.rhizome.org)

373:192.168.0.774
20/06/18 15:31:00.91 YE4F+hQG0.net
Twitter魚拓に画像ハッシュを電子署名で埋め込む機能がやっと付いたらしい
結局画像を撮る前の段階で偽造可能なのはどうしようもないけど

374:192.168.0.774
20/06/20 02:54:49.17 h9ZrYl1H0.net
archive todayの魚拓検索でURL以外の文字列入力すると
Googleのカスタム検索経由で全文検索できるようになってるな

375:192.168.0.774
20/06/20 03:30:32.99 7f7o1of+0.net
旧Yahoo地図が完全終了するらしい
ジオカタログ製の世界地図が便利だったから終了するのは惜しい
URLリンク(map.ultra-zone.net)

376:192.168.0.774
20/06/20 12:12:23.28 D5VLdHFC0.net
Googleのやつより見やすいな
日本語で書いてあるせいか?

377:192.168.0.774
20/06/24 20:08:29.48 VaXpj8XL0.net
149 名前:名無しさん@ggmatome :2020/06/24(水) 19:41:32 ID:GJp4RZxo0
Adobe Flash Playerの2020年末サービス終了は、古いゲームの公式サイトとかに影響が出そう

378:192.168.0.774
20/06/25 23:41:47.74 dwRtuOnD0.net
ArchiveTeamがなんかやってるかなと思ったけどまだ動いてないっぽい

379:192.168.0.774
20/06/27 14:07:35 qfiK+Scz0.net
Flashの保存活動やってる人自体はいるよ
ArchiveTeamが動いてないだけかと

380:192.168.0.774
20/07/01 06:54:14.16 pvfyXrsy0.net
This URL has been excluded from the Wayback Machine.のサイトも掘り出したいわね

381:192.168.0.774
20/07/01 07:00:53.26 pvfyXrsy0.net
Wayback Machineで見れない主なドメイン
URLリンク(dion.ne.jp)
URLリンク(biglobe.ne.jp)
URLリンク(homepage2.nifty.com)

382:192.168.0.774
20/07/01 11:22:29.30 ha7maYO50.net
かなりデカい保存対象がやってきた
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
URLリンク(navermatome-official.blog.jp)
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。​​
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。​

383:192.168.0.774
20/07/01 20:40:49.49 36DWDi3y0.net
naverブランドじゃ将来性見えないもんな
かといってヤフー、ラインブランドに変えてまでやるほどでもないし

384:192.168.0.774
20/07/01 22:39:13.89 4eKj5JMl0.net
>>373
いちいちブロックしてたらキリがないなろう系サイトはともかく
こういうドメインは一部のサイトだけ見れないように緩和してほしいわ

385:192.168.0.774
20/07/02 03:05:37.80 qEIVQ0nx0.net
Webサイト保存してる人はなに使ってる?
自分は巡集とWebsite Explorerを使ってる

386:192.168.0.774
20/07/02 22:25:47.86 PGzwXvql0.net
>>371
ちなみにFlash のアーカイブって何やるの?

387:192.168.0.774
20/07/02 22:55:14.72 VMG0QPRf0.net
>>374
ほぼコピペしか無いサイトだからオリジナルのデータは少なそう…

388:192.168.0.774
20/07/03 01:54:56.18 pnZtief20.net
>>379
8割方はどうでもいいコピペまとめなんだけど、これを個人サイトみたいに使ってる人や、真っ当な有益情報をまとめてくれてる人もいるんだよね
そういった情報が消えるのはもったいないし、今後困る人がいそう

389:192.168.0.774
20/07/03 22:23:28.54 0J0hhHF10.net
来年から新しい著作権法が施行されるらしいけど、
ウェブ魚拓とかの古いデータが、削除されたりしないか少し心配

390:192.168.0.774
20/07/03 23:54:06.51 pnZtief20.net
ウェブ魚拓は削除申請来たらバンバン消してるらしいから今更感ある
archive.todayやInternet Archiveは著作権の前にサーバ処理が追いつくのか心配

391:192.168.0.774
20/07/04 13:35:00.45 inafeRIM0.net
>>382
同意

392:192.168.0.774
20/07/08 22:28:06.73 JMicZAgO0.net
NAVERまとめだけじゃ無くLINEノベルも終了か…
ソフトバンクグループ特有のサービス終了ラッシュ

393:192.168.0.774
20/07/09 01:28:23.13 c1obRcGo0.net
へー、ソフバンは避けよう

394:192.168.0.774
20/07/09 03:09:48.75 K/ssIawO0.net
朝鮮系は避けてたから掠りもしないw

395:192.168.0.774
20/07/09 07:32:19.74 qxukY3NX0.net
ヤフーと合併するってことはこういうことだ
米国のヤフーがその典型で、買収した企業やサービスはことごとく閉鎖させてるしね

396:192.168.0.774
20/07/09 08:42:41.16 c1obRcGo0.net
潰したい企業を買収してからわざと潰すっていう性格の悪い投資家の話聞いたことがあるけど
まさかヤフーがそれだったりしないよな

397:192.168.0.774
20/07/13 15:08:26.85 JeHTcZXr0.net
>>384
うーんこの

398:192.168.0.774
20/07/14 15:25:35.44 bp/ba6L20.net
>>351
変則将棋とかのニッチすぎるカードゲームやボードゲームのサイトもだね

399:192.168.0.774
20/07/15 12:36:07.34 6KInjDIb0.net
保存する価値が特に高いサイト
(時間が経っても役に立たなくなることがまずないため)
レビューサイト
ゲーム攻略サイト
ボードゲーム・カードゲーム関係(ただしTCGなどは除く)
タロット占いなどの占い系
料理レシピ・裁縫などの家事系

400:192.168.0.774
20/07/16 02:27:44.38 okkeNa+i0.net
ウェブ小説サイトとかも

401:192.168.0.774
20/07/17 17:41:35.04 iWA6pxH10.net
旅行・探検系も含めていいかも
あと災害etcで現存しない場所の訪問記とか

402:192.168.0.774
20/07/18 01:13:41.89 MoAmN+OG0.net
昔のイベント体験記もだな

403:192.168.0.774
20/07/18 01:27:31.30 MoAmN+OG0.net
ついでに暇つぶしにネット検索してたら
ocn1.netなるサイトを発見した

404:192.168.0.774
20/07/18 02:15:45.46 HI8FU48P0.net
>>395
URLリンク(www.google.com)

405:192.168.0.774
20/07/18 14:45:04.72 42EZKBGK0.net
>>391-394
こういうサイトを優先的に保存すべきだな

406:192.168.0.774
20/07/19 04:44:14.87 lFOHvKxW0.net
こういう魚拓系サイトってエロ動画とか保存いけんの?

407:192.168.0.774
20/07/19 14:44:03.36 5VoHw/dK0.net
ocn1.netってサーバー名だったのかサイト名ではなかったのか
キューブのへやは一通り保存しといたけど他にもいっぱいあるやん

408:192.168.0.774
20/07/21 21:19:19.64 iEzABfS/0.net
2020年8月31日(月)サービス終了
暮らしのレシピ投稿サイト 「 nanapi 」
URLリンク(nanapi.jp)
料理:約11000ページ
ライフハック & 雑学系:約8000ページ
暮らしの情報サイトnanapi終了のお知らせ
URLリンク(nanapi.jp)
Twitter @nanapi
URLリンク(twitter.com)
(deleted an unsolicited ad)

409:192.168.0.774
20/07/22 00:43:31 Qv2V5tOA0.net
>>400
保存する価値が高いな

410:192.168.0.774
20/07/22 06:22:06.26 5ZyfxxsF0.net
検索サイトにアーカイブが引っ掛かる又はWeb Archiveに保存されてる以外だと実質的な消滅に等しい

411:192.168.0.774
20/07/25 12:03:11.28 vPQBVdbR0.net
> お知らせです。Neverまとめ終了に伴い、【実走!酷道・険道のまとめ】についても、終了させることにしました。
>2013年以来、約7年間のご利用有難う御座いました。
>道路ネタについては、引き続きツイートしていきます。どうぞ、宜しくお願いします。
twitter.com/kendou774/status/1286852266280890368
(deleted an unsolicited ad)

412:192.168.0.774
20/07/25 20:28:57.46 op0juaWZ0.net
ウェイバックでアーカイブしたNAVERまとめ記事でページ移動しようとすると
URLにgrid=falseっていうパラメータが追加されるみたい
誰か原因わかる人いる?
このせいでせっかくアーカイブしても2ページ目以降が参照できない問題が起きてしまう

413:192.168.0.774
20/07/25 23:03:50.67 vPQBVdbR0.net
>>404
自分が取ったアーカイブはそんな症状は出てないな
その問題が出たアーカイブのURLを教えてくれんか

414:192.168.0.774
20/07/26 00:15:07.54 6TmDXbEI0.net
>>405
例えばこのまとめのアーカイブ
2159020990876963301
2ページ目のボタンを押すとこのページに移動してエラー
2159020990876963301?page=2&grid=false
何度か試すと通常通りのページが表示される時もあるようで、今一どういう条件で発生するのかわからない

415:192.168.0.774
20/07/28 01:55:57.75 GOjmQFzm0.net
>>406
そのまとめではエラーにならなかったが、別の複数のまとめでエラー発動したわ
条件は全然分からないな

416:192.168.0.774
20/07/31 18:21:02.96 hz5s2lhM0.net
最近/save/の後にURLつけてブラウザで踏んで保存しようとするととんでもなく時間かかるようになってるんだけど
もっと早く保存する方法ないかな

417:192.168.0.774
20/07/31 19:38:16.52 gaCi8uhU0.net
>>408
同じく
しかもちゃんと保存できてるかどうかも怪しい

418:192.168.0.774
20/07/31 20:26:07 TTL90URn0.net
これ使えんの?
175 名前:py ◆o3kzHb/in8w0 [sage] 投稿日:2019/05/14(火) 19:06:58.64 ID:cP8wStLG0
URLリンク(u1.getuploader.com)
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14

web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■

動作試験環境:windows10pro Irvine1.3.1

419:192.168.0.774
20/07/31 21:15:44.33 x6UEbNzr0.net
>>410
自分で使ってみては?
レビューしてくれ

420:192.168.0.774
20/07/31 22:16:46 BOBaNxn40.net
>>411
>>408-409
へのレスしたつもりなんだけどね
誤解させてごめんねw

421:192.168.0.774
20/07/31 22:59:42 x6UEbNzr0.net
>>412
理解した

このところ/save/にURL繋げて直接保存させるのやってないから分からんけど、
ブラウザのsave page nowのフォームから保存するときとは色々処理が違うのかもね
最近Waybackの調子が特に良くないらしいから多分サーバ自体の問題だとは思うけど

422:192.168.0.774
20/08/02 02:59:54.76 BxGk29Xt0.net
Naverまとめを色々漁ってたらネット上で出回ってるコラの元画像・出典を集めたやつがあった
単なる宣伝まとめに完全汚染される前は、こういう地味だけど役立つまとめを書く人がそこそこいたんだけどな...
00年代から10年代のインターネットの残滓みたいな側面もあっただけに惜しい話だ
ArchiveTeamにどうにかして持っていきたい

423:192.168.0.774
20/08/04 10:42:23 kQccth3l0.net
昔のエロゲーとか普通の深夜アニメとかの公式サイトで保存されていないページが時々ある

424:192.168.0.774
20/08/07 14:35:38.67 SiHrQHil0.net
Googleマップの埋め込みはArchiveTodayで録れる

425:192.168.0.774
20/08/15 19:40:30.73 PMZXDU5C0.net
>>398
無理じゃね?

426:192.168.0.774
20/08/16 20:27:14.92 98xsFRfG0.net
ストリーミング配信のクロールは技術的に結構難しい

427:192.168.0.774
20/08/16 20:27:47.53 98xsFRfG0.net
動画を保存するならメタデータを含めた上で普通にダウンロードした方がいい

428:192.168.0.774
20/08/18 18:55:08 e28RrLlN0.net
トップページは見れるけど細かい中身までは保存されてないのか見れないことが多いわね 特に画像や動画は死んでる

429:192.168.0.774
20/08/18 21:04:20.75 xoxZKMa90.net
さくらインターネット専用サーバ
2020年11月30日で全て終了

430:192.168.0.774
20/08/18 23:33:08.82 FetPd1Vj0.net
>>421
古い専用サーバだけが対象
>この度、1997年6月より提供開始した「専用サーバ」および2007年1月より提供開始した「専用サーバ Platform Ad / St」につきまして、
>2020年11月をもちまして、サービスを終了いたします。
>これらサービスは、サービス開始から10年以上の期間が経過しており、今後、保守部材の確保ができず、サービス継続が困難な状況でございます。
>さくらの専用サーバ(2012年2月 提供開始 ~ 現在申込受付)」はサービス終了の対象ではございません。
URLリンク(server.sakura.ad.jp)

431:192.168.0.774
20/08/19 17:14:03.56 iZ5+0Ecr0.net
>>422
既に消えてるページあるよ
エロゲの回想未収録エロを個別セーブデータで対応してくれてたサイトとか
まあlzhの脆弱性騒動でlzh書庫セーブデータはsなしhttp,xp,win7締め出しみたいにサーバ側に既に全消去されてたけど
http://daidokoro.sakura.ne.jp/data/eroge_data.htm
http://web.archive.org/web/20180430112946/http://daidokoro.sakura.ne.jp:80/data/eroge_data.htm
NGワード引っかかったから、気になるなら半角にテキストエディタかなんかで変換して

432:192.168.0.774
20/09/06 17:22:46.19 CBf1XfYV0.net
サービス終了のお知らせ
長らくのご利用まことにありがとうございます。
大変恐れ入りますが、当サービスは2020年9月末をもって終了させていただきます。
mobile space
携帯(ケータイ)無料ホームページ提供フリーサイト「MobileSpace(モバスペ)」
URLリンク(m-space.jp)

433:192.168.0.774
20/09/07 12:06:40.69 3OpmkuSp0.net
Naverまとめのバックアップしてる有志いないかー?
自分も最近バックアップしてるんだがURL集めとかどこにすればいいかわからない

434:192.168.0.774
20/09/07 15:14:13.63 3OpmkuSp0.net
>>404
それはしゃあない、NAVERまとめは2ページ以降のURLも規則的だから、そこは見る側がインターネットアーカイブからURLをいじってアーカイブを見る方法しかないと思う
2ページ以降のURLがわかる以上アーカイブするにあたってそこまで気にしなくてもいい

435:192.168.0.774
20/09/08 03:14:53.75 rgMOAV4l0.net
>>397
同意

436:192.168.0.774
20/09/08 22:10:50 +a/fwcct0.net
将来役に立つか分らんけど書いとく
Naverまとめは2ページ目以降のURL末尾が
?: ?page=ページ番号
?: ?&page=ページ番号
の2パターンあるので注意
通常であれば2ページ目→?、3ページ目以降→?のパターンで保存されてるはず(だが例外もある)
あとはこの辺 >>404 >>406

437:192.168.0.774
20/09/09 08:08:33.67 iGXkHt4n0.net
とりあえず作ったからURL集めここにしないか?
NAVERの終了近づいてるから立てといた
URLリンク(jbbs.shitaraba.net)
5chだと多量URLは規制くらうし、かといっていちいちGeoLogみたいなURL集め場作るのもあれだし
したらばはGoogle検索ひっかかるししたらば自体もアーカイブできるから万が一にも備えられるしURL保管庫としては優秀
後から集めたURLにタイトルつけてスレ立てすれば後世代の人がググって見つけられる可能性が出てくるのが大きい
他にサービス終了候補出たらここにスレ立ててURL集める感じで

438:192.168.0.774
20/09/09 22:03:15 GaAB5Js70.net
>>429

汎用的に使えるし次スレからここのテンプレに入れた方がいいな

>>429は念の為にトリップ付けてしたらばと5ch両方に書き込んでおくと良いかも
したらばと5ch(&おーぷん2ch)とではトリップの生成アルゴリズムが違うらしく同じ名前でも違うトリップになるけど、とりあえずでも管理人だという証明がある方が何かと安心だしね

439:◆Oddz6L15vQ
20/09/09 22:23:41 iGXkHt4n0.net
>>430
OK、付けておく

440:192.168.0.774
20/09/10 17:58:45.52 lCL9EyAY0.net
150万記事くらいURLかき集めてタイトルとページ数もセットで保存してあるよ
ArchiveTeamにも先月渡したんだけどどうやら忙しいらしくて動きがない

441:192.168.0.774
20/09/10 20:34:28.12 S0dI6L/m0.net
>>432
ArchiveTeamに渡すってことはインターネットアーカイブには保存できてないってこと?

442:192.168.0.774
20/09/11 15:17:14.37 FY5rw0Vj0.net
>>433
ArchiveTeamが保存したサイトはWayback Machineにアップロードされて、最終的にちゃんとInternet Archiveに保存される仕組みになってる

443:192.168.0.774
20/09/11 15:43:42.84 FY5rw0Vj0.net
>>432
150万はすごいな、何を使って収集したのか気になる
あとArchiveTeamとのコンタクトってどうやって取ったん?
サイトの説明を色々読んでるけど窓口が見つからない

444:192.168.0.774
20/09/11 17:53:04.83 vIEy03BU0.net
>>434
いや、そういう意味ではなくArchiveTeamの動きないってことはインターネットアーカイブに保存できてないんじゃないかってこと
もしインターネットアーカイブに現時点で保存できなくて、ArchiveTeamに動きなければ>>432がローカルで保存できてない限り9月30日を迎えたらそれも無駄になる

445:192.168.0.774
20/09/11 18:38:50.57 FY5rw0Vj0.net
>>436
なるほどな、確かにArchiveTeamに動きがなかったら保存されないね
ArchiveTeamが今どういう状況なのかがよく分からないんだけど、本当にNAVERまとめは一切手付かずなのかな?

446:192.168.0.774
20/09/11 19:41:43.80 vIEy03BU0.net
>>437
いろいろ保存してるけど本当に2ページ以降はクロールされてないよ


447: クローラーの仕様でGoogle検索に出る1ページだけは保存されるけど だから人力で保存されてる記事はあんまりないね



448:192.168.0.774
20/09/12 09:44:43.85 +xgSs3Ql0.net
>>438
もう自分でクローラソフト動かしてローカルに保存した方が安心じゃね?
ネットのデータなんて今じゃいつ消えるか分からない
もうバックアップのバックアップ(調子悪くてバックアップ後に取り外したHDDに入れっぱなしのデータ等)くらいのオマケ
アーカイブサイトに保存して安心してたら見られなくなってて、
txtでちょっとメモした断片的情報しか手元に残ってなくて絶望したわ

449:192.168.0.774
20/09/12 12:00:07.88 G5q1lmCg0.net
>>439
確かにそれもそうだし愛読書のごとく読むようなウェブページはpdf化してるけどさ
やはりローカル保存じゃ限界がある、数万記事とか保存しようものならHDD持たないし
それにアーカイブに保存する理由はみんなが見れるからね、知恵袋や古い2chの過去ログ見ててそこのリンクがリンク切れになっても大丈夫なようにある
インターネットアーカイブが消えるときってやっぱり削除要請に応じてるからなのかな
今のところ自分で保存した記事で消えた経験はないが、削除要請以外の自動削除はないと信じたい

450:192.168.0.774
20/09/12 12:06:20.24 G5q1lmCg0.net
ちなみにArchivetodayや他の魚拓サイトは個人経営らしいから経営者が死んだらサーバー更新できず見られなくなるから、そこに大事なものがあればローカル保存したほうがいい、数十年後に見られなくなってる可能性あるし
やはり数百年後の人類に情報を残すなら法人経営のインターネットアーカイブ

451:192.168.0.774
20/09/12 14:19:44.63 smUg5j0l0.net
>>439
そうなんだよなあ
前にインターネットアーカイブで閲覧してた削除済みのサイトが
「This URL has been excluded from the Wayback Machine」で
見られなくなってしまってローカルに保存していなくて今も後悔してるわ
前は見られていた分ショックがでかい
こういうのってドメイン再取得した人が解除申請出すしかまた見られる
方法ないのかね?
これって「完全に削除」されたわけじゃなくて単純に「除外」された状態らしいから

452:192.168.0.774
20/09/12 19:09:30.26 G5q1lmCg0.net
>>442
除外したってことはやっぱりサーバーの容量不足とかじゃなくて要請に応えただけか
サービス終了とかじゃなくてそのページがあると都合が悪いからって意図的に消してるのはローカル保存しかないと思うよ
俺は何回も読むサイトは1ページだけならpdf化してる
さすがに保存対象のURLが何個もあるサイトを全部やるのは面倒だけど
ドメイン再取得していけるかはわからんけど管理者であったことを証明しないとさすがに難しいんじゃないか?でも今の管理者ではダメとも限らないしなー

453:192.168.0.774
20/09/12 19:14:06.20 GdLneOCP0.net
>>443
クローラソフトで.mhtやindex.html等で階層いくつ潜るか設定してクロールすればいいじゃん

454:192.168.0.774
20/09/12 19:35:49.12 smUg5j0l0.net
>>443
>>444
微妙なラインだよなー
ぶっちゃけるとそのサイトはジオシティーズドメインのページで、ジオシティーズの
URLは普通にアーカイブ何万も保存されてて見られるんだけど、そのドメインのサイトは
除外されてるんだよな
自分はそもそもの管理者じゃなくてそのページのファンで、もしまた見られるなら
自分が読んで楽しみたいだけなんだけど、やっぱ厳しいかもしれんな

455:192.168.0.774
20/09/14 03:08:56.33 W68LNMti0.net
ArchiveTeamがNAVERまとめのアーカイブ作業に取り組み始めてくれてたみたい
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね
>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ

456:435
20/09/14 04:11:09.04 Np2NU3M80.net
>>446
なるほど、どうもありがとう
ArchiveTeamが動いてくれたなら最悪の事態は避けられるはずだな...
もちろん>>432(446)の収集したURLあってこその事だから自分も見習わないといけないが

457:446
20/09/14 11:29:54.09 sR0ATY0Y0.net
NAVERまとめデータ共有
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
URLリンク(web.archive.org)
※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない

458:192.168.0.774
20/09/14 15:27:58.62 Np2NU3M80.net
>>448
503エラーのページがアーカイブされているんだが

459:192.168.0.774
20/09/14 15:30:52.44 fWxNFkB80.net
ごめんなさい。恥ずかしいのですがarchiveteamって何ですか?

460:192.168.0.774
20/09/14 15:32:16.47 Np2NU3M80.net
Wayback Machineが一時的に落ちてただけだった
何回かリロードしたらちゃんとダウンロード出来たわ、すまん

461:192.168.0.774
20/09/14 15:36:10.18 Np2NU3M80.net
>>450
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
URLリンク(ja.wikipedia.org)
URLリンク(www.archiveteam.org)

462:192.168.0.774
20/09/17 17:02:04.46 /9nSrgLL0.net
【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは?  [すらいむ★]
スレリンク(scienceplus板)

463:192.168.0.774
20/09/24 21:11:36.87 kg/LREFg0.net
Braveの機能を使って少額寄付した

464:192.168.0.774
20/09/25 12:26:47.34 Cm7cjbfH0.net
>>454
Braveいいよね特にスマホ
ポイントサイトで乞食活動やるよか割もいいし

465:192.168.0.774
20/09/28 05:48:18.46 ydgdSdUA0.net
今更NAVERまとめをローカルに落とそうとしているのだが
Website Explorer・WinHTTrack・Cyotek WebCopy
はうまくいかず(設定ミスがあるのか?)
NAVER&FC2まとめダウンローダ
URLリンク(shimarisu.webcrow.jp)
は画像もhtmlも一応取れるのだがhtmlにダウンロードした画像
はリンクされてない。
後はmhtとpdfぐらいしか無く……
他の人はどのようにローカルに落としているのでしょうか?

466:192.168.0.774
20/09/29 11:41:45.96 IYXlvscX0.net
そもそもローカルに落として�


467:ネいな... Wayback Machineに頼ってる



468:192.168.0.774
20/09/30 00:31:14.62 6Ozi/51l0.net
Naverまとめはほぼバックアップされてるっぽいから安心した
ただNaverのトピックのアーカイブの表示がいろいろおかしい、まったく違う記事名出たりする
どうやらNaver側はURLの大文字と小文字を区別してるのにウェイバックマシン側では区別してないから発生するバグっぽい
トピック見れなかったら別の時間のアーカイブ参照すると見れることがある
例えばトピックのIDがaaabbの場合IDがAaaBbやAAABBの別トピックもウェイバックマシン側がaaabbとして扱うから収集された時間で記事が混在する
2ページ以降のトピック表示は2ページ目の存在による
aaabbにだけ2ページ目以降が存在すればaaabbしか表示されない、他のIDにもあると2ページ以降も混在状態になる
aaabbに2ページ目がなくてAaaBbにある場合もURLいじったりして2ページ以降行くとAaaBbの2ページ目が表示される
NAVERまとめ共有データの中を特定のワードで検索してそこのまとめにアクセスして所属トピック押せばある程度好きなトピックに飛べるから有効に使えると思ったけど少し難ありか
記事にはまったく関係ないから大丈夫、トピックURLが英数字5文字で大文字小文字の違いで別ID扱いされる仕様により起きてるだけだから
記事の中身のURLで個別化されている部分は全部数字だから大丈夫

469:192.168.0.774
20/09/30 14:43:23.75 g0DIZp7G0.net
ツイッターを見ているとNAVERまとめがなくなったことを喜んでる人結構多いし、
何なら「あんなの保存しとく価値はない」みたいな意見も見受けられる
でも、アーカイブが必要かどうかを判断するのは現在生きている自分たちじゃなく将来の人々だと思うんだよね
自分もYahooブログが終わった時は「あんなの保存したってしょうがないだろう」と思っていた側だったんだけど、サ終してしばらく経ったある時、
自分の専門分野に関するとある重要な記録がYahooブログ上で公開されていたらしいこと、
なおかつブログ主が亡くなっていて再公開の見込みもないこと、
そしてどこにもそのアーカイブが残っていないらしいことが判明して、かなり後悔した事があった
これはあくまで一例に過ぎないけども、とにかくWebアーカイブを取る必要があるかどうかは取る側の人間ですら判断できるものじゃないんだと思うわ
長文&自分語りすまない

470:192.168.0.774
20/09/30 14:52:44.90 g0DIZp7G0.net
しかしまあNAVERまとめをブログ代わりに使ってた人結構多かったみたいだな

471:192.168.0.774
20/09/30 15:31:27.75 aEbDHVq00.net
>>459
バカッターなんて結論決まってて後押し(確証バイアス)がほしい時だけ見るもんだよ
今回のなんて馬鹿は想像力も共感力も低くて他人の痛みが分からないから見るだけ無駄だったわけだし

472:192.168.0.774
20/09/30 17:47:30.32 g0DIZp7G0.net
>>461
確かにそれはそういうものなのかもしれないな

473:192.168.0.774
20/10/04 01:53:55.83 t5NF2s3S0.net
ArchiveTeamのリソースほんとすごいな...

474:192.168.0.774
20/10/05 21:28:33.39 PD0n9p530.net
「Webスペース」 サービス提供終了について
URLリンク(www.so-net.ne.jp)
平素はSo-netをご利用いただき、誠にありがとうございます。
このたび、誠に勝手ながら、2021年1月28日(木)をもちまして、「Webスペース」サービスの提供を終了させていただくこととなりました。

475:192.168.0.774
20/10/05 21:28:48.86 PD0n9p530.net
URLリンク(www.so-net.ne.jp)
U-page+は、2021年1月28日(木)15:00 にサービスの提供を終了します

476:192.168.0.774
20/10/06 12:42:46.60 phjE2/zo0.net
so-netが終了したらまた古のインターネットが色々消えるな

477:192.168.0.774
20/10/06 22:52:50.75 DBLhvSyO0.net
So-netブログはSeesaaに成ったからブログ以外か…

478:192.168.0.774
20/10/07 04:16:18.40 dojvgnQy0.net
自分のブクマに入ってたのはこれくらいだな
埋もれてるけど価値があるページはかなり沢山ありそうな気がする
URLリンク(www002.upp.so-net.ne.jp)
URLリンク(www004.upp.so-net.ne.jp)
URLリンク(www004.upp.so-net.ne.jp)
URLリンク(www004.upp.so-net.ne.jp)

479:GeoLog Project
20/10/11 16:23:42.66 wq/dYYyR0.net
so-netのURL収集を始めることにしました
知っているURLがあれば追加してください
現時点でユーザー名単位で2万程度、個別URLでは300万くらいDBに入ってます
URLリンク(geolog.mydns.jp)
特にJavaScript等から呼び出されるファイル群は網羅が難しいので、何か良い手があれば

480:
20/10/13 01:07:49.82 y1bzU/4u0.net
>>469
日本語版ウィキペディアの外部リンクから2000個ほど抽出したんですが、スクリプトでの送信とかって受け付けてます?
(既に収集済みのものとだいぶ被りがありそうですが)

481:GeoLog Project
20/10/13 19:39:50.63 5fIpkaAP0.net
>>470
特に制限はしてないですが、処理速度的に現実的ではない気がするので、
フォームを改行区切りで複数受け付けられるように直したいと思います

482:GeoLog Project
20/10/13 22:03:48.69 5fIpkaAP0.net
>>470
複数行投入できるようにしました

483:192.168.0.774
20/10/13 23:27:30.09 vjEziSOV0.net
geocitiesのときはそれなりに貢献できたけど今回はブクマ見てもso-netなかったわ・・・

484:あめ
20/10/18 05:37:28.91 SRaefsBF0.net
【告知】ニコニコ動画のコメントサーバーリニューアルについて
URLリンク(blog.nicovideo.jp)
> マイメモリー機能の提供を終了
> ・マイメモリーの新規作成や、 既存マイメモリーの視聴ができなくなります
> 削除された動画へのコメント投稿とコメント表示の終了
> ・ 動画タイトルや説明文などの情報も表示されなくなります
期限は「2021年の春までに実施」とのこと

485:192.168.0.774
20/10/18 15:46:35.08 kWrTLNjS0.net
削除済み動画を全部リストアップして、動画説明文/タイトル/コメントなどの情報を取得していく感じか
コメントに関してはXML形式で取得する手法があったような気がする
マイメモリー機能は使ったことないから分からん

486:192.168.0.774
20/10/18 15:47:20.86 kWrTLNjS0.net
sm1から順に数字をカウントアップしていけばいいのかな

487:192.168.0.774
20/10/19 19:56:27.93 PssRg44Z0.net
>>472
検索で引っかかったサイトは送信した
WaybackMachineにも保存できないかな

488:192.168.0.774
20/10/20 00:42:22.74 U91haJxZ0.net
モバイルサイトのないサイトは来春インデックスから消える? Googleアナリストが明言
URLリンク(internet.watch.impress.co.jp)

489:192.168.0.774
20/10/20 18:21:05.26 eWiUZHxk0.net
>>478
Google検索なんて糞化が酷くてもう使ってないからどーでもいい

490:192.168.0.774
20/10/20 23:29:11.48 Puq2k3e00.net
世界一使われてる検索エンジンだしな
個人の好みとしてはGoogleが何をしたってどうでもいいとしても、
影響力を考えると決して無視はできないよ

491:192.168.0.774
20/10/21 03:05:19.74 2kIOGutW0.net
数年前からネットサーフィン=スマホに成ったからなぁ…

492:192.168.0.774
20/10/21 18:11:15.59 le0ESoNU0.net
Google 絶対じゃなくなったんであまり件数ヒットしない検索ワードは Bing や Yandex 併用だよ。

493:192.168.0.774
20/10/21 22:24:10.23 Yfu1DTmm0.net
DuckDuckGoで出ない時だけGoogle

494:192.168.0.774
20/10/23 16:57:51.30 qVAboCuj0.net
>>477
誰かがArchiveTeamにURLリスト渡してくれれば多分保存できる
NAVERまとめの時はアーカイブ開始までに1ヶ月くらいかかったから保存したい場合は早めに相談したほうがいいかも

495:192.168.0.774
20/11/03 09:39:05.85 q2UfgLtS0.net
wgetでWARC.GZファイルを書き出したとき画像ファイルとかも格納される?
どなたかご存知だったらお願いします

496:192.168.0.774
20/11/04 22:28:08.38 iEXbTPK90.net
>>485
WARCは画像ファイルや音声ファイルも含めてページを丸ごと保存する仕組みになっているから、
--page-requisitesオプションを付けて確実に画像がダウンロードされるように指定すれば、ちゃんと画像が格納されるはず

497:192.168.0.774
20/11/04 22:30:48.96 iEXbTPK90.net
WARCの概要を解説してる日本語サイトをいくつか貼っておく
URLリンク(warp.ndl.go.jp)
URLリンク(qiita.com)

498:192.168.0.774
20/11/05 16:18:21.95 bSeXiffE0.net
>>487
ありがとです
--page-requisitesがうまく反映されてなかったみたいでした

499:192.168.0.774
20/11/05 17:30:05.38 M9nLXqV10.net
コロナ騒動の最中に消えていったお店のサイトも手動で保存している。

500:192.168.0.774
20/11/08 00:21:48.98 c3JWvanA0.net
「Infoseek」一部サービス終了のお知らせ(11/2追記)
URLリンク(plaza.rakuten.co.jp)
Infoseekトップページ変更、翻訳、辞書が終了

501:192.168.0.774
20/11/22 08:30:10.87 q2CdPGCc0.net
>>469 を使ってみた
URLをページ内検索で探したらなかったのに、送信するとDBにあると出た...
ページ内検索がダメなのかな
あと、文字化けしているところがあるけど大丈夫なのかな

502:GeoLog Project
20/11/22 13:39:23.43 nA7b/lhh0.net
>>491
どのURLでしょう?
ロジック上は文字コードを考慮していないので、文字化けはそのせいかもしれないです
一応UTF-8のはずなんですが

503:192.168.0.774
20/11/26 12:16:05.64 8QHBEnW70.net
URLリンク(archive.st) が全然取れなくなってしまった

504:192.168.0.774
20/12/04 19:50:57.91 UDGmJ95l0.net
>>493
復旧した?

505:192.168.0.774
20/12/04 21:37:24.55 Onk8N+kv0.net
そこってサイトによって取れたり取れなかったりしない?

506:192.168.0.774
20/12/05 10:13:49.51 jr20iitY0.net
>>493
そこって消える前のフリーウェアとかアーカイブ出来ないクソじゃね

507:192.168.0.774
20/12/10 20:48:32.73 vQ+C+6Ux0.net
>>496
自分の目的が果たせないものをクソ扱いするのは幼稚だからやめような
フリーウェアはInternet Archiveに持っていくとか、
証拠に使うから削除されたくないものは削除申請が通りにくいarchive.today使うとか、
各サービスを使い分けるのがより無難だよ

508:192.168.0.774
20/12/12 15:13:48.12 ELOCcQrr0.net
「Yahoo!ライフマガジン」サービス終了のお知らせ
この度「Yahoo!ライフマガジン」は、2021年3月31日(水)をもちまして、サービスを終了させていただくことになりました。
記事コンテンツは、引き続き「Yahoo! MAP」アプリ上でご覧いただけます。
これまで長きにわたりご利用いただき、ありがとうございました。

509:192.168.0.774
20/12/14 04:34:30.82 h53jvyxt0.net
chakuwiki


510:存亡の危機 友人との永遠のお別れ https://midorikawa.themedia.jp/posts/10408887/ 運営していた谷口 一刀さんが8月に亡くなられた事により 12月にドメイン名でのアクセスが不能になった。 (IP https://52.69.139.163/ では可能) 遺族は存続に消極的みたいな模様。 バックアップはしてみたいものの かなりの容量だと思われるからなあ~ どのぐらいの大きさなんだろうな。



511:192.168.0.774
20/12/14 06:32:22.27 9FaOalLE0.net
もっと早く情報投げて貰えればドメイン失効前にどうにか出来たのに

512:192.168.0.774
20/12/14 07:41:39.26 gA+U1PtW0.net
>>499
URLリンク(chakuriki-alb-971307490.ap-northeast-1.elb.amazonaws.com)
も可能

513:192.168.0.774
20/12/14 14:54:55.41 9FaOalLE0.net
ChakuwikiってMediaWikiだったのか
それなら一応記事のエクスポート機能があるから、これに頼るのが現実的かな
URLリンク(www.mediawiki.org)

514:192.168.0.774
20/12/14 16:04:34.06 gA+U1PtW0.net
>>502
[[特別:統計]]によると記事だけで17,306個もあるみたい
Botとかで一度にエクスポートできるの?

515:192.168.0.774
20/12/14 16:08:04.03 gA+U1PtW0.net
>>503
勘違いしてた。一度にできる方法があるのか

516:192.168.0.774
20/12/14 16:32:18.01 9FaOalLE0.net
chakuwikiスレにこのスレッドのURLを書くだけ書いてきた

517:192.168.0.774
20/12/14 17:13:49.04 evtrCVrO0.net
みんな有能やん

518:192.168.0.774
20/12/14 17:25:23.30 4RCQuIfW0.net
archive teamにwiki保存担当のwiki teamってのがあるからそこで事情を話せば多分保存してくれる
wiki teamのチャットルーム
URLリンク(webirc.hackint.org)
wiki teamについて
URLリンク(www.archiveteam.org)

519:507
20/12/14 18:15:31.65 4RCQuIfW0.net
どうなるか分からないけどwiki teamに伝えておいた
今調べてくれてるらしい

520:192.168.0.774
20/12/14 19:01:14.69 9FaOalLE0.net
>>508
GJ

521:507
20/12/14 19:29:16.39 4RCQuIfW0.net
SSLの問題で通常のwikiのダンプツールが機能しないらしい
詳しい人いますか?

522:507
20/12/14 19:38:36.21 4RCQuIfW0.net
すまんアーカイブの準備がある程度できたらしい
wiki team

523:507
20/12/14 20:10:05.26 4RCQuIfW0.net
変更になるかもしれないけど今のところChakuwikiのアーカイブ状況は
このページから確認できる (ident: 2ns616z58rh5gawijen5s2foi)
URLリンク(dashboard.at.ninjawedding.org)
アーカイブ対象のURLは URLリンク(52.69.139.163)
ある程度時間が経ったらWayback Machineに反映されるよ

524:192.168.0.774
20/12/14 20:33:04.32 azqdHITb0.net
乙!

525:192.168.0.774
20/12/14 20:33:12.40 u61g8tyn0.net
有能

526:192.168.0.774
20/12/14 21:19:05.89 v8wPmt2c0.net
教えて下さい。
Chakuwikiのこのページをアーカイブ化したいんですが、
なぜかうまくいきません。
URLリンク(52.69.139.163)中野_(中野区)
なにかエラーかバグが起きているようなのですが、
回避策はないのでしょうか。

527:192.168.0.774
20/12/14 21:26:38.73 9FaOalLE0.net
>>515
Internet ArchiveのSave Page Nowで'Job failed'とか出るということなら、それはInternet Archive側の内部エラーだからどうにもならない

528:192.168.0.774
20/12/14 21:27:56.18 h53jvyxt0.net
>>512
アーカイブ対象はIPで保存しているようだけど
Wayback Machineにはドメイン名でアクセスできるのでしょうか?

529:192.168.0.774
20/12/14 21:34:23.14 9FaOalLE0.net
>>517
無理なはず
アーカイブをした対象のURLがIPアドレスであるならば、Wayback MachineにもIPアドレスのまま保存されます
chakuwiki側がドメインを改めてIPに紐づけた上で、もう一度アーカイブを取り直すしかないです <


530:192.168.0.774
20/12/14 22:27:22.40 y0BEHrZG0.net
>>507
archive.org にサイト指定してarchive bot走らせること依頼出来るの知らんかった
ニコニコ実況もできたのかな

531:192.168.0.774
20/12/14 22:49:25.71 9FaOalLE0.net
>>515
さっきそのページ試してみたけど普通に取れましたよ
多分chakuwikiかInternet Archiveのどちらかでたまたま内部エラーが起きたんじゃないかと思う

532:192.168.0.774
20/12/14 23:07:45.15 v8wPmt2c0.net
>>520
ありがとうございます。
教えてちゃん状態で申し訳ありません。
こちらのページは可能でしょうか。半角記号が間に入ると保存できないということなのかと思いましたが、常にそうでもないようで……
URLリンク(52.69.139.163)玉造_(大阪市)
URLリンク(52.69.139.163)小阪_(東大阪市)
URLリンク(52.69.139.163)仁川_(兵庫)

533:520
20/12/15 00:35:35.36 Y7gKbm450.net
>>521
全て保存できてます
507氏の申請により、海外のArchiveTeamという非営利団体がbotをぶん回して現在進行系でアーカイブを取ってくれてます
ArchiveTeamのbotが収集したデータはInternet Archive上に移管されるようになっているので、わざわざ手動でアーカイブ取る意味は薄いです

534:192.168.0.774
20/12/15 01:45:51.77 L/BURrrN0.net
やはりArchiveTeamはつよい

535:192.168.0.774
20/12/15 03:45:40.17 Y7gKbm450.net
chakuwikiのAWSの契約がいつ切れるか分からない以上、時間との戦いって感じかね
保存対象として読み込まれてるリソースの数は現時点で総計173万個
さすがに1ヶ月後までには終わってると思うんだけど心配だな

536:192.168.0.774
20/12/15 07:57:43.86 Vnn2vEmu0.net
>>507
>>522
ありがとうございます。
因みにそのアーカイブサイト上のChakuwikiページはどちらになるか、わかりますでしょうか。

537:192.168.0.774
20/12/15 11:39:28.70 BgcXnTgc0.net
>>525
反映される時期は不明だけどWayback Machineから
URLリンク(52.69.139.163) で始まるURLで検索すれば閲覧できるようになるよ
ちなみに保存されたルートはアーカイブされたページの右上にあるAbout this captureを押せばわかる
Live Web Proxy Crawlsは一般人が通常通り手動で保存した場合で、Archive teamとかだったらbot経由で保存されてる
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)

538:192.168.0.774
20/12/15 12:51:45.53 K0GtvYEh0.net
少なくともChakuwiki関係者の誰かがドメイン取って
Chakuwiki.netから52.69.139.163に転送するようにすればつながるのかな?
確かサイト移転どかで転送する際はアーカイブでも転送してくれたっけ?

539:192.168.0.774
20/12/15 15:14:02.30 Y7gKbm450.net
>>527
そこまで至れり尽くせりではない
Internet Archiveがドメインの名前解決をしてくれるわけじゃないので、
新しくドメインを取ったところで、52.69.139.163で取られたアーカイブには転送されない

540:192.168.0.774
20/12/15 15:23:48.12 agHpSR5h0.net
URLリンク(blog.nicovideo.jp)
2021年の春までにニコニコ動画の削除跡地の動画タイトル、説明文、コメントが消えるらしいので
どうにかしてアーカイブを取りたい
ただ、保存ツールはNicomentXenoglossiaが使いやすいんだけど、
アクセス制限の関係上1時間で250件くらいしか落とせないから全削除動画を落とすのは現実的じゃない
仕方ないからコメントは諦めて動画タイトルと説明文だけでも視聴ページからアーカイブしたいと思ったんだけど、
今年に入ってから削除動画は非ログイン状態だと一切表示できなくなってるんだよね…
ArchiveTeamはログイン状態でアーカイブすることって出来るんですか?

541:192.168.0.774
20/12/15 1


542:7:13:19.13 ID:Y7gKbm450.net



543:192.168.0.774
20/12/15 17:55:09.16 agHpSR5h0.net
>>530
ありがとうございます
交渉してみます

544:192.168.0.774
20/12/15 18:52:56.51 Vnn2vEmu0.net
>>526
ありがとうございます。
こちらのスレの皆様には本当に助けていただきました。
ありがとうございました。

545:192.168.0.774
20/12/15 21:45:39.63 /3eTgo780.net
>>530
今の機械翻訳は優秀だし、日本の教育水準はなんだかんだ高いから、
高校まで真面目に英語やってれば大学でサボってても機械翻訳のおかしなところ微調整で長文も余裕

546:192.168.0.774
20/12/16 00:43:03.58 ZACL66BA0.net
このスレへの書き込みのみを見る限り、chakuwikiはこのスレが建ってから初めて大規模アーカイブにまで持ち込めた案件ってことになるのかな
実際に依頼したのは>>507ではあるけど

547:192.168.0.774
20/12/16 00:44:24.01 ZACL66BA0.net
でも情報をここに書き込んでくれた>>499がいなかったらそもそもArchiveTeamへの連絡にこぎつけることもできなかった訳だしな

548:192.168.0.774
20/12/16 01:04:34.43 p+5BPWXT0.net
連絡しなくてもサイト全体をダウンロードする方法を書いてくれた人もいるのに、
ここの住民は知識だけで人に任せるしかできず、初めからやる気がないんだろ

549:192.168.0.774
20/12/16 04:37:34.04 ZACL66BA0.net
>>536
上で書かれてるサイト全体をアーカイブする方法は、主に使ってる技術とサイトの規模の問題で全く使い物にならない
ArchiveTeamは実績も知見も関係各所へのコネもあるところなので、
大規模なサイトを対象にする場合はあそこの力を借りるしかない
こういう言い方はしたくないが、知識もなければ自前でクローラ回したこともない癖にイチャモン付けないで欲しいわ

550:192.168.0.774
20/12/16 11:52:40.02 vM349Ric0.net
>>537
個人でやれる事なんてせいぜい大型個人サイトまでだもんね
wikiみたく大勢が集まって作っていくようなのは漏れが出やすいしね

551:192.168.0.774
20/12/16 14:39:30.07 ZACL66BA0.net
ジオシティーズもGeoLogプロジェクトが半年くらいかけて収集してたけど、ArchiveTeamはその10倍くらいの量を60%くらいの時間で処理してた記憶

552:192.168.0.774
20/12/16 19:10:33.02 JSA/MYWc0.net
>>539
有能すぎて草

553:192.168.0.774
20/12/16 23:02:03.61 ukZ3LQFO0.net
>>531
自分も保存したいと思ってた
IRCログだとアクセス間隔を開けないといけないという話で終わっている気がするけどどうなるんだろう‥
とりあえず具体的な日程が出次第即IRC側に報告しよう

554:192.168.0.774
20/12/17 12:28:41.32 uZBzbV0r0.net
記事のアーカイブ化
URLリンク(52.69.139.163)

555:192.168.0.774
20/12/17 20:15:51.98 YcW6IKDX0.net
お尋ねしたいんですが、Webarchiveで一度アーカイブされていて、
きちんとその状況が確認できていたものが、
アーカイブから消されることってあるのでしょうか。
因みにアーカイブしていたのはChakuwikiの一部ページです。

556:192.168.0.774
20/12/17 21:28:26.50 67XwC+lO0.net
前からたまになかったっけ?このスレでも上の方で何度か言われてたような

557:192.168.0.774
20/12/17 23:12:31.52 A7vSM


558:MBJ0.net



559:192.168.0.774
20/12/17 23:17:57.23 A7vSMMBJ0.net
あとInternet Archiveのサーバはよく不具合を起こす
これのせいで、ちゃんと取れているはずのアーカイブが一時的に見れなくなったり、
アーカイブはちゃんと取れているのに、まだ取られていないという誤った表示が出てきたりすることがある
多分だけど>>543はその不具合にたまたま遭遇したんだと思う
これはInternet Archiveのサーバ内部の問題なので、こちらが取れる対処法はない
サーバの調子が良くなってまた見れるようになるのを待つしかない

560:192.168.0.774
20/12/17 23:20:53.20 A7vSMMBJ0.net
借井戸に「今週月曜日に取ったはずのアーカイブがごっそり消えている」って報告があったけど、
これは>>546で説明したサーバ不具合の典型的症状やね...

561:192.168.0.774
20/12/18 20:05:26.93 I5zRjHzA0.net
Chakuwikiのアーカイブについて
URLリンク(52.69.139.163)
のドメインで今アーカイブをとっているのですが、"()"の他に"!"や"&"がURLに入っているページもWayback Machineではうまく保存できないことが判明しました
(archive.todayでは保存できたのですが…)

562:192.168.0.774
20/12/19 02:11:50.74 Xqo4Hlfy0.net
>>548
もしかしてAPIでチェックしてる?
APIでは一部記号(自分が確認出来たのは"&")が入ってるとアーカイブされててもレスポンスが空の不具合がある
カレンダー側では問題なく確認出来るよ

563:192.168.0.774
20/12/19 15:18:27.59 hlXdl83U0.net
今日Chakuwikiのアーカイブを見て回ったら多くのページが保存されていました。
少なくとも普通に閲覧に支障がないレベルでアーカイブ化が完了しております。

564:192.168.0.774
20/12/22 00:11:10.59 ck8IlUdE0.net
攻略サイトのアーカイブがあったら便利だと思う

565:192.168.0.774
20/12/22 13:53:42.96 A07YUt/w0.net
@wikiとか?
~wikiとかwiki系で攻略wiki作ってるの多いよね

566:192.168.0.774
20/12/22 14:12:52.20 FQJnL9rZ0.net
atwiki系のサイトがサービス終了したら影響大きいだろうな

567:192.168.0.774
20/12/22 15:44:40.36 dhdxyEHd0.net
ランス10みたく色んなwikiに情報あるならまだマシだけど、
攻略サイト作成者や利用者が声がデカイ一部の一強厨にゴリ押しされて、
2番手移行を併合しようとするような流れになったら困る
分かれてるのは作成者とその周辺と気が合わないというのもあるだろうけど、
いつ消えるか分からないこのご時世、何かあった時のための避難所0では無保険過ぎて不安だし

568:192.168.0.774
20/12/23 22:26:51.27 Ff2Y6ihq0.net
chakuwiki、とうとうサーバ自体が消えたっぽい

569:192.168.0.774
20/12/23 22:40:04.53 Y66pe0em0.net
あらら

570:192.168.0.774
20/12/23 23:32:41.83 Ff2Y6ihq0.net
もうちょっと早めに分かってればなぁ
Mediawkiの機能を使った記事や画像のエクスポート自体は完了しているらしいのが不幸中の幸いかな

571:192.168.0.774
20/12/24 16:06:55.70 JkNaumUN0.net
chakuwiki.org

572:192.168.0.774
20/12/24 16:07:47.57 JkNaumUN0.net
>>558
クローンサイトらしい

573:192.168.0.774
20/12/25 00:43:20.22 cNkRqGyv0.net
>>552
HTMLで書かれた個人サイトも忘れずに

574:192.168.0.774
20/12/25 22:50:27.91 9qhqNqL90.net
今時個人サイトのゲーム攻略は絶滅危惧種でしょ
だからこそ保存しなきゃいけない訳だが

575:192.168.0.774
20/12/26 15:11:07.30 8pI8HusK0.net
>>561
ぶっちゃけエロゲ攻略サイト以外の個人ゲーム攻略サイトなくね?w
どーでもいい、スクショもない感想サイトや呟きレベルならあるけど

576:192.168.0.774
20/12/26 17:11:37.89 BbmhGsC00.net
>>562
昔はエロゲ以外のゲームのやつも結構あったんだよ
だからこそ「絶滅危惧種」って言った訳

577:192.168.0.774
20/12/27 07:00:17.63 1AIVcw2g0.net
Wayback machine がFlashをアーカイブして2021年以降も使えるようになるって本当?

578:192.168.0.774
20/12/27 12:27:01.23 OAvLElxI0.net
>>564
どの程度網羅してるのかはわからないけどここから確認できるね
URLリンク(archive.org)
好きなのクリックすればPCからでもスマホからでもflash playerなしで実行できる
データ持ってる場合はアカウント作ってこの記事の下辺りにある手順でアップロードすればいいらしい
URLリンク(blog.archive.org)

579:192.168.0.774
20/12/27 12:49:34.69 nAtd+FF20.net
過去にwayback machineで保存されたWebページからデータからぶっこ抜いてinternet archiveにアップロードしてみんなが使えるようにしてる人もいるみたい
URLリンク(twitter.com)
(deleted an unsolicited ad)

580:192.168.0.774
20/12/29 00:49:00.02 fGs7aR1x0.net
Wayback MachineでアーカイブされているサイトのFlashで作られたメニューって2021年以降に見られるのかな?
調べてもよくわからない…

581:192.168.0.774
20/12/30 18:17:22.94 90IN69Gr0.net
若干スレチかもしれないけどどこに書けばいいのかわからないので
ニコニコ動画の「テクノ」の記事に貼ってあった
URLリンク(techno.org)
このサイト、とても参考になるけど全体がFlashで出来ていて、ローカルに保存したswfでもRuffleを使ってみても(今のところ)きちんと動かなくて
このままじゃ来年見られ無くなっちゃうから元のサイト(www.di.fm)の方にFlash以外での形式で公開してほしいって伝えたいけど自分には英語力がない…
誰か英語のできる人が伝えてほしい


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch