2ちゃんねるスレタイ検索 dig.2ch.net(ver 0.04)★3at OPERATEX
2ちゃんねるスレタイ検索 dig.2ch.net(ver 0.04)★3 - 暇つぶし2ch288:動け動けウゴウゴ2ちゃんねる
14/09/24 00:59:15.38 ryYXJKOM
>>284
検索した時点で
> この検索[エボラ]のurl = <a href="?maxResult=50&atLeast=1&Link=1&AndOr=0&Sort=5&Bbs=all&924=1&password=dig&keywords=%E3%82%A8%E3%83%9C%E3%83%A9">
とUTF-8にエンコードしたurlを作成できているので、出口でなく入口の段階で
「短縮url取得」する時に「エボラ」に戻さずにエンコード済のurlをDBに保存するようにしては如何でしょう
# あっ、それが「DB作り直し」ですか…

>>286
?の問題は解決しましたが、先々の衝突回避などもあるので
専用ドメインにするなら今のうちかなと思いまして
専用ドメインが大変なら2文字犠牲にして URLリンク(ula.cc) のようなurlでもいいかもしれません

289:動け動けウゴウゴ2ちゃんねる
14/09/24 01:04:09.07 ryYXJKOM
URLリンク(t.ula.cc)
の方が簡単かな?

290:動け動けウゴウゴ2ちゃんねる
14/09/24 01:08:47.74 5IHxFPoe
単に検索パラメーターが長いって問題だけなら
dig.2ch.net配下でパラメーターだけ圧縮しても良いと思うけど。
2chスレ検索結果だってはっきり判るし
手打ち用途じゃなきゃ数バイト削るのはそこまで重要じゃないかと

291:動け動けウゴウゴ2ちゃんねる
14/09/24 01:18:36.89 ryYXJKOM
>>290
たとえばこの検索結果だとしたら
URLリンク(dig.2ch.net)

「?Bbs=ojyuken&maxResult=500&atLeast=5&Link=1&AndOr=0&Sort=5&924=1&password=dig&keywords=%E6%84%9B%E7%9F%A5+%E5%AD%A6%E6%A0%A1」
の部分だけを短縮して
URLリンク(dig.2ch.net)
みたいにするわけですね(sp = Shortend Parameters)

安全なURLであることも一目で分かりますしスパムにも使いにくいから
2chにも引用可能な短いurlを生成するという意味なら確かにその方が合理的かもしれません
一般的な短縮urlサービスだと悪用との戦いになってしまうので

292:動け動けウゴウゴ2ちゃんねる
14/09/24 01:31:09.56 ryYXJKOM
ついでの思い付きですが、「短縮url取得」リンクの隣に
「スナップショット作成」か「魚拓作成」というリンクを作って
検索結果のスナップショットを自分で取れるようにしたら面白いかもしれません

URLリンク(dig.2ch.net)

URLリンク(dig.2ch.net)
のようなurlが生成されて、好きな時点と条件のスナップショットを2chなどに貼れるというわけです

数年後には「エボラ」で検索しても数スレしか出なくなっているでしょうが
「この頃はこんなにエボラが話題になってたんだぞ」みたいな
今は過去スレも普通に読めるので案外実用性は高いかも

293:dig ★
14/09/24 01:39:08.26
>>288
なんとなくわかってきた
そのつもりは無いんだけど
そうなっている

保存したいのは url encode したやつなんだ

294:動け動けウゴウゴ2ちゃんねる
14/09/24 01:39:36.70 ryYXJKOM
>>292
「短縮url取得」は時間がたつと表示されるものが変わってしまいますが
「魚拓取得」は固定された検索結果ページが表示されるというわけです
# スナップショットには「この検索のurl」も含まれるので短縮urlの機能も兼ねられます

前者は動作報告やテンプレでのスレ案内などに
後者は「今見た検索結果はこうなってるぞ」という用途に使えます

295:動け動けウゴウゴ2ちゃんねる
14/09/24 02:40:05.17 DPAVnP6h
転送先確認のステップ追加ご苦労様です
*になりましたか

296:動け動けウゴウゴ2ちゃんねる
14/09/24 03:17:26.64 DPAVnP6h
スナップショットや魚拓ってさ
・スクリプト爆撃喰らったらdig側のストレージがDiskFull起こしそうだ
・1エントリは微小でも、それが四六時中続けばどうなるかDoS。どう制限を加えるべきか
・アイデアとしては悪くない、でも無制限開放は危険な香り。なにか制限を加える必要性のヨカーン

以下ゲラ稿
・有料ユーザなら、アカウント内にエントリを16とか255とか1023個とか持てるようにしておき、
それを外部公開にする(外部からアカウント紐付けはできない仕組みで)とか。
一日に幾つかのエントリを持てるようにする、でもいいか。
これはあっちのアカウントと連動しないといけないし、改造もあっちがメインか
難易度上がるなぁ やりたがらないだろうなぁ

297:dig ★
14/09/24 05:31:29.39
>>277
なおった

298:動け動けウゴウゴ2ちゃんねる
14/09/24 14:08:05.19 DPAVnP6h
短縮リンクで、デバイス指定の提案
処理:伸張処理の際、ターゲットデバイスのフラグを書き換える
機能:短縮文字列の先頭に特定文字列を入れてやれば、リンクがどんなデバイス向けでも
指定デバイス向けに読み替えてリンク生成してくれる。PC、携帯、タブレット・スマホ向けの指定が容易に。

用例:基本の短縮URL例 URLリンク(ula.cc)
PC向け: URLリンク(ula.cc)
携帯用: URLリンク(ula.cc)
Tablet等:URLリンク(ula.cc)

299:動け動けウゴウゴ2ちゃんねる
14/09/24 16:09:14.43 PXRPbnd5
板絞り込みに嫌儲が複数ありません?

300:dig ★
14/09/24 16:18:18.52
たくさん回されている

まだ防御システムとか作ってないから、手動で
deny from .ub-freebit.net
deny from .ablenet.jp
deny from .myvps.jp

301:dig ★
14/09/24 16:25:57.32
なんの意味があるかわからないけど
5 264 -【
6 202 ‡

を検索するbotだ

302:動け動けウゴウゴ2ちゃんねる
14/09/24 16:37:38.18 DPAVnP6h
>>298の補筆
これは短縮リンクがdigのURLだった場合の挙動、ってことで。
外部サイト向けの短縮URLにターゲットデバイスとかワケワカメなので。

もうひとつ提案
機能:転送先が外部サイト向けの場合、確認画面が強制される
説明:短縮URLが2chおよび親族サイト(bbspinkとか)であれば直接ジャンプ(確認画面を省く)も可能にするが
2chおよび親族サイトでない場合は、*指定にかかわらず確認画面を出すようにする

303:動け動けウゴウゴ2ちゃんねる
14/09/24 16:53:54.35 ENvKHc6C
>>301
携帯メニューのぬこが無意味な1文字を検索されまくってよくシステム落とされてた
誰が得するのかは分からないが、多分攻撃だと思う

304:dig ★
14/09/24 17:45:18.39
>>303
防御システムもなんか新しいのこさえっかな
一連の開発で新しいこといろいろ覚えたしライブラリもたくさん作ったし、

>>302
作ってみた
元urlに URLリンク(dig.2ch.net) が含まれていたら
Link=1 の文字を使用しているデバイスによって強制的に置き換え
動いていると思う

305:動け動けウゴウゴ2ちゃんねる
14/09/24 18:01:46.51 DPAVnP6h
>>304
おー即対応ありがとうございます。
アクセスしてきたデバイス向けにLink=nを書き換える実装の方がスマートでしたね、乙です

306:動け動けウゴウゴ2ちゃんねる
14/09/24 19:14:31.65 ryYXJKOM
>>297
よかった
お疲れ様でした!

>>300-301
「-【」は「カテゴリを付けてないスレ」、「‡」はnewsplusの閲覧上位10スレですし
1分に1度程度のようなので攻撃よりは実用的なスクレイピングか
ブラウザの自動リロード機能のような感じがします

jsonにも対応したことですし、完全に禁止するよりも
「どのくらいまでなら許すか」を示していった方が結果は良いかもしれません
・10分に1回(1日に150回)まで
・必ずjson=1
・maxResult=50まで
・自サイトに結果を利用する場合は広告表示とdigへのリンクを設置
ぐらいを満たせば許容範囲、それより激しい取得をしたい場合はビジネスのご相談、みたいな
# 1時間に1度程度のスクレイピングでも充分面白いことが色々できそうです

307:dig ★
14/09/24 19:20:20.02
1分間に100回とかだったのだ、

308:動け動けウゴウゴ2ちゃんねる
14/09/24 19:53:03.86 ryYXJKOM
そりゃいけませんw

>>306で想定したのは
おうちでデータ集めてニヨニヨするアマグラマさんや
文学関係のポータルサイトに1時間に1回2chの文学関係のスレ情報を流したいといったケースです
>>307のようなものだけ咎めたつもりで萎縮させてしまっても面白くないし損かなと

309:dig ★
14/09/24 20:22:47.25
んですなぁ
流石にそんだけ回されるとサーバが落ちるです
でも、また新しい防御システム作ろうかなぁという気になったから
良かったのかも。

それまでは手動で頑張ろう

URLリンク(dig.2ch.net)
1 5557 君野康弘容疑者
2 3545 エボラ
3 718 野々村
4 635 神戸
5 443 君野康弘

1位と2位もありえない数値なわけでして

310:動け動けウゴウゴ2ちゃんねる
14/09/24 20:27:32.86 0M4ax10s
ざっと普段の10~20倍ですな

311:動け動けウゴウゴ2ちゃんねる
14/09/24 21:04:55.35 ryYXJKOM
そういえば負荷対策とは別の話になりますが
検索回数の集計はUUにはできないでしょうか?
明らかに1人で回したっぽいものが多数上位に紛れ込んじゃってるので

URLリンク(dig.2ch.net)
所属事務所(784)
最強+vol(260)
【sop】ドルトムント×マインツ(199)
沢邑享一先生(496)

312:Mango Mangüé ★
14/09/24 21:27:33.80 BE:249718815-S★(824703)
sssp://img.2ch.net/ico/mac.gif
BBC族入れますか?(firewallに入るやつ)

313:動け動けウゴウゴ2ちゃんねる
14/09/24 21:39:42.46 HzmU+Ytv
クローラ規制とプロキシ規制を一緒くたにするような状態を解消してからにして欲しい

314:動け動けウゴウゴ2ちゃんねる
14/09/24 21:41:47.08 HzmU+Ytv
違った、クローラ規制とプロキシ規制と荒らし規制だった

315:動け動けウゴウゴ2ちゃんねる
14/09/25 11:42:04.92 OGyClrOA
うーむ、短縮URLにする必要ありますかね?

各板のトップに造設されたスレタイ検索のフォームだと
(キーワード入力欄のみでその他のパラメータは一切なし)
たとえば
URLリンク(dig.2ch.net)
のようなシンプルなURLになります。
この形であれば、アクセスに来た端末の種類を自動判別して
適切なリンクを張れるように思います。

あと、今はキーワードのほかに色々とプルダウンがありますが、
style="display:none" とかを使って通常はアイコンひとつにしておくと
初心者が深いことを考える必要がなくて宜しいかなと思います。

316:動け動けウゴウゴ2ちゃんねる
14/09/25 11:47:56.78 OGyClrOA
承前

あー、style="display: none" を使うには一工夫必要ですね。
JavaScriptで制御することになると思うのですが、
私のガラケーはJavaScriptもスタイルシートも認識しません。
まあ、ガラケーでは style="display: none" の有無に関わらず
常にそのタグの中身が表示されるので、そのままでいいといえば
いいのですが。

317:動け動けウゴウゴ2ちゃんねる
14/09/25 20:15:18.70 IfiCUiIt
>>315
前半ですが、パラメータの一部を略した場合
過去の設定をcookieで覚えておく仕様が悪さをするみたいです
↓このURLを開いた後で
URLリンク(dig.2ch.net)
>>315のurlを開いてみると…何も出ません
URLリンク(dig.2ch.net)
dig上で連続ナビゲートしている間は全パラメータ入ったurlなので
AndOr(0), AtLeast(1), maxResult(50)は渡されなかった時はクッキー無視してデフォルト値でいい気がします


後半のstyle="display: none"関係は
自分は頻繁に検索したり設定変えたりを繰り返して使っているのであまりうれしくないです
シンプルなフォームは各板の特等席に設置されているので充分でないかと
# Simple=1のような設定があってもいいとは思いますが

318:動け動けウゴウゴ2ちゃんねる
14/09/25 20:22:41.24 IfiCUiIt
ゲームGに抜けらしきものが2つあったので追加お願いします
# 他の方の提案なさったGですが

家ゲーRPG
URLリンク(mastiff.2ch.net)
Minecraft(新板のようです)
URLリンク(wktk.2ch.net)


それと「実況全部」(U_live)なのですが、調べてみると抜けがかなり多く「全部」とは呼び難かったので
グループ(G_live)として再編してみました
URLリンク(www.dotup.org)

# 抜け(フォルダ名にliveを含まない実況板)
実況ch, 番組ch, 議会選挙実況, スポーツch, 五輪実況(女), 五輪実況(男),
芸能ch, お祭りch, streaming実況, ネトゲ実況, ネトゲ実況2, ネトゲ実況3
# 誤混入(liveを含む非実況板)
家庭(live), ラブライブ!(lovelive)

319:動け動けウゴウゴ2ちゃんねる
14/09/25 20:26:28.22 IfiCUiIt
>>254-255を更新して上述のものも含めたものを上げ直します。他の方が提案されたものも一緒に入っています
隠し板やメニューにあるが実在しない板を除く全ての板が最低1つのグループに属すようにしました
URLリンク(www.dotup.org)

作業なさりやすいように、全板を並べたCSVと
1ファイルでグループ別に板を全部並べたテキストファイルも作成同梱しました(以下は閲覧用リンク)
URLリンク(www.dotup.org)
URLリンク(www.dotup.org)
# これらを適宜加工して頂ければ>>256のような「板からグループを逆引きする」系統の処理もしやすいかなーと


将来的に>>85-92や>>256のようなナビゲーション機能が揃えば
メニューからは項目の大半を削れるかもしれません(all、+全部、実況全部、bbspinkの4つと自動追加)
あとは各板トップから開くのと「板絞」「G絞」で対応というわけです

320:HDI ◆hbVYHgubO6hK
14/09/26 12:24:39.18 umnJSCwR
>>317
> パラメータの一部を略した場合
> 過去の設定をcookieで覚えておく仕様が悪さをするみたいです

なるほど、そういう仕様なのですね。
板に持ち帰って報告してきます。
…つーても、うちの自治スレは閑古鳥が鳴いているのですが(泣)

321:動け動けウゴウゴ2ちゃんねる
14/09/26 21:36:03.44 rQ0Vance
digちゃんも拡張しようと思えば果てしなくやることはありますが
既にもう立派な実用物に育ちましたので、何か他のタスクをなさる余裕があるようでしたら
別サービスになる「過去ログ検索」や「全文検索」を建設してみるのもいいかもしれませんね

過去ログ(スレタイ)検索の方は、一度過去ログのメタ情報だけ全部持って来てインデックスを作ってしまえば
後はやることはdigと全く同じになると思います
これを実装してdigと統合した時点で「ログ速」はクロール対策をするまでもなく過去の遺物となります。名前はdug?

全文検索の方は、手作りでは明らかに莫大すぎて無理なので
dat全部持って来て MySQL + mroonga といった道具立てになると思います
digのようなきめの細かい文字列検索を提供するのは難しいでしょう
それならば…今は2ch.netで全過去ログをhtml公開しているので
「全文検索フォーム」と称して「site:2ch.net」をぐぐるフォームを付けておけばそれで足りるという話もありますw
# CMさん待ちでもいいですがdigでも散々遭遇したように
# 日本語はとにかく特殊処理が多いので非話者による開発は限界があるかもです…

322:動け動けウゴウゴ2ちゃんねる
14/09/27 01:21:51.69 WBuYNXUA
今更ですが
> 短縮url = URLリンク(ula.cc) 拡張子はなんでもok
> 短縮url = URLリンク(ula.cc) 好きなフォルダもok
> 短縮url = URLリンク(ula.cc) もっとフォルダもok
これらってdigの検索結果を貼る上では全く不要ですし
悪用ばかり思い付いてしまうのですが何のためにあるのでしょう…

323:HDI ◆hbVYHgubO6hK
14/09/27 18:42:41.65 8RzfT3hI
以前に要望していた、XGAの画面にタイトルから検索結果の最初のいくつかまでを
おさめてほしいという件ですが、サンプルコードを書いてみました。

URLリンク(www.hdi-psycho.com)
に結果の画像とソースコードとを置いておきましたので、
お時間のある時にでも御高覧いただければ幸いです。

324:HDI ◆hbVYHgubO6hK
14/09/27 18:44:16.96 8RzfT3hI
すみません、フォルダ名に @ を使うと jump.2ch.net が動いてくれないので、
外しました。

URLリンク(www.hdi-psycho.com)
このフォルダ名に変えておきました。

325:動け動けウゴウゴ2ちゃんねる
14/09/28 00:19:06.64 dXhfIpNI
>>323-324
/index1.html は無いかな~

広告が入っている位置のせいかもしれないけど
キーワード用ボックスとスレタイ検索ボタンの関係がわかりにくい
(ラベルで説明しろよって別のツッコミされるかもだけど)

PCもガラケーもスマホも同じHTMLソース使ってるのなら
この配置順で横が狭いガラケーなんかだと
広告の下に検索ボタンが追い出されそうな気もするし
(縮小率にもよるだろうけど縦向きでスマホも似たような状況になる可能性も?)

326:動け動けウゴウゴ2ちゃんねる
14/09/28 02:32:12.11 G0A9rOBZ
そこはできれば正方形じゃなくて横長のバナーがいいんだけどね
横長のを出稿してもらうのは難しいのかな

327:dig ★
14/09/28 03:53:18.04
wdrain

328:動け動けウゴウゴ2ちゃんねる
14/09/28 09:49:28.27 B9lkQWRK
     ,.──,、
   /○。      \
   / ,′       ',;;;;;;;',  ←PNゲッパリラ(gepparilla) 本名(佐藤光) 通称(昭和ハゲ)
  /ノニ=ュ_ _ェ=ニゝ ;;;;',   新潟県()出身  職業 絵画教師()兼漫画講師()
  / 、‐tッ、,゙ "r‐tッァ  ヽハ  twitter垢 URLリンク(twitter.com)
  |  ''   ノ::::!` `゙   リ     ┼ヽ  -|r‐、. レ |
  |   (o oヽ      ).     d⌒) ./| _ノ  __ノ
  | ..;:;;ノ゙゙べ゙゙ヽ;:;:;..   )     ────
 人 ゙゙゙゙;;;;⌒;;;;;;;゙゙     \    制作・著作 NHK

329:動け動けウゴウゴ2ちゃんねる
14/09/28 11:10:54.63 nqKEwuhQ
数年掛かっても全然いいから過去ログも表示されるそこそこの精度の関連スレ表示や
専門板の過去スレ表示支援みたいなのが2ch本体といい感じにくっついて表示されたら嬉しいな
次スレ検出までは負荷的に難しいのかもしれんが
2ch側でtwitterのリプライみたいな仕組みで次スレ立ててついでに関連付けもしてくれるような機能があればそれが個人的な理想なんだが

330:動け動けウゴウゴ2ちゃんねる
14/09/28 11:24:28.13 G0A9rOBZ
>>329
40万ほどある100文字前後の文字列(スレタイ)から類似度の高いものを捜すお仕事ですね
イチから実装すると本当に数年掛かってしまうので
出来合いのライブラリを有り難く利用させて頂くのがよいかと


SimString - 高速かつシンプルな類似文字列検索ライブラリ
URLリンク(www.chokkan.org)
Para-SimStringシステム
URLリンク(alaginrc.nict.go.jp)

331:dig ★
14/09/29 05:02:53.14
そんなこんなでこの週末はフィードのお勉強をしていた
成果物
URLリンク(same.ula.cc)
URLリンク(same.ula.cc)
URLリンク(same.ula.cc)

基本形だけだけど作れるようになった
これって何分おきに更新すればいいのかな?
全部のスレじゃなくてたぶん住人の多いスレだけ載せようとしている。

これを dig に搭載するとしたらどんなのがいいかな?

#ちなみにリーダーは何がお奨め? (PC,android)
↑ Perlも // でコメントアウトokにして欲しいものだ

332:動け動けウゴウゴ2ちゃんねる
14/09/29 05:35:33.34 jNrc/bZv
>>331
インデントに全角空白を使うのはアリなの?

333:dig ★
14/09/29 05:36:49.72
どうなんだろか、

334:dig ★
14/09/29 05:41:08.51
ちなみに、ここでは文句言われなかっただ
URLリンク(www.w3.org)

335:動け動けウゴウゴ2ちゃんねる
14/09/29 23:19:17.79 Kv2456Q8
エディタで開くと熱が出そうになるのでインデントは半角スペースがいいですぅ…


>>331
> これを dig に搭載するとしたらどんなのがいいかな?
各板の「勢い順」を配信するということでしょうか?

だとしたらBbsで単独の板(もしくはallやG_gameなどRSSの提供対象)が絞込指定されている時に
「この板(群)のRSS」というのを出現させるとか
他のパラメータは無視してBbsだけ見ます


あと話ずれますが、からすからdigのS_*へのリンクがあるので
すずめからdigの各板へのリンクも設置してはいかがでしょう
全板のBbsにアクセスできる目次的なものが1つは必要だと思うので
# で、すずめから飛んだ先にRSSのフィードが出ていれば>>331の目的も達せられるというわけです

336:動け動けウゴウゴ2ちゃんねる
14/09/29 23:39:26.93 Kv2456Q8
> 全部のスレじゃなくてたぶん住人の多いスレだけ載せようとしている。
これなんですけど、「最新スレ」もまた別にあるといいんじゃないでしょうか
特定の板(群)でどんなスレが立ったかを購読したい人も多いのではないかと

嫌儲やVIPのような過密板ではうるさいだけかもしれませんが
スレ立ての少ないマイナーな板ほど「最新スレ」の情報価値は上がるはず

337:動け動けウゴウゴ2ちゃんねる
14/10/02 17:27:47.65 r0nZqLps
スマホの時なぜびんたん固定で開かせてるんだろう
他のアプリで開きたいのに

338:動け動けウゴウゴ2ちゃんねる
14/10/02 20:58:59.54 qAYZwM7E
itest.2ch.netがうまく動かないからだったかと。
スマホのブラウザには大抵PCモードもあるので、戻して大丈夫だと思う


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch