全文検索エンジン Hyper Estraier 2at UNIX
全文検索エンジン Hyper Estraier 2 - 暇つぶし2ch250:名無しさん@お腹いっぱい。
10/05/26 02:11:25 .net
>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。

251:名無しさん@お腹いっぱい。
10/06/01 20:00:23 .net
数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。

252:名無しさん@お腹いっぱい。
10/06/02 19:06:56 .net
複数ファイルの書庫をディレクトリと認識するエンジンありますか

253:名無しさん@お腹いっぱい。
10/06/03 13:20:31 .net
>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。

254:名無しさん@お腹いっぱい。
10/06/03 16:48:10 .net
サンクス

255:名無しさん@お腹いっぱい。
10/06/04 20:57:30 .net

【岩波書店】 Google問題の核心
        ― 開かれた検索システムのために ―
                  牧野 二郎
URLリンク(www.iwanami.co.jp)
 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ.
Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問
題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決
するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提
案する.


256:名無しさん@お腹いっぱい。
10/06/05 22:13:46 .net
>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。

257:名無しさん@お腹いっぱい。
10/06/14 16:45:12 .net
すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。

258:名無しさん@お腹いっぱい。
10/06/28 10:43:43 .net
クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に

259:名無しさん@お腹いっぱい。
10/08/05 03:31:58 .net
引き継いで開発してくれる有志っていないの?
低スキルなので、私はだめだけど..

260:名無しさん@お腹いっぱい。
10/08/05 04:16:09 .net
>>259
なんか問題あるっけ?
TCに移行すればいいじゃない。

261:名無しさん@お腹いっぱい。
10/08/05 17:19:59 .net
TCって、KVSじゃないの?

262:名無しさん@お腹いっぱい。
10/08/15 12:35:46 .net
TCは全文検索できるよ。

263:名無しさん@お腹いっぱい。
10/09/22 22:13:39 .net
最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。

264:名無しさん@お腹いっぱい。
10/09/22 22:16:16 .net
>>262
データ量多くなるとまともに使えなくなるけどなw

265:名無しさん@お腹いっぱい。
10/09/23 01:38:18 .net
>>264
mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?

266:名無しさん@お腹いっぱい。
10/09/23 02:49:10 .net
TCの全文検索ってQ-GRAMインデックスのことだろ?
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。

267:名無しさん@お腹いっぱい。
10/09/23 19:36:40 .net
作ってる本人も遅いって言ってた気がする。

268:265
10/09/23 20:30:00 .net
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン

269:名無しさん@お腹いっぱい。
10/10/07 04:14:16 .net
>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。

270:名無しさん@お腹いっぱい。
10/10/09 17:47:15 .net
>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。

271:名無しさん@お腹いっぱい。
10/10/11 12:23:08 .net
>>263
wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。
269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)
という内部動作なんだろうなと、前に思った。

272:名無しさん@お腹いっぱい。
10/10/27 20:48:38 .net
>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。

273:名無しさん@お腹いっぱい。
10/10/30 15:19:33 .net
誰かこの問題をHyper Estraier でも起きないか検証してくれw
URLリンク(uinyan.com)

274:名無しさん@お腹いっぱい。
10/11/16 15:09:15 .net
windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・

275:名無しさん@お腹いっぱい。
11/02/10 08:37:50 .net
ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。

276:名無しさん@お腹いっぱい。
11/02/10 09:36:59 .net
”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?

277:名無しさん@お腹いっぱい。
11/02/10 13:07:41 .net
>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。

278:名無しさん@お腹いっぱい。
11/02/10 13:47:37 .net
>>277
インデックスの容量 -> テキスト情報量に依存
クロール時間    -> クロール方法に依存
マニュアルをちゃんと読んでから検討したほうがいいよ。


279:名無しさん@お腹いっぱい。
11/02/10 23:56:21 .net
最近のMinGWでコンパイルに成功したかたいますか?
ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します
そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました
なにかポインタがあれば教えてください


280:名無しさん@お腹いっぱい。
11/04/14 21:08:55.94 .net
大文字小文字を区別して検索できるようにして欲しい

281:名無しさん@お腹いっぱい。
11/04/17 12:28:30.18 .net
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?

282:281
11/04/17 12:31:21.73 .net
>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。

283:名無しさん@お腹いっぱい。
11/05/07 18:02:40.44 .net
>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400


284:名無しさん@お腹いっぱい。
11/05/11 20:07:25.33 .net
もう見てる人居ないんだろうか

285:名無しさん@お腹いっぱい。
11/05/11 20:21:05.25 .net
見てるけど、開発が止まっちゃってて新しい話題がないよなー

286:名無しさん@お腹いっぱい。
11/05/12 05:31:56.98 .net
一応チェックリストには入れてる

287:名無しさん@お腹いっぱい。
11/05/13 19:03:09.08 .net
namazu と これくらいかー?
使える全文検索は。

288:名無しさん@お腹いっぱい。
11/07/13 06:07:12.29 .net
luceneで決まりだろ

289:名無しさん@お腹いっぱい。
11/07/13 16:35:33.19 .net
クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。
query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。

290:名無しさん@お腹いっぱい。
11/07/19 00:44:48.88 .net
今はkyotoだっけtokyoだっけ?

291:名無しさん@お腹いっぱい。
11/07/19 12:55:07.65 .net
作者がmixiからgoogleにいったよね

292:名無しさん@お腹いっぱい。
11/07/19 14:38:11.73 .net
>>291
へえ、ついに検索の総本山へか

293:名無しさん@お腹いっぱい。
11/08/13 15:26:49.80 .net
え?自分で会社作ってたんじゃなかったっけ??

294:名無しさん@お腹いっぱい。
11/08/15 10:45:08.18 .net
失敗したんだって

295:名無しさん@お腹いっぱい。
11/08/28 22:41:21.12 .net
解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「-」(全角マイナス)が含ま
れている場合、検索結果のリンクの「-」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。

unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。
Windows用バイナリ
URLリンク(hyperestraier.sourceforge.net)

296:名無しさん@お腹いっぱい。
11/09/18 23:41:27.20 .net
P2Pでクローラーを動かしてます。
特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?


297:296 
11/09/18 23:42:18.24 .net
お願いします

298:192.774
11/11/26 01:02:16.43 .net
検索革命のせいか検索デスクの逆リンクがまだ動かない。

299:名無しさん@お腹いっぱい。
12/01/18 15:49:41.20 .net
mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか

300:名無しさん@お腹いっぱい。
12/01/18 19:37:28.38 .net
Gnus

301:名無しさん@お腹いっぱい。
12/04/19 18:59:45.66 .net
Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
URLリンク(gist.github.com)
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?

302:名無しさん@お腹いっぱい。
12/04/19 21:59:39.60 .net
Homebrew URLリンク(mxcl.github.com)
っつうMac用パッケージ管理システムのインストール定義だね。
rubyスクリプトで定義が書けるんだね。


303:名無しさん@お腹いっぱい。
12/04/20 21:10:24.25 .net
やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。
しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…


304:名無しさん@お腹いっぱい。
12/04/20 23:35:36.63 .net
>>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。

305:名無しさん@お腹いっぱい。
12/04/21 19:13:50.93 .net
>>304
>>303さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど

306:303
12/04/21 20:56:51.07 .net
>>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw

307:名無しさん@お腹いっぱい
12/05/21 00:40:06.77 .net
検索に基礎がなっていない。

308:名無しさん@お腹いっぱい。
12/08/11 17:34:18.82 .net
すいません、質問させてください。
まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず?
で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。
どのようにすれば、doc、xlsファイル等を検索できるでしょうか?
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか?
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。
以上、よろしくお願いいたします。

309:名無しさん@お腹いっぱい。
12/08/11 17:38:13.25 .net
訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
   ↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ
です。 失礼しました。

310:名無しさん@お腹いっぱい。
12/08/11 18:17:47.26 .net
>>309
estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。

311:名無しさん@お腹いっぱい。
12/08/11 19:07:37.99 .net
>>310
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。
ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。

312:名無しさん@お腹いっぱい。
12/08/11 20:12:21.99 .net
>>311
ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。

313:名無しさん@お腹いっぱい。
12/08/11 20:36:05.84 .net
>>312
レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz
フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。

314:名無しさん@お腹いっぱい。
12/08/11 20:56:51.31 .net
>>313
知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。

315:名無しさん@お腹いっぱい。
12/10/10 14:49:50.26 .net
pandocというのがodfの変換もできるほか、いろいろ変換できそう


316:名無しさん@お腹いっぱい。
13/05/04 18:53:18.57 .net
>>313
DesktopHEはWin7x64で快適に動作していますが。

317:名無しさん@お腹いっぱい。
16/02/08 08:45:27.23 .net
2007年からメンテされてないんだね

318:名無しさん@お腹いっぱい。
16/02/08 10:03:53.02 .net
forkがあるけどこっちも止まってるかな
URLリンク(github.com)

319:名無しさん@お腹いっぱい。
16/11/28 00:25:53.50 .net
ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。

320:名無しさん@お腹いっぱい。
16/11/29 08:55:34.02 .net
今時ならgroongaがいいんじゃないかなあと思っている。

321:名無しさん@お腹いっぱい。
17/12/29 07:49:19.75 .net
誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。
グーグル検索⇒『宮本のゴウリエセレレ』
XER7GWRJ9A

322:名無しさん@お腹いっぱい。
18/01/23 23:16:38.05 .net
(Javaを使わずに)全文検索を構築したくて
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
URLリンク(github.com)
URLリンク(github.com)
まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
URLリンク(feedintegra.info)
よろしくお願いします

323:名無しさん@お腹いっぱい。
18/05/22 03:07:11.85 .net
知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MS75P

324:名無しさん@お腹いっぱい。
20/02/11 15:28:38.93 .net
チエオクレのハゲの悲惨なツイッター
URLリンク(twitter.com)
  ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる
>「DesktopHE」 はWindows10に対応してないらしい
はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!
hatenaとかでまで、必死こいて大嘘をばらまいているんだが  
(deleted an unsolicited ad)

325:名無しさん@お腹いっぱい。
21/06/09 04:51:57.15 .net
>>313
>現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、

だとさwww 
作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ?
何がやりたいのか謎な、あんな糞ソフトを垂れ流すな!

326:名無しさん@お腹いっぱい。
22/08/27 21:21:16.57 3ocmvTiTh
曰本の税金に寄生しているウクライナ民を見たら.国民を人間の盾にして.女こども以外逃亡(出国)禁止にして戦わせてまて゛
利権に執着しているキチガイゼレンスキ─のクヒ゛をとっととプ-チンに引き渡して力ヱレと言ってあけ゛よう!
クソジャップなら岸田と黒田とナツオのクヒ゛に安倍の喉仏まで喜んて゛贈呈して、
クソジャップがカによる一方的な現状変更て゛併合したクソアイヌ不良債権島も引き取ってもらって即平和た゛ろ
曰本に原爆落とした世界最惡のならす゛者國家に平伏してマッチポンプワクチンた゛の兵器だの基地た゛のという白々しい名目で.
莫大な金を献上し続けてるヘ夕レチキン腐敗シ゛ャップの薄汚い爪の垢て゛も煎し゛て飲んと゛けや

創価学会員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最悪の殺人腐敗組織公明党を
池田センセ━か゛囗をきけて容認するとか本気で思ってるとしたら侮辱にもほどか゛あるぞ!
hттΡs://i.imgur、cοm/hnli1ga.jpeg

327:名無しさん@お腹いっぱい。
23/06/17 18:32:07.27 EJzfCp/NN
他人の権利を強奪して私腹を肥やす強盜殺人政治やってる論理もクソもない□クに勉強してない議員だらけ無能外道集団公明党と違って維新
は最低限の知的能力を有してる奴が多いのは橋下徹の意向て゛容赦なく知的能カの足切りやってる成果なんだろうけど、いい年して玉遊ひ゛とか
してる無能を讃えてみたり、日本に原爆落とした世界最惡のならす゛者国家の覇権主義に利用されてるウクライナ状態になるリスクを無視して
軍拡推進してみたり,危險極まりない原發推進すれば電氣料金は下がるだのほざきか゛ら鉄道の3○倍以上もの非効率クソ航空機によって莫大
な石油無駄に燃やしてヱネ価格暴騰させて温室効果ガス倍増させて氣侯変動させて災害連発させて貿易赤字に、そんなバカの象徴万博を誇っ
てみたり、騒音によって知的産業に威カ業務妨害して壞滅させて原発とか笑わせるレベ儿にまて゛日本の技術力低下させて,勉強妨害して犯罪
惹起しながら動物虐待は罸則強化しろ、孑の虐待には金くれてやれだの,いつの間にか憲法の下の平等に反しないヘ゛―シックインカムも言わ
なくなって社會分断惹起して治安惡化とか、頭は回るか゛古い教育制度による時代遅れの固定観念による思慮のなさは直情的な橋下徹由来かな

創価学会員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最悪の殺人腐敗組織公明党を
池田センセーがロをきけて容認するとか本氣で思ってるとしたら侮辱にもほどか゛あるそ゛!
hTΤΡs://i、imgur.cοm/hnli1ga.jpeg


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch