全文検索エンジン Hyper Estraier 2at UNIX
全文検索エンジン Hyper Estraier 2 - 暇つぶし2ch2:名無しさん@お腹いっぱい。
07/04/17 19:57:06 .net
前スレ
スレリンク(unix板)


3:名無しさん@お腹いっぱい。
07/04/17 21:59:35 .net
「はっ!はぁぁぁあんっ!ナ、ナマズは?ナマズは、こ、超えたの??」

4:名無しさん@お腹いっぱい。
07/04/17 22:08:40 .net
いいえ、タイにご執心の気違い次男がいる限り、なまずは不滅です。
もっとも最近は、もっとダイレクトにcockらしいですが。

5:名無しさん@お腹いっぱい。
07/04/18 00:12:47 .net
>>1


6:名無しさん@お腹いっぱい。
07/04/18 22:59:59 .net
こんなところにエロゲーのスレが!??

7:名無しさん@お腹いっぱい。
07/04/19 08:50:05 .net
>>6
「イサキ 大漁」で検索

8:名無しさん@お腹いっぱい。
07/04/19 17:49:02 .net
インストール方法から検索方法までの詳細



9:名無しさん@お腹いっぱい。
07/04/19 18:58:11 .net
つGoogle

10:名無しさん@お腹いっぱい。
07/04/22 17:16:55 .net
いちいちhttpdなんか動かしてられるか!
ってひとのため。
URLリンク(green.ribbon.to)

11:名無しさん@お腹いっぱい。
07/04/22 20:12:08 .net
フロントエンド、統一してくれんかのぅ

12:774
07/04/23 01:14:13 .net
前スレとの二重カキコご免なさい。
URLリンク(athlon64.fsij.org)
こちらのサイトでtestを検索
URLリンク(athlon64.fsij.org)
すると関連キーワードとして
Related terms: text, rowspan, style, align, center, color, background, key
というふうに出てきますが、これって配布されているCGI、estseek.cgiでも出すようにできますか??
いろいろ調べているんですが、方法が一向に分からず。
ご存知の方いらしたら改造のしかた教えて下さい。

13:名無しさん@お腹いっぱい。
07/04/24 22:20:44 .net
複数のインデックスを作っておいて、同時に検索できるのでしょうか?
estseek.confのindexname: 部分では複数の記述ができませんでした。

14:13
07/04/24 22:22:08 .net
すみません。前スレに移動しました。

15:名無しさん@お腹いっぱい。
07/05/02 19:49:28 .net
relwords.qdb って何処で入手できるんでしょうか。

16:名無しさん@お腹いっぱい。
07/05/02 20:50:02 .net
URLリンク(qdbm.sourceforge.net)


17:名無しさん@お腹いっぱい。
07/05/02 21:16:15 .net
>>16
URLリンク(athlon64.fsij.org:8080)

URLリンク(athlon64.fsij.org)
のようですが、not found なのです。
wikipediaのデータを使っているようなので、GNU FDL に基づいて
作者に直接請求しなければならないのでしょうかね。


18:16
07/05/02 22:17:48 .net
俺なら作者に「お願い」するけどな。
ところでGNU FDLに基づいて公開義務が生じる根拠って何かあるの?


19:名無しさん@お腹いっぱい。
07/05/03 13:45:41 .net
ここで改変されたデータへのアクセスを提供してる。
URLリンク(athlon64.fsij.org)


20:名無しさん@お腹いっぱい。
07/05/06 11:58:48 .net
これだろ
URLリンク(athlon64.fsij.org)

21:名無しさん@お腹いっぱい。
07/05/07 11:24:34 .net
>>20
多謝です。


22:名無しさん@お腹いっぱい。
07/06/12 00:07:48 .net
KaMailV3もここで良い?

23:名無しさん@お腹いっぱい。
07/06/12 15:08:13 .net
xyzzyのスレがあるべ。
作者さんはずっとあっちの人だ

24:名無しさん@お腹いっぱい。
07/06/20 03:25:39 .net
estcmd search -ord のあとに何をかけばいいのかわかんねー。
rubyの二つの bindingもどういう得失があるんだろう..
やっぱり purerubyだとちょっと遅いとか??
ちょっとソースに diveしてくる。


25:名無しさん@お腹いっぱい。
07/07/02 22:06:30 .net
mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに:ニュース - CNET Japan
URLリンク(japan.cnet.com)
Hyper Estraier あげ

26:名無しさん@お腹いっぱい。
07/07/03 09:54:12 .net
mixy日記はコーパスとしておもしろそうだよねえ。

27:名無しさん@お腹いっぱい。
07/07/04 20:56:32 .net
namazu.el と同じようなフロントエンドおねがいしますー。
上にあったlookupじゃ使いにくいです。
リターン一発で編集したいです。


28:名無しさん@お腹いっぱい。
07/08/26 14:16:34 .net
Windowsバイナリ版で作成したインデクスと付属CGI(estseek.cgi及び関連ファイル)は
そのままレン鯖にうpしても動かないですかね?
試用段階なのだけど、なにか違うんだろうか。


29:28
07/08/26 15:33:46 .net
ご、ごめん、いずれにしてもRubyからアクセス(検索)することになるので
そっちをテストしたらうまくいきました。
付属CGIが動かない理由はまだわからないけど、
自分でもいまいち整理できてないですし、
estseek.cgiは使わないので質問は取り下げます。
ごめりんこですm(_ _)m

30:名無しさん@お腹いっぱい。
07/09/04 21:14:26 .net
ちかごろ良さげなパッチがMLに
流れてるが、作者はマージせんのか。
中華、作者はメンテしてんのか?

31:名無しさん@お腹いっぱい。
07/09/05 02:18:45 .net
確か1.4.9と1.4.10の間も長かったな。
mixi移籍後社内業務で手一杯なのか開発速度が大幅に落ちた希ガス

32:名無しさん@お腹いっぱい。
07/09/05 11:32:08 .net
Tokyo Cabinet なんてのも作ってるしなあ。 QDBM ともども H.E. もこのまま放置されたりして。
URLリンク(tokyocabinet.sourceforge.net)
つーか代わりにメンテナに立候補する香具師はおらんかなあと思う今日このごろ。


33:名無しさん@お腹いっぱい。
07/10/28 19:54:12 .net
>>32
開発スピードが遅くなるのはいいんだけど、放置プレイだけが心配だなぁ。
Tokyo Cabinet で QDBM の不満点を解消したとかいってるし、QDBM 放置 → H.E. も放置な流れの気配が…

34:名無しさん@お腹いっぱい。
07/11/05 14:51:27 .net
100万レコードくらいのインデックスを作成したいのですが、
mysqlのエラーで止まります。何かいい方法ありますか?

35:名無しさん@お腹いっぱい。
07/11/06 00:03:34 .net
そもそもmysqlのエラーというのが発生する経緯がわからん
どういう使い方をしているのか、それを説明したまえ

36:34
07/11/06 19:34:03 .net
>35
レスありがとうございます。
hyperestraierとacts_as_searchableというrailsのプラグインを使って、全文検索を行いたいと考えています。
acts_as_searchableに備わっているreindex!というメソッドを実行すると、インデックスが構築される仕様になっているのですが、
これを実行すると、だんだん処理が重くなり、最終的にはMysql::Error: Lost connection to MySQL server during queryというエラーが出てしまいます。
reindex!というメソッドはデフォルトでは対象になるレコードを一気にメモリにのせてしまうので、
そのあたりは負荷を減らすようなコードに修正して実行しています。
(このような感じです。URLリンク(d.hatena.ne.jp)
hyperestraierのメーリングリストで、mysqlのLost Connectionを改善する
mysql_retry_lost_connectionというrailsのプラグインを教えて頂いたのですが、
インストールしても効果がなく、どうも、接続が切れる前の段階でつまずいているような気がします。
対象レコード数は100万弱で、途中で止まってしまいましたが、
#docs => 22897、#words => 196666まではいけました。
なにかアドバイスいただければ幸いです。
よろしくお願いします。





37:名無しさん@お腹いっぱい。
07/11/07 11:56:45 .net
そのMySQLのqueryとやらは、その先の処理が何時間かかろうともいつまでも待ってくれるの?
単にタイムアウトしているだけのような気が...


38:名無しさん@お腹いっぱい。
07/11/08 01:02:45 .net
つーかMLとマルチ?やるなあおい

39:名無しさん@お腹いっぱい。
07/11/08 08:42:09 .net
作者こないね


40:名無しさん@お腹いっぱい。
07/11/08 22:48:10 .net
マルチっていうより、ML で有効なレスポンスがないからこっちにも、ってことだろう。
残念ながら俺は MySQL と組み合わせたことも Rails も使ったことがないからよくわからん。
つか普通 MySQL で全文検索するんだったら Senna じゃね?

41:名無しさん@お腹いっぱい。
07/11/11 18:28:54 .net
いや、だからさ、作者はメンテする意思あんのか、と。

42:名無しさん@お腹いっぱい。
07/11/12 00:50:42 .net
メンテナンスに関しては、開発者コミュニティが形成されていない
のがダメな点だな。
作者の手を煩わせてはいかんよ。

43:名無しさん@お腹いっぱい。
07/11/12 08:59:50 .net
いやでもパッチ投げても直接マージされるわけじゃなく、本人がリライトして
著作権保持者を維持してるので、開発コミュニティの形成はforkでもしないと
無理だよ。


44:名無しさん@お腹いっぱい。
07/11/12 10:29:24 .net
作者がmixiじゃなくgoogleに就職していれば…

45:名無しさん@お腹いっぱい。
07/11/12 10:59:56 .net
googleに行ったフーリソフトウェア者も沈黙しちゃってる件(泣)


46:名無しさん@お腹いっぱい。
07/11/12 19:53:49 .net
マイクロソフトはソース見たらフリーウェアに参加で着なくなるけどほかのも?

47:名無しさん@お腹いっぱい。
07/11/21 14:39:17 .net
estseek.cgiで属性検索しても結果に出てこないのはなんで?
[UVSET]してるけどなー

48:名無しさん@お腹いっぱい。
07/11/21 14:44:41 .net
あとgather -aa @uri STRで属性インデックスつけてるけど やっぱ遅いですね
属性検索で速く検索する方法ありますか

49:名無しさん@お腹いっぱい。
07/11/21 18:22:16 .net
>>48
それ属性インデクス追加のオプションだっけ?
おれは
estcmd create -attr @uri str idx
とかやって属性インデクス付けたよ.
1000万件位のレコード数だったけど,URI検索は体感できるほど
速くなった.


50:名無しさん@お腹いっぱい。
07/11/29 10:43:00 .net
>>39-45
で、いざ新バージョンが出たら沈黙ってなんだよ。

51:名無しさん@お腹いっぱい。
07/11/29 13:26:34 .net
URLリンク(hyperestraier.sourceforge.net)
> 最新のソースパッケージ(バージョン1.4.12)
あれ、いつの間に。
ML 入ってるけどリリース情報なかったぞ。
何にせよ復活age.
ただ、ChangeLog 見る限り、
2007-11-18 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c: code clean-up.
- Bugs related to type casting of perl binding were fixed.
- Release: 1.4.12
2006-11-11 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c (est_resmap_add): "method" argument was added.
* estraier.c (est_inode): a bug related to overflow was fixed.
* estraier.c (est_narrow_score): a bug related to attribute distinction was fixed.
* estraier.c (est_search_union): search accuracy with trailing uni-gram was improved.
* estmaster.c (searchlocal): a bug related to scanning with regular expressions was fixed.
* estscout.c (realmain): "union", "score", and "idsuffix" attributes were added.
* estsupt.c (realmain): "score" attribute was added.
* estsupt.c (procsearch): accuracy of hint was improved.
* estsupt.c (realmain): "logmsg" parameter was added.
* estscout.c (realmain): "distinct" parameter was added.
* estscout.c (showresult): cache clear at random was added.
- Release: 1.4.11
ここのところ精力的に ML に投げられてたパッチはマージされてなさげ?

52:名無しさん@お腹いっぱい。
07/12/05 19:46:42 .net
pthreadsライブラリのないシステムで動かしたいんですが
なんとかならんですかね。

53:名無しさん@お腹いっぱい。
07/12/06 19:59:56 .net
Chimera Search(キメラ・サーチ)
URLリンク(www.osstech.co.jp)
> 構築コンポーネントに以下のOSS(オープンソースソフトウェア)を利用
> しているため、安価に導入できるのに高性能・高機能を発揮します。
> * プログラム言語: Rubyおよび Ruby On Rails
> * 全文検索システム : Hyper Estraier


54:名無しさん@お腹いっぱい。
07/12/22 14:50:01 .net
百度でやってるように
會→会
懷→懐
みたいに異体・旧字体・繁体・簡体をまとめてくれるといいのに。
estraier.c のなかの canonize なんとか関数に誰かちょっちょっと書き加えてくれ。

55:名無しさん@お腹いっぱい。
07/12/22 15:24:27 .net
>>53
こういう製品って虚しいよね。
だって、導入60万、年12万だったらGoogle MINIの方が
安いし、ハードウェア込みの提供だからメンテフリーだし。
実際,うちの会社はWWW用はGoogleMINI にした。
部内サーバは自分でHyper Estraierをいれた。


56:名無しさん@お腹いっぱい。
07/12/22 17:12:45 .net
>>55
それはそうなんだが、Google MINIってちっとも社内のニーズに合わせてくれなくて不満がでるんだよな。
ページの計算もなんか適当に丸められちゃうし。

57:名無しさん@お腹いっぱい。
07/12/24 16:00:59 .net
コレ使って、某サイトの1万件の記事の全文検索作ったが早いし良いね!!
acts_as_searchableの未完成具合に泣いたけどww
Rails系のエンジニアに聞くと皆使ってるし、
結構いろんなサービスでも使ってるみたい。

58:名無しさん@お腹いっぱい。
07/12/27 04:43:21 .net
最新版のWindows版のバイナリパッケージを配布して欲しい...

59:名無しさん@お腹いっぱい。
07/12/27 21:52:28 .net
ありゃ、SennaはともかくHEにもないんだ…

60:名無しさん@お腹いっぱい。
08/01/06 02:53:55 .net

(  ̄0 ̄)Ψ 誰かぁぁ PHP-nativ binding を作ってぇ~

61:名無しさん@お腹いっぱい。
08/01/29 14:23:57 .net
クローラー+ノードサーバーを使用した検索をシステムを動かし
URLリンク(*****:1978) の形式で検索には成功しました。
次ステップで
estraierpure.rb を PHP に移植したという 「EstraierPure for PHP 4.3」を使用し、ClassNodeを利用しましたが、検索結果に同じサイトばかり表示されてしまいます。
1:Pure版には 類似隠匿機能はないのでしょうか。
  Ruby、Javaにもないようですし..
2:Binding版(Perl等)には、類似隠匿機能(set_eclipse)があるのですが、classNode がありません。
  Binding版で、P2P(ノード)利用した検索をシステムって可能なのでしょうか。
  CPAN(Search-Estraier)を観ましたが、classNodeがあったのですが、set_eclipseがありませんでした
3:そもそもBinding版とPure版の違いってなんでしょうか。(汗

全く、的外れな質問でしたらお許しください
やりたいのは、「P2P+クローラーでの検索サーバーの構築」です。

62:名無しさん@お腹いっぱい。
08/01/29 18:32:53 .net
ノードAPIの場合、est_noderes_eclipse関数。 
Pureには、実装されてないようです。

>そりゃ俺がやるから使う側は楽なんだけどさ、面倒くせーことこの上ない。
 URLリンク(qdbm.sourceforge.net)

63:名無しさん@お腹いっぱい。
08/01/30 00:08:19 .net
5年ぶりになまずを再インストールしたらすごくまともになってた。これでいいじゃん。

64:名無しさん@お腹いっぱい。
08/01/30 01:19:12 .net
5年ぶりかよっ。


65:名無しさん@お腹いっぱい。
08/01/30 02:18:18 .net
鰤と鯰

66:61
08/01/30 14:55:51 .net
面倒くせーですか.... Cでやってみましょうか..15年ブリ(鬱

67:名無しさん@お腹いっぱい。
08/01/30 20:11:19 .net
いくらなんでも鯰でいいはないだろ…
検索漏れ大杉でとても使う木になれん

68:名無しさん@お腹いっぱい。
08/01/31 10:15:31 .net
>検索漏れ大杉
 ヒント Mecab

69:名無しさん@お腹いっぱい。
08/01/31 14:10:21 .net
namazu+kakasi じゃなくて 鯰+和布蕪ってこと?


70:名無しさん@お腹いっぱい。
08/02/01 10:36:19 .net
>>66
Cで組むならQDBMの使いこなしが必要。
関数になれましょう

71:名無しさん@お腹いっぱい。
08/02/07 15:54:15 .net
景気よくageます.
Windows版バイナリパッケージのverは1.4.10で止まったままなんでしょうか.
どなたかビルドしておられたらありがたいですが

72:名無しさん@お腹いっぱい。
08/02/09 17:52:06 .net
1.4.10 で困ることあるのか?


73:名無しさん@お腹いっぱい。
08/02/10 09:18:20 .net

辞書データ変換ツール一般についてと
(製品版のデータを全部持った)体験版のデータ変換についての話が
入り乱れてないか?


74:名無しさん@お腹いっぱい。
08/02/10 09:19:50 .net
すまん、誤爆した。

75:名無しさん@お腹いっぱい。
08/02/20 02:24:28 .net
これ、データーベース(QDBM)が壊れまくり。
DBが開いた状態で、プロセスが落ちると100%ぶっ飛ぶ
速いらしいが、こんなん怖くて使えないわ。
どうでもいいような、無くなってもいいデータしか扱えないわ。
さてと、1000万件のデータ、ゼロから収集だわ(鬱
なんとかならんでしょうかね

76:名無しさん@お腹いっぱい。
08/02/20 02:34:44 .net
なんとかしてみてよ。

77:名無しさん@お腹いっぱい。
08/02/20 08:56:25 .net
俺もbsfilterでqdbm使ってたらすぐ壊れたんでsdbmに変えた・゚・(つД`)・゚・

78:名無しさん@お腹いっぱい。
08/02/20 10:37:59 .net
URLリンク(qdbm.sourceforge.net)

79:名無しさん@お腹いっぱい。
08/02/20 15:07:56 .net
>>77
よかったな! sdbmの方が圧倒的に速いぞ。


80:名無しさん@お腹いっぱい。
08/02/21 13:32:05 .net
まぁ~、トラック と
ノーヘルどころか、頭蓋骨すらない脳味噌丸出しのバイク便の差。
高速道路で同じ荷物を運んで どっちの運ちゃんが逝くかは明白。
シートベルト程度の防御は欲しいけど、速さと安全は成り立たないだろね。
RAMにカキコされたキャッシュ程度のモンよ


81:名無しさん@お腹いっぱい。
08/02/21 18:56:31 .net
>>80
お前喩えのセンスあるな

82:名無しさん@お腹いっぱい。
08/02/23 11:56:39 .net
HE+Tokyo Cabinet に変わるまで待てよ

83:名無しさん@お腹いっぱい。
08/02/23 13:45:46 .net
TC ってさらに速さを追求したライブラリなんじゃネーの?
安全性上がるのか?

84:83
08/02/23 13:52:41 .net
ああ、
URLリンク(alpha.mixi.co.jp)
> 耐障害性の向上 : データベースファイルが壊れにくい
って書いてあるな。
速度だけでなく安全性も向上するのか。

85:名無しさん@お腹いっぱい。
08/02/23 14:11:07 .net
URLリンク(alpha.mixi.co.jp)
> QDBMにおいては、データベースを開いているアプリケーションが異常終了した場合、
> もしくはデータベースを適切に閉じずに終了した場合は、データベースが壊れるように
> していました。それらは明白なバグであり、アプリケーションの作者やそれを使うことを
> 選択したユーザに何らかの意識的な対処を求めることが適切であると考えたからです。
> (中略)
> しかし、上記のような理想主義と「上から目線」では現実の問題に対処できないことを
> 近ごろ感じはじめました。マナーを守らない/守れないユーザやユースケースも結構な
> 割合で存在するのが現実なのです。したがって、TCは、マナーを守らないアプリケー
> ションやそのユーザにも宥和する戦略に転換しました。
突然の停電とか当たり前に起こりうる事態なんだから、
バグとかマナーとかそういう問題じゃないと思うんだよな…
アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。

86:名無しさん@お腹いっぱい。
08/02/23 16:37:48 .net
サバイバビリティの概念がないソフトウェア設計者がいるのか。
能力的に対処できないということはなさそうだから、
実世界の面倒くさいことから逃避するための言い訳か。
> アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。
そんな事がしょっちゅうあるようなOSは使わないのが普通。
開発者がアレだとユーザもアレなのが集まるというのを実感しないでもない。

87:名無しさん@お腹いっぱい。
08/02/23 16:53:57 .net
>>86
おまえは Windows を使ったことがないのか?

88:名無しさん@お腹いっぱい。
08/02/24 05:10:28 .net
●ノードマスタの異常終了(再起動シナイ)
 サーバールートdirの _pid と _stop の削除 
●DBの復旧
 estcmd repair index_path
 

89:名無しさん@お腹いっぱい。
08/02/24 14:10:33 .net
共有鯖で、クローラーを動かしてますが、突然、
「out of memory」で止まってしまいました。( p_q)エ-ン
クローラールートディレクトリ(rootdir)内が飛んだようで
以後、
estwaver crawl rootdir  で 「could not open」となり起動できません。
メモリが少ないのはわかるのですが、先日までは正常に動作してました。
rootdirの復活方法など対処方法を教えてください (o*。_。)oペコッ

90:名無しさん@お腹いっぱい。
08/02/24 15:35:47 .net
つ…釣り?

91:名無しさん@お腹いっぱい。
08/02/24 15:57:55 .net
あるいは「一般人」かも

92:名無しさん@お腹いっぱい。
08/02/24 19:53:33 .net
>>85,86
耐障害性の確保は上位層でやれってことだろ。
オーバーヘッドを減らすためには妥当な技術選択だ。
あんたらが考えてるくらいのことはとっくに考えてるはずだよ。
その例としてTokyo Tyrantでちゃんと耐障害性を確保しているしな。
URLリンク(alpha.mixi.co.jp)
これベースでHEを作ってくれないかなぁ。


93:名無しさん@お腹いっぱい。
08/02/24 21:47:33 .net
むしろ今後HEが放棄されそうで心配…。

94:名無しさん@お腹いっぱい。
08/02/24 22:47:01 .net
mixi.jp 内で動いているエンジンを表に出して欲しい。


95:名無しさん@お腹いっぱい。
08/02/25 06:44:00 .net
>>92
中見てないけどtokyoestraierってのがそうじゃないの?


96:名無しさん@お腹いっぱい。
08/02/26 12:43:58 .net
>>92
選択肢の一つではあるが、技術的に妥当な選択だとは思わないな。
用途が制約される(上位層やユーザがその要求を履行するのは難しい)という点で。

97:名無しさん@お腹いっぱい。
08/02/26 22:43:32 .net
トレードオフのある技術選択において何が妥当かはユースケース次第だろう。
consistencyを真面目に考えたらそれこそスタンドアロンでは実現できないし。


98:名無しさん@お腹いっぱい。
08/02/27 17:41:29 .net
HEはそのまま。
後継は、tokyoestraier(TE)でしょう。
URLリンク(hyperestraier.sourceforge.net)

99:名無しさん@お腹いっぱい。
08/02/28 13:12:04 .net
DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。

100:名無しさん@お腹いっぱい。
08/03/21 04:12:02 .net
ココもMLも過疎ってるし...

101:名無しさん@お腹いっぱい。
08/04/03 20:14:51 .net
node配下のインデックスファイルって
別のHEシステムにインポートできないかな。
独立したサーバAで作ったインデックスを
別の独立したサーバBにrsyncで飛ばして してクローン作るとか・・・


102:名無しさん@お腹いっぱい。
08/04/03 21:54:36 .net
rsyncでやってみれば
多分動くでしょ。AとBのアーキテクチャが同じなら


103:名無しさん@お腹いっぱい。
08/04/03 23:58:23 .net
Q. ビッグエンディアンもしくはリトルエンディアンのマシン上で動きますか?
A. はい。どちらでも動作します。ただし、双方でインデックスを
共有することはできません。
そうでない場合は共有できるんじゃないの?


104:名無しさん@お腹いっぱい。
08/04/04 10:03:10 .net
> 101
私やってますよ
サーバAでestwaverで集めて、サーバBにrsyncで飛ばして、検索はBで
ってシステム構築してます
AもBも同じPC同じOSですが

105:名無しさん@お腹いっぱい。
08/04/04 11:20:55 .net
>>101-102
レス㌧
バックアップとしても使えそうね

てか過疎で誰も居ないかと思ってたけど
人がまだ居て嬉しかった(´;ω;`)ブワッ

106:名無しさん@お腹いっぱい。
08/04/04 11:21:29 .net
安価ミスorz
>>102-104

107:名無しさん@お腹いっぱい。
08/04/09 23:28:58 .net
tokyocabinetのwin32版って、どこ?

108:名無しさん@お腹いっぱい。
08/04/10 07:40:41 .net
URLリンク(tokyocabinet.sourceforge.net)
Q. : Windowsで利用できませんか?
A. : 残念ながらできません。今のところ対応予定もありません。


109:名無しさん@お腹いっぱい。
08/04/10 10:05:57 .net
お、TCのドキュメントでたんだ。
期待age

110:52
08/04/17 18:25:17 .net
>>52
>pthreadsライブラリのないシステムで動かしたいんですが
Hyper Estraierの前身の Estraierが pthreadsを必要としてなかったのでそっちを入れました。

111:名無しさん@お腹いっぱい。
08/04/17 23:37:00 .net
pthはだめなの?

112:名無しさん@お腹いっぱい。
08/04/18 10:46:20 .net
Windowsで作成したデータベースをFreeBSDにコピーして使用しようと思い「P2Pガイド」の
「初期導入の効率化」を参考にデータベースを作成したのですが、検索が上手くいきません。
FreeBSD側に持っていっても、estsmdでは正常に検索できるのですが、サーバを立ち上げて
estcallを使うと、検索結果のヘッダ(ヒット数など)は表示される物の、それに続くはずの
文書一覧が表示されません。
どなたか原因分かる方見えませんか?

113:名無しさん@お腹いっぱい。
08/04/18 17:38:32 .net
>>111
GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。

114:名無しさん@お腹いっぱい。
08/04/24 09:09:51 .net
インデックス作成していたらout of memoryで止まるorz
物理メモリ1GB、仮想メモリ1.4GB使い切る・・・
-ftなんか使う物じゃないんだろうか
javaとかのソースコードも見たいんだけどなぁ・・・

115:名無しさん@お腹いっぱい。
08/04/24 23:32:59 .net
インデックス対象に Excel ファイルとか含まれてる?
Excel のせいでメモリ不足になってるならこういう話がある
URLリンク(pmakino.jp)

116:名無しさん@お腹いっぱい。
08/04/25 00:03:50 .net
なるほど。参考になりました。
大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが
実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に
実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・
-ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。
がんばっていろいろいじってみます

117:名無しさん@お腹いっぱい。
08/05/05 21:20:24 .net
KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。
H.E単体で、できないものであれば、あきらめようと思っていますが。

118:名無しさん@お腹いっぱい。
08/05/12 02:11:46 .net
Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、
デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、
似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。
(例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか)
何かオプションを指定するなどしてヒットしたすべてのファイル、
あるいは上位何件かのファイルのスニペットを表示させる、
ということはできないのでしょうか?

119:名無しさん@お腹いっぱい。
08/06/15 02:36:39 .net
Tokyo Estraier URLリンク(hyperestraier.sourceforge.net)
てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、
実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。
今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。
これで実運用してる人とかいるかな?
まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。
URLリンク(tokyocabinet.sourceforge.net)


120:名無しさん@お腹いっぱい。
08/06/15 18:21:12 .net
壊れやすいよね。
問題なのは壊れたのに気づかないという・・・
リペアしてもリペア出来てないという・・・

121:名無しさん@お腹いっぱい。
08/06/16 18:24:46 .net
検索結果をXMLで受け取りたいときはどうしたらいいの?

122:名無しさん@お腹いっぱい。
08/06/16 18:35:51 .net
estcmd なら estcmd search に
 -vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。
ってマニュアルに書いてあるよ。
それ以外は自分でAPI使ってXML返すプログラムを作るってのが
本来の使い方だろうね。


123:名無しさん@お腹いっぱい。
08/06/16 18:54:39 .net
APIつくらないとダメかなぁ~


124:名無しさん@お腹いっぱい。
08/06/22 17:24:43 .net
256Mのバーチャルサーバーで動かしてます。
検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。
どれくらいのメモリがあれば使えるものですか?

125:名無しさん@お腹いっぱい。
08/06/22 23:17:58 .net
128M の玄箱 HG でも動いているが…
なんか使い方おかしいんじゃね?

126:名無しさん@お腹いっぱい。
08/06/23 00:00:57 .net
>>124
バーチャルサーバのスワップはちゃんととってます?

127:名無しさん@お腹いっぱい。
08/06/23 06:32:14 .net
検索対象拡張子を追加するにはどこいじればいいんだろう?
.javaとかをテキストとして処理するようにしたいんだが・・・

128:124
08/06/23 16:57:29 .net
バーチャルサーバのスワップ? 
どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです
_conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。
_confにメモリ周辺の設定ってありましたっけ?

129:名無しさん@お腹いっぱい。
08/06/24 02:03:12 .net
.netからDLLを利用しようと思ってます。
が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、
メモリ解放ができません。
内部で完結するよう関数追加してビルドしなおししかないでしょうか?

130:名無しさん@お腹いっぱい。
08/06/24 21:40:22 .net
DTDって変更したいときは任意の場所に出来るのかな?
デフォルトのファイルを書き換えるだけ?


131:名無しさん@お腹いっぱい。
08/06/24 22:14:59 .net
>>129
どうしたいのか分からんが、間にラッパーを
かませればいいんじゃないの?


132:名無しさん@お腹いっぱい。
08/06/24 23:50:56 .net
>>131
はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。
とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。

133:名無しさん@お腹いっぱい。
08/06/25 10:35:07 .net
freeをcrtからインポートすればいいだけじゃないの?

134:名無しさん@お腹いっぱい。
08/06/26 01:02:03 .net
makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね
どうもありがとうございました。

135:名無しさん@お腹いっぱい。
08/07/08 20:51:02 .net
質問です。
windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、
配布されているバイナリパッケージにRubyバインディングが見当たりません。
Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、
Rubyバインディングのmakeでコケます。
windowsでは無理?


136:名無しさん@お腹いっぱい。
08/07/12 09:15:52 .net
どうコケのかを言わずに、どう答えて欲しいんだろう


137:名無しさん@お腹いっぱい。
08/07/12 17:24:10 .net
>>135
お前にゃ無理だ。

138:名無しさん@お腹いっぱい。
08/07/24 13:28:58 .net
ショボ頭の自分助けて…
pdfをインデックス化したいんですけど、30MB超えるpdfだと、
文章の途中までしかインデックス化してくれません。。
特にエラーとか出てないんですけどなんでだろ?
$ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、
マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、
こんなバカ助かるかな?


139:fumiyas
08/07/25 12:27:12 .net
>>138
estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?


140:fumiyas
08/07/25 12:55:11 .net
>>114
うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)
… その前に Tokyo Estraier を試してみようかしら?


141:名無しさん@お腹いっぱい。
08/07/25 15:21:53 .net
>>139
うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)
なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。
新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
すまん、かえって混乱させてるかも。。
というか、自分混乱してる。

142:fumiyas
08/07/26 02:26:06 .net
>>141
ああ、わかった…。(たぶん)
pdftotext のバグですね。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output
の部分を:
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output
とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)
# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext
とでもして、
$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
とするとか。


143:名無しさん@お腹いっぱい。
08/07/26 11:00:18 .net
>>142
あんただれ?

144:名無しさん@お腹いっぱい。
08/07/28 14:06:44 .net
>>142
ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)
スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…
> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext
estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
それともそのままやっちゃっても大丈夫的な感じでしょうか?


145:fumiyas
08/07/29 13:53:59 .net
>>144
まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。
sed がやっていることですが、<pre>~</pre> の間の <, >, & を
<, >, & に変換しているだけです。
最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の
hyperestraier パッケージでは /usr/bin に置かれているというだけで、
そっちの環境で /usr/local/share/hyperestraier/filter なら、
そっちに合わせて ↑ に置くのがいいと思います。
# sed 's/ -htmlmeta / -raw -nopgbrk /' \
/usr/local/share/hyperestraier/filter/estfxpdftohtml \
>/usr/local/share/hyperestraier/filter/estfxpdftotext
>>143
ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)


146:fumiyas
08/07/29 13:57:46 .net
ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。
どうしたらいいの? ま、いいか。

147:fumiyas
08/07/29 15:56:25 .net
初心者板で聞いてきました。「&amp;amp;」って書くのね…。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&amp;/g;s/</\&lt;/g;s/>/\&gt;/g}' \
|output
その中に含まれる <, >, & を &lt;, &gt;, &amp; に変換してくれません(バグ)。

148:名無しさん@お腹いっぱい。
08/07/30 18:50:03 .net
>>147
す・すすごい!!できたできました!!(・∀・∀・)
ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。
きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン
天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147
ほんにありがとうございます。
確かにインデックスの方には <pre> が単語化されているようですが、
これはもう、しょうがないですよ…ね…?
はぁぁ、感動しちゃいました。(;∀; )

149:fumiyas
08/08/01 01:35:58 .net
>>148
解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。


150:HE@SHE
08/09/27 02:48:36 .net
Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。


151:名無しさん@お腹いっぱい。
08/10/02 13:47:11 .net
すみません教えてください。
ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、
pdfの日本語がインデックスに入っていないことに気付きました。
いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。
degas@debian:~$ pdftotext 日本語入りのpdf.pdf
Error: Unknown character collection 'Adobe-Japan1'
 :
Error: Unknown character collection 'Adobe-Japan1'
ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに
推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
念のためいまxpdfも入れてみましたが、同じエラーが出ます。
指針が有ればお願いしますm(_ _)m。

152:名無しさん@お腹いっぱい。
08/10/02 14:23:09 .net
Unknown character collection 'Adobe-Japan1' でググっても解決しないの?
xpdf-japanese とやらを入れてる?

153:名無しさん@お腹いっぱい。
08/10/02 14:29:43 .net
URLリンク(www.foolabs.com)
にある
xpdf-japanese.tar.gz
は入れた?

154:名無しさん@お腹いっぱい。
08/10/02 15:11:58 .net
ありがとうございます。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。

155:名無しさん@お腹いっぱい。
08/10/02 15:19:29 .net
そうですか。私にも何でか分かりません。

156:151,153
08/10/02 16:59:34 .net
解決しました。
xpdf-commonをapt-getでインストール、
cmap-adobe-japan1を取ってきてdpkgでインストール、
さらに/etc/xpdf/xpdfrcに
include /etc/xpdf/xpdfrc-japanese.dpkg-new
を書き加えればOKでした。
apt-getしか使えない男にお付き合いいただきありがとうございました。
お邪魔しました。


157:名無しさん@お腹いっぱい。
08/10/02 17:05:15 .net
ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。

158:名無しさん@お腹いっぱい。
08/10/20 15:21:23 .net
tokyo estraierはここ以外で存在が話題になっていないんだけど
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか

159:fumiyas
08/10/27 11:44:33 .net
>>158
GPL と LGPL だし、問題ないでしょ。(たぶん :-)
で、tokyo estraier どんなくらい試しました?


160:名無しさん@お腹いっぱい。
08/10/28 18:27:33 .net
>>159
>>158じゃないけれど
普通にインデックスして普通に検索出来て普通に遊べて…
これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた

161:名無しさん@お腹いっぱい。
08/10/28 18:40:31 .net
データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして

162:名無しさん@お腹いっぱい。
08/10/28 21:50:58 .net
>>161
う…_attrフォルダの中に「depot」ファイルがあるんだが

163:名無しさん@お腹いっぱい。
08/10/29 10:07:46 .net
過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…

164:名無しさん@お腹いっぱい。
08/10/29 11:16:02 .net
>>163
URLリンク(www2.uploda.org)

165:名無しさん@お腹いっぱい。
08/10/29 11:38:31 .net
ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。
URLリンク(hyperestraier.sourceforge.net)


166:名無しさん@お腹いっぱい。
08/10/29 11:47:50 .net
>>164
>>165
ディレクトリ一覧が表示されないだけだったのか。
ありがとう、助かりました。
お早いレスで俺涙目。

167:名無しさん@お腹いっぱい。
08/10/29 18:47:28 .net
Tokyo Estraierってどこにあるの?

168:名無しさん@お腹いっぱい。
08/10/30 00:44:04 .net
Windows環境でMecabを使いたいんですけど、可能ですか?
試した手順は、下記になります。
前提:WindowsXP、Cygwin環境
1、Mecab0.97と辞書のビルド
2、下記サイトを参考にし、qdbmとHyperEstraierのビルド
URLリンク(www.shinonon.dyndns.org)
HyperEstraierのビルドで--enable-mecabとしましたが、
その後のmakeでエラーとなります。

169:名無しさん@お腹いっぱい。
08/10/30 14:21:13 .net
>>167
URLリンク(hyperestraier.sourceforge.net)
ベースはHyper Estraier1.4.13
ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが
実際に使われてるのかちと分からん
QDBMも一緒に入ってないとエラー出るし
ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな…
1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ

170:fumiyas
08/10/30 18:22:25 .net
TE コンパイルしてみた。`estcmd create db` だけ試した。
>>162
_idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。
$ /usr/local/tokyoestraier/bin/estcmd crete db
$ strings db/_idx/0001
ToKyO CaBiNeT
1.0:510
>>169
HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。
ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。
いいのか? いまのところ DB の構成を把握していないのでよくわからんが、
_idx が転置インデックス? ほかは? 知っている人、教えて…。
あと 100万以上の文書は試したことないんでアレなんだけど、
参考までにハードウェアの構成とか、estcmd create に
指定したオプション (estcmd を使っているなら。-xh 付けたの?)、
estmaster の _conf の設定等を教えてもらえると嬉しいです。


171:名無しさん@お腹いっぱい。
08/12/08 22:30:47 .net
Hyper Estraierについて質問させてください。
Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、
うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、
そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。
Apacheはxamppを使いました。URLリンク(localhost) は正常に表示されてると
思います。1.6.8aと出ています。あとphp5もスタートさせました。
でも、URLリンク(localhost) にアクセスすると、
Error: the configration file is misshing.とか出ます。
/opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。
estcmd search casket 'ほげほげ'
とかはちゃんとHITして結果が出てきます。
Errorが出てくる原因は何でしょうか。分かる方教えてください。

172:171
08/12/09 22:34:48 .net
自己レスです。よく分かりませんが
estseek.conf
estseek.tmpl
estseek.top
をchmod 744 したら動きました。失礼しました。

173:名無しさん@お腹いっぱい。
08/12/12 00:50:50 .net
>>53
すげー遅レス失礼。
HEの情報収集中→WikipediaのHEのエントリ→ >>53 の製品ページ
って感じでその製品を知ったんだけど、GPLって書いてるくせに
ソースコードダウンロードのリンクをたどってもソースコードがないんだけど、
これってどうなの?
URLリンク(www.osstech.co.jp)
つーか、会社概要見たけど、中の人がこのスレにいるのか。

174:名無しさん@お腹いっぱい。
08/12/12 01:21:53 .net
>>173
別に公開する必要は無い。
会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、
もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。
GPLv2での3-aと3-bね。

175:173
08/12/12 19:40:13 .net
>>174
そうなんだ。どうもありがと。
Webページ見たけど個人お断りみたいな事書いてあったな。
関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね(v3にリンクされてる)。

176:名無しさん@お腹いっぱい。
08/12/12 20:12:53 .net
GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、
批判するんだったらちゃんと読んで理解してからにした方がいい。

177:名無しさん@お腹いっぱい。
08/12/16 17:55:27 .net
>>173
これ読むといいよ。
URLリンク(web.archive.org)

178:名無しさん@お腹いっぱい。
09/02/01 02:03:25 .net
>>47にも書いてるけど,属性検索ができない.
Wikipediaの全文検索デモページで試してみたけど効果なし...

179:名無しさん@お腹いっぱい。
09/02/08 23:47:35 .net
疑似ノードマスタって、認証なしなの?
通常のノードマスタみたいにユーザとパスを設定できないの?

180:名無しさん@お腹いっぱい。
09/02/09 01:33:22 .net
estcmd outで文書の一括削除はできますか?

181:名無しさん@お腹いっぱい。
09/02/13 23:47:32 .net
Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが
JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って
いるサイトとかってないですかね?
web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・
初歩的な質問ですいません。

182:名無しさん@お腹いっぱい。
09/02/23 06:47:28 .net
Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。
mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。
32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。
aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。
必要なライブラリについてご存知の方いませんか?

183:名無しさん@お腹いっぱい。
09/02/23 09:04:47 .net
>>182
やったの去年だからよく覚えてないけど
ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする

184:名無しさん@お腹いっぱい。
09/02/23 17:49:55 .net
aptで入るね

185:182
09/02/24 06:22:35 .net
>>183-184
レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。
aptでlibc-dev(これですよね?)を入れてもlibregex.aがないので、URLリンク(arglist.com)からregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。
似たような事で困っている方は試してみて下さい。
どうもお騒がせしました。

186:名無しさん@お腹いっぱい。
09/08/28 12:40:08 .net
作者ページのタイトルがうざくなってるんだが、改ざんされたのかな

187:名無しさん@お腹いっぱい。
09/08/28 13:43:19 .net
特に変わったようには見えないが。
> Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT
だし。

188:名無しさん@お腹いっぱい。
09/08/28 20:25:53 .net
>>186
ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。
しかし作者タソはmixiに就職してからH.E.のほうには全然顔出さなくなったな。

189:名無しさん@お腹いっぱい。
09/08/28 22:37:54 .net
ソース見てみた、何じゃこりゃ。
> case 59: name = "ちょwwwおまwwwいごww"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;


190:名無しさん@お腹いっぱい。
09/08/31 10:17:50 .net
> From: [783] 名無しさん@お腹いっぱい。 <sage>
> Date: 2006/09/17(日) 07:52:41
>
> case 59: name = "ちょwwwおまwwwいごww"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;

191:名無しさん@お腹いっぱい。
09/11/09 16:22:46 .net
検索してもHitしないってことはなにが考えられるのかな?
登録文書に検索語句は確実にあるし、DBも壊れていない・・・

192:名無しさん@お腹いっぱい。
09/11/09 18:02:45 .net
ごめん、壊れてたみたい。
estcmd inform で壊れてるかどうかわかんないんだよなあ・・・

193:名無しさん@お腹いっぱい。
09/11/15 00:49:32 .net
>>192
そうなの?おれもestcmd inform で情報出てきたら平気だと思ってた。
どうやって壊れてる判定したの?


194:名無しさん@お腹いっぱい。
09/11/15 01:54:04 .net
>>193
絶対に登録文書にある文字列を検索しても出てこなかったので。
再構築で直りました。
インデックスが壊れているかどうか調べるコマンドが欲しい。

195:名無しさん@お腹いっぱい。
09/11/18 06:15:41 .net
estcmd repair を、時々やらないと駄目ってことですかね。
(-_-;ウーン たまに治らないときもあるし..
-- 追記お願いします m(_ _"m)ペコリ---------
【テク1】ノードマスタが再起動しない・・正常に停止しないとこうなる
 サーバールートDirの _pid _stop の削除
【テク2】DBが㌧でるっぽい
#estcmd repair index_path
ex.ノードサーバー利用時は(サーバールートをcasketなら)
#estcmd repair casket/_node/ノード名
【テク3】estwaver crawl時の「could not open」エラーの解決法
クローラールートディレクトリを crawl_dir と仮定して Code:
#cd crawl_dir
#estcmd repair _index
#dpmgr repair _trace/0001/depot
#dpmgr repair _trace/0002/depot
#dpmgr repair _trace/0003/depot


196:名無しさん@お腹いっぱい。
09/11/18 16:56:39 .net
>>195
>>estcmd repair を、時々やらないと駄目ってことですかね。
repairを一回やってみたんだ。直ったかなと思って、それでも念の為に
もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。
repairを繰り返す度に減っていくんだ・・・
あきらめて再構築したよ。


197:名無しさん@お腹いっぱい。
09/11/19 05:41:03 .net
>repairを繰り返す度に減っていくんだ・・・
((( ;゚Д゚)))ガクガクブルブル 
「特定のキーワードにヒットしたを、DBから削除する」 なんてことできますか?
「特定のキーワードにヒットさせない」でもいいかなー

198:名無しさん@お腹いっぱい。
09/11/20 08:54:17 .net
Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。
DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。
DesktopHEで利用しようとしております。

199:名無しさん@お腹いっぱい。
09/11/20 14:16:19 .net
>>197
私も探してみたけど、そのものは無いみたい。
よくやる作業ならcgiとか作るんじゃないかな。
コマンドから手作業するときは、例えばこんな感じ。
消したいやつを検索して
estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord
OKなら上のコマンドに以下を追加
|awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done

200:名無しさん@お腹いっぱい。
09/11/20 16:26:25 .net
>>198
出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、
DesktopHEの関連付けはjaneにすればいいみたいな。
私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。


201:名無しさん@お腹いっぱい。
09/11/20 22:49:29 .net
>>200
速レスありがとう。
htmlに変換してって毎日巡回するたびにdat2html走らせてるの?
それとも真夜中にバッチ処理?
いずれにせよ、HDD容量が倍必要ですよね?

202:名無しさん@お腹いっぱい。
09/11/21 12:31:28 .net
>>201
>>毎日巡回するたびにdat2html走らせてるの?
そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。
ログは8GBくらいある。datファイルは定期的に削除している。
ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。


203:名無しさん@お腹いっぱい。
09/11/21 23:28:31 .net
>>202
うちもログは6Gぐらいあります。
全部変換するとなると15gぐらいいきそうですよねorz
Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて
レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。
Threadsearchと併用しないと駄目ですかね。

204:名無しさん@お腹いっぱい。
09/11/27 00:40:30 .net
XREAで設置しようとしたけど、インストールの段階で躓いたorz
cannot find -liconvとかでてきてるし・・・
libiconvの入れ方に問題があるのかなぁ・・・。

205:名無しさん@お腹いっぱい。
10/01/07 21:28:29 .net
某サイト丸ごと吸い上げようと、
クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった...
種文書を全部吸い上げてからインデックスするとは知らんかった。
seeddepth1~2でよさそうね。

206:名無しさん@お腹いっぱい。
10/01/15 16:12:43 .net
Hyper Estraier のwinを使っている方に質問です。
当方初心者。
インストール、インデックス作成まではできました。なんとか。
しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。
replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか?
何卒よろしくお願いいたします。

207:名無しさん@お腹いっぱい。
10/01/16 02:43:00 .net
>>206
win版も使ったことはありますが、それだけでは何がなんだか分かりません。
estcmd inform casket は通りますか?
Hyper Estraier の画面は出るのですか?
表示のどこかに不満があるのですか?
どうなって欲しくて、現状どうなっているのか書いてください。

208:名無しさん@お腹いっぱい。
10/01/18 15:45:09 .net
ゴミのような2chのログも、こいつを使うと宝の山になる。
はらしょー

209:名無しさん@お腹いっぱい。
10/02/05 14:01:07 .net
Hyper Estraier 1.4.10(Win)を利用している者です。
ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか?
今、その状態です。
検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。
すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。
どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか?
これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。

210:名無しさん@お腹いっぱい。
10/02/05 22:04:05 .net
文字コードの問題じゃね?

211:名無しさん@お腹いっぱい。
10/02/07 17:19:49 .net
鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。

212:209
10/02/08 08:11:35 .net
>>211
ブラウザは、他にオペラも試しました。同じ結果でした。
クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。
>>210
仮に文字コードの問題なら、対処法はありますでしょうか?
何卒よろしくお願いいたします。

213:名無しさん@お腹いっぱい。
10/02/08 20:12:30 .net
まずは、本当に文字コードの問題かどうかを確かめるべきです
フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して
それをブラウザから開くことができれば、文字コードの問題だと思います

214:209,212
10/02/09 08:13:55 .net
>>213
>フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し
やってみました。ダメでした。相変わらずジャンプしてくれません。
考えるに、estseek.conf の replace設定なのかな、と。
これについては、自分でも自信がなかったので、下記に示します。
当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。
---------------------------
replace: ^file:///c:\server\{{!}}URLリンク(127.0.0.1)
replace: /index\.html?${{!}}/
---------------------------
このような記載でよろしいのでしょうか?

215:209,212,214
10/02/09 16:47:54 .net
追記します。
estseek.conf のreplace設定を見直してみました。
試行錯誤の結果、
---------------------------
replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/
replace: /index\.html?${{!}}/
---------------------------
とすることによりまして、
検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・
となりました。
この、「|」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。
これらを消す、なにか良い方法がありましたら教えていただければ助かります。

216:名無しさん@お腹いっぱい。
10/02/09 20:47:05 .net
replaceの設定は元の設定で問題ない感じがします。
むしろ、showlrealの設定が falseの設定になっていると、
当該現象が発生するように思われます。こちらでも、
同様の現象を確認しました。unix で 1.4.13ですが。


217:名無しさん@お腹いっぱい。
10/02/09 21:38:12 .net
こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。
replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。
正しくは、C:\\server\\ではないでしょうか?
そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。
showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。
以下マニュアルより
-------------
replaceは正規表現によってURIを変換するのに使います。複数回指定できます。
先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする
「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。
「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。
--------------


218:209,212,214,215
10/02/10 07:57:47 .net
>>216
showlreal を「true」にしてみましたが、状況は変わりませんでした。
ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。
.htmがなぜかジャンプしないのです。
>>217
C:\\server\\と記載し、やってみました。
すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
c:\server\search\・・・・・
となりました。
htmの文書へは、ジャンプしてくれません。
仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。
やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。
まだまだ試行錯誤中・・・

219:名無しさん@お腹いっぱい。
10/02/10 08:56:54 .net
つーかさ、やってることの意味分かってやってる?
別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、
何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、
どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。
困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。
# 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを
# すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの?


220:名無しさん@お腹いっぱい。
10/02/23 20:50:40 .net
これって英語の検索もはやくなるの?

221:名無しさん@お腹いっぱい。
10/02/24 00:09:09 .net
もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません
そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません

222:名無しさん@お腹いっぱい。
10/02/24 12:18:43 .net
URLリンク(www.seg.rmit.edu.au)
英語で使うだけならこっちの方が速かったりする?

223:名無しさん@お腹いっぱい。
10/02/24 12:50:03 .net
なんだ、宣伝かよ

224:名無しさん@お腹いっぱい。
10/02/24 16:57:45 .net
日本語で最速なのはこれっぽいけど
英語で最速なのがどれなにか知りたかったんだ

225:名無しさん@お腹いっぱい。
10/03/08 21:40:20 .net
亀レスにもほどがあるがズバリそのものがあります。
>>198
Datファイル全文検索ソフト
URLリンク(frozenlib.net)
>DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。


226:名無しさん@お腹いっぱい。
10/03/16 22:31:58 .net
「file size limit exceeded」で、いきなりダウンしたよ。
システムによって2Gとかのファイル制限あるから、
logファイルの大きさには注意しましょ。
ログの記録レベルを煽りましょう~

227:名無しさん@お腹いっぱい。
10/03/25 00:58:26 .net
indexサイズが小さくて、もれなく検索できればいい。
あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。
web用途ではなくデスクトップで使うには
書庫内と不足なしが大事。
順位は無くて良い。開いてみれば済むからな。
これはそういう使い方出来る?

228:名無しさん@お腹いっぱい。
10/03/25 01:06:28 .net
複雑なアルゴリズムはいらない。
Grepの手助け程度で良い。
書庫に対応する。
いいやつ無いですか?

229:名無しさん@お腹いっぱい。
10/03/25 02:01:51 .net
フィルタ書けばいいじゃん。

230:名無しさん@お腹いっぱい。
10/03/25 07:11:50 .net
全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。
言語ごとに異なる位置にありますか。
統一した方が良いと思いますが。コード位置がわかりません、

231:名無しさん@お腹いっぱい。
10/03/25 07:29:47 .net
N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。

232:名無しさん@お腹いっぱい。
10/03/25 07:31:23 .net
何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/
# 思いついた単語を羅列してるだけみたいだけど在日?

233:名無しさん@お腹いっぱい。
10/03/25 10:19:59 .net
脊髄反射で在日とか言うネトウヨ?

234:名無しさん@お腹いっぱい。
10/03/26 11:17:22 .net
ということにしたいのですね。

235:名無しさん@お腹いっぱい。
10/03/26 12:04:40 .net
いいえ、自分が理解できないだけなのを認めたくないだけです。

236:名無しさん@お腹いっぱい。
10/03/26 13:35:20 .net
ということにしたいのですね。

237:名無しさん@お腹いっぱい。
10/03/26 13:56:04 .net
はい。

238:名無しさん@お腹いっぱい。
10/03/26 14:41:05 .net
>>231
URLリンク(hyperestraier.sourceforge.net)
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可
こんぐらい教えてやれよ、無能なやつばっかだな

239:名無しさん@お腹いっぱい。
10/03/26 15:22:12 .net
分かってんならすぐに教えてやれよ、ノロマだな
という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか?
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では?
元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238

240:名無しさん@お腹いっぱい。
10/03/26 20:42:39 .net
サンクス
いまローカルでgrep手助け用検索開発してる
もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。

241:名無しさん@お腹いっぱい。
10/03/26 23:42:38 .net
ちょwまて
漏れなしバイナリ検索ならgrepで十分だろ
インデックス化するメリットないぞ

242:名無しさん@お腹いっぱい。
10/03/26 23:58:55 .net
数ギガ、数十ギガとデータあったらどうする?

243:名無しさん@お腹いっぱい。
10/03/27 00:22:50 .net
もうその話あきた。よそでやれ

244:名無しさん@お腹いっぱい。
10/04/14 09:33:15 .net
mixiで公開してる東京なんとか
とかいう奴はこれの上位版?

245:名無しさん@お腹いっぱい。
10/04/14 11:36:00 .net
TokyoCabinetは検索エンジンというよりそのバックエンド、かな?

246:名無しさん@お腹いっぱい。
10/05/01 16:32:06 .net
これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね

247:名無しさん@お腹いっぱい。
10/05/19 20:34:25 .net
hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるw
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。

248:名無しさん@お腹いっぱい。
10/05/21 21:40:15 .net
公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。
windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか?
検索してみたのですが、windows環境での方法は
見つかりませんでした。
windows環境でインデックスを作成する方法の伝授、
もしくは説明してるサイトがありましたら、教示願います。
当方、組み込み系のプログラムの経験はありますが、
windowsプログラム、webアプリ、SQLは素人状態です。
要領を得ない、質問をした本人がいまいちわかってない
自覚がある質問で申し訳ありませんが、よろしくお願いします。

249:名無しさん@お腹いっぱい。
10/05/24 12:53:33 .net
たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
URLリンク(hyperestraier.sourceforge.net)
うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。

250:名無しさん@お腹いっぱい。
10/05/26 02:11:25 .net
>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。

251:名無しさん@お腹いっぱい。
10/06/01 20:00:23 .net
数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。

252:名無しさん@お腹いっぱい。
10/06/02 19:06:56 .net
複数ファイルの書庫をディレクトリと認識するエンジンありますか

253:名無しさん@お腹いっぱい。
10/06/03 13:20:31 .net
>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。

254:名無しさん@お腹いっぱい。
10/06/03 16:48:10 .net
サンクス

255:名無しさん@お腹いっぱい。
10/06/04 20:57:30 .net

【岩波書店】 Google問題の核心
        ― 開かれた検索システムのために ―
                  牧野 二郎
URLリンク(www.iwanami.co.jp)
 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ.
Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問
題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決
するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提
案する.


256:名無しさん@お腹いっぱい。
10/06/05 22:13:46 .net
>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。

257:名無しさん@お腹いっぱい。
10/06/14 16:45:12 .net
すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。

258:名無しさん@お腹いっぱい。
10/06/28 10:43:43 .net
クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に

259:名無しさん@お腹いっぱい。
10/08/05 03:31:58 .net
引き継いで開発してくれる有志っていないの?
低スキルなので、私はだめだけど..

260:名無しさん@お腹いっぱい。
10/08/05 04:16:09 .net
>>259
なんか問題あるっけ?
TCに移行すればいいじゃない。

261:名無しさん@お腹いっぱい。
10/08/05 17:19:59 .net
TCって、KVSじゃないの?

262:名無しさん@お腹いっぱい。
10/08/15 12:35:46 .net
TCは全文検索できるよ。

263:名無しさん@お腹いっぱい。
10/09/22 22:13:39 .net
最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。

264:名無しさん@お腹いっぱい。
10/09/22 22:16:16 .net
>>262
データ量多くなるとまともに使えなくなるけどなw

265:名無しさん@お腹いっぱい。
10/09/23 01:38:18 .net
>>264
mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?

266:名無しさん@お腹いっぱい。
10/09/23 02:49:10 .net
TCの全文検索ってQ-GRAMインデックスのことだろ?
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。

267:名無しさん@お腹いっぱい。
10/09/23 19:36:40 .net
作ってる本人も遅いって言ってた気がする。

268:265
10/09/23 20:30:00 .net
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン

269:名無しさん@お腹いっぱい。
10/10/07 04:14:16 .net
>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。

270:名無しさん@お腹いっぱい。
10/10/09 17:47:15 .net
>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。

271:名無しさん@お腹いっぱい。
10/10/11 12:23:08 .net
>>263
wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。
269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)
という内部動作なんだろうなと、前に思った。

272:名無しさん@お腹いっぱい。
10/10/27 20:48:38 .net
>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。

273:名無しさん@お腹いっぱい。
10/10/30 15:19:33 .net
誰かこの問題をHyper Estraier でも起きないか検証してくれw
URLリンク(uinyan.com)

274:名無しさん@お腹いっぱい。
10/11/16 15:09:15 .net
windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・

275:名無しさん@お腹いっぱい。
11/02/10 08:37:50 .net
ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。

276:名無しさん@お腹いっぱい。
11/02/10 09:36:59 .net
”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?

277:名無しさん@お腹いっぱい。
11/02/10 13:07:41 .net
>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。

278:名無しさん@お腹いっぱい。
11/02/10 13:47:37 .net
>>277
インデックスの容量 -> テキスト情報量に依存
クロール時間    -> クロール方法に依存
マニュアルをちゃんと読んでから検討したほうがいいよ。


279:名無しさん@お腹いっぱい。
11/02/10 23:56:21 .net
最近のMinGWでコンパイルに成功したかたいますか?
ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します
そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました
なにかポインタがあれば教えてください


280:名無しさん@お腹いっぱい。
11/04/14 21:08:55.94 .net
大文字小文字を区別して検索できるようにして欲しい

281:名無しさん@お腹いっぱい。
11/04/17 12:28:30.18 .net
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?

282:281
11/04/17 12:31:21.73 .net
>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。

283:名無しさん@お腹いっぱい。
11/05/07 18:02:40.44 .net
>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400


284:名無しさん@お腹いっぱい。
11/05/11 20:07:25.33 .net
もう見てる人居ないんだろうか

285:名無しさん@お腹いっぱい。
11/05/11 20:21:05.25 .net
見てるけど、開発が止まっちゃってて新しい話題がないよなー

286:名無しさん@お腹いっぱい。
11/05/12 05:31:56.98 .net
一応チェックリストには入れてる

287:名無しさん@お腹いっぱい。
11/05/13 19:03:09.08 .net
namazu と これくらいかー?
使える全文検索は。

288:名無しさん@お腹いっぱい。
11/07/13 06:07:12.29 .net
luceneで決まりだろ

289:名無しさん@お腹いっぱい。
11/07/13 16:35:33.19 .net
クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。
query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。

290:名無しさん@お腹いっぱい。
11/07/19 00:44:48.88 .net
今はkyotoだっけtokyoだっけ?

291:名無しさん@お腹いっぱい。
11/07/19 12:55:07.65 .net
作者がmixiからgoogleにいったよね

292:名無しさん@お腹いっぱい。
11/07/19 14:38:11.73 .net
>>291
へえ、ついに検索の総本山へか

293:名無しさん@お腹いっぱい。
11/08/13 15:26:49.80 .net
え?自分で会社作ってたんじゃなかったっけ??

294:名無しさん@お腹いっぱい。
11/08/15 10:45:08.18 .net
失敗したんだって

295:名無しさん@お腹いっぱい。
11/08/28 22:41:21.12 .net
解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「-」(全角マイナス)が含ま
れている場合、検索結果のリンクの「-」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。

unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。
Windows用バイナリ
URLリンク(hyperestraier.sourceforge.net)

296:名無しさん@お腹いっぱい。
11/09/18 23:41:27.20 .net
P2Pでクローラーを動かしてます。
特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?


297:296 
11/09/18 23:42:18.24 .net
お願いします

298:192.774
11/11/26 01:02:16.43 .net
検索革命のせいか検索デスクの逆リンクがまだ動かない。

299:名無しさん@お腹いっぱい。
12/01/18 15:49:41.20 .net
mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか

300:名無しさん@お腹いっぱい。
12/01/18 19:37:28.38 .net
Gnus

301:名無しさん@お腹いっぱい。
12/04/19 18:59:45.66 .net
Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
URLリンク(gist.github.com)
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?

302:名無しさん@お腹いっぱい。
12/04/19 21:59:39.60 .net
Homebrew URLリンク(mxcl.github.com)
っつうMac用パッケージ管理システムのインストール定義だね。
rubyスクリプトで定義が書けるんだね。


303:名無しさん@お腹いっぱい。
12/04/20 21:10:24.25 .net
やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。
しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…


304:名無しさん@お腹いっぱい。
12/04/20 23:35:36.63 .net
>>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。

305:名無しさん@お腹いっぱい。
12/04/21 19:13:50.93 .net
>>304
>>303さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど

306:303
12/04/21 20:56:51.07 .net
>>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw

307:名無しさん@お腹いっぱい
12/05/21 00:40:06.77 .net
検索に基礎がなっていない。

308:名無しさん@お腹いっぱい。
12/08/11 17:34:18.82 .net
すいません、質問させてください。
まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず?
で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。
どのようにすれば、doc、xlsファイル等を検索できるでしょうか?
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか?
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。
以上、よろしくお願いいたします。

309:名無しさん@お腹いっぱい。
12/08/11 17:38:13.25 .net
訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
   ↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ
です。 失礼しました。

310:名無しさん@お腹いっぱい。
12/08/11 18:17:47.26 .net
>>309
estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。

311:名無しさん@お腹いっぱい。
12/08/11 19:07:37.99 .net
>>310
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。
ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。

312:名無しさん@お腹いっぱい。
12/08/11 20:12:21.99 .net
>>311
ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。

313:名無しさん@お腹いっぱい。
12/08/11 20:36:05.84 .net
>>312
レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz
フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。

314:名無しさん@お腹いっぱい。
12/08/11 20:56:51.31 .net
>>313
知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。

315:名無しさん@お腹いっぱい。
12/10/10 14:49:50.26 .net
pandocというのがodfの変換もできるほか、いろいろ変換できそう


316:名無しさん@お腹いっぱい。
13/05/04 18:53:18.57 .net
>>313
DesktopHEはWin7x64で快適に動作していますが。

317:名無しさん@お腹いっぱい。
16/02/08 08:45:27.23 .net
2007年からメンテされてないんだね

318:名無しさん@お腹いっぱい。
16/02/08 10:03:53.02 .net
forkがあるけどこっちも止まってるかな
URLリンク(github.com)

319:名無しさん@お腹いっぱい。
16/11/28 00:25:53.50 .net
ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。

320:名無しさん@お腹いっぱい。
16/11/29 08:55:34.02 .net
今時ならgroongaがいいんじゃないかなあと思っている。

321:名無しさん@お腹いっぱい。
17/12/29 07:49:19.75 .net
誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。
グーグル検索⇒『宮本のゴウリエセレレ』
XER7GWRJ9A

322:名無しさん@お腹いっぱい。
18/01/23 23:16:38.05 .net
(Javaを使わずに)全文検索を構築したくて
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
URLリンク(github.com)
URLリンク(github.com)
まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
URLリンク(feedintegra.info)
よろしくお願いします

323:名無しさん@お腹いっぱい。
18/05/22 03:07:11.85 .net
知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MS75P

324:名無しさん@お腹いっぱい。
20/02/11 15:28:38.93 .net
チエオクレのハゲの悲惨なツイッター
URLリンク(twitter.com)
  ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる
>「DesktopHE」 はWindows10に対応してないらしい
はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!
hatenaとかでまで、必死こいて大嘘をばらまいているんだが  
(deleted an unsolicited ad)

325:名無しさん@お腹いっぱい。
21/06/09 04:51:57.15 .net
>>313
>現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、

だとさwww 
作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ?
何がやりたいのか謎な、あんな糞ソフトを垂れ流すな!

326:名無しさん@お腹いっぱい。
22/08/27 21:21:16.57 3ocmvTiTh
曰本の税金に寄生しているウクライナ民を見たら.国民を人間の盾にして.女こども以外逃亡(出国)禁止にして戦わせてまて゛
利権に執着しているキチガイゼレンスキ─のクヒ゛をとっととプ-チンに引き渡して力ヱレと言ってあけ゛よう!
クソジャップなら岸田と黒田とナツオのクヒ゛に安倍の喉仏まで喜んて゛贈呈して、
クソジャップがカによる一方的な現状変更て゛併合したクソアイヌ不良債権島も引き取ってもらって即平和た゛ろ
曰本に原爆落とした世界最惡のならす゛者國家に平伏してマッチポンプワクチンた゛の兵器だの基地た゛のという白々しい名目で.
莫大な金を献上し続けてるヘ夕レチキン腐敗シ゛ャップの薄汚い爪の垢て゛も煎し゛て飲んと゛けや

創価学会員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最悪の殺人腐敗組織公明党を
池田センセ━か゛囗をきけて容認するとか本気で思ってるとしたら侮辱にもほどか゛あるぞ!
hттΡs://i.imgur、cοm/hnli1ga.jpeg

327:名無しさん@お腹いっぱい。
23/06/17 18:32:07.27 EJzfCp/NN
他人の権利を強奪して私腹を肥やす強盜殺人政治やってる論理もクソもない□クに勉強してない議員だらけ無能外道集団公明党と違って維新
は最低限の知的能力を有してる奴が多いのは橋下徹の意向て゛容赦なく知的能カの足切りやってる成果なんだろうけど、いい年して玉遊ひ゛とか
してる無能を讃えてみたり、日本に原爆落とした世界最惡のならす゛者国家の覇権主義に利用されてるウクライナ状態になるリスクを無視して
軍拡推進してみたり,危險極まりない原發推進すれば電氣料金は下がるだのほざきか゛ら鉄道の3○倍以上もの非効率クソ航空機によって莫大
な石油無駄に燃やしてヱネ価格暴騰させて温室効果ガス倍増させて氣侯変動させて災害連発させて貿易赤字に、そんなバカの象徴万博を誇っ
てみたり、騒音によって知的産業に威カ業務妨害して壞滅させて原発とか笑わせるレベ儿にまて゛日本の技術力低下させて,勉強妨害して犯罪
惹起しながら動物虐待は罸則強化しろ、孑の虐待には金くれてやれだの,いつの間にか憲法の下の平等に反しないヘ゛―シックインカムも言わ
なくなって社會分断惹起して治安惡化とか、頭は回るか゛古い教育制度による時代遅れの固定観念による思慮のなさは直情的な橋下徹由来かな

創価学会員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最悪の殺人腐敗組織公明党を
池田センセーがロをきけて容認するとか本氣で思ってるとしたら侮辱にもほどか゛あるそ゛!
hTΤΡs://i、imgur.cοm/hnli1ga.jpeg


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch