全文検索エンジン Hyper Estraier 2at UNIX
全文検索エンジン Hyper Estraier 2 - 暇つぶし2ch47:名無しさん@お腹いっぱい。
07/11/21 14:39:17
estseek.cgiで属性検索しても結果に出てこないのはなんで?
[UVSET]してるけどなー

48:名無しさん@お腹いっぱい。
07/11/21 14:44:41
あとgather -aa @uri STRで属性インデックスつけてるけど やっぱ遅いですね
属性検索で速く検索する方法ありますか

49:名無しさん@お腹いっぱい。
07/11/21 18:22:16
>>48
それ属性インデクス追加のオプションだっけ?
おれは
estcmd create -attr @uri str idx
とかやって属性インデクス付けたよ.

1000万件位のレコード数だったけど,URI検索は体感できるほど
速くなった.


50:名無しさん@お腹いっぱい。
07/11/29 10:43:00
>>39-45
で、いざ新バージョンが出たら沈黙ってなんだよ。

51:名無しさん@お腹いっぱい。
07/11/29 13:26:34
URLリンク(hyperestraier.sourceforge.net)
> 最新のソースパッケージ(バージョン1.4.12)

あれ、いつの間に。
ML 入ってるけどリリース情報なかったぞ。
何にせよ復活age.

ただ、ChangeLog 見る限り、

2007-11-18 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c: code clean-up.
- Bugs related to type casting of perl binding were fixed.
- Release: 1.4.12

2006-11-11 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c (est_resmap_add): "method" argument was added.
* estraier.c (est_inode): a bug related to overflow was fixed.
* estraier.c (est_narrow_score): a bug related to attribute distinction was fixed.
* estraier.c (est_search_union): search accuracy with trailing uni-gram was improved.
* estmaster.c (searchlocal): a bug related to scanning with regular expressions was fixed.
* estscout.c (realmain): "union", "score", and "idsuffix" attributes were added.
* estsupt.c (realmain): "score" attribute was added.
* estsupt.c (procsearch): accuracy of hint was improved.
* estsupt.c (realmain): "logmsg" parameter was added.
* estscout.c (realmain): "distinct" parameter was added.
* estscout.c (showresult): cache clear at random was added.
- Release: 1.4.11

ここのところ精力的に ML に投げられてたパッチはマージされてなさげ?

52:名無しさん@お腹いっぱい。
07/12/05 19:46:42
pthreadsライブラリのないシステムで動かしたいんですが
なんとかならんですかね。

53:名無しさん@お腹いっぱい。
07/12/06 19:59:56
Chimera Search(キメラ・サーチ)
URLリンク(www.osstech.co.jp)

> 構築コンポーネントに以下のOSS(オープンソースソフトウェア)を利用
> しているため、安価に導入できるのに高性能・高機能を発揮します。
> * プログラム言語: Rubyおよび Ruby On Rails
> * 全文検索システム : Hyper Estraier


54:名無しさん@お腹いっぱい。
07/12/22 14:50:01
百度でやってるように
會→会
懷→懐
みたいに異体・旧字体・繁体・簡体をまとめてくれるといいのに。

estraier.c のなかの canonize なんとか関数に誰かちょっちょっと書き加えてくれ。

55:名無しさん@お腹いっぱい。
07/12/22 15:24:27
>>53
こういう製品って虚しいよね。
だって、導入60万、年12万だったらGoogle MINIの方が
安いし、ハードウェア込みの提供だからメンテフリーだし。
実際,うちの会社はWWW用はGoogleMINI にした。
部内サーバは自分でHyper Estraierをいれた。


56:名無しさん@お腹いっぱい。
07/12/22 17:12:45
>>55
それはそうなんだが、Google MINIってちっとも社内のニーズに合わせてくれなくて不満がでるんだよな。
ページの計算もなんか適当に丸められちゃうし。

57:名無しさん@お腹いっぱい。
07/12/24 16:00:59
コレ使って、某サイトの1万件の記事の全文検索作ったが早いし良いね!!
acts_as_searchableの未完成具合に泣いたけどww

Rails系のエンジニアに聞くと皆使ってるし、
結構いろんなサービスでも使ってるみたい。

58:名無しさん@お腹いっぱい。
07/12/27 04:43:21
最新版のWindows版のバイナリパッケージを配布して欲しい...

59:名無しさん@お腹いっぱい。
07/12/27 21:52:28
ありゃ、SennaはともかくHEにもないんだ…

60:名無しさん@お腹いっぱい。
08/01/06 02:53:55

(  ̄0 ̄)Ψ 誰かぁぁ PHP-nativ binding を作ってぇ~

61:名無しさん@お腹いっぱい。
08/01/29 14:23:57
クローラー+ノードサーバーを使用した検索をシステムを動かし
URLリンク(*****:1978) の形式で検索には成功しました。

次ステップで
estraierpure.rb を PHP に移植したという 「EstraierPure for PHP 4.3」を使用し、ClassNodeを利用しましたが、検索結果に同じサイトばかり表示されてしまいます。

1:Pure版には 類似隠匿機能はないのでしょうか。
  Ruby、Javaにもないようですし..

2:Binding版(Perl等)には、類似隠匿機能(set_eclipse)があるのですが、classNode がありません。
  Binding版で、P2P(ノード)利用した検索をシステムって可能なのでしょうか。
  CPAN(Search-Estraier)を観ましたが、classNodeがあったのですが、set_eclipseがありませんでした
3:そもそもBinding版とPure版の違いってなんでしょうか。(汗


全く、的外れな質問でしたらお許しください
やりたいのは、「P2P+クローラーでの検索サーバーの構築」です。

62:名無しさん@お腹いっぱい。
08/01/29 18:32:53
ノードAPIの場合、est_noderes_eclipse関数。 
Pureには、実装されてないようです。


>そりゃ俺がやるから使う側は楽なんだけどさ、面倒くせーことこの上ない。
 URLリンク(qdbm.sourceforge.net)

63:名無しさん@お腹いっぱい。
08/01/30 00:08:19
5年ぶりになまずを再インストールしたらすごくまともになってた。これでいいじゃん。

64:名無しさん@お腹いっぱい。
08/01/30 01:19:12
5年ぶりかよっ。


65:名無しさん@お腹いっぱい。
08/01/30 02:18:18
鰤と鯰

66:61
08/01/30 14:55:51
面倒くせーですか.... Cでやってみましょうか..15年ブリ(鬱

67:名無しさん@お腹いっぱい。
08/01/30 20:11:19
いくらなんでも鯰でいいはないだろ…
検索漏れ大杉でとても使う木になれん

68:名無しさん@お腹いっぱい。
08/01/31 10:15:31
>検索漏れ大杉

 ヒント Mecab

69:名無しさん@お腹いっぱい。
08/01/31 14:10:21
namazu+kakasi じゃなくて 鯰+和布蕪ってこと?


70:名無しさん@お腹いっぱい。
08/02/01 10:36:19
>>66
Cで組むならQDBMの使いこなしが必要。
関数になれましょう

71:名無しさん@お腹いっぱい。
08/02/07 15:54:15
景気よくageます.
Windows版バイナリパッケージのverは1.4.10で止まったままなんでしょうか.
どなたかビルドしておられたらありがたいですが

72:名無しさん@お腹いっぱい。
08/02/09 17:52:06
1.4.10 で困ることあるのか?



73:名無しさん@お腹いっぱい。
08/02/10 09:18:20

辞書データ変換ツール一般についてと
(製品版のデータを全部持った)体験版のデータ変換についての話が
入り乱れてないか?


74:名無しさん@お腹いっぱい。
08/02/10 09:19:50
すまん、誤爆した。

75:名無しさん@お腹いっぱい。
08/02/20 02:24:28
これ、データーベース(QDBM)が壊れまくり。
DBが開いた状態で、プロセスが落ちると100%ぶっ飛ぶ
速いらしいが、こんなん怖くて使えないわ。
どうでもいいような、無くなってもいいデータしか扱えないわ。

さてと、1000万件のデータ、ゼロから収集だわ(鬱

なんとかならんでしょうかね

76:名無しさん@お腹いっぱい。
08/02/20 02:34:44
なんとかしてみてよ。

77:名無しさん@お腹いっぱい。
08/02/20 08:56:25
俺もbsfilterでqdbm使ってたらすぐ壊れたんでsdbmに変えた・゚・(つД`)・゚・

78:名無しさん@お腹いっぱい。
08/02/20 10:37:59
URLリンク(qdbm.sourceforge.net)

79:名無しさん@お腹いっぱい。
08/02/20 15:07:56
>>77
よかったな! sdbmの方が圧倒的に速いぞ。


80:名無しさん@お腹いっぱい。
08/02/21 13:32:05
まぁ~、トラック と
ノーヘルどころか、頭蓋骨すらない脳味噌丸出しのバイク便の差。

高速道路で同じ荷物を運んで どっちの運ちゃんが逝くかは明白。

シートベルト程度の防御は欲しいけど、速さと安全は成り立たないだろね。
RAMにカキコされたキャッシュ程度のモンよ



81:名無しさん@お腹いっぱい。
08/02/21 18:56:31
>>80
お前喩えのセンスあるな

82:名無しさん@お腹いっぱい。
08/02/23 11:56:39
HE+Tokyo Cabinet に変わるまで待てよ

83:名無しさん@お腹いっぱい。
08/02/23 13:45:46
TC ってさらに速さを追求したライブラリなんじゃネーの?
安全性上がるのか?

84:83
08/02/23 13:52:41
ああ、
URLリンク(alpha.mixi.co.jp)
> 耐障害性の向上 : データベースファイルが壊れにくい
って書いてあるな。

速度だけでなく安全性も向上するのか。

85:名無しさん@お腹いっぱい。
08/02/23 14:11:07
URLリンク(alpha.mixi.co.jp)
> QDBMにおいては、データベースを開いているアプリケーションが異常終了した場合、
> もしくはデータベースを適切に閉じずに終了した場合は、データベースが壊れるように
> していました。それらは明白なバグであり、アプリケーションの作者やそれを使うことを
> 選択したユーザに何らかの意識的な対処を求めることが適切であると考えたからです。
> (中略)
> しかし、上記のような理想主義と「上から目線」では現実の問題に対処できないことを
> 近ごろ感じはじめました。マナーを守らない/守れないユーザやユースケースも結構な
> 割合で存在するのが現実なのです。したがって、TCは、マナーを守らないアプリケー
> ションやそのユーザにも宥和する戦略に転換しました。

突然の停電とか当たり前に起こりうる事態なんだから、
バグとかマナーとかそういう問題じゃないと思うんだよな…
アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。

86:名無しさん@お腹いっぱい。
08/02/23 16:37:48
サバイバビリティの概念がないソフトウェア設計者がいるのか。
能力的に対処できないということはなさそうだから、
実世界の面倒くさいことから逃避するための言い訳か。

> アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。

そんな事がしょっちゅうあるようなOSは使わないのが普通。

開発者がアレだとユーザもアレなのが集まるというのを実感しないでもない。

87:名無しさん@お腹いっぱい。
08/02/23 16:53:57
>>86
おまえは Windows を使ったことがないのか?

88:名無しさん@お腹いっぱい。
08/02/24 05:10:28
●ノードマスタの異常終了(再起動シナイ)
 サーバールートdirの _pid と _stop の削除 

●DBの復旧
 estcmd repair index_path
 

89:名無しさん@お腹いっぱい。
08/02/24 14:10:33
共有鯖で、クローラーを動かしてますが、突然、
「out of memory」で止まってしまいました。( p_q)エ-ン

クローラールートディレクトリ(rootdir)内が飛んだようで
以後、
estwaver crawl rootdir  で 「could not open」となり起動できません。

メモリが少ないのはわかるのですが、先日までは正常に動作してました。
rootdirの復活方法など対処方法を教えてください (o*。_。)oペコッ

90:名無しさん@お腹いっぱい。
08/02/24 15:35:47
つ…釣り?

91:名無しさん@お腹いっぱい。
08/02/24 15:57:55
あるいは「一般人」かも

92:名無しさん@お腹いっぱい。
08/02/24 19:53:33
>>85,86
耐障害性の確保は上位層でやれってことだろ。
オーバーヘッドを減らすためには妥当な技術選択だ。
あんたらが考えてるくらいのことはとっくに考えてるはずだよ。

その例としてTokyo Tyrantでちゃんと耐障害性を確保しているしな。
URLリンク(alpha.mixi.co.jp)

これベースでHEを作ってくれないかなぁ。


93:名無しさん@お腹いっぱい。
08/02/24 21:47:33
むしろ今後HEが放棄されそうで心配…。

94:名無しさん@お腹いっぱい。
08/02/24 22:47:01
mixi.jp 内で動いているエンジンを表に出して欲しい。


95:名無しさん@お腹いっぱい。
08/02/25 06:44:00
>>92
中見てないけどtokyoestraierってのがそうじゃないの?



96:名無しさん@お腹いっぱい。
08/02/26 12:43:58
>>92
選択肢の一つではあるが、技術的に妥当な選択だとは思わないな。
用途が制約される(上位層やユーザがその要求を履行するのは難しい)という点で。

97:名無しさん@お腹いっぱい。
08/02/26 22:43:32
トレードオフのある技術選択において何が妥当かはユースケース次第だろう。
consistencyを真面目に考えたらそれこそスタンドアロンでは実現できないし。


98:名無しさん@お腹いっぱい。
08/02/27 17:41:29
HEはそのまま。

後継は、tokyoestraier(TE)でしょう。
URLリンク(hyperestraier.sourceforge.net)

99:名無しさん@お腹いっぱい。
08/02/28 13:12:04
DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。

100:名無しさん@お腹いっぱい。
08/03/21 04:12:02
ココもMLも過疎ってるし...

101:名無しさん@お腹いっぱい。
08/04/03 20:14:51
node配下のインデックスファイルって
別のHEシステムにインポートできないかな。

独立したサーバAで作ったインデックスを
別の独立したサーバBにrsyncで飛ばして してクローン作るとか・・・



102:名無しさん@お腹いっぱい。
08/04/03 21:54:36
rsyncでやってみれば
多分動くでしょ。AとBのアーキテクチャが同じなら


103:名無しさん@お腹いっぱい。
08/04/03 23:58:23
Q. ビッグエンディアンもしくはリトルエンディアンのマシン上で動きますか?
A. はい。どちらでも動作します。ただし、双方でインデックスを
共有することはできません。

そうでない場合は共有できるんじゃないの?


104:名無しさん@お腹いっぱい。
08/04/04 10:03:10
> 101
私やってますよ
サーバAでestwaverで集めて、サーバBにrsyncで飛ばして、検索はBで
ってシステム構築してます
AもBも同じPC同じOSですが

105:名無しさん@お腹いっぱい。
08/04/04 11:20:55
>>101-102
レス㌧

バックアップとしても使えそうね


てか過疎で誰も居ないかと思ってたけど
人がまだ居て嬉しかった(´;ω;`)ブワッ

106:名無しさん@お腹いっぱい。
08/04/04 11:21:29
安価ミスorz

>>102-104

107:名無しさん@お腹いっぱい。
08/04/09 23:28:58
tokyocabinetのwin32版って、どこ?

108:名無しさん@お腹いっぱい。
08/04/10 07:40:41
URLリンク(tokyocabinet.sourceforge.net)
Q. : Windowsで利用できませんか?
A. : 残念ながらできません。今のところ対応予定もありません。


109:名無しさん@お腹いっぱい。
08/04/10 10:05:57
お、TCのドキュメントでたんだ。

期待age

110:52
08/04/17 18:25:17
>>52
>pthreadsライブラリのないシステムで動かしたいんですが

Hyper Estraierの前身の Estraierが pthreadsを必要としてなかったのでそっちを入れました。

111:名無しさん@お腹いっぱい。
08/04/17 23:37:00
pthはだめなの?

112:名無しさん@お腹いっぱい。
08/04/18 10:46:20
Windowsで作成したデータベースをFreeBSDにコピーして使用しようと思い「P2Pガイド」の
「初期導入の効率化」を参考にデータベースを作成したのですが、検索が上手くいきません。

FreeBSD側に持っていっても、estsmdでは正常に検索できるのですが、サーバを立ち上げて
estcallを使うと、検索結果のヘッダ(ヒット数など)は表示される物の、それに続くはずの
文書一覧が表示されません。

どなたか原因分かる方見えませんか?

113:名無しさん@お腹いっぱい。
08/04/18 17:38:32
>>111
GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。

114:名無しさん@お腹いっぱい。
08/04/24 09:09:51
インデックス作成していたらout of memoryで止まるorz
物理メモリ1GB、仮想メモリ1.4GB使い切る・・・
-ftなんか使う物じゃないんだろうか
javaとかのソースコードも見たいんだけどなぁ・・・

115:名無しさん@お腹いっぱい。
08/04/24 23:32:59
インデックス対象に Excel ファイルとか含まれてる?
Excel のせいでメモリ不足になってるならこういう話がある
URLリンク(pmakino.jp)

116:名無しさん@お腹いっぱい。
08/04/25 00:03:50
なるほど。参考になりました。

大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが
実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に
実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・

-ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。

がんばっていろいろいじってみます

117:名無しさん@お腹いっぱい。
08/05/05 21:20:24
KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。
H.E単体で、できないものであれば、あきらめようと思っていますが。

118:名無しさん@お腹いっぱい。
08/05/12 02:11:46
Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、
デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、
似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。
(例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか)

何かオプションを指定するなどしてヒットしたすべてのファイル、
あるいは上位何件かのファイルのスニペットを表示させる、
ということはできないのでしょうか?

119:名無しさん@お腹いっぱい。
08/06/15 02:36:39
Tokyo Estraier URLリンク(hyperestraier.sourceforge.net)
てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、
実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。
今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。
これで実運用してる人とかいるかな?

まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。
URLリンク(tokyocabinet.sourceforge.net)


120:名無しさん@お腹いっぱい。
08/06/15 18:21:12
壊れやすいよね。
問題なのは壊れたのに気づかないという・・・
リペアしてもリペア出来てないという・・・

121:名無しさん@お腹いっぱい。
08/06/16 18:24:46
検索結果をXMLで受け取りたいときはどうしたらいいの?

122:名無しさん@お腹いっぱい。
08/06/16 18:35:51
estcmd なら estcmd search に
 -vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。
ってマニュアルに書いてあるよ。

それ以外は自分でAPI使ってXML返すプログラムを作るってのが
本来の使い方だろうね。


123:名無しさん@お腹いっぱい。
08/06/16 18:54:39
APIつくらないとダメかなぁ~


124:名無しさん@お腹いっぱい。
08/06/22 17:24:43
256Mのバーチャルサーバーで動かしてます。
検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。

どれくらいのメモリがあれば使えるものですか?

125:名無しさん@お腹いっぱい。
08/06/22 23:17:58
128M の玄箱 HG でも動いているが…
なんか使い方おかしいんじゃね?

126:名無しさん@お腹いっぱい。
08/06/23 00:00:57
>>124
バーチャルサーバのスワップはちゃんととってます?

127:名無しさん@お腹いっぱい。
08/06/23 06:32:14
検索対象拡張子を追加するにはどこいじればいいんだろう?
.javaとかをテキストとして処理するようにしたいんだが・・・

128:124
08/06/23 16:57:29
バーチャルサーバのスワップ? 

どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです

_conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。
_confにメモリ周辺の設定ってありましたっけ?

129:名無しさん@お腹いっぱい。
08/06/24 02:03:12
.netからDLLを利用しようと思ってます。
が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、
メモリ解放ができません。
内部で完結するよう関数追加してビルドしなおししかないでしょうか?

130:名無しさん@お腹いっぱい。
08/06/24 21:40:22
DTDって変更したいときは任意の場所に出来るのかな?
デフォルトのファイルを書き換えるだけ?


131:名無しさん@お腹いっぱい。
08/06/24 22:14:59
>>129
どうしたいのか分からんが、間にラッパーを
かませればいいんじゃないの?


132:名無しさん@お腹いっぱい。
08/06/24 23:50:56
>>131
はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。

とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。

133:名無しさん@お腹いっぱい。
08/06/25 10:35:07
freeをcrtからインポートすればいいだけじゃないの?

134:名無しさん@お腹いっぱい。
08/06/26 01:02:03
makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね
どうもありがとうございました。

135:名無しさん@お腹いっぱい。
08/07/08 20:51:02
質問です。
windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、
配布されているバイナリパッケージにRubyバインディングが見当たりません。
Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、
Rubyバインディングのmakeでコケます。

windowsでは無理?


136:名無しさん@お腹いっぱい。
08/07/12 09:15:52
どうコケのかを言わずに、どう答えて欲しいんだろう


137:名無しさん@お腹いっぱい。
08/07/12 17:24:10
>>135
お前にゃ無理だ。

138:名無しさん@お腹いっぱい。
08/07/24 13:28:58
ショボ頭の自分助けて…

pdfをインデックス化したいんですけど、30MB超えるpdfだと、
文章の途中までしかインデックス化してくれません。。
特にエラーとか出てないんですけどなんでだろ?

$ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./

一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、
マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、
こんなバカ助かるかな?


139:fumiyas
08/07/25 12:27:12
>>138

estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?


140:fumiyas
08/07/25 12:55:11
>>114
うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)

… その前に Tokyo Estraier を試してみようかしら?


141:名無しさん@お腹いっぱい。
08/07/25 15:21:53
>>139

うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)

なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。

新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ

すまん、かえって混乱させてるかも。。
というか、自分混乱してる。

142:fumiyas
08/07/26 02:26:06
>>141

ああ、わかった…。(たぶん)
pdftotext のバグですね。

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output

の部分を:

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output

とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)

# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext

とでもして、

$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./

とするとか。


143:名無しさん@お腹いっぱい。
08/07/26 11:00:18
>>142
あんただれ?

144:名無しさん@お腹いっぱい。
08/07/28 14:06:44
>>142

ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)

スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…

> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext

estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
それともそのままやっちゃっても大丈夫的な感じでしょうか?


145:fumiyas
08/07/29 13:53:59
>>144

まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。

sed がやっていることですが、<pre>~</pre> の間の <, >, & を
<, >, & に変換しているだけです。

最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の
hyperestraier パッケージでは /usr/bin に置かれているというだけで、
そっちの環境で /usr/local/share/hyperestraier/filter なら、
そっちに合わせて ↑ に置くのがいいと思います。

# sed 's/ -htmlmeta / -raw -nopgbrk /' \
/usr/local/share/hyperestraier/filter/estfxpdftohtml \
>/usr/local/share/hyperestraier/filter/estfxpdftotext

>>143
ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)


146:fumiyas
08/07/29 13:57:46
ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。
どうしたらいいの? ま、いいか。

147:fumiyas
08/07/29 15:56:25
初心者板で聞いてきました。「&amp;amp;」って書くのね…。

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&amp;/g;s/</\&lt;/g;s/>/\&gt;/g}' \
|output

その中に含まれる <, >, & を &lt;, &gt;, &amp; に変換してくれません(バグ)。

148:名無しさん@お腹いっぱい。
08/07/30 18:50:03
>>147

す・すすごい!!できたできました!!(・∀・∀・)
ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。
きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン

天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147
ほんにありがとうございます。

確かにインデックスの方には <pre> が単語化されているようですが、
これはもう、しょうがないですよ…ね…?

はぁぁ、感動しちゃいました。(;∀; )

149:fumiyas
08/08/01 01:35:58
>>148
解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。


150:HE@SHE
08/09/27 02:48:36
Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。


151:名無しさん@お腹いっぱい。
08/10/02 13:47:11
すみません教えてください。
ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、
pdfの日本語がインデックスに入っていないことに気付きました。
いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。

degas@debian:~$ pdftotext 日本語入りのpdf.pdf
Error: Unknown character collection 'Adobe-Japan1'
 :
Error: Unknown character collection 'Adobe-Japan1'

ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに
推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
念のためいまxpdfも入れてみましたが、同じエラーが出ます。
指針が有ればお願いしますm(_ _)m。

152:名無しさん@お腹いっぱい。
08/10/02 14:23:09
Unknown character collection 'Adobe-Japan1' でググっても解決しないの?
xpdf-japanese とやらを入れてる?

153:名無しさん@お腹いっぱい。
08/10/02 14:29:43
URLリンク(www.foolabs.com)
にある
xpdf-japanese.tar.gz
は入れた?

154:名無しさん@お腹いっぱい。
08/10/02 15:11:58
ありがとうございます。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。

155:名無しさん@お腹いっぱい。
08/10/02 15:19:29
そうですか。私にも何でか分かりません。

156:151,153
08/10/02 16:59:34
解決しました。

xpdf-commonをapt-getでインストール、
cmap-adobe-japan1を取ってきてdpkgでインストール、
さらに/etc/xpdf/xpdfrcに
include /etc/xpdf/xpdfrc-japanese.dpkg-new
を書き加えればOKでした。

apt-getしか使えない男にお付き合いいただきありがとうございました。
お邪魔しました。


157:名無しさん@お腹いっぱい。
08/10/02 17:05:15
ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。

158:名無しさん@お腹いっぱい。
08/10/20 15:21:23
tokyo estraierはここ以外で存在が話題になっていないんだけど
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか

159:fumiyas
08/10/27 11:44:33
>>158
GPL と LGPL だし、問題ないでしょ。(たぶん :-)
で、tokyo estraier どんなくらい試しました?


160:名無しさん@お腹いっぱい。
08/10/28 18:27:33
>>159
>>158じゃないけれど
普通にインデックスして普通に検索出来て普通に遊べて…
これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた

161:名無しさん@お腹いっぱい。
08/10/28 18:40:31
データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして

162:名無しさん@お腹いっぱい。
08/10/28 21:50:58
>>161
う…_attrフォルダの中に「depot」ファイルがあるんだが

163:名無しさん@お腹いっぱい。
08/10/29 10:07:46
過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…

164:名無しさん@お腹いっぱい。
08/10/29 11:16:02
>>163
URLリンク(www2.uploda.org)

165:名無しさん@お腹いっぱい。
08/10/29 11:38:31
ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。

URLリンク(hyperestraier.sourceforge.net)


166:名無しさん@お腹いっぱい。
08/10/29 11:47:50
>>164
>>165
ディレクトリ一覧が表示されないだけだったのか。
ありがとう、助かりました。
お早いレスで俺涙目。

167:名無しさん@お腹いっぱい。
08/10/29 18:47:28
Tokyo Estraierってどこにあるの?

168:名無しさん@お腹いっぱい。
08/10/30 00:44:04
Windows環境でMecabを使いたいんですけど、可能ですか?
試した手順は、下記になります。
前提:WindowsXP、Cygwin環境
1、Mecab0.97と辞書のビルド
2、下記サイトを参考にし、qdbmとHyperEstraierのビルド
URLリンク(www.shinonon.dyndns.org)
HyperEstraierのビルドで--enable-mecabとしましたが、
その後のmakeでエラーとなります。

169:名無しさん@お腹いっぱい。
08/10/30 14:21:13
>>167
URLリンク(hyperestraier.sourceforge.net)

ベースはHyper Estraier1.4.13
ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが
実際に使われてるのかちと分からん
QDBMも一緒に入ってないとエラー出るし

ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな…
1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ

170:fumiyas
08/10/30 18:22:25
TE コンパイルしてみた。`estcmd create db` だけ試した。

>>162
_idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。

$ /usr/local/tokyoestraier/bin/estcmd crete db
$ strings db/_idx/0001
ToKyO CaBiNeT
1.0:510

>>169
HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。
ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。
いいのか? いまのところ DB の構成を把握していないのでよくわからんが、
_idx が転置インデックス? ほかは? 知っている人、教えて…。

あと 100万以上の文書は試したことないんでアレなんだけど、
参考までにハードウェアの構成とか、estcmd create に
指定したオプション (estcmd を使っているなら。-xh 付けたの?)、
estmaster の _conf の設定等を教えてもらえると嬉しいです。


171:名無しさん@お腹いっぱい。
08/12/08 22:30:47
Hyper Estraierについて質問させてください。

Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、
うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、
そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。

Apacheはxamppを使いました。URLリンク(localhost) は正常に表示されてると
思います。1.6.8aと出ています。あとphp5もスタートさせました。

でも、URLリンク(localhost) にアクセスすると、
Error: the configration file is misshing.とか出ます。

/opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。
estcmd search casket 'ほげほげ'
とかはちゃんとHITして結果が出てきます。

Errorが出てくる原因は何でしょうか。分かる方教えてください。

172:171
08/12/09 22:34:48
自己レスです。よく分かりませんが
estseek.conf
estseek.tmpl
estseek.top
をchmod 744 したら動きました。失礼しました。

173:名無しさん@お腹いっぱい。
08/12/12 00:50:50
>>53
すげー遅レス失礼。
HEの情報収集中→WikipediaのHEのエントリ→ >>53 の製品ページ
って感じでその製品を知ったんだけど、GPLって書いてるくせに
ソースコードダウンロードのリンクをたどってもソースコードがないんだけど、
これってどうなの?

URLリンク(www.osstech.co.jp)

つーか、会社概要見たけど、中の人がこのスレにいるのか。

174:名無しさん@お腹いっぱい。
08/12/12 01:21:53
>>173
別に公開する必要は無い。
会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、
もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。

GPLv2での3-aと3-bね。

175:173
08/12/12 19:40:13
>>174
そうなんだ。どうもありがと。
Webページ見たけど個人お断りみたいな事書いてあったな。

関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね(v3にリンクされてる)。

176:名無しさん@お腹いっぱい。
08/12/12 20:12:53
GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、
批判するんだったらちゃんと読んで理解してからにした方がいい。

177:名無しさん@お腹いっぱい。
08/12/16 17:55:27
>>173
これ読むといいよ。
URLリンク(web.archive.org)

178:名無しさん@お腹いっぱい。
09/02/01 02:03:25
>>47にも書いてるけど,属性検索ができない.
Wikipediaの全文検索デモページで試してみたけど効果なし...

179:名無しさん@お腹いっぱい。
09/02/08 23:47:35
疑似ノードマスタって、認証なしなの?
通常のノードマスタみたいにユーザとパスを設定できないの?

180:名無しさん@お腹いっぱい。
09/02/09 01:33:22
estcmd outで文書の一括削除はできますか?

181:名無しさん@お腹いっぱい。
09/02/13 23:47:32
Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが
JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って
いるサイトとかってないですかね?
web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・
初歩的な質問ですいません。

182:名無しさん@お腹いっぱい。
09/02/23 06:47:28
Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。
mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。
32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。
aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。
必要なライブラリについてご存知の方いませんか?

183:名無しさん@お腹いっぱい。
09/02/23 09:04:47
>>182
やったの去年だからよく覚えてないけど
ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする

184:名無しさん@お腹いっぱい。
09/02/23 17:49:55
aptで入るね

185:182
09/02/24 06:22:35
>>183-184
レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。
aptでlibc-dev(これですよね?)を入れてもlibregex.aがないので、URLリンク(arglist.com)からregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。
似たような事で困っている方は試してみて下さい。
どうもお騒がせしました。


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch