Namazu全文検索システムat PHP
Namazu全文検索システム - 暇つぶし2ch200:nobodyさん
03/12/20 12:12 BT5vMVU9
特定のディレクトリのみ除外する方法は何かありますか?

201:nobodyさん
03/12/20 14:36
>>200
特定のファイル(拡張子だけだったかも)を除外する
という設定項目があった様な記憶があるんで、
もしかしたら、それの応用でディレクトリごと無視するとかできるかも。

#具体的にどんな設定をするかは忘れた
#多分namazuの本家サイト見たらあったよ

202:nobodyさん
04/01/02 23:12
自分のページは全て、「URLリンク(www.example)★」★はページごとに違う
という形式なのですが、
こういった動的なページに対してNamazuを使うというか、インデックスを作成するには、
どうすればいいのでしょうか?

203:202
04/01/02 23:13
もとい、
誤:「URLリンク(www.example)★」
正:「URLリンク(www.example.com)★」

204:202
04/01/04 01:18 LkXOe+SC
あ、すごいタイムラグあいてますね。。。age

205:z33
04/01/04 10:35
>>202
replaceでがんばってどうにかできないかな?

例えば
/home/apache/documentroot/test/1.txt

URLリンク(www.example.com)
って変換だったら
Replace "/home/apache/documentroot" "URLリンク(www.example.com)"
とか

こういうこと?

206:202
04/01/05 22:28
>>205
ありがとうございます。
全部、/?cat=★は「★.inc」としてファイルをおいてあるので、それでなんとかいきそうです。

207:nobodyさん
04/01/19 19:55 daYuprPN
教えてもらいたいことがあるんですが
nmz.field.****
の****を増やしたいのですが、どうしたら良いでしょうか?

具体的にはmknmz時にuriを見て
wwwroot/aaa/a.html
wwwroot/bbb/b.html
nmz.field.locate ってファイルを作ると
その中に
aaa
bbb
って出力されてほしい
で検索結果でyahooのカテゴリのように
<a href="a.html">aのタイトル</a>
カテゴリ TOP>>aaa(${locate}の値)とかやりたい
まぁ検索結果の中でuri見て変換したら良いんだけど、
もうちっとスマートに処理させたいなと・・・

208:z33
04/01/20 22:20
>>207
ちょっとググッて探してみたら、こんなの見つけたけど
URLリンク(www.namazu.org)
参考になる?

209:nobodyさん
04/02/11 00:01
Namazuで検索サイトやろうかな。

210:nobodyさん
04/02/13 03:38 jCzy8g3E
質問です。
2chの過去ログを検索出来るようにしていますけど
ファイル数17万程度でインデックス作成に取り組んでいるのですけど
3日経っても終わりません。。おかしいと思いこちらに来ました。
もっと処理を早くしたいのですが、、

一応何を書けばいいのかわかりませんが、
PCのスペック等を簡単にまず記します。
何か必要な設定項目を書けと言われればすぐ書きますので、、
CPU P3-1G@dual
mem 1G
namazu ver2.0.12
perl 5.6

設定ファイルの中身を弄ればいいのでしょうか。。
一応インデックス書き出しは行われ続けていますけど
遅くて遅くて、、、
何かヒント等くれる方いらっしゃいませんでしょうか、、、?

211:210
04/02/13 03:45 jCzy8g3E
OS windows2000 sp3
KAKASI使用

mknmzrc設定
$ON_MEMORY_MAX = 5000000;
$FILE_SIZE_MAX = 10000000;
$TEXT_SIZE_MAX = 1000000;
$WORD_LENG_MAX = 128;
$INVALID_LENG = 128;
$MAX_FIELD_LENGTH = 200;
$WAKATI = $KAKASI;

とりあえずon memory maxの値が小さいのはわかったのですけど
これが速さに関係するのかは理解出来ませんでした。
また、他に問題点や気づく点等がありましたら教えて欲しいです、、


212:nobodyさん
04/02/13 08:37
処理能力にはディスクI/Oという重要なファクターもある。
一気にmknmzするのではなく、分割してmknmz→マージする。
そうすれば処理時間もだいたい想像できる。

213:210
04/02/13 13:43 wO1Lum8s
>>212 ヒント有難う御座います!
   少しそれについて調べてみます。

214:森の妖精さん
04/02/16 02:31 /mo58UcM
URLリンク(geta.ex.nii.ac.jp)

GETAのPHPインタフェイス作ろうという奇特な御仁は
いらっしゃいませんか?

215:nobodyさん
04/02/20 12:32
検索エンジン作成に関してのスレを
こちらにまとめました。

検索エンジンをつくりたい
スレリンク(php板)l50

216:nobodyさん
04/03/24 21:59
これ誰かお願いします
スレリンク(unix板:576番)
Java の API のリファレンスを Namazu でインデックス化していて
Emacs でプログラミング中にカーソル上のクラス名ですぐ検索したいんです

217:nobodyさん
04/03/31 21:28
Namazuでインデックス化をして検索をしようと思ったら
「現在-3の文書がインデックス化され、・・・」と文書の数がマイナスになっています。
どうしてなのでしょうか。

218:nobodyさん
04/03/31 21:46 5e+SzBpf



219:(´・ω・`)
04/04/01 21:05 98Q5EoMa
どなたかPHPスクリプトで動く
日本語全文検索エンジンソフトウェアを教えてください。

220:nobodyさん
04/04/02 00:02 n5mwBUCQ
4/1にNamazuの新バージョン出るんじゃなかったっけ?

221:nobodyさん
04/04/02 22:28



222:nobodyさん
04/04/20 23:55 hVBcQucn
Namazu 2.0.13-1 を公開age

223:nobodyさん
04/05/01 23:15 HE2QfFBX
kakasiについて質問です。

自分で作った辞書を、追加した。

# mkkanwa kanwadict (追加した辞書ファイル)

自分で追加した辞書の内容は、
上記の場合、(追加した辞書ファイル)を参照すれば分かるけど、
現在の辞書全体にどのような単語が登録されているかを調べるにはどうしたらいいんでしょうか?

kanwadictって、viで開くと文字化けして見れません。
※環境:UNIX

224:nobodyさん
04/05/27 15:51 CEx1TsW7
URLリンク(www.namazu.org)
にアクセス気出ません

225:nobodyさん
04/05/27 16:43 mtXfTMbY
>>224
orz

226:nobodyさん
04/05/27 16:43
今見たら面白いことになってるな

227:nobodyさん
04/05/27 16:57
>>224
何かあったの?
クラックされてたとか?

228:nobodyさん
04/05/27 19:56 WJMdSqlX
namazu.orgサーバに不正侵入、サービス停止

全文検索システム「Namazu」を配布するNamazu Projectは5月27日、
同プロジェクトのサーバが不正侵入を受けたと発表した。

URLリンク(headlines.yahoo.co.jp)

229:nobodyさん
04/05/28 21:23
マジかよ・・・

230:nobodyさん
04/05/28 21:24
マジかよ・・・

231:nobodyさん
04/05/28 21:26
マジかよ・・・

232:nobodyさん
04/05/28 21:28
マジかよ・・・

233:nobodyさん
04/05/28 21:29
マジかよ・・・

234:nobodyさん
04/05/28 22:17
うわっ・・・5重に書き込んじまったよorz

235:nobodyさん
04/05/29 00:22
>>229-233
今回の2ch不調で俺が見た多重で最高だw

236:nobodyさん
04/05/29 19:09
>>235
8連投した神もいたぞ。

237:nobodyさん
04/05/30 20:09 WmFD3m1t
Windowsバイナリは????

238:nobodyさん
04/06/02 02:08
>>229-234
ワロタ

239:nobodyさん
04/06/17 19:14 KtXfrXmS
人がいないので話題をふってみる

検索結果について質問なんですけど
URLリンク(www.kaiho.mlit.go.jp)
↑こんな風に検索語句と該当箇所が赤く強調されるのってどうやるんですか?
URLリンク(www.city.katano.osaka.jp)
自分のは↑こんなふうに参照したページの上部しか表示されません。



240:nobodyさん
04/06/17 21:45
正常に赤強調されるけど?
URLリンク(www.city.katano.osaka.jp)

NMZ.headにデフォルトで strong.keyword { color: Red; } あるから、
「ちゃんとしたキーワード」なら赤くなるハズ。

241:nobodyさん
04/06/18 00:33
>>240
本当だ・・・キーワードの入れ方がまずかったようです。
自分のnamazuでやり直したらちゃんと表示されました。
無知で申し訳ありません。

242:nobodyさん
04/06/28 15:24
Perl版Namazuをレン鯖に置いてみましたが、
全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。
検索結果画面はきちんと表示されますが、検索文字列だけが化けています。

もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。
何が原因でしょうか?

243:nobodyさん
04/06/28 15:25
↑うわ、UNIX板に書くつもりだったのに間違えた

ごめんなさい、無視してください。

244:nobodyさん
04/07/16 18:31
検索は問題なく出来るのですが、
ヒットしたファイルが日本語のファイル名だと、
ブラウザ上に表示されているファイル名を
クリックしてもファイルをオープンしません。

検索対象ファイルの、
ファイル名が日本語でも対応してますか?
ちなみにWindows版(2.0.12)です。

245:nobodyさん
04/07/19 00:54
URLリンク(suwako.plala.jp)
↑ここ見てnamazuの全文検索システムのソースを入れてみたら
無事に検索は出来るんですが検索された先のリンクがなぜか全てnamazu.phpがある
カレントディレクトリになってしまいます。
これはどうすれば対処することが出来ますかね?

246:nobodyさん
04/07/19 12:51
.namazurc弄ればいんでない

247:245
04/07/22 13:31
namazurcの48行目にあるReplaceを参考サイトを見ながら
いじってみましたがやはり結果は同じです。
一体どこがおかしいんだろう?
例えばnamazu.phpをC:\homeに置いたら
検索結果はちゃんと表示されるんですがリンクが全て
namazu.phpを置いているディレクトリになってしまいます。(この場合はC:\home)
変えるべきところはnamazurcのReplaceのところとは思うんですが
何度変えても同じ結果になってしまいます。
どうすればちゃんとしたリンク先になってくれるかな?

参考にしたサイト↓
URLリンク(ponx.s5.xrea.com)
URLリンク(you-like.to)

248:nobodyさん
04/07/22 14:11
>>247
何でだろうね?ところで自鯖でやってるの?

249:nobodyさん
04/07/31 19:38
Replace A(インデックス作成時のパス) B(Aを置換したい文字列)

だよね。ちゃんとそうなってる?
 

250:nobodyさん
04/07/31 19:44
pnamazu.cgiの検索結果に表示される「著者」の欄がウザイのと、
この欄の ${author} が一体何を表示するのかがわからないので
ソースを追跡してみたのですが自分には具体的に読み解くことができませんでした。

sub field_init {
%FieldAlias = (
'author' => 'from' ,
'title' => 'subject' ,
'url' => 'uri' ,
);
あたりまではなんとなく分かるんですが・・・

Perlのすごい人! だれか教えて!

251:nobodyさん
04/08/02 08:46
著者を消したいだけなら NMZ.result をいじったほうが早いよ。
著者がなにかを知りたいんだったらpnamazuではなく、mknmzのほうを解析するよろし。

252:nobodyさん
04/08/12 09:03
.namazurcで

Replace /index.html /
Replace /C\|/namazu/nurupo/ URLリンク(hoehoe.ne.jp)

と、2つの置換を行いたいのですが、当然できません。
正規表現が使えるみたいなことが書いてありますが

Replace /C\|/namazu/nurupo/(.+)/index.html URLリンク(hoehoe.ne.jp)

では全てが URLリンク(hoehoe.ne.jp) にされてしまいます($1が展開されない)

どうやればこの置換を実現できるのでしょうか?

253:nobodyさん
04/08/12 09:05
む?もしかして$1じゃなくて\1なのか・・・?そうなのか・・・?

254:nobodyさん
04/08/12 09:07
ああ・・・やっぱ\1でも駄目だ・・・いったいどうすれば・・・

255:nobodyさん
04/08/21 22:26


Namazuの検索結果って、
全部ドキュメントの行頭あたりしか表示しないけど
Googleみたいにマッチした前後の文章を表示できんの?


256:nobodyさん
04/08/22 16:46
>>255
できない。
レスポンスを重視した結果、今の仕様になっていると思われる。

257:nobodyさん
04/08/22 19:58
>>255
Googleっぽい動作が希望なら
Estraier使ってみるとか

258:nobodyさん
04/08/23 22:59
Estraier はNamazu ほど敷居は低くないよなぁ・・・
>>255 有りものの中でなら msearch がお勧め

259:nobodyさん
04/08/24 01:13 202RVh+S
そういや微妙に商用はいってる2ちゃん検索もmsearch使ってるっぽいな。
URLリンク(find.2ch.net)

260:nobodyさん
04/08/24 06:48
CGIで複数の基本インデックスの指定は不可?
F:\index
   +aaa
     +001
     +002
     +003
   +bbb
     +001
     +002
     +003
aaaとbbbを指定したいのだが…
ぐぐたら無理ぽいな
URLリンク(search.luky.org)

261:nobodyさん
04/08/24 19:02
001とか002とかもインデックス?

javascriptとかでチェックボックスをコントロールするとかじゃ駄目か。

262:nobodyさん
04/08/24 22:09
多分無理かな。以下のようにcccを指定する
じゃダメ?

F:\index
  +ccc
   +aaa
   +bbb

263:nobodyさん
04/08/25 01:35
>>261-262
数字のフォルダがインデックスで大まかに分けてある。
やはり1つのフォルダ以下にインデックスの入ったフォルダを置くしかないのか。

264:nobodyさん
04/11/11 11:45:47 VoJd1QOh
インデックスと結果表示をutf8でできないでしょうか…

265:nobodyさん
04/11/23 11:20:19
本家のperl版まだー?

266:nobodyさん
04/11/26 13:50:33 cbW9i0f7
お聞きしたいのですが…

wgetで落したHTMLファイルをNamazuで検索しています。
Namazuの検索結果の順番を自分で決めたいんですが、
NMZ.field.uriの順番をいじると全てのページがNOT FOUNDになってしまいます。

どなたかいい方法知りませんか?

267:nobodyさん
04/11/26 14:41:22
インデックスの作成を速くする方法ないですか?
namazuはcなのにmknmzはperlなのはどうして?

268:nobodyさん
04/11/26 14:55:11
>>267
インデックスの作成を早くするには分散して作成してからマージすればよいかも。

namazuがcなのはcの方がリクエストの度にコンパイルがない分、早いから、
mknmzはインデックス作る時しか使わないので文字の操作が楽チンなPerlを・・・。
ちなみにpnamazuっていうPerlで書かれたnamazuもある。
たしか2chもread.cgiはCだけど、bbs.cgiはPerlだったと思う。

質問は一個ずつにしてね。


269:nobodyさん
05/01/02 10:01:19 Oo1G9Jag
とりあえずローカルで動かそうと思ったんですが、どうしてもインストールが
うまくいきません。
インデックスを作ろうとするとNKF.pmが無いといわれます。
PPM-INSTALL.BATを動かしてもうまくいきません。どうすればいいのでしょうか?

270:269
05/01/02 12:42:33
すいません、自己解決しました。

271:nobodyさん
05/01/27 22:35:38 muSCpH63
一日費やして何とかNamazuをサーバーでうごかせれるようになったレベルなんですが、これでñとかóのような外国語をブラウザから検索してみると激しく文字化けしてしまいます。
なんか改善する術ってありますでしょうか? 教えて誰かエロイ人!!

272:nobodyさん
05/02/11 17:47:10 LfkZHaha
namazuのwin32版をインストールしたのですが、mknmzrcの$ALLOW_FILEのところで、
2行目以下のwordなどの設定が対応メディアタイプに反映されません。
2行目以下も#は外しているのですが…。
茶筌のところ#を残しているのですが、それもちょっと変かもです。
うまくいかない原因がわかる方どなたか教えてください。

読み込んだ設定ファイル: D:/namazu/etc/namazu/mknmzrc
システム: MSWin32
Namazu: 2.0.12
Perl: 5.006001
NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: chasen -j -F '%m '
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.SJIS
言語: ja_JP.SJIS
文字コード: sjis
CONFDIR: D:/namazu/etc/namazu
LIBDIR: D:/namazu/share/namazu/pl
FILTERDIR: D:/namazu/share/namazu/filter
TEMPLATEDIR: D:/namazu/share/namazu/template
対応メディアタイプ:
application/x-gzip
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
text/x-hdml

273:nobodyさん
05/02/11 19:36:57
>>272
まず最新の2.0.14を使いましょう。
それと
D:/namazu/etc/namazu/mknmzrc の$ALLOW_FILE
のところを全行はりつけてよ。
どこの#を外したのか見てみないとわからんよ。

274:272
05/02/11 19:40:50
>>273
最新って言ってもベータ版らしいので…。
とりあえずこんな感じです。

#
# This pattern specifies file names which will be targeted.
# NOTE: It can be specified by --allow=regex option.
# Do NOT use `$' or `^' anchors.
# Case-insensitive.
#
$ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
"|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files
"|.*\\.pdf|.*\\.ps" . # PDF, PostScript
"|.*\\.tex|.*\\.dvi" . # TeX, DVI
"|.*\\.rpm|.*\\.deb" . # RPM, DEB
"|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint
"|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8
"|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man



275:nobodyさん
05/02/11 19:43:44
あれ?連続する半角スペースとタブが消えるのは2ちゃんの仕様でしたよね。

276:nobodyさん
05/02/11 19:49:17
>>274
Windows版はβ版扱いになっていますが、
インストーラがβというだけで本体に問題はないですよ。

たぶんフィルタが必要としているMS-Word等の
アプリケーションが入っていないのでしょう。

こちらのフィルタを使うとよいでしょう
URLリンク(www.geocities.co.jp)


277:nobodyさん
05/02/11 19:53:07
関係ないが消えるのはタブだけ。

278:272,274
05/02/11 20:00:49
そういえば2.0.12は2002年か…。
Office2003だということもあるのかな。
拡張子だけで判断してるのではないんですか。
まずは最新版をインストールしてみます。
用事があって今日これからはできないので、うまくいかなかったらまた後日質問させてもらいます。
回答ありがとうございました。

279:nobodyさん
05/03/10 15:52:52
Redhat9、namazu2.012にて全文検索システムを作成しています。
ページが増えてきたので階層ごとにインデックスを作成し階層ごとに検索ページを
作りたいと考えております。しかしインデックスファイルを作成しnamazuコマンドでは
検索できるのですがブラウザから
http://サーバIPアドレス/cgi-bin/namazu.cgi?idxname=aaaとすると
allインデックスから検索されてしまいaaaインデックスから結果を表示してくれません。
aaaインデックスから結果を表示するにはどのようにするのでしょうか?

ページの階層
/apache/htdocs/aaa
/apache/htdocs/bbb
/apache/htdocs/ccc

インデックスの格納場所
/apache/cgi-bin/namazu/index/all
/apache/cgi-bin/namazu/index/aaa

index/all内のNMZ.head.ja
<input type="hidden" name="idxname" value="all"> ←allに変更
<a href="{cgi}?idxname=all">[検索方法]</a> ←?idxname=allを追加

index/aaa内のNMZ.head.ja
<input type="hidden" name="idxname" value="aaa"> ←aaaに変更
<a href="{cgi}?idxname=aaa">[検索方法]</a> ←?idxname=aaaを追加

cgi-bin内にある.namazurc
Index /apache/cgi-bin/namazu/index
Template /apache/cgi-bin/namazu/index/all
Replace /apache/htdocs/ http://サーバIPアドレス/

280:nobodyさん
05/03/10 22:40:21
>>279
mknmzの内容教えれ

281:279
05/03/11 09:08:13
ご返答ありがとうございます。mknmzの結果は下記の通りです。

mknmz -O /apache/cgi-bin/namazu/index/all /apache/htdocs
合計の文書数 602
合計キーワード 5,499
わかち書き module_kakasi -ieuc -oeuc -w

mknmz -O /apache/cgi-bin/namazu/index/aaa /apache/htdocs/aaa
合計の文書数 9
合計キーワード 441
わかち書き module_kakasi -ieuc -oeuc -w

よろしくお願いします。

282:279
05/03/11 16:15:26 8QvGuHRh
こっちですね。
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
application/pdf
application/x-bzip2
application/x-compress
application/x-gzip
application/x-rpm
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; xtype=rfc
text/x-hdml
text/x-roff

283:279
05/03/11 16:20:49
すいません。間違えました。
mknmz -C
読み込んだ設定ファイル: /etc/namazu/mknmzrc
システム: linux
Namazu: 2.0.12
Perl: 5.008
NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
application/pdf
application/x-bzip2
application/x-compress
application/x-gzip
application/x-rpm
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; xtype=rfc
text/x-hdml
text/x-roff

284:nobodyさん
05/03/12 00:24:13
>>279
Template /apache/cgi-bin/namazu/index/all
としているから
常に index/all内のNMZ.head.ja
が読み込まれているということでないか
namazurcのTemplateの行をコメントアウトしてみたら

285:nobodyさん
05/03/17 23:30:42
>>279
亀レスだけど、
Namazuでは 「/cgi-bin/namazu.cgi?idxname=aaa」 みたいな直接指定はNGだったはず。
きちんとhiddenとかから送らないと。

286:nobodyさん
05/03/22 21:53:42
>>285
それってどこでNGにしてるんでしょ。Namazu本体じゃなくて
pnamazuとかインターフェースのところでやってるんですよね。

287:279
05/03/30 18:10:10
>>284-286 ありがとうございます。
検証が遅くなり申し訳ありませんでした。
サーバIPアドレス/cgi-bin/namazu.cgi?idxname=インデックス名&query=キーワード
で検索したらうまくできました。htmlにhiddenで指定した場合もOKでした。
ご教授ありがとうございました。
しかし検索結果はOKなのですが、aaaインデックスを検索しても結果はOKなのですが
ヘッダーの部分がallのもので表示されてしまいます。
(現在602 の文書がインデックス化され5,499 個のキーワード)
検索結果ページから再検索するとあるはずのページでも検索できません。
(allインデックス及びaaaインデックス両方とも。インデックスネームがうまく指定されない為?)
namazurcのTemplate部分をコメントアウトするとインストール時?の古いインデックスが
表示されてしまいます。
複数インデックスがある時のTemplate指定はどのように行っているのでしょうか?

288:nobodyさん
05/03/31 00:35:45
>>287
Templateが選択される順序は説明書にあるとおり
URLリンク(www.namazu.org)
再検索をする際にWebブラウザで表示ページのソースを調べて
どのNMZ.headが読み込まれているか確かめてはどうですか。

289:nobodyさん
05/11/11 14:19:22 lZiu1JMN
会社で鯰使うらしいので、オフィとか見てみました。
日本語全文検索ってほぼGoogleでカバーできてるのでは?
Winではあまり普及していないらしいし、導入に面倒がありそうだし
今、敢えてNamazuで検索を作るうまみってなんですか?

290:nobodyさん
05/11/11 20:34:38
んーどうだろう

291:nobodyさん
05/11/12 23:40:29
Googleはイントラネット内も検索できるようになってんですかそうですか

292:nobodyさん
05/11/13 06:11:00
>>289
イントラの情報を検索できること
検索結果画面をカスタマイズできること
カテゴリ検索ができること
文書の最終更新日をファイルスタンプから識別できること

293:nobodyさん
05/11/13 08:31:58
今使うならnamazuじゃなくHyper Estraierにするな. 俺なら.

294:nobodyさん
05/11/13 15:52:29
>>293
そのソフト最近人気らしいけど、Namazuに比べてどの辺が優れてるの

295:nobodyさん
05/11/14 10:06:19
>>291-292
なるほど、イントラ内検索がGoogleにはないうまみっぽいですね。
だんだん鯰の位置づけがおぼろげながらわかってきました。
どうもありがとうございます。

296:nobodyさん
05/11/14 12:47:16
Namazuだったら正規表現も使えるんじゃない?
あれは便利だお。

297:nobodyさん
05/11/14 16:16:53
正規表現はすばらしい

298:nobodyさん
05/11/16 14:03:06
(i)←こういうやつ?<性器表現

299:nobodyさん
05/11/17 13:26:17
   〃∩ ∧_∧
   ⊂⌒(  ・ω・)  はいはいわろすわろす
     `ヽ_っ⌒/⌒c
        ⌒ ⌒

300:nobodyさん
05/11/18 11:32:18 ngwfG4IK
namazuのなんかのバージョンで、検索指定した文が
ハイライトされて、(そのページの上のほうからのテキストだけでなく)
検索された部分が表示されるというやるがあるらしいよ

と先輩に言われたのですが、どこにありますか?
あるいはカスタマイズで処理するもんなのですか?
教えてください。

301:nobodyさん
05/11/19 03:18:32
>>300
EmphasisTags じゃなくて?

302:nobodyさん
05/11/21 10:11:48 T4fDN5+G
>>301
ありがとうございます、調べてみます。(`・ω・´)ゝ

303:nobodyさん
05/11/21 10:27:34 T4fDN5+G
やってみましたが、どうも指示されたものと違うようです。

たとえば文中にキーワードがヒットしても、プレビューで表示されるのは
そのページの文頭から指定文字数分ですよね?
それを、キーワードの該当部分前後をプレビューに表示させたい
という話でした。

304:nobodyさん
05/11/25 10:08:55
>>303です。
指示者がEstraierと混同していた可能性大です。
自己解決しました。どうもありがとうございました。

305:nobodyさん
05/12/14 20:47:34 CwjBoKRv
Namazu はPerlだけでしょうか?
できればPHPでサイト内検索ができるスクリプトをご存知でしたら教えてください。


306:nobodyさん
05/12/15 02:53:07
>>305
ネタっすか
っ[google]

307:nobodyさん
05/12/15 05:07:22
>>305
Namazu自体はPerlじゃないし。

308:nobodyさん
05/12/16 05:48:32 +W2Wi6VX
な、なんだとーこのこのー

309:nobodyさん
05/12/16 11:56:00
Namazuと言えばみみずんの2ちゃんねる過去ログ全文検索システムだな。
って思ったら>>30に書いてあった・・・

310:nobodyさん
06/01/16 09:59:58 rhuM8+qJ
現在phpから動的にページを生成して出力しているのですが、
このPHPから出来上がるページをnamazuで検索したいと思っています。
どのような手法がありますでしょうか?

311:nobodyさん
06/01/16 11:43:50
その動的に出力してるやつを静的なHTMLとして書き出す。

312:nobodyさん
06/01/16 13:00:54 rhuM8+qJ
動的なページを静的HTMLとして書き出してインデックス化するような処理をnamazuの方で出来ますか?
それとも、やはりこちら側であらかじめ静的ページを作っておいて、それをインデックス化するしかないでしょうか?
なんとかコマンド一発で出来ませんかね?

313:nobodyさん
06/01/16 17:28:20
wget -> namazu
っていうシェルスクリプト書けば一発でしょ。


314:nobodyさん
06/01/16 20:36:24
Namazuはファイルのインデキシングを行うのみ。
動的なページをインデックスするには
スレリンク(unix板:116番)

315:312
06/01/16 20:44:28
>>311さん
>>313さん
>>314さん

親切にありがとうございます。
よくわかりました。とりあえずwgetの方法を試してみようと思います。

316:nobodyさん
06/01/16 22:22:45
wget!

317:nobodyさん
06/01/30 18:45:25
キタ━━(゚∀゚)━━!!!!

318:nobodyさん
06/01/30 21:42:38
2006-01-29: Namazu 2.0.15 を公開

ISO-8859-* に関する文書の間違いを訂正
RedHat ソフトウェア namazu.spec の不必要なパッチは削除
File::MMagic 1.25 を同梱
MeCab の正式対応
mknmz に -b 及び --use-mecab オプションを追加
mknmz および namazu に --norc オプションを追加
mknmz に --decode-base64 オプションを追加
新しいフィルタ(Gnumeric, Koffice, Mainman/Pipermail, Zip, Visio)を追加
mknmzrc に MECAB, DENY_DDN を追加
ファイル名がDDN である時にスキップ。
日付フィールドによるソート機能の追加
nmzcat, nmzegrep コマンドの追加
フィルタの Windows 対応
(msword.pl, excel.pl, powerpoint.pl, postscript.pl, 等...)
OLE コントロールフィルタ更新
QUERY_STRING の区切りに';' 使用可能
Perl版テストプログラム(pltests) を追加
各種バグフィックス

319:nobodyさん
06/01/31 08:21:04
1年9カ月ぶりなのね

320:nobodyさん
06/04/02 12:56:16 6BlopTUr
URLリンク(www.namazu.org)
は、MacのSafariで見れないのは、なんか理由があるのかな?

321:nobodyさん
06/04/02 13:02:03
>>320
URLリンク(www.namazu.org) ならOK
Content-Locationヘッダをうまく扱えてないみたい。
他所ではちゃんとリダイレクトされるんだけど、namazu.orgではNG。なんでだろう?

322:nobodyさん
06/04/07 19:28:41
Namazuをローカルサーバーに組み込みたいのですが
何のファイルをサーバーに送れば良いのか教えてください。

323:nobodyさん
06/05/16 22:05:32 A+ClptH/
>>322
URLリンク(www.namazu.org)


324:nobodyさん
06/07/04 21:14:27 t84Vuxwj
>305
PHPでnamazu検索???

こんなの??
URLリンク(www.c-boxs.net)

325:nobodyさん
06/09/07 22:19:16 n616cZBc
AN HTTPDとnamazuでLAN内のファイルサーバ全文検索システムを構築しました。
この勢いでローカルにある2ちゃん専ブラのdatファイルもインデックス化したいんですけど
良い文書フィルタはありませんか?

326:nobodyさん
06/09/07 22:22:28
>>325
自分で作ったほうが出来がいいぞ

327:nobodyさん
06/09/08 09:21:57
>>325
っていうか2ちゃんにどっぷりハマってるような
人間のクズは氏んだほうがいいぞ。

専ブラ+dat保存なんて、何をたくらんでいるのやら・・・おー、こわ。

328:nobodyさん
06/09/08 14:34:10
にくちゃんねる2号だろ

329:325
06/09/08 20:52:20
>>327
単なるナレッジ・マネジメント・システムの構築を目指してるだけですよ。
「おーこわ」って・・・なにを勘繰ってんですか

330:nobodyさん
06/09/29 14:11:41 MXN7wOzE
namazuがN-gram対応

331:nobodyさん
06/09/29 21:56:15
>>330
しないよ

332:(^-^) ◆MONSOON/qo
06/10/08 05:28:42 aDf/+h/t
インディックス作成時に読み込む文字種を正規表現で指定できますか?
記号は除外するとかです

333:(^-^) ◆MONSOON/qo
06/10/08 05:39:20 aDf/+h/t
自己解決しました

334:nobodyさん
06/10/10 01:41:58
>>333
スレリンク(unix板:195-197番)

マルチで「自己解決」とは笑わせてくれるな

335:nobodyさん
06/10/13 09:24:55
こいつの検索判定明らかにおかしい。
何でもそうなのだが、部分一致ができない。

ファッキントッシュは、バカの使うOS

を検索するとする

「ファッキン」で検索すると一致なし
「ファッキントッシュ バカ」 で検索しても一致せず
「ファッキントッシュはバカの使うOS」でやらないと一致しない。

まるでMSNの検索エンジンだ
あれとまったく同じ

336:nobodyさん
06/10/13 15:19:49
ファッキン!

337:nobodyさん
06/10/13 20:45:51
>>335
HyperEstraier いれろよ。こっちの方が簡単だよ。
検索漏れもないし。

338:nobodyさん
06/10/14 00:11:41
>>335
「ホントかよ」とおもったんで、試してみたけど、ヒットするよ。
プレーンテキストで「ファッキントッシュは、バカの使うOS」と書いて
最後に改行して保存。

> まるでMSNの検索エンジンだ

というが同エンジンと思われる「Windowsデスクトップサーチ」でも問題なくヒットした。
Hyper Estraierでももちろんヒット。

>>335の環境がおかしいんじゃないのか?

339:nobody
06/10/25 22:26:22 J6B8Hktu
Windows ,PHP5に対応したPHPのNamazuモジュールを使いたいのですが、
どうやってモジュールをインストールするのか良く分かりません。
よろしければ、手順を教えていただけないでしょうか?


340:nobodyさん
06/11/20 17:03:35
>>339 PHPライセンスとGPLライセンスが衝突するので
自分でモジュールをコンパイルするしかないです。

www.mail-archive.com/namazu-users-ja@namazu.org/msg00374.html

341:nobodyさん
07/02/08 12:03:48 Mb2H3yQx
保守

342:nobodyさん
07/03/22 22:02:22
Namazu用のWEBクローラはないの?
あと、インデクサや検索エンジンの分散処理ってどうやるのですか?
どっちもHyperEstraierでは標準で付属してるよね

343:nobodyさん
07/03/22 23:21:03
ない

344:nobodyさん
07/03/22 23:25:45
じゃメタ検索は?
Namazuサーバを複数稼働させといてクライアントで検索結果をマージできるシステムとか
ないの?

345:nobodyさん
07/03/23 00:11:38
検索結果をマージして使っている例もあるようだ
URLリンク(www.hpcss.is.ritsumei.ac.jp)

346:nobodyさん
07/05/11 16:16:19
windows版のnamazuでmknmzでイントラネット内の共有ディスクの
インデックスを作ると、終了できてないと思われるwordやexcelの
プロセスがガンガンできるんですけど解決方法はありますか?

347:nobodyさん
07/05/11 23:54:36
xdoc2txt.exe を使え

348:nobodyさん
07/08/22 06:00:29 XEGA28iC
インデクスの中から登録キーワードの一覧を取得したいのですが
ファイルを開くことすらままなりませぬ(Cの知識皆無・・・
PerlかRubyからアクセスする方法を探してるんだけど
説明のあるページなどご存知の方いませんか?

349:nobodyさん
07/08/22 21:34:30
>>348
www.namazu.org/doc/nmz.html.ja#w
に書いてあるとおり単なるテキストファイルに
1行に1単語で書かれているだけ


350:348
07/08/23 00:04:33
>>349
このページは見ていませんでした。(トップページからリンクされてない?)
片っ端からファイルを見ていって、
開くことができたファイルの内容をチェックしていたんですが見落としてました。
ありがとうございました!

351:nobodyさん
08/02/20 20:07:39 fLDVdokd
100MB強のPDFをインデックス化しようとするとmknmzが動作を停止する。なんでだ。
mknmzrcには200MBまでを検索対象にするよう設定してるんだが。

352:nobodyさん
08/02/21 22:15:05 7VDtsl8S
>>351
メモリじゃん?

353:nobodyさん
08/02/22 01:51:00 CRNkbfG6
メモリか。xpdfは王様プログラミングで作ってあるのか。。


354:nobodyさん
08/03/27 06:31:14

あえてNamazuを使いたいのであれば構わないけど、
良い子は「Hyper Estraier」を使いましょう。

スレリンク(unix板)l50

355:sfOdHWpuZpBZYiqez
08/06/13 21:05:42
v2EQ8I <a href="URLリンク(npiriddqxmjg.com)">npiriddqxmjg</a>, [url=URLリンク(snsxeffarbil.com) [link=URLリンク(pribjbixlijw.com) URLリンク(qczemfzbhofm.com)

356:nobodyさん
08/07/19 19:10:35 Hdkv0asv
検索結果に出てくる数字が1000の区切りでカンマが入るのは止めようがありませんか?
「1000」が「1,000」と表示されないようにしたいのです。

357:nobodyさん
09/07/30 06:41:54
当方、急に鯖管理をする事になった者なのですが、
いきなりよく分からない壁に当たりましたので教えて下さい。
namazu自体よく分かりませんので、手探りでやっています。
色んなサイトを見て見た結果、とりあえずnamazu.cgiを
見てみないと始まらないようなのでftpでダウンロードしてみました。

ところが、namazu.cgiを開いたら文字化けが酷くて読めません。
使ってみたソフトはjeditx あとは、miです。

どうしてこういうことになったのでしょうか。
namazu.cgiが読めないとインデックスの更新もできない
ようなので先に進めない、と思われるのですが、
どなたか読む方法をご教授下さい。


358:nobodyさん
09/07/31 00:09:56
>>357
首を吊るか、辞表を書け。さもなきゃ、人を雇え。


359:357
09/07/31 01:45:58
その「雇っていた人」が降りたので、倅の自分に
無茶振りで回って来ました。なのでショッピングカート
(詳細なcgi部分を除く)とサイトいじりまでくらいしか
分からないです。
namazu.cgi自体はおまけでついて来るものだということは
色んなサイトを見て雰囲気で今日分かりました。

そもそもnamazu自体は、レンタルサーバにインストール
されているべきなのか、自分のpcにインストールされているべきなのか
それも分かりません。とりあえず、コンソ-ルからftpで入って、
フィルタに使うファイルがたくさん有るディレクトリでmknmzをしても
動かなかったので、namazuのインストール自体はサーバではなくて、
本体にすると言うことでしょうか?ネットを調べても
自サーバメインのチュートリアルが多くて困っています。

とりあえずインデックスを更新するだけで良いです。
そもそもいきなり分かる訳が無いので多くは望んでいません。
人名の間違い登録は流石に放置できないので、質問した次第です。

大真面目なので、申し訳ありませんがよろしくお願い致します。



360:nobodyさん
09/08/01 00:19:11
>>359
URLリンク(www.amays.com)

361:nobodyさん
09/08/06 13:05:55
dxfフィルタを導入したかったのですが、ホームページからのリンクが切れてました。
dxf用フィルタはもう配布していないのでしょうか?

362:nobodyさん
10/08/12 12:11:44 XzX6VOe9
1年ぶりに上げてみる

363:nobodyさん
11/12/10 02:14:28.72
さらに1年四ヶ月

364:nobodyさん
11/12/14 21:07:04.55
牛NASにpnamazu入れようとしたけどよくわからん


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch