正規表現at UNIX
正規表現 - 暇つぶし2ch150:名無しさん@お腹いっぱい。
03/04/29 02:16
誰か、正規表現だけで会話するスレ作ってくれ。


151:名無しさん@お腹いっぱい。
03/04/29 03:26
/いったい何を会話するというのだ/

152:名無しさん@お腹いっぱい。
03/04/29 04:09
>>150
それこそ言いだしっぺの法則だろ。正規表現だけで会話したい >>150 が立てれ。

153:名無しさん@お腹いっぱい。
03/04/29 09:51
駄スレ立てんな。

154:名無しさん@Meadow
03/04/30 10:51
>>153

$mes153 =~ s/。//;
reverse(split(//, $mes153));
わかた?
結果は、「なんてつたレスだ」




155:名無しさん@お腹いっぱい。
03/04/30 11:12
>>154
こうなりますた。
$ perl -e 'quotemeta($var='駄スレ立てんな。'); print reverse(split(//,$var));'
B∧んてぉ洛スμ・


156:名無しさん@お腹いっぱい。
03/04/30 11:29
>>150

名スレの予感

157:名無しさん@Meadow
03/04/30 14:53
>>155

jperlじゃないとだめですね。perl用もかきますた。

($var='駄スレ立てんな。') =~ s/立(.+)。/たつ$1/;
while ($var) {
if ($var =~ s/^[\xA1-\xFE][\xA1-\xFE]// or $var =~ s/^.//) {
push(@str, $&);
$var = $';
}
}
print reverse(@str), "\n";


158:名無しさん@お腹いっぱい。
03/04/30 15:47
>>156
2chですから、性器表現とこれを用いた強制痴漢ならあちこちに。

159:名無しさん@お腹いっぱい。
03/04/30 21:21
\hなのはいけないと思います!

160:名無しさん@お腹いっぱい。
03/04/30 23:49
\SM(?:性器拡張(?!器具))

161:名無しさん@Meadow
03/05/01 15:28
>>157
何やってんだろな、漏れ。
($var='駄スレ立てんな。') =~ s/立(.+)。/たつ$1/;
while ($var =~ s/^[\xA1-\xFE][\xA1-\xFE]// or $var =~ s/^.//) {
 push(@str, $&);
}
print reverse(@str), "\n";
で十分だった。この全角文字対応の正規表現は、euc-jpの奴ね。
でもさ、やっぱ正規表現で会話するってむずいよ。>>150よ。



162:名無しさん@お腹いっぱい。
03/05/01 21:39
print while s//>>161普通過ぎてつまらん/;

163:名無しさん@お腹いっぱい。
03/05/01 21:48
>>161
それは正規表現ではなく perl script というのではないだろうか。

164:名無しさん@お腹いっぱい。
03/05/01 21:50
>>163の的確すぎるツッコミに藁。


165:名無しさん@お腹いっぱい。
03/05/01 21:59
>>1-164
これら全てが正規表現であることは自明なのであります。

166:名無しさん@お腹いっぱい。
03/05/02 08:30
Perl正規表現の質問です。

Ascii文字コードは、アルファベット大文字→ちょこっと記号類→アルファベッ
ト小文字の順に並んでるですが、以下のようになるのはなぜですか。なぜ、ア
ルファベット大文字しか出てこない?

$ perl -e 'for(A .. z) {print $_, ", ";}'
A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z,


167:名無しさん@お腹いっぱい。
03/05/02 11:26
>>166

駱駝本(第二版)の p.103 の脚注 *32 に、

> もし指定された最終値が、マジックによる増加によっては生成できない
> ような値なら、最終値のケタ数を超えない範囲で値を生成する。

と書いてあるけど、違う?


168:名無しさん@Meadow
03/05/02 14:27
>>167ありがとん。
>マジックによる増加によっては生成できない

というのが分からなかったので、駱駝本(第3版)引いたら、「マジックイン
クリメント:普通の数値と同じようにして、英数字からなる文字列の値に「1
を加える」方法を知っているインクリメント演算子のこと。」だって。Aは、
16進数で41、Zは、5A。5B以下60までは、[、\, ], ^, _, `で、61から小文字。
一つずつインクリメントされて並んでいるが、できないところを見ると、「英
数字からなる文字列」だけをサポートしている演算子なんだね。

第2版の103ページにあたる121ページあたりにも、A .. Zやa .. zの例はある
けど、A .. zはない。


169:名無しさん@お腹いっぱい。
03/05/02 22:35
文字のインクリメントもちゃんと桁上げされるんよ。

#perl > result.txt
$a = "a";
print ++$a, "\n" while (length $a < 3);

170:169
03/05/02 22:38
あ、これじゃ for (A..Z) の説明にはならないな。

171:名無しさん@お腹いっぱい。
03/05/02 22:50
>>166
全然正規表現じゃなかった・・・。

172:名無しさん@お腹いっぱい。
03/05/04 07:28
/\x82\xad\x82\xbb\x82\xc1/
sjis


173:名無しさん@お腹いっぱい。
03/05/05 11:59
>>172
パターンマッチさせる意味は?

174:名無しさん@お腹いっぱい。
03/05/05 18:39
>>172
1) ネタがないから
2) わし166だので、172に揶揄されて「くそっ」と


175:名無しさん@お腹いっぱい。
03/05/05 18:44
ちがった、171にバカにされて・・・
      ~~~


176:名無しさん@お腹いっぱい。
03/05/05 19:18
おまえらみんな(ち|い|う)んぽ。

177:名無しさん@お腹いっぱい。
03/05/07 16:30
『詳説 正規表現』を読んでいるようなエキスパートの人に質問です。


「"a" が偶数個、"b" が奇数個含まれる、すべての文字列を表す正規表現」


って分かりますか?

自分は答えを見てもよく分かりませんでした。


178:名無しさん@お腹いっぱい。
03/05/07 17:37
まずどのような「状態」があるのかを考える。この場合は
 1. aが偶数個、bが偶数個
 2. aが偶数個、bが奇数個
 3. aが奇数個、bが奇数個
 4. aが奇数個、bが偶数個
で初期状態が1でゴールが2となる。
まず最初に1から2に行くには /b/ の1通り。aが来ると4に行く。
4からスタートして1もしくは3を経由し2へ行く最短パターンは /(aa|bb)*(ab|ba)/
以上から /b|a(aa|bb)*(ab|ba)/ が状態2に行き着く最短パターン。←第1段階
次に状態2からスタートして考えると /aa/ で3を経由して2へ戻り、
/bb/ で1を経由して2へ戻り、/ab|ba/ では4へ行ってしまう。
4へ行ってしまった後は先に考えた「2へ行く最短パターン」で帰って来れるので、
2から始まって2に戻るパターンは /aa|bb|(ab|ba)(aa|bb)*(ab|ba)/ となる。
これは0回以上起こり得ることを考慮して第1段階と結合すると
/(b|a(aa|bb)*(ab|ba))(aa|bb|(ab|ba)(aa|bb)*(ab|ba))*/

179:名無しさん@お腹いっぱい。
03/05/07 18:18
>>177
余裕があれば一度オートマトンに関する本を読んでみて。
URLリンク(www.amazon.co.jp)
の前半はすごくわかりやすいよ。

そこまでしなくても、一度 >>178 たんのいってることを
URLリンク(katsu.watanabe.name)
みたいな状態遷移図にしてみるといいかも。

180:177
03/05/07 21:15
自分がこの問題を見たのは古い UNIX MAGAZINE で、内容を簡単に引用しますと …

偶数か奇数かを調べるには文字の数を2で割った余りが0か1かという
決まった2つを調べればよいため、正規文法で記述することが可能。
なお、この文法では a に関して2つ、b に関しても2つの場合があるので、
2 x 2 = 4 つの記号(状態)を用いる。

A → aB   B → aA   C → aD   D → a
A → bC   B → bD   C → bA   D → aC
A → b                 D → bB

状態 A … a が偶数個で b が奇数個の文字列
状態 B … a が奇数個で b が奇数個の文字列
状態 C … a が偶数個で b が偶数個の文字列
状態 D … a が奇数個で b が偶数個の文字列

以上により答えは

((a|b(aa)*ab)(b(aa)*b)*(a|ba(aa)*b)|b(aa)*b)*((a|b(aa)*ab)(b(aa)*b)*ba|b)(aa)*

となる。

正規表現でうまく表現できない問題に当たったときは、いったん正規文法で記述してから
正規表現に変換すると解決できる場合も多い。


181:長いので分割。
03/05/07 21:17
… だそうです。

果たして↑の長い正規表現が >>178 さんの答えと同じものを表しているのかどうか
分かりませんけども。

>>179
有用な本と URL の紹介、ありがとうございました。


それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ?
不思議だ。


182:名無しさん@お腹いっぱい。
03/05/07 21:36
>>181
> それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ?
それはパッと見というよりは、冷静に分析してわかるものでしょ。
慣れれば一瞬で分析できるようになるかもしれんけど。

183:名無しさん@お腹いっぱい。
03/05/07 22:50
>>178,180
それは「aとbだけからなる文字列」について?


184:名無しさん@お腹いっぱい。
03/05/08 00:00
>>183 んなもん s/[ab]/[^ab]*&/ すりゃ良いだけじゃん

185:名無しさん@お腹いっぱい。
03/05/08 03:51
>>184
それって、正気表現でつか?


186:名無しさん@お腹いっぱい。
03/05/08 04:49
>>183 のために [^ab]* をはさみまくってたら、

「長すぎる行があります!」

っておこられたよ・・・


187:名無しさん@お腹いっぱい。
03/05/08 10:42
/[^ab]*(b|a([^ab]*(a[^ab]*a|b[^ab]*b))*[^ab]*(a[^ab]*b|b[^ab]*a))([^ab]*(a[^ab]*a|b[^ab]*b|[^ab]*(a[^ab]*b|b[^ab]*a)([^ab]*(a[^ab]*a|b[^ab]*b))*[^ab]*(a[^ab]*b|b[^ab]*a)))*/

188:名無しさん@お腹いっぱい。
03/05/08 12:54
>>187
それで baaabaaab がまっちすんの?

189:名無しさん@お腹いっぱい。
03/05/08 13:27
以下のようなデータから、著者の部分(最後の括弧から括弧まで)を
取り除きたいと思います。

木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)

s/(.+?)$//;

ですとうまくいきません。perl5.6で、文字コードはeucです。
webprog板のPerl初心者スレで聞いたのですが、どうも解決しないのです。
どうしたらよいか教えていただければ幸いです。


190:名無しさん@お腹いっぱい。
03/05/08 13:40
>>189
セイキヒョーゲンの問題ではなくパールの問題っぽいですね。
そっちのスレ行った方がよいかも。
できるなら「うまくいきません」を再現させる
できるだけシンプルなコードを添付してほしいな


191:名無しさん@お腹いっぱい。
03/05/08 13:41
>>189
プログラム技術板にPerlの質問スレがある。webprogに特化したこと以外はそっ
ちの方がいい。

s/([^()]+?)$//;


192:名無しさん@お腹いっぱい。
03/05/08 13:44
Perl の正規表現では ( ) は、後で \1, \2, ... にマッチさせるための
メタ表記だから、括弧そのものにマッチさせたければ \( \) と書かなければ
ならない。(egrep や emacs とは逆)

193:名無しさん@お腹いっぱい。
03/05/08 13:44
>>190
では、Perlスレ行ってきます。って、unix板にはなかったんで、
プログラム板ですね。ありがとございますた。




194:名無しさん@お腹いっぱい。
03/05/08 13:47
あれれ板探してたら、2つもレスが。
>>191
それ、jperlなら動くんでしょうが、perl5.6ではだめでした。
>>192
いや、全角括弧なんです。


195:名無しさん@お腹いっぱい。
03/05/08 13:53
>>192
それは \x28 や \x29 の場合だけでしょう。
今でてきてるのは \xa1\xca と \x1a\xcb。
ちなみにperlの最短一致は
マッチの先頭位置を後ろにずらす効果がないので注意。

($b="abcabc")=~s/b.*?c$//;
print "$b\n"; # output "a"

189の要望はここで"abca"を出してほしいということで叶わない


196:189
03/05/08 14:10
>>195
>perlの最短一致は
>マッチの先頭位置を後ろにずらす効果がない

なるほど。では、>>189のコードは、

木立
山の上の芋粥

を出力してもいいはずですが、何も出力しない(何にもマッチしない)んです。
どうしてですか。よろしければ教えてくらさい。


197:名無しさん@お腹いっぱい。
03/05/08 14:14
s/(.+)(.+)$/\1/;

198:189
03/05/08 14:19
>>197
これだと、

木立
山の上の芋粥

になってしまいます。求めているのは、

木立(こだち)のなかに
山の上の芋粥(いもがゆ)

です。


199:197
03/05/08 14:22
マジ? 手元の Perl 5.005_03 だと求めているのになるのだが・・・

200:189
03/05/08 14:28
>>199
すみませ~ん。
求めているものになりました。いろんなスクリプト混ざり合ってたので
混乱しました。
(.+)が最長一致するから(.+)でいいってことに気づきませんでした。



201:名無しさん@お腹いっぱい。
03/05/08 14:45
perlの正規表現と日本語文字列との相性の悪さを
実感する問題だったなあ

202:192
03/05/08 14:50
本当に全角だったのか。失礼。だとすると、/(/ が EUC の 2 バイト目と
文字に一致するとは限らないので注意。全角文字の 2 バイト目と次の文字の
1 バイト目がそれぞれ \xa1 と [\xca-\xcb] にマッチする場合があるので、
文字列「検便」\b8\a1\xca\xd8 にも「(」がマッチしてしまう。

日本語 EUC の 1 文字 にマッチさせたいなら、厳密には
(\x8f?[\xa1-\xfe]{2}|\x8e[\xa1-\xfe]|[\x00-\xff])
にマッチさせなくてはならない。

Perl6 の国際化された正規表現が普及して、こんな知識は不要になって
くれれば一番いいのだが…。

203:192
03/05/08 14:56
この例の場合、最後の括弧の中は全角ひらがなしか入らないから関係ないけどね。

204:名無しさん@お腹いっぱい。
03/05/08 15:51
5.8ならuse utf-8; use Encode;して適切なエンコード指定でファイル読み込ませれば解決するぞ。

205:名無しさん@お腹いっぱい。
03/05/08 21:50
URLリンク(61.210.205.4)
これなんだろ@@@

206:名無しさん@お腹いっぱい。
03/05/08 23:46
WebProg板の「正規表現道場@2ch Part2」はご存知?
スレリンク(php板)

207:189
03/05/09 15:02
>>206
知ってます。最近、書き込み少ないので、こっちにしました。
あっちでは、以前、いろいろ答えてあげてたんですが。
実は、他のやり方ならいろいろ考え付いたのですが、
s/(.+?)$//;
がなぜだめかが知りたくて質問したのでした。
>>195だけがその質問に答えてくれました。そいえば、それも
らくだ本で読んだ覚えあったなぁと。しかし、「最短一致がマッ
チの先頭部分を後ろにずらしてくれない」という理由ですと、
なぜ、「木立(こだち)のなかに(夏目弱石)」が、「木立」
にならないか、いまだに不明です。($b="abcabc")=~s/b.*?c$//;
で$bが'a'になるんだから、そうなってもいいはずですよね。

# でも、3つのスレで「()をエスケープしろ」っていう返事をもらったのにも
# びっくり。漏れは、navi2chなので、半角と全角は一目瞭然ですが、IEで見
# てみたら、たしかに女滋養に見えますた。


208:名無しさん@お腹いっぱい。
03/05/09 15:32
女滋養(;´Д`)ハァハァ

209:名無しさん@お腹いっぱい。
03/05/09 17:39
生粋のプログラマーなら日常的に半角全角の違いがすぐ分かる環境を望む。
そうじゃない人はあまり気にしないので女痔用に見えても兵器。


210:名無しさん@Meadow
03/05/09 17:52
女痔用 (´;。;△;。;)キモ!!!!!!!!!!!!!!!

211:名無しさん@Meadow
03/05/09 21:33
>>207
漏れは、navi2chでも迷ったっぞい。



212:189=207
03/05/09 22:20
>>211
はっきり言っておくんなさい。
たすかに、fontの問題かもすれんですよ。
だかーら、記号類は半角とか全角とか注釈つけとけと…
でもって、半角カタカナなんか問題ない時代になったんだなー、と。


213:名無しさん@お腹いっぱい。
03/05/11 04:17
半角か全角かをいちいち説明されないと違いの分からないような
素人さんにはそもそも質問なんかされてないんですよ

214:名無しさん@お腹いっぱい。
03/05/11 15:57
189が意図的に使い分けてるという保証もなかったわけだが。

215:名無しさん@お腹いっぱい。
03/05/11 16:17
>>214
はじめから euc と断ってたし、
対象テキストデータとか試しに提示したダメコード片を良く見れば、
意図的に使い分けてることは十分想像できたと思うが。
質問の仕方や内容からも半角全角混同してるようなレベルの質問とは思えなかった。

つうか、>>207 は何をいまだにハマってるんだ?
s/(.+?)$//; なら「木立」になるから問題なかろう?

216:191=214
03/05/11 16:20
>>215
一応そう想定して答えた。

217:名無しさん@お腹いっぱい。
03/05/11 16:40
>>216
釈迦に説法か。スマソ

218:189=207
03/05/11 18:24
>>215
いえ、それが、全行出力されちゃうんです。
ちょっと、やってみていただけませんか。(インデントはわざとしません。)
---
while(<DATA>) {
chomp;
s/(.+?)$//;
print "$_\n";
}
__DATA__
木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)


219:215
03/05/11 18:36
>>218
ん~、なんないよ (5.005_03) 。
5.6 を試す環境が無いので申し訳ないでつが、Perl のバージョンの問題?

220:名無しさん@お腹いっぱい。
03/05/11 19:16
>>218
5.6.0 で試したらそのまま出ますた。
これまでの経緯をちゃんと読んでないんだが、 s/([^)]+)$//; じゃダメ?


221:名無しさん@お腹いっぱい。
03/05/11 19:23
>>220
それだと、 [^)] の部分は [^\xa1\xcb] なのでダメだと思われ。

>>204 の方法だとうまくいくようになるの?

222:名無しさん@お腹いっぱい。
03/05/11 21:08
>>218
5.8.0だと、191の式でうまくいくんだがなぁ。

while(<DATA>) {
chomp;
s/([^()]+)$//;
print "$_\n";
}
__DATA__
木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)


木立(こだち)のなかに
山の上の芋粥(いもがゆ)

223:189=207
03/05/11 21:30
追試どうもです。

>>219
古いマシンに5.005_03(5.005_03 built for i386-linux)もあったのでやっ
てみたら、奇妙なことに。
euc-jp-dos、shift_jis-unix → OK
euc-jp-unix、shift_jis-dos → 行全体が出てくる

v5.6.0 built for MSWin32-x86-multi-threadおよびv5.6.1 built for
cygwin-multiでは、どれでもだめです(行全体が出てくる)。文字コードutf8
にしても同じ。

>>222
こりゃもう5.8にするべきですかね。




224:名無しさん@お腹いっぱい。
03/05/11 21:31
>>222
いやいや、たまたまうまくいっているように見えるだけでしょ。
>>202 さんのを参考にしる。

225:195
03/05/12 09:32
>>218
s/(.*?.)$//;
にしとけ
perlのバグだ
暇ならソースのMINMODあたり追いかけて

226:189=207
03/05/12 21:13
>>225
ありがとん。「。」毎に改行入れようとして、s/(.+?。)//;やってみたが、こ
れすらできんかった。結局、perl5.6以上はjperlないから日本語処理を中心に
してる場合は、使えないってことかなぁ。もち、~ohzakiさんとこに書いてあ
るような注意をしたり、半角文字で置き換えたりすれば使えるげど、面どい。



227:名無しさん@お腹いっぱい。
03/05/12 23:01
>>226
5.8にしてEncodeつかう。

228:名無しさん@お腹いっぱい。
03/05/13 02:04
>>226
> 結局、perl5.6以上はjperlないから日本語処理を中心にしてる場合は、
> 使えないってことかなぁ。

違うっしょ。

229:189=207
03/05/13 07:23
>>227
やってみまつ。
>>228
じゃ、jperlでできるs/.+?[。!?]/$1\n/g;あたり、どやってやる?
めんどいでしょ。




230:189=207
03/05/13 07:24
あら、s/.+?[。!?]/$&\n/g;だった。


231:名無しさん@お腹いっぱい。
03/05/13 11:05
>>229
あぁ、そういう話か。それはその通りですね。

でも、それは 5.8 の Encode とやらを使うと解決するってことなのでは。
っつーか、漏れは 5.8 動かせる環境無いので確認しようがないんでつが、
誰一人として Encode が一体何者なのか説明しようとしないのは何故?

232:名無しさん@お腹いっぱい。
03/05/13 11:39
>>231
use utf-8; use Encode;
my $ENC = 'euc-jp'; # or 'cp932'
binmode STDOUT, ":encoding($ENC)"; binmode STDIN, ":encoding($ENC)";

普通に標準入出力にアクセスすればOK。スクリプト内に日本語書くときはUTF-8で。
っていうかperldoc嫁

233:名無しさん@お腹いっぱい。
03/05/14 01:43
>>232
perl 5.6 では不可能ということか?

234:189=207
03/05/14 08:50
>>232
まだ、5.8を試してないんですが、>>232って、euc-jpの端末でeuc-jpのスクリ
プト書いて、perlにutf-8で処理させるってことですね。utfサポートは、5.6
からあるので、mule-ucs+bdfフォントで、emacs上でprocess-coding-system
(inputもoutputも)もutf-8にして、やってみたけどだめですた。

私が問題にしているのは、[](文字クラス)や+?、*?(最短一致)がマルチバ
イトに対応しているかどうかということなのですが・・・


235:名無しさん@お腹いっぱい。
03/05/14 10:15
>>234 5.6時代から既に対応している

236:189=207
03/05/14 10:57
>>235
[](文字クラス)をテストしてみたけど、だめです。
utf-8で以下のスクリプト実行して見れ。jperlではOKですが・・・
---------
while(<DATA>) {
chomp;
while (s/.+?[。!?]//) {
print "$&\n";
}
print;
}
__DATA__
utf-8で処理させて下さいね。5.6でね。utfサポートは、
5.6からあるけど、このスクリプトだめぽ!>>235は、何が
5.6時代から既に対応しているって言ってんの?変だよ。


237:名無しさん@お腹いっぱい。
03/05/14 11:10
>>236 use utf8; してる?

238:189=207
03/05/14 11:24
>>237
してなかったっす。
みなさん、ごめんなさ。


239:名無しさん@お腹いっぱい。
03/05/14 17:10
perl 質問スレにするなよ。

240:名無しさん@お腹いっぱい。
03/05/15 19:55
というわけで、これにて終了。
正規表現スレはここまでです。
あれ?


241:名無しさん@お腹いっぱい。
03/05/16 01:42
単語に「マッチしない」のは
どうやれば? ^\<word\>
じゃないし。


242:名無しさん@お腹いっぱい。
03/05/16 03:07
>>241
そりを正規表現(だけ)で実現するのは難しいのでは?

普通は、grep なら -v とか、スクリプト言語なら !~ /word/ とかするんじゃないかと。

243:189=207
03/05/16 08:24
>>241
perlの拡張正規表現を使えば出来るよ。
/^(?!.*word)/



244:あぼーん
あぼーん
あぼーん

245:名無しさん@お腹いっぱい。
03/05/24 22:45
オ来リーの者じゃありませんが・・・

『詳説 正規表現 第2版』

Jeffrey E. F. Friedl 著
田和 勝 訳

2003年5月発行 -- 5月27日発売
464ページ
本体価格5,400円
ISBN4-87311-130-7

テキストやデータの処理に欠かせない強力なツールとして瞬く間
に普及した「正規表現」。現在ではPerl、Java、VB.NETやC#など
数多くの言語やツールに標準で装備されています。その幅広い可
用性、柔軟性と比類ない強力さにもかかわらず、実際に正規表現
を使いこなすことは難しいです。本書は正規表現の概念を詳細に
掘り下げる一方で、数多くの言語やツールの実例を示しながら、
正規表現についての理解を深める解説書です。第2版では、豊富
な実例を使い、詳しくていねいに解説するスタイルはそのままに、
Perl5.8の新機能に加え、Javaと.NETの正規表現にもそれぞれ独
立した章を設けるなど、全編にわたって大幅に加筆がなされまし
た。正規表現の本質を読み解く決定版です。とくに正規表現を使
いこなしていると自負している人にほど読んでほしい本です。


246:名無しさん@お腹いっぱい。
03/05/25 00:29
あれ?今日買ってきたんだけど27日発売だったのね…

247:名無しさん@お腹いっぱい。
03/05/25 00:43
>>246
つーことで発売記念age

248:名無しさん@お腹いっぱい。
03/05/25 03:23
素数にマッチする正規表現募集。

249:名無しさん@お腹いっぱい。
03/05/25 03:38
>>245
第1版と比較してのレビューきぼんぬ

250:名無しさん@お腹いっぱい。
03/05/25 03:44
>>249
> 2003年5月発行 -- 5月27日発売
とあるからまだ無理なのでは

251:名無しさん@お腹いっぱい。
03/05/25 03:49
>>248
正規表現だけでなく、なんかしら言語使ってやればよい。

252:名無しさん@お腹いっぱい。
03/05/25 03:56
>>248
何故敢えて茨の道を行くのか?

253:名無しさん@お腹いっぱい。
03/05/25 05:07
>>245
これの第1版買ったのですが、いまいち難しかったです。
もっと易しい本ってないですか?

254:名無しさん@お腹いっぱい。
03/05/25 05:35
>>253
Ruby の初・中級者なら、「Ruby Magic―Rubyで極める正規表現」はお勧め。

255:245
03/05/25 10:21
>>249
第1版を持ってないので比較は出来ないっす。
# 買おうと思ったら第2版が出ることを知ったので待ったのだ。

ここに特徴や目次が紹介されているので見てもらうとして
  URLリンク(www.oreilly.co.jp)
  URLリンク(www.oreilly.co.jp)

まえがきから第1版との違いを判断すると
  - Unicodeのちょっとした解説
  - Perl5.003からPerl5.8対応に
  - Java1.4のjava.util.regexと、その他6つの正規表現パッケージの比較
  - .NET framework正規表現の特徴と問題点、M$のドキュメント(貧弱らしい)の補足
のように言語サポートが新しくなった/増えたって感じ。

最初はHTMLのサンプルを少々追加する程度の予定(3ヶ月の見込み)だったみたいだけど、
結局は2年の歳月をかけて全面的に加筆修正することになったそうだ。

難易度は第1版と変わらないのではないかな?
# 読み易くなってるのかもしれないけど。。
>>253の期待には応えられないと思う。
> とくに正規表現を使いこなしていると自負している人にほど読んでほしい本です。
という宣伝文句があるくらいだしね。

>>250
いや、24日に買えたのよ。

256:名無しさん@お腹いっぱい。
03/05/27 11:05
今日発売か。
昼休みに買ってくるか。


257:名無しさん@お腹いっぱい。
03/05/27 21:10
>>256さん、どうですた?


258:249
03/05/27 21:28
>>255 さんのと、今日立ち読みした感じで、第2版も購入することにしますた。
そういえば、翻訳者 (監訳者) が変わってたんですね。

259:名無しさん@お腹いっぱい。
03/05/27 21:29
sed のタグ付き正規表現についてちょっと教えれ。たとえば、

{________I'm_dreaming_of_a_White_Christmas_}
{_Just_like_the_ones_I_used_to_know__}
{____Where_the_tree_tops_glisten_}

の前後の余計な _ のトリミングをしようと思って
sed 's/{\(_*\)\(.*\)\(_*\)}/{\2}/g'
とやっても意図した結果にならない。\2 をうまくマッチさせる方法は?

まぁこの例なら簡単に逃げられる - たとえば sed 's/{_*/{/;s/_*}/}/' -
わけだが、apache の log とかの簡単なパース(並び替えとかそんな程度)を
タグ付き正規表現でさくっと処理できれば楽でうれしい。よろしく。

260:名無しさん@お腹いっぱい。
03/05/27 21:38
二個目の*がlongest matchしようとして
3個目の*にmatchさせたいであろう_まで持っていってしまうのが原因。

sed -e 's/{_*\(.*[^_]\)_*}/\1/'

261:名無しさん@お腹いっぱい。
03/05/28 00:59
'<,'>s@^@//@

262:名無しさん@お腹いっぱい。
03/05/28 01:03
最少マッチって perl とか ruby にしかない?
sed, grep 等の伝統的 tool にはないの?

263:名無しさん@お腹いっぱい。
03/05/28 01:07
>>262
ないよ

264:名無しさん@お腹いっぱい。
03/05/28 14:45
>>262
grepに最小一致の機能があったとして
それの魅力はイッタイ何なのだろうか?


265:あぼーん
あぼーん
あぼーん

266:262
03/05/28 20:42
確かに sed では使っても grep では使わないかも。
いや、でも後方参照する時に必要なこともありえますね。


267:名無しさん@お腹いっぱい。
03/05/29 10:14
>>257
昼休みにいきつけの書店にいったが売ってなかったんで。
帰りに別の書店で買った。
でもまだ読んでない…
通勤時間に読むっつーてもあれを毎日持ち歩くのは
重たいしなぁ。


268:名無しさん@お腹いっぱい。
03/05/30 21:59
文字列中、丸括弧(全角、半角問わず)で閉じられた部分を取り出す表現を考えているけど、うまくマッチしてくれない。
(丸括弧の中に丸括弧は含まない。Perlの正規表現を使用)

$string = '(22(1)';
if($string =~ /[((]([^()()]*)[))]/){
print $1;
}
else{
print "No match..";
}

この場合は"1"がマッチするのを期待しているのだけど、なぜか"22"の部分がマッチした。
OS(UNIX/WinXP)、Perlのバージョン(5.0/5.8)の異なる環境で同じことを確認したけど、結果は変わらず。
さらに、文字コード(Shift-JIS/EUC)の違いでも、結果は変わらなかった。

"1"をマッチさせる別の表現はないですかね?

# 全角"("の中にどうも半角")"の文字が隠れてるのかなぁ?(あくまでも推測)



269:名無しさん@お腹いっぱい。
03/05/30 22:42
>>268
おめな、2byte文字と1byte文字が同じに扱われると思ってるらしいな。たぶん、
文系のドキュソだな。しかも、すぐ上で2byte文字コードの話出てたの見てね
えな。こいう、初心者質問は、webprogのPerl初心者スレ逝け。



270:名無しさん@お腹いっぱい。
03/06/05 14:26
>>268
Perl5.8.0 + UTF8 でやったら 1 になったよ。


271:名無しさん@お腹いっぱい。
03/06/07 12:10
[ ] のなかに '-' と ']' の両方を入れたい場合はどうすればいいのですか?

272:名無しさん@お腹いっぱい。
03/06/07 12:20
>>271
何で?

273:名無しさん@お腹いっぱい。
03/06/07 12:29
>>271
[]-]

274:名無しさん@お腹いっぱい。
03/06/17 23:25
>>271
!.-[

275:名無しさん@お腹いっぱい。
03/07/03 21:13
保守

276:名無しさん@お腹いっぱい。
03/07/08 11:49
regexp ml盛り上がってますね。読んでて楽しい。


277:名無しさん@お腹いっぱい。
03/07/08 14:02
このスレはいつからまともな人たちをヲチするようになったのですか?

278:名無しさん@お腹いっぱい。
03/07/12 21:26
すいません、テキストファイルの中の .bananaなどの単語(行頭ではなく)の先頭が
ドットがあるものだけをgrepで抜き出したいのですが、jp.appleのような単語までひっかかって
しまい上手く絞り込めません。

アドバイスをお願いします!!

279:名無しさん@お腹いっぱい。
03/07/12 21:54
>>278
\b?\.\w+?
で、どうじゃろ?

280:名無しさん@お腹いっぱい。
03/07/12 22:44
>>279
すいません、なんか上手くいかないです。
ls -laでディレクトリ内の全ファイルを表示して、grepで隠しファイルだけを抽出したかったのですが。

281:名無しさん@お腹いっぱい。
03/07/12 23:34
ls -la | grep ' \.'
ではあかんの?


282:名無しさん@お腹いっぱい。
03/07/12 23:57
>>281
行のどこかに"."があれるとヒットしてしまうんです

283:名無しさん@お腹いっぱい。
03/07/13 00:28
ls -la | grep '^\.'
こういうこと?

284:名無しさん@お腹いっぱい。
03/07/13 00:28
>>282
とはいえ、"."って、ファイル名にしかでてこないよね?
>>281 をよーくみる。


285:283
03/07/13 00:30
間違えた。

ls -1a | grep '^\.'
これか
ls -la | grep ' \.'
これだな。下は余計なものを拾う可能性もあるが。

286:名無しさん@お腹いっぱい。
03/07/13 00:31
ls -d .*
なんてね。


287:名無しさん@お腹いっぱい。
03/07/13 00:32
あ、正規表現スレだった。すまん。

288:名無しさん@お腹いっぱい。
03/07/13 02:00
ヤハリココハオモッテタトオリバカバッカリダッタナ(プ

289:名無しさん@お腹いっぱい。
03/07/13 02:57
ls -la | awk '$9 ~ /^\./{print $0}' はどうよ。

290:名無しさん@お腹いっぱい。
03/07/13 11:30
>>280 ふつーそういうときは ls つかわず findつかえ。
find ./ -type f -name "\.*" -print


291:名無しさん@お腹いっぱい。
03/07/13 14:36
(())

292:名無しさん@お腹いっぱい。
03/07/14 11:38
>>290 ふつーそういうときは >> つかわず >> つかえ。

293:名無しさん@お腹いっぱい。
03/07/14 19:04
backreferenceを前方参照と訳したのはなぜですか?


294:名無しさん@お腹いっぱい。
03/07/14 21:19
後方参照としている訳もあるよ。
まぁ、現在の位置よりも前を参照するという意味では
日本語的には前方参照であってると思う。
ようするに「今いる位置より戻って参照」って意味になるんだから。

んでも、意味を考えて訳すなら「戻って参照」とか、どう?

295:名無しさん@お腹いっぱい。
03/07/14 21:32
>>294
ちょっと前にCスレで話題になったんだけど、Cで「前方参照」といった場合の前方って、
ファイルの終端方向を指す。「ひどい訳語だ」ってことで話は終わったんだけど、
正規表現でも混乱が見られるしなんかいい言葉ないもんかねえ。

日本語では時間を表す文脈で「前」にまるで正反対の意味があるからよくないのだと思う。
「以前」だと過去だし「前進」だと未来だし。

あとこれはすれ違いか? そうだよね。すまん。

296:名無しさん@お腹いっぱい。
03/07/14 21:41
>>279 >>281 >>283 >>284 >>285 >>286 >>287 >>289 >>290

みなさま、ありがとうございます。

シングルクォーテーションに空白が使えたり、
アッパーチルダとハット(キャレット?)の区別を知ったりと、
正規表現の難しさを知りました。

今、「テキストデータ料理学」っていう古い本を読んでいるのですが、
オライリーの正規表現本は買ったほうがいいですか?

(もう2~3週間前にオライリーのサイトでカタログを注文したのに、
まだ来ない…)

297:名無しさん@お腹いっぱい。
03/07/14 22:23
おれは初版も新しいのも持ってるけど、自分の知識に自信がないうちは
お薦めしない。もちろんあったらあったで便利だけど。

やっぱり、「俺、正規表現バリバリだぜーYAH」状態で買って読んで
目からうろこ落ちまくり感を堪能するのがいいんではないかと。

298:名無しさん@お腹いっぱい。
03/07/14 23:31
>294
するってえと、正規表現的には日本語で前方参照あるいは後方参照と書いてあったら
どっちもbackreferenceと思えってわけだぁね。
>295
計算機分野だと「前方」という言葉はforwardの訳語というのがあたりめえだと思ってたから、
正規表現関係だと、「前方参照」がbackreferenceのことだっていうのがわかんなくて
難儀したってわけよ。


299:名無しさん@お腹いっぱい。
03/07/14 23:33
>>297
>>296は学ぶ意欲を持っているから、今のうちに買っておいて損はないと思う。
むしろ薦める。
オイラリーはハズレが少ないからな。

300:名無しさん@お腹いっぱい。
03/07/14 23:35
>>298
俺はperlから入ったから後方参照が当たり前かと思ってた。
他言語使うようになってから吃驚したってわけよ。

301:298
03/07/14 23:43
perl5の日本語マニュアルで、「前方参照」を "lookahead assertion"の訳語として
使っているやつがあった。

(?=regexp) 長さの無い、前方参照位置指定子。
(?!regexp) 長さの無い、前方参照否定位置指定子。

英語だと

(?=pattern) A zero-width positive lookahead assertion.
(?!pattern) A zero-width negative lookahead assertion.

わけわかんねぇな(w


302:298
03/07/14 23:48
ありゃりゃ?

(?<=pattern) A zero-width positive lookbehind assertion.
(?<!pattern) A zero-width negative lookbehind assertion.

"lookbehind assertion" の訳語って何だ?


303:名無しさん@お腹いっぱい。
03/07/15 00:32
「俺の背後に立つな」
デューク東郷の格言だろ。

304:名無しさん@お腹いっぱい。
03/07/15 00:35
lookahead 見越し
lookbehind 見返り

305:名無しさん@お腹いっぱい。
03/07/15 01:01
前後不覚だな。

306:名無しさん@お腹いっぱい。
03/07/15 03:12
>>296
>オライリーの正規表現本は買ったほうがいいですか?

持ってなくても覚えられるし、
エディタのサーチとか grep とかで実験しながら
感覚的に慣れるのも悪くないんじゃない?

ただし emacs で覚え始めるのはすすめない。
backslash で混乱する。

307:名無しさん@お腹いっぱい。
03/07/15 07:21
>>297
>>299
>>306
ちょっと大きな本屋に行って立ち読みしてみます。
ありがとうございました~

308:あぼーん
あぼーん
あぼーん

309:名無しさん@お腹いっぱい。
03/07/17 13:35
>>308
二度と目を覚ますな。


310:あぼーん
あぼーん
あぼーん

311:名無しさん@お腹いっぱい。
03/07/20 21:36
さげ保守

312:名無しさん@お腹いっぱい。
03/07/27 22:01
OOはもうすぐ1.1出るけど、MSWORDよりセキュリティ大丈夫かな?
スレリンク(bsoft板:392番)


313:あぼーん
あぼーん
あぼーん

314:高校生
03/08/02 17:12
boo
baa
baz
っていうテキストが例だとして、sedを用いて、
booまたはbaz、っていう正規表現はどうなるの?
rubyやperlならパイプ記号で条件和の表現が出るけど、
同じように書いてもsedに誤解されてしまう。

315:名無しさん@お腹いっぱい。
03/08/02 17:52
>>314 ん? \|使えば良いのでは


316:高校生
03/08/02 18:06
sed 's/boo\|baa/hoge/g' ./hage.txt
とかだとやっぱりだめなんすよね。
「boo」とかの単語の括り方がよくわからんのです。

317:名無しさん@お腹いっぱい。
03/08/02 20:53
GNU sed 4.0.7版 ではそれでもできてるけどな。
sed 's/\(boo\|baa\)/hoge/g' これでどう?


318:名無しさん@お腹いっぱい。
03/08/02 22:07
>>317
gsedならできるがsedは食ってくれない。

319:名無しさん@お腹いっぱい。
03/08/03 01:09
単一の正規表現じゃなきゃいかんの?
sedと決まってるなら
sed -e 's/boo/hoge/g' -e 's/baa/hoge/g'
でいいんちゃう?

置換後の文字列と置換前の文字列の片方とで重なりがある場合
どうするかひとしきりモメたりする ↓↓↓ のがお決まりだな。

320:名無しさん@お腹いっぱい。
03/08/03 09:52
単一の正規表現でないと記述が冗長で見た目がキモイ、
っていうのはあると思うよ。
おいらはインストール直後のFreeBSDの環境構築をスクリプトに任せたくて、
結局シェルスクリプトにawkな記述を書いて解決した。
カーネルの再構築にしても、/etc/下の記述にしても、要はテキストの置換なわけで。
本当はrubyがFreeBSDの/usr/bin下にあるようなご時世だったら
楽ができるんだけど、そこら辺は個人的な勉強不足だなぁ。

321:名無しさん@お腹いっぱい。
03/08/13 19:13
{a,b}上の言語Lが
『aaで開始し、かつ、bbを部分列として含む』という条件を満たす語からなるとき
Lを表す正規表現ってどうなるの?
L=aa(a*b*+bb)* ?

322:名無しさん@お腹いっぱい。
03/08/13 20:45
L=aa(a+b)*bb(a+b)*

323:名無しさん@お腹いっぱい。
03/08/13 22:05
>>321
*+ ???

324:名無しさん@お腹いっぱい。
03/08/13 23:05
>323
'+'より'|'のほうが普通かな。
L=aa(a|b)*bb(a|b)*

本来的には連接、選択、閉包が表現できればいい。


325:名無しさん@お腹いっぱい。
03/08/13 23:08
L ::= aA
A ::= aB
B ::= aB | bC
C ::= aB | bD
D ::= ε | aD | bD


326:名無しさん@お腹いっぱい。
03/08/13 23:34
.*
何にでもマッチする最強の正規表現です!


327:名無しさん@お腹いっぱい。
03/08/13 23:50
>>326
ドットが含まれてなかったらマッチしない罠


328:名無しさん@お腹いっぱい。
03/08/13 23:53
キター

329:名無しさん@お腹いっぱい。
03/08/14 00:13
ageてるし、ネタと見た。

330:名無しさん@お腹いっぱい。
03/08/14 23:29
>>329
しね!

331:あぼーん
あぼーん
あぼーん

332:あぼーん
あぼーん
あぼーん

333:名無しさん@お腹いっぱい。
03/08/28 20:12
うまづら。

334:名無しさん@お腹いっぱい。
03/09/02 03:30
ほす。

335:名無しさん@お腹いっぱい。
03/09/14 04:27
☆湯

336:名無しさん@お腹いっぱい。
03/09/16 13:49
[ruby-list:38393] じゃないけど、[a-z] みたいな文字クラスの表現は、
EBCDIC とかだと「意図した通り」には動かないと思うんだけど、
ASCII か ASCII を包含したキャラクタセットという前提で書くべきものなの?

337:名無しさん@お腹いっぱい。
03/09/16 14:08
>>336
[:lower:] とかは使っちゃだめ?

338:名無しさん@お腹いっぱい。
03/09/16 15:34
>>337
あ、いや、質問が悪かったですね。
範囲指定する文字クラスはどうあるべき (書くべき) か?っていう話です。

ていうか、 re_format(7) を私の拙い英語力で読んでみたところ、
ASCII コードの並びを前提とするような文字クラスの範囲指定は、
portable じゃないからやらない方が良い、ということのようですね。

というわけで、極力 >>337 さんのみたいな文字クラス指定を使った方が良い、と。

339:名無しさん@お腹いっぱい。
03/09/20 10:41


340:名無しさん@お腹いっぱい。
03/10/08 15:50
保守

341:名無しさん@お腹いっぱい。
03/10/12 16:53
vimで"DEL"という文字列が含む行で、"DEL"以下を削除したい場合はどうしたらいいでしょうか?

342:名無しさん@お腹いっぱい。
03/10/12 17:15
スレ違い。


Vim6 Part6
スレリンク(unix板)

343:名無しさん@お腹いっぱい。
03/10/13 01:12
:%s/DEL.*//


344:名無しさん@お腹いっぱい。
03/10/13 15:10
>>343
サンクス、すみません。

345:名無しさん@お腹いっぱい。
03/10/18 17:51


346:名無しさん@お腹いっぱい。
03/10/21 23:12
>>343
DELは残したい場合はどうすればいいですか?

347:名無しさん@お腹いっぱい。
03/10/21 23:24
:%s/DEL.*/DEL/

348:名無しさん@お腹いっぱい。
03/11/05 11:20
MS-DOSが使われていた頃に、"mifes"と言うエディターが有った。
そのマニュアルに1頁ほどの正規表現の説明があって、自分は最初に、それで
覚えて使い出した。
使い始めの頃は、何回も間違えたけど、少しづつ慣れてきた。

自分の周りを見ても、プログラマを何年もやっていても正規表現を知らない
人は、結構いる。
一旦、覚えてしまうと非常に便利だと思うんだけど。

349:名無しさん@お腹いっぱい。
03/11/05 17:48
正規表現で俺の存在を抹消してくれ。

350:名無しさん@お腹いっぱい。
03/11/05 19:01
s/俺の存在//g;

351:名無しさん@お腹いっぱい。
03/11/05 20:10
gsub!(/俺の存在/, "")

352:名無しさん@お腹いっぱい。
03/11/18 18:31
捕手

353:名無しさん@お腹いっぱい。
03/11/19 01:38
        rー、
    」´ ̄`lー) \
    T¨L |_/⌒/
     `レ ̄`ヽ〈
       |  i__1
     _ゝ_/ ノ
      L__jイ´_ )
        |  イ
         |  ノ--、           r'⌒ヽ_
        ゝ、___ノ二7  /´ ̄l、_,/}:\
         |ーi |   l_/ /__ィ::.  ゝ~_ィ´:; ,ゝ
        __〉 {      (T´ |1:::.  \_>、};;_」
       'ー‐┘       ! ` ̄''ァ一 、\ ヽ}  ← 保守
               〈` ̄ ̄^`¬ノ .::〔 ̄´
                   1  ヽ   .:::レ  ヽ、
                |_イー-、_;;j|_:.   ゝ、
                __,,,... -- |. {――‐フゝ、   〉 -- ...,,,__
        _,, -‐ ´       ,r|__ト,    1ニノ ー'´       ` ‐- ,,_
    , ‐ ´         └―'´                     `


354:名無しさん@お腹いっぱい。
03/11/19 09:17
>>353
それ捕手じゃなくて投手やっ!www

355:名無しさん@お腹いっぱい。
03/12/04 19:24
別のスレからの引用
ps ax |grep '[s]shd'
とやると、grep自身の行にヒットしないそうだけど、なぜ?
sってメタ文字でもなんでもないのに。

356:名無しさん@お腹いっぱい。
03/12/04 19:30
なぜって言われても、自明だが。

357:名無しさん@お腹いっぱい。
03/12/04 19:33
grep sshd と何が違うの?

358:名無しさん@お腹いっぱい。
03/12/04 19:35
あ、ごめん、わかった(w


359:名無しさん@お腹いっぱい。
03/12/04 19:36
grep sshd だと、ps の出力に含まれる "grep sshd" の "sshd" がマッチする。

grep '[s]shd' だと、ps の出力には "grep [s]shd" が含まれるが、
この "[s]shd" は、[s]shd にはマッチしない。よね?わかる?

360:名無しさん@お腹いっぱい。
03/12/04 23:59
なるほど。トリックだな。


361:名無しさん@お腹いっぱい。
03/12/05 10:59
まあバッドノウハウだとも思うけどナー
URLリンク(www.namazu.org)


362:名無しさん@お腹いっぱい。
03/12/05 13:26
そこまでのものではないと思うけど、
この例だと、頭の中でpsの出力まで加工しちゃうからな(w


363:名無しさん@お腹いっぱい。
03/12/05 20:33
grep -v grep でええやん。

364:名無しさん@お腹いっぱい。
03/12/30 00:05
muttのaliasで
    alias keyword Name <mailaddress>
みたいなフォーマットで並んでいるファイルを
    alias keyword <mailaddress> # Name
に整形しようと思い,
    cat alias | sed 's![[:space:]]*alias[[:space:]]*\([^[:space:]]*\)[[:space:]]*\(.*\)[[:space:]]*<\(.*\)>!alias \1 <\3> # \2!' > alias.new
としました.

上手く行くんですが, "#" の位置が行ごとにバラバラなのが気持ち悪いです.

そのファイルで "#" 以前の文字数が一番長いものを調べ, そこに合わせて
その他の行の "#" 以降を持ってくるようにするにはどうすればいいんでしょうか?

365:名無しさん@お腹いっぱい。
03/12/30 00:14
sedでやれってか?
漏れはへたれなので、Perlなどを使ってしまうが(w


366:名無しさん@お腹いっぱい。
03/12/30 00:28
>>364
2パスでやれば?

367:名無しさん@お腹いっぱい。
03/12/30 09:20
  2パス?

368:名無しさん@お腹いっぱい。
03/12/30 16:05
>>367
"#" 以前が一番長いのを調べてから、それに合わせて整形し直せば。

369:名無しさん@お腹いっぱい。
04/01/11 21:57
>>364
70桁でそろえる場合

sed ':a /.\{70\}\#/!bc; b; :c s/\(.*\)\#\(.*\)$/\1 \#\2/; ta'

亀ですが、こんなんでどうでしょう


370:名無しさん@お腹いっぱい。
04/01/11 22:21
決め打ちでいいなら何の苦労もないわけで。

371:名無しさん@お腹いっぱい。
04/01/14 23:40
>>369
反則技。gawk で。sed ではどうやっても出来ないような気が……(_ _;)
# sed でできるのか?

{
a=index($0,"#");
if(a>best) {
best=a;
}
c[FNR]=$0
}

END {
for(i=0;i<=NR;i++){
x=index(c[i],"#");
if(x && x<best) {
for (j=x;j<best;j++) {
gsub("#"," #",c[i]);
}
}
print c[i]
}
}


372:名無しさん@お腹いっぱい。
04/01/15 23:45
( ´∀`)

373:名無しさん@お腹いっぱい。
04/02/03 10:33
保守

374:名無しさん@お腹いっぱい。
04/02/06 18:23
教えてください。
Windows用のファイルをemacsなんかで開いたとき,最下行に
^Z
という符号が表示されることがあります。
これはいったい何でしょうか?


375:名無しさん@お腹いっぱい。
04/02/06 19:31
いわゆるeof

376:名無しさん@お腹いっぱい。
04/02/06 21:01
>>375
ありがとうございます。この符号のあるファイル同士をcatで連結すると,途
中にこの符号が入ってしまいます。この符号をsedでマッチさせて消去したい
のですが,どうすればいいでしょうか。
sed '/^$/d' ではダメでした。


377:名無しさん@お腹いっぱい。
04/02/06 21:09
>>376
いわゆるeof

378:名無しさん@お腹いっぱい。
04/02/06 22:38
EOF符号をsedで消去できますか?


379:名無しさん@お腹いっぱい。
04/02/21 22:59
grep で使える正規表現を精密に解説したサイトはありますかね?
日本語/英語どっちでもいいのですが。

380:名無しさん@お腹いっぱい。
04/02/22 00:19
URLリンク(www.kt.rim.or.jp)

381:名無しさん@お腹いっぱい。
04/02/22 00:29
レベル低いなー
378に対して出来るとも出来ないとも言えないのか...


382:名無しさん@お腹いっぱい。
04/02/22 00:58
378=381 ですか?

383:名無しさん@お腹いっぱい。
04/02/22 02:14
>>378
できるよ。普通に
s/^Z//
とかすればいい。もちろん^ZはEOFの一文字ね。

こんなの試せばすぐわかるだろと思ってたんだが、よく>>376を読むと、
「正規表現は純なテキストであるべきで特殊記号を混ぜるのはイクナイ」
と感じたんだろうな。まあ気持ちはわかるわ。

最近の正規表現拡張では、文字をコードの数値で表現する文法が
入ってたりする方が普通(例えばperlとか)だもんな。

384:338
04/02/22 02:24
でね、特殊記号の特別なケースがtab。大昔は\tなんて表現なかったさ。
よく画面上の見た目やハードコピーや雑誌からシェルスクリプトを打ち直して、
tabとspaceの違いで動かないなんてことが時々あったんだよ。

あと勝手にシェルスクリプトを整形されて動かなくなるとか。


385:名無しさん@お腹いっぱい。
04/02/22 02:52
>>382
いいえ
>>383
ありがトン!


386:名無しさん@お腹いっぱい。
04/02/22 02:55
>>382
381=385 が正解


387:名無しさん@お腹いっぱい。
04/02/22 16:53
>>380
ブックマークにいれますた。

388:名無しさん@お腹いっぱい。
04/03/27 17:05
[\\w$'-]
これはどういうことなのでしょう?
[\w$'-]
ならわかるのですが..

389:名無しさん@お腹いっぱい。
04/03/27 17:09
>>388
処理系は何?

390:名無しさん@お腹いっぱい。
04/03/27 17:20
>>389
Rubyです
Regexp::compile("\b\d[\d\.]+\d\b|[\w]+|[\\w$'-]+")
scanメソッドで英文を分割してます

391:名無しさん@お腹いっぱい。
04/03/27 17:22
>>390
ほほう。バグってる悪寒。

392:名無しさん@お腹いっぱい。
04/03/27 17:25
Regexp::compile("\\b\\d[\\d\\.,]+\\d\\b")
こんなのがあるんですが..

393:名無しさん@お腹いっぱい。
04/03/27 18:30
>>392
Ruby で "..." の中で '\' を書くときは、'\' でエスケープする必要があるの。
つまり Regexp::compile("\\w") は /\w/ と同じ。

>>390 のだと '\' のエスケープが足りない部分があるように見える。
たとえば、 "\w" は "w" に、 "\b" は "\010" になっちゃう。
ので「バグってる悪寒」と言いました。

394:名無しさん@お腹いっぱい。
04/03/27 18:53
>>393
なるほど、必死に\\と重ねる正規表現について調べてましたよ
ありがとう


395:名無しさん@お腹いっぱい。
04/03/30 01:42
perl で質問です。

NOTE note "note" notes

上のような文字列を「book」だけを「note」に置換したいのですが
s/\bnote\b/book/g
のようにすると、ダブルクォートで囲まれているものも置換されてしまうのですが
それを

NOTE book "note" notes

のようにするにはどう表記すればよいのでしょうか?
詳しい方、教えてください。


396:名無しさん@お腹いっぱい。
04/03/30 04:15
>>395
> NOTE note "note" notes
>
> 上のような文字列を「book」だけを「note」に置換したいのですが

397:名無しさん@お腹いっぱい。
04/03/30 10:07
>>396
その下の
s/\bnote\b/book/g
ぐらい読んで多目にみてやれ。

>>395
とはいえ、仕様があいまいすぎ。
'note' はどうする? :note: は? "abc note def" は?

398:名無しさん@お腹いっぱい。
04/03/30 10:29
s/ note / book /g
か?

>>397
> とはいえ、仕様があいまいすぎ。
んだな。

399:名無しさん@お腹いっぱい。
04/03/30 12:34
>>395
s/(?=[^"])\bnote\b(?=[^"])/book/g;

# こんなんで良いわけないよなと思いつつ・・・

400:名無しさん@お腹いっぱい。
04/03/31 02:02
>>397

> とはいえ、仕様があいまいすぎ。

すいません、おっしゃるとおりです。
ある単語(note)をある単語(book)に置換したいのですが、
ダブルクォートで囲まれているもの("note")は、その置換からは除外したいのです。

> 'note' はどうする? :note: は? "abc note def" は?

したがいまして、これらはとりあえず想定外で構わないので置換してしまっても構いません。
もう少し昨日の例を詳しく書きますと

NOTE,note"note"notes-note

このようなものでも

NOTE,book"note"notes-book

のようになってくれるのを期待しています。

ただ、"abc note def" これも想定外で構わないのですが
対応が可能であるのなら、私の勉強の為に教えてくださるとありがたく思います。

>>399
ありがとうございます。

>s/(?=[^"])\bnote\b(?=[^"])/book/g;
これを試してみました。
基本的にOKかなと思ったのですが、行頭、行末では置換の対象となってくれませんでした。



401:名無しさん@お腹いっぱい。
04/03/31 02:52
>>400
補足です。
ここでいう単語とは \w+ で表せる範囲のもので、
アルファベット大文字、小文字も含めて完全に単語の
先頭から末尾までが一致するものです。


402:名無しさん@お腹いっぱい。
04/03/31 07:45
もっと簡単にできるかもしれないけど、
s/(^|(?<=[^\w"]))note\b|\bnote($|(?=[^\w"]))/book/g;
とかは?

> ただ、"abc note def" これも想定外で構わないのですが

後ろから数えた"の個数が奇数ならマッチしないようにして、
$b =~ s/\bnote\b(?=([^"]*"[^"]*")*[^"]*$)/book/g;
とすれば、"のマッチングが保証できる範囲ではなんとかなるかも。
前からの"の個数でマッチさせようとしたら、
可変長のlook-behindは実装してないらしい。(perl 5.8)


403:名無しさん@お腹いっぱい。
04/03/31 14:53
s/"note"/hogehoge/g
s/note/book/g
s/hogehoge/"note"/g
おれならこうしちゃうな。
考えんのめんどい。

404:名無しさん@お腹いっぱい。
04/04/01 01:10
>>402

ありがとうございました。
たいへん勉強になりました。


405:名無しさん@お腹いっぱい。
04/04/07 15:07
質問させてください。

&にはマッチして欲しいのですが、&にはマッチして欲しくないのです。

どのように記述すればよいのでしょう。

お願いします。

406:405
04/04/07 15:09
&にはマッチ
&amp;にはマッチしない

でした。すいません。

407:名無しさん@お腹いっぱい。
04/04/07 15:26
>>405
Perl5 でいい?

408:名無しさん@お腹いっぱい。
04/04/07 15:32
>>405
/&(?!amp;)/

409:名無しさん@お腹いっぱい。
04/04/11 13:22
正規表現のおすすめ書って何がありますか?

410:名無しさん@お腹いっぱい。
04/04/11 14:13
オライリーのやつ。

411:名無しさん@そうだ選挙に行こう
04/07/11 16:49
ワイルドカード(DOS)の *.txt って、正規表現だとどう書くの?

412:名無しさん@お腹いっぱい。
04/07/11 20:35
{(([0-9a-zA-Z]){0,})\.txt}とか半端に返してみるテスト

413:名無しさん@お腹いっぱい。
04/07/11 20:46
[^\\/]+\.[Tt][Xx][Tx]\z とか (ry

414:名無しさん@お腹いっぱい。
04/07/11 22:41
foo と bar 両方含む行をマッチさせたいんだけど、
awkでいうところの and演算子
% awk /foo/&&/bar/
が使える、windowsで動くgrepツールなんか教えてください。

#絞込み再検索のないGUIなgrepツールなんかイラネ

415:名無しさん@お腹いっぱい。
04/07/11 23:39
>>412,413
. 記号は \ でエスケープになるのですね。.*\.txt でマッチはしました。
助かりました、ありがとうです。

416:名無しさん@お腹いっぱい。
04/07/12 22:46
>>414

FIND "foo" | FIND "bar"

みたいのじゃ駄目?

417:名無しさん@お腹いっぱい。
04/07/14 00:51
>>414
|が使えるツールなら、/foo.*bar|bar.*foo/とかで近似できるんじゃないの。
CygwinのGNU grepで試してみた。

> cat foobar.txt
foo
bar
foo foo
foo bar
bar bar
bar foo
> grep -n "foo.*bar\|bar.*foo" foobar.txt
4:foo bar
6:bar foo
>

418:414
04/07/23 03:17
なるほど、andをorに展開すればいいのか。
しかし fooかつbarかつbazを検索、つーばあい展開すんのめんどくさいなぁ。

windowsのGUIなgrepツールは、サブフォルダも検索、とかできて
結構便利なのも歩けど、パイプとかorが使えなかったりしてイマイチ。

結局cygwinでawk使ってるけど、これもいまひとつメンドクサイ。
2chのログを検索してるだけなんだが_| ̄|○

419:名無しさん@お腹いっぱい。
04/07/29 01:12
>>418
xyzzy の ggrep 辺りがいいんじゃない?

420:名無しさん@お腹いっぱい。
04/07/30 00:18
Windows の AWKじゃだめですか?

421:名無しさん@お腹いっぱい。
04/08/03 09:48
Perloしかないべ


422:名無しさん@お腹いっぱい。
04/08/06 22:51
#から行末までをあらわす正規表現ってどうやればいいんでしょうか。

423:名無しさん@お腹いっぱい。
04/08/06 23:22
#.*$

424:名無しさん@お腹いっぱい。
04/08/12 15:32
#[^#]*$

425:名無しさん@お腹いっぱい。
04/08/24 00:25
質問があります。

サクラエディタ(正規表現ライブラリ:BREGEXP.DLL)でCソース中のhogehogeをgrepしてた
場合に、コメント化(//)されている行だけは検索結果に表示したくないんですが、
どのような正規表現で検索すればいいでしょうか?


426:名無しさん@お腹いっぱい。
04/08/24 01:48
あげ

427:名無しさん@お腹いっぱい。
04/08/24 01:56
>>425
そのエディタよく知らないんだけど、Unix で動くの?

428:名無しさん@お腹いっぱい。
04/08/24 13:36
スレタイだけ見て、板を確認してないんだと思われ。

429:名無しさん@お腹いっぱい。
04/08/24 13:43
それを言うと、このスレ自体板違いな気もしなくはないが。ム板のだけで十分やん。

430:425
04/08/24 21:24
UNIX板って知っていて質問をしましたが。
とりあえず、ム板に逝ってみます。

431:名無しさん@お腹いっぱい。
04/08/24 21:38
>>430
Unix 用のソフトなの?

432:名無しさん@お腹いっぱい。
04/08/24 22:51
>>431
is not UNIX

433:名無しさん@お腹いっぱい。
04/08/24 23:41
多分エディタの種類はどうでもよくて、 /\/\*.*\*\/ とか、そんな答えを期待していたと思われ


434:名無しさん@お腹いっぱい。
04/09/05 06:33
ム板の正規表現もとんと書き込みないから、テストしてみたら
書き込めた。ここもどうなんだか、書き込んでみる。

435:名無しさん@お腹いっぱい。
04/09/06 18:18
ハハ*.*ハハ

436:名無しさん@お腹いっぱい。
04/09/07 16:51
指定文字列A 何か 指定文字列B
という何かにヒットさせるにはどういう正規表現にすればいいですか?

437:名無しさん@お腹いっぱい。
04/09/07 17:18
>>436
素で答えると「文字列A.*文字列B」だけど?そういう話?

もちろん文字列ABに特殊記号があったらどうするかとか、
.*は最長マッチでいいのとか、いろいろ細かい話はあるけど。

438:436
04/09/07 17:21
自分で、
(文字列A).*{2,15}(文字列B)
とかでやってみたんですが、
マッチするのが、
指定文字列A 何か 指定文字列B
がマッチしてしまうので…

何か の部分だけを抽出しようと思ってます。

439:名無しさん@お腹いっぱい。
04/09/07 17:55
後から取り出したい部分を()で囲む。(.*{2,15})みたいに。

440:436
04/09/08 01:37
>>439さんの方法でも結果が変わりませんでした… 処理系が違うからかな?

とりあえず諦めて、
指定文字列A 何か 指定文字列B
をマッチさせて、指定文字列A+1文字目から 何か の文字数だけ切り取ることにします。

ありがとうございました。

441:名無しさん@お腹いっぱい。
04/09/08 02:28
>>440
で、その処理系が何かを晒すつもりは毛頭無いわけですね?

442:名無しさん@お腹いっぱい。
04/09/08 10:13
>>441
ハゲには無理

443:436
04/09/08 11:58
何度もすいません。

C#です… 改めてやってみると>>439さんの方法でいけました。
group[1]に入ってたんですね。全体しか見てませんでした。

板違いにお騒がせしました。

444:名無しさん@お腹いっぱい。
04/09/10 00:33
Perlの場合、

$_ = "いっぱい";
s/い/お/;          # おっぱい
s/い/お/g;         # おっぱお

ということでおk?

445:名無しさん@お腹いっぱい。
04/09/10 02:41
  _  ∩
( ゚∀゚)彡 おっぱい!おっぱお!
 ⊂彡


446:名無しさん@お腹いっぱい。
04/09/10 15:00:12
小学生のころ流行ったネタ

447:名無しさん@お腹いっぱい。
04/09/27 06:28:21
性器表現

448:名無しさん@お腹いっぱい。
04/09/27 09:23:16
ワロテモータ

449:名無しさん@お腹いっぱい。
04/09/27 11:29:59
さんざん概出なのに・・・

450:
04/10/13 14:29:29



451:名無しさん@お腹いっぱい。
04/10/13 14:50:43
.*

452:ウサチャソ
04/10/29 21:49:31
↑アナルは性器じゃねーよな、とか思ってよく見ると、ドット米。
イボ痔か?

453:名無しさん@お腹いっぱい。
04/10/30 20:30:37
>>452
拭き忘れたウンチだよ。きっと!

454:名無しさん@お腹いっぱい。
04/11/10 15:37:24
regexp

455:名無しさん@お腹いっぱい。
04/11/26 21:14:34
rege*p

456:名無しさん@お腹いっぱい。
04/12/16 23:14:21
正規表現で複数の単語の中に「/」があるときにヒットさせたいんですが

echo "hoge / hoge" | grep "\</\>"

でだめでした・・。だれか修正をお願いしますorz


457:名無しさん@お腹いっぱい。
04/12/16 23:50:35
>>456
条件をもっと明確に定義しろ。
マルチすんな。

458:456
04/12/17 00:16:01
>>457

複数の単語の中で、"/"のみで構成される単語が存在する場合のみ
ヒットさせたいのです

つまり
a b c / d
上記ようなときで下記のどの事象にもヒットさせたくはないのです
// /a a/ a/a



459:名無しさん@お腹いっぱい。
04/12/17 01:22:18
>>456
スレリンク(linux板:957番)
とこっちと、どっちで続けるのかね。

460:名無しさん@お腹いっぱい。
04/12/17 11:17:13
まことに勝手ながらこちらで続けさせてください
質問を改めます
やりたいことは
-----------------------
1) echo "/" | grep ......
2) echo "/ a b" | grep ......
3) echo "a b /" | grep ......
4) echo "/a / b/" | grep ......
-----------------------
上ですべてマッチさせて
以下はすべてはじくようにしたいのです
-----------------------
5) echo "//" | grep ......
6) echo "// /// ////" | grep ......
7) echo "/a b/ /c/" | grep ......
-----------------------
上と下の違いは、前後にスペースを含む" / "が存在するか否かです

よって以下のように考えましたが、ヒットしませんでした
echo "a / b"|grep "\</\>"
echo "a / b"|grep "\<\/\>"

どなたか修正をおねがいしますorz


461:名無しさん@お腹いっぱい。
04/12/17 11:22:35
>>460
grep と言ってもいろいろあるんだが
どの OS のどの grep よ。

462:456
04/12/17 11:23:16
↑修正します

修正前)上と下の違いは、前後にスペースを含む" / "が存在するか否かです

修正後)上と下の違いは、単語 / が存在するか否かです

463:名無しさん@お腹いっぱい。
04/12/17 11:27:31
>>460
> 上と下の違いは、前後にスペースを含む" / "が存在するか否かです
1) と 2) には存在しないようだが。

464:名無しさん@お腹いっぱい。
04/12/17 11:28:10
>>462
「単語」とは?

465:名無しさん@お腹いっぱい。
04/12/18 00:00:37
ブラケットの中でピリオドを入れる時ってメタキャラクタとして扱われますか?

[\w.]

[\w\.]
が同じ動きにになるみたいなんですけど・・・。

ちなみに、パールです。


466:名無しさん@お腹いっぱい。
04/12/18 02:48:16
>>465
「みたい」じゃなくてテストコードで示してよ。

467:名無しさん@お腹いっぱい。
04/12/18 08:58:34
どの言語の正規表現がどんな有限オートマトン使ってるという情報って
どこかにありますかねぇ。正規表現コンバータ作ろうかと思ってるのですが。。

NFA、DFAの違いぐらいは詳説正規表現の本でわかるのですが、実装ともなると。
オートマトンの変換に関してはコンパイラの本を参考にしてますが、
やはりかなりつらいものがありますね。たんに字句解析して作った方がいいのかなぁ。

468:名無しさん@お腹いっぱい。
04/12/18 09:16:42
普通にNFA+DFAでいいじゃん

469:名無しさん@お腹いっぱい。
04/12/21 02:13:26
オブジェクト指向正規表現の仕様策定はまだですか?

470:名無しさん@お腹いっぱい。
04/12/21 14:44:45
>>469
聞いたことないな。
何それ?

471:名無しさん@お腹いっぱい。
04/12/21 19:26:19
>>469
まかせた。

472:名無しさん@お腹いっぱい。
04/12/22 19:35:55
お前らWinの.NETなんだが正規表現の質問をさせてくれ。

RegularExpressions.Regexで下の文字列を検索して<TD>から</TD>に分けたい。

string strHtml = "<TD>a</TD><TD>b</TD><TD>c</TD>"

Regex regex = Regex("<TD>.*</TD>");
MatchCollection matchcollection = regex.Matches(strHtml);

だと最長一致で "<TD>a</TD><TD>b</TD><TD>c</TD>"の1つのコレクション取得。

Regex regex = Regex("<TD>.*?</TD>");

だとやりたい "<TD>a</TD>", "<TD>b</TD>","<TD>c</TD>"の3つのコレクションが取得できる。

.*? の意味をアフォにも分かるように説明してくれ。
.*(任意の0文字以上)が?(あるかないか)だろ。
なんで思った通りに3つのコレクションが取得できるの?

473:472
04/12/22 19:38:29
*? つーのは最短一致という便利なキーワードなのか。
つまらん質問失礼しますた。

474:名無しさん@お腹いっぱい。
05/01/07 22:21:40
下がってるので、どれ一つ、とんちでも。
rubyでは
/aa+??/ =~ "a" => 0
emacsでは
"aa+??" =~ "a" => nil
さて、こうなってしまうのは、各々がどのようなオートマトンで
解釈されているからでしょうか。

475:名無しさん@お腹いっぱい。
05/01/08 07:36:53
emacsって最短マッチあんの?

476:名無しさん@お腹いっぱい。
05/01/08 11:15:48
ありましゅよー
URLリンク(www.cs.huji.ac.il)

でも、{m,n}? の最短マッチはないみたい…。

477:名無しさん@お腹いっぱい。
05/01/11 11:11:46
最短マッチに対応した grep ってある?

478:名無しさん@お腹いっぱい。
05/01/11 13:31:51
>>477
grep が最短マッチに対応してるかどうかが問題になるケースってある?

479:名無しさん@お腹いっぱい。
05/01/30 22:46:31
[^ま]*まってかくのめんどくさい

480:名無しさん@お腹いっぱい。
05/02/26 05:47:57
あげ

481:名無しさん@お腹いっぱい。
05/03/30 02:33:49
up

482:名無しさん@お腹いっぱい。
05/04/19 17:08:07
正規表現の実装っていろいろあることにやっと気づいた漏れorz

483:名無しさん@お腹いっぱい。
05/05/14 15:12:25
ほしゅ

484:名無しさん@お腹いっぱい。
05/05/16 16:51:45
abc xyzをaxbyczにしたいのですが

485:名無しさん@お腹いっぱい。
05/05/16 17:05:02
s/abc xyz/axbycz/g

486:名無しさん@お腹いっぱい。
05/05/16 19:33:57
ワロタ


487:名無しさん@お腹いっぱい。
05/05/16 19:34:25
保守

488:名無しさん@お腹いっぱい。
05/05/17 22:45:20
>>484
echo abc xyz |sed -e "s/^/%/; :ll; s/[%]\(.\)\(.*\) \(.\)\(.*\)/\1\3%\2 \4/; tll; s/%//;"

489:名無しさん@お腹いっぱい。
05/05/18 00:13:40
うひょー

490:名無しさん@お腹いっぱい。
05/05/28 03:19:18
うに厨として、% をめぐる動きに溜息出た…真剣にありがと 何重にも目が覚めた

491:名無しさん@お腹いっぱい。
05/05/28 05:32:41
abc xyz でも
abcdefg ABCDEFG でもできるね。すげーや。

492: ◆2fmGY.thDg
05/06/02 22:17:25
a

493:名無しさん@お腹いっぱい。
05/06/04 23:07:23
('A`)

494:名無しさん@お腹いっぱい。
05/06/19 02:53:08
Onigurumaを使っているんですが、
あるテキストデータがあります。
----- ここから
END

注釈 ○○○
注意 △△△
補足 ◎◎◎

TITLE
----- ここまで
という部分の、ENDの後の空白行からTITLEの前の空白行の部分(間の行)を削除して、
ENDとTITLEの間は1行だけの空白行にしたいです。
「END\s^[0-9a-zA-Z。-゜ぁ-んァ-ヶ亜-?]*\sTITLE」を指定してもマッチしないんですが、
これは私の正規表現の式が間違えているんでしょうか?
(複数行を1度に選択する方法を間違えている???)

495:名無しさん@お腹いっぱい。
05/06/19 03:13:31
>>494
つーか、正規表現だけ見せられても判断できないと思うんだけど。
改行処理や文字コードのオプション設定はどうしてるかとかいろいろ情報が足りない。

496:名無しさん@お腹いっぱい。
05/07/13 09:25:56
素直に、
~s/END(\s*.*?\s*)TITLE/END\n\nTITLE/sg;
じゃダメ?

497:名無しさん@お腹いっぱい。
05/07/13 13:15:24
>>496
Oniguruma の質問なわけだが?

498:名無しさん@お腹いっぱい。
05/07/13 17:54:26
…とは思ったのだが、Perl 互換らしーから、いーかなとw

てか、見つかるのむちゃくちゃ早いなww
事後ながら、oniguruma (ライブラリ)取りに行った

499:名無しさん@お腹いっぱい。
05/07/13 19:58:46
>>498
> 見つかるのむちゃくちゃ早いなww
どういうこと?


500:名無しさん@お腹いっぱい。
05/07/17 23:17:41
>494
> 「END\s^[0-9a-zA-Z。-゜ぁ-んァ-ヶ亜-?]*\sTITLE」を指定してもマッチしないんですが、
> これは私の正規表現の式が間違えているんでしょうか?
> (複数行を1度に選択する方法を間違えている???)

これのどこが、複数行を一度に選択しているの?


501:名無しさん@お腹いっぱい。
05/07/19 19:22:13
>>500
ONIG_OPTION_MULTILINE (や REG_NEWLINE や RE_OPTION_MULTILINE など) をセット
しているかどうかで複数行選択できるかどうか変わるので、
そのへんを晒せばもうちょっと状況がわかると思うのだが、
元質問者はもう既にどっかいっちゃったのだろうな。

502:名無しさん@お腹いっぱい。
05/09/21 20:57:28
正規表現で
○○ か ○○の場合と言うのはどう表現するのでしょうか?

Cで言う、 || のようなものです。

503:名無しさん@お腹いっぱい。
05/09/21 21:07:45
テンプレに何もないんだなこのスレ。
このあたりで調べろ

URLリンク(www.kt.rim.or.jp)

504:名無しさん@お腹いっぱい。
05/09/21 21:18:44
\(>∀<\) キャー

505:名無しさん@お腹いっぱい。
05/09/21 21:58:13
(;`∇´))))))))))) \(>∀<\) キャー

506:名無しさん@お腹いっぱい。
05/09/21 22:48:45
俺ならこう→「\(○{2}\) か \1の場合」

507:名無しさん@お腹いっぱい。
05/09/21 23:46:20
何気に正規表現本もラッシュだな。


508:名無しさん@お腹いっぱい。
05/09/22 00:19:11
\([^ ]∀[^ ]*\)

AAみたいな正規表現を作りたいが難しい。

509:名無しさん@お腹いっぱい。
05/09/22 02:52:41
つくれてるやん!

510:名無しさん@お腹いっぱい。
05/09/23 23:15:15
∀ がメタキャラになってくれると楽しいかも


511:名無しさん@お腹いっぱい。
05/09/26 20:32:51
дも

512:名無しさん@お腹いっぱい。
05/09/28 14:54:06
ネタキャラ


513:名無しさん@お腹いっぱい。
05/12/09 01:04:17
純粋に興味の問題なんだけど、
「ある文字集合の要素が各1回ずつしか出現しない」という文字列は
正規表現で表現できる?

例えばA, B, Cの文字からなる言語を考えたとすると、
ABC ACB BAC BCA CAB CBAの6つの文字列にマッチする表現っす。

514:名無しさん@お腹いっぱい。
05/12/09 01:08:23
文字集合の濃度が有限なら
単に | でつなげばいいな。

515:名無しさん@お腹いっぱい。
05/12/09 02:30:43
いろは歌とか"a quick brown fox..."みたいなのにマッチさせる正規表現、
って書けば説明が早かったかもですね。

>>514
ひらがなの場合で47!個、アルファベットの場合で26!個の文字列を
|でつなぐってことになると思うんですが、やはりこれしか方法ないんですかね。
正規表現の長さは… アルファベットの場合でも約1京テラバイトか… orz

516:名無しさん@お腹いっぱい。
05/12/09 09:42:38
>>513
[^A]*A[^A]* ではどうよ

517:名無しさん@お腹いっぱい。
05/12/09 09:53:24
>>516
BBA にもマッチしちゃうんでは。

518:名無しさん@お腹いっぱい。
05/12/09 09:57:44
>>515
> "a quick brown fox..."みたいなのに
o 2回出てるよ。

実用を考えたら正規表現以外でやった方がいいな。

519:名無しさん@お腹いっぱい。
05/12/09 19:50:27
いろは歌って内容も傑作だよな。

520:名無しさん@お腹いっぱい。
05/12/09 21:53:37
> o 2回出てるよ。

おお、32年生きてて初めて気が付いたっす。漏れの目はfusianasanさんだ… orz

> 実用を考えたら正規表現以外でやった方がいいな。

そうことになっちゃいますかね。みなさんレスどうもでした。

521:名無しさん@お腹いっぱい。
05/12/11 08:09:16
Windowsで正規表現にマッチする文字列のみ(行全体じゃなく)を表示・保存するにはどうすればいいのでしょうか?
xyzzyとかのエディタのgrepでやろうとしたのですが、検索してもよくわかりません。
Rubyとかスクリプト言語を使わないと無理でしょうか?


522:名無しさん@お腹いっぱい。
05/12/11 08:13:57
上すいません。書きこむスレ間違えました。(プログラム板の正規表現スレに書きこんだつもりでした。)

523:名無しさん@お腹いっぱい。
05/12/11 11:19:25
ちょうど一回出るんなら何かの順序でソートして文字列が完全一致することをチェックかなあ

524:名無しさん@お腹いっぱい。
06/01/01 11:16:33
エディターの正規表現で置き換えをしたいんですが・・・
1、2、3、・・・という連番を
(1) (2) (3)というふうに置き換えたいのですが
どうしたらよいでしょうか。

525:名無しさん@お腹いっぱい。
06/01/01 11:57:28
まずは(ry

526:名無しさん@お腹いっぱい。
06/01/01 12:39:56
置換元:[1-9]
置換先:(\0)
で、できるかもよ。

527:名無しさん@お腹いっぱい。
06/01/01 17:30:57
>>526
だめでした。


528:名無しさん@お腹いっぱい。
06/01/01 19:50:58
置換元:[1-9][0-9]*
置換先:\(\0\)
こんな風にすればできるのかな?
どんな風に駄目だったかわからないけれど。

529:名無しさん@お腹いっぱい。
06/01/01 20:02:16
>>528
それもやってみましたが、検索はされるのですが、
置き換えが出来ません。(0)となってしまいます。
前回のは(となってしまいます。
エディターだから駄目なのでしょうか。


530:名無しさん@お腹いっぱい。
06/01/01 20:09:51
\0のところを、
\1
$1
にしても同じかな?

531:名無しさん@お腹いっぱい。
06/01/01 20:13:18
>>530
($1)となってしまいます。


532:名無しさん@お腹いっぱい。
06/01/01 20:17:25
そのエディタの正規表現がreference(\1とか$1とか)をサポートしてないに1票。

533:名無しさん@お腹いっぱい。
06/01/01 21:27:04
!(^^)!ピンポーンです。
ヘルプを見ていたら、referenceはサポートしていないと出ていました。
他のエディターを探すか、どうしたらいいでしょうか。


534:名無しさん@お腹いっぱい。
06/01/01 23:17:07
続きです
結局QXエディタをダウンロードして使いました。
びっくりしたのはWindows上では
正規表現というのは全然一般的ではないんですね。
勉強しようにも正規表現サポート自体が脆弱だったんですね。


535: 【大凶】 3回目
06/01/01 23:32:29
ググればなんぼでも出てきます。少し自分で考えなはれ。

536:名無しさん@お腹いっぱい。
06/01/03 22:49:27
まあやることがハッキリ決まってるんなら、
(念の為)対象ファイルのカレントディレクトリのDOS窓を開いてsed、だな。

537:名無しさん@お腹いっぱい。
06/01/07 07:00:27

{aaa}[bbb}{ccc}
という文字列から、aaa bbb cccをそれぞれマッチさせてとりだしたいので、

/¥{(.*)¥}¥{(.*)¥}¥{(.*)¥}/

としていましたが、
とりだしたい文字列のなかに、さらに{}がはいっていることがあることが
わかりました。
{aaa}[b{b}b}{ccc}
とか。
それぞれaaa b{b}b cccというかたちでとりだしたいのですが、どうしたものでしょうか。


538:名無しさん@お腹いっぱい。
06/01/07 10:07:50
>>537
sedはそのままでok

539:名無しさん@お腹いっぱい。
06/01/07 14:56:41
グループ化用のカッコにエスケープが必要だからsed「では」ダメじゃないの?
Perlならエスケープ不要なので大丈夫。

ところで>>537はテクニシャンだな。
navi2chで円マーク(¥じゃないほう)を表示させやがって…

540:名無しさん@お腹いっぱい。
06/01/07 15:36:35
>>539
ヒント:}{

541:名無しさん@お腹いっぱい。
06/01/07 15:46:46
いや、それは分かってるつもりだけど。
sedだと例えば{(aaa)}{(bbb)}{(ccc)}にマッチしちゃいますよってこと。

542:名無しさん@お腹いっぱい。
06/01/07 17:31:15
>>541
じゃあ不必要な{}()を最初にスペースに変換してからマッチさせたら

543:名無しさん@お腹いっぱい。
06/01/07 18:58:38
そんな必要ない。sedでも>>537のカッコをすべてエスケープすれば良い。
>>538の「sedは」というのが余分だっただけ。

544:名無しさん@お腹いっぱい。
06/01/12 05:55:00
郵便番号をPHPで「1234567」から「123-4567」へ整形する正規表現を教えて下さい。

545:名無しさん@お腹いっぱい。
06/01/12 11:06:51
>>544
【PHP】質問スレッドpart32【php】
スレリンク(php板)

546:名無しさん@お腹いっぱい。
06/01/13 16:59:36
すいません。
--------------------------------
#hogehoge
fugafuga 1
--------------------------------
という風に行頭が#じゃないというのを正規表現で取得したいのですが
「ではない」というのが分かりません。
bashを用いております。
以上 ご助力をお願いいたします。

547:名無しさん@お腹いっぱい。
06/01/13 20:50:59
>>546
grep -v '^#'

548:名無しさん@お腹いっぱい。
06/01/13 21:08:39
>>546
grep '^[^#]'


549:名無しさん@お腹いっぱい。
06/01/13 21:29:57
いつも思うけど、
[^#] 形式だと文字が存在してないときも除外してしまうので
面倒なことあるよね。
ディレクトリリストから
.
..
を除外しようと
[^.][^.].*
を使って一文字のファイル見逃すとか。

550:名無しさん@お腹いっぱい。
06/01/13 21:47:30
>>549
その方が便利なこともある。

551:544
06/01/16 17:54:29
ご教授ありがとうございます。
本当に助かりましたっ

552:名無しさん@お腹いっぱい。
06/01/22 02:37:32
正規表現の正規表現ってどうかきますか?
ある値が正規表現の構文に沿っているかどうかを調べたいとき。

553:名無しさん@お腹いっぱい。
06/01/22 02:48:16
入れ子があるから正規表現にはならない。
BNFを書けば3型文法に属さないこと分かるでしょ。

554:名無しさん@お腹いっぱい。
06/01/26 11:22:53
いきなりすんません
2ちゃんねるブラウザ Jane Doe Style で正規表現検索を使おうとしたけど、書き方がいまいち分かりません。
F900i という文字列だけを検索して F900is や F900iT はヒットさせないようにするには、どう書けば良いですか
ぐぐってもいまいちわからないので。。。。

555:名無しさん@お腹いっぱい。
06/01/26 11:25:48
板違い。

556:名無しさん@お腹いっぱい。
06/01/26 11:32:56
スマンです。でもスレタイ検索してもほかに質問できそうな場所なかったんけどだめですか。

UNIX 085 正規表現 (553)
プログラム 408 正規表現part2 (102)
プログラマー 283 【Regular】正規表現【Expression】 (36)

557:名無しさん@お腹いっぱい。
06/01/26 11:36:10
板違い。

558:名無しさん@お腹いっぱい。
06/01/26 11:49:12


559:名無しさん@お腹いっぱい。
06/01/26 13:16:13
>>554
Jane Doe Style とやらがどんな正規表現エンジンを使っているかにも
激しく依存する話なので、
まずはそのソフトのスレで聞いてみた方が良いと思う。

560:名無しさん@お腹いっぱい。
06/04/15 16:30:37
(・∀・)

561:名無しさん@お腹いっぱい。
06/04/18 03:51:57
onigruma... 気になる。名前が怖い。

562:名無しさん@お腹いっぱい。
06/04/18 09:54:32
nekoguruma だったら弱そうだしな

563:名無しさん@お腹いっぱい。
06/05/02 22:56:16
>>562
いろいろ運べそうじゃないか

564:名無しさん@お腹いっぱい。
06/05/29 20:29:06
正規表現厨には
grep --color


565:名無しさん@お腹いっぱい。
06/05/31 19:33:06
勉強ついでに554を考えてみた。精度に難がありそうですが、以下でどうだろう?

[^A-Zz-z0-9]*F900i[^A-Za-z0-9]*


566:成瀬 ◆NBGqNARUSE
06/06/16 03:35:29
>>565
最低限試そう。"F900iS"=~/[^A-Zz-z0-9]*F900i[^A-Za-z0-9]*/ はマッチする。
ヒント: \W \b 否定先読み

567:名無しさん@お腹いっぱい。
06/07/25 12:40:49
...
Doll ←ここから
\=\-\--\-``--`\=`-==\
\=-\=-\``\==`=`--`-=-

Egg
-=-\-=-\-\=-=--\=-=-=\
-=-\-=-=\=-=\=-=-\-=\- ←ここまで

Fruits
...

のときDoll~Eggの項目まで抽出するにはどうしたらいいですか?
/Doll/,/Fruits/ でおおまかには抽出できるけどもっと正確に抽出したいのです

568:名無しさん@お腹いっぱい。
06/08/09 21:11:53
『詳説 正規表現 第3版』 が今月発売されるね。
邦訳版の出版は知らんけど。

569:名無しさん@お腹いっぱい。
06/08/10 13:32:24
情報サンクス。
けど、洋書なら原書のタイトル表記でよろしく。
早とちりして必死で oreilly.co.jp と amazon.co.jp 探しちゃったよー。(←あほ)

570:名無しさん@お腹いっぱい。
06/08/10 21:53:00
>>569
URLリンク(www.oreilly.com)

わざわざ、邦訳版の出版は知らんって書いたのになw

571:名無しさん@お腹いっぱい。
06/08/18 16:48:08
URLリンク(oraclesqlpuzzle.hp.infoseek.co.jp)
正規表現の問題集らしい

572:名無しさん@お腹いっぱい。
06/08/18 17:01:57
>>568
作者宣伝乙、
というのは冗談で、情報ありがと。
日本語版はいつ出るんだろ。

573:名無しさん@お腹いっぱい。
06/08/23 13:58:51
立ち読みとか読んだうちに入らんと思われた。

574:名無しさん@お腹いっぱい。
06/08/23 17:31:35
>>177
URLリンク(oraclesqlpuzzle.hp.infoseek.co.jp)
こんなのもあるみたいやね

575:名無しさん@お腹いっぱい。
06/10/05 15:46:12
age

576:名無しさん@お腹いっぱい。
06/10/16 10:51:27
ageとくか

577:名無しさん@お腹いっぱい。
06/10/17 01:00:23
質問させてください。

正規表現を用いたgrepをするときに、
文字列"foo"を含まない全ての行にマッチさせるためには
どのように書けばよいのでしょうか。

578:名無しさん@お腹いっぱい。
06/10/17 01:13:12
-v

579:名無しさん@お腹いっぱい。
06/10/17 08:26:14
man に書いてあるよ。

580:名無しさん@お腹いっぱい。
06/10/17 08:26:50
-v オプションを使わずに、正規表現上で「文字列"foo"を含まない」を表す方法を
聞いているんじゃないだろうか?

581:名無しさん@お腹いっぱい。
06/10/17 09:48:51
(?!foo)

582:名無しさん@お腹いっぱい。
06/10/17 11:12:35
>>581
今はgrepでの話をしてんだろ。

583:名無しさん@お腹いっぱい。
06/10/17 13:02:02
>>577
否定先読み

584:名無しさん@お腹いっぱい。
06/10/17 13:37:52
>>583
正規表現でできるものか!
先読み、後読み共に否定は貧弱

585:名無しさん@お腹いっぱい。
06/10/17 18:14:48
「一致しない」はあらゆる箇所にマッチするからね
行単位の処理とは基本的に相容れないし

正規表現でなく、-vのようなメタレベルで対処するのが正解
sedとかでもいいな

586:名無しさん@お腹いっぱい。
06/10/17 19:17:42
>>585
なんで、.*?(?!xxx) を、xxxが一切含まない行、と解釈してくれないんですかね?

587:名無しさん@お腹いっぱい。
06/10/17 19:55:43
論理的に考えてみればわかるよ

588:名無しさん@お腹いっぱい。
06/10/18 09:59:12
>>587
欲張りマッチだから、xxxが見つかった段階で一文字戻ってマッチにしちゃう?

589:名無しさん@お腹いっぱい。
06/10/18 11:10:22
>>586
解釈するわけがない

590:名無しさん@お腹いっぱい。
06/10/20 10:45:16
^(?!.*foo)
でできるだろ

スレリンク(tech板)l100
の1のサイトをよく読め

591:名無しさん@お腹いっぱい。
06/10/24 10:00:30
正規表現でできることの仕様ってずっとこのままなんですかね。
括弧の対を考慮した表現とかって簡単にならないかな。

592:名無しさん@お腹いっぱい。
06/10/24 11:17:38
処理系ごとに拡張してあったりするじゃん。

593:名無しさん@お腹いっぱい。
06/10/24 11:28:08
hp-uxのgrep糞だなw
\< \>が使えん。


594:名無しさん@お腹いっぱい。
06/10/24 12:07:18
grepツールで、htmlのコメント内を検索対象からはずしてgrepできるツールありますか?
コメントで死ぬほど引っかかって苦労してます。
複数行コメント中の真ん中ぐらいの行に引っかかっても、先頭に<!--がないから
普通のgrepツールだときびしいです。

595:名無しさん@お腹いっぱい。
06/10/24 12:13:02
sedしかないだろ。


596:名無しさん@お腹いっぱい。
06/10/24 12:24:01
-- の対応まで見ようとするとつらそうだ。

597:名無しさん@お腹いっぱい。
06/10/24 21:37:54
複数行になると途端にわけわからんくなるな・・・。

598:名無しさん@お腹いっぱい。
06/10/26 05:24:59
改行位置を変換する前処理をしてからやるとか

599:名無しさん@お腹いっぱい。
06/10/26 11:38:24
コメントを
s/<!(?:--[^-]*-(?:[^-]+-)*?-(?:[^>-]*(?:-[^>-]+)*?)??)*(?:>|$(?!\n)|--.*$)//g
で取り除いてからgrepすればいいんじゃね?

600:名無しさん@お腹いっぱい。
06/11/03 14:20:22
マルチで済まない。

同じ文字が3文字連続していたら表示したいのだが

601:名無しさん@お腹いっぱい。
06/11/03 15:02:08
>>599
>s/<!(?:--[^-]*-(?:[^-]+-)*?-(?:[^>-]*(?:-[^>-]+)*?)??)*(?:>|$(?!\n)|--.*$)//g
この部分はsed?
だったら、その後もgrepなんかせずに、sedだけで完結すればいいじゃん。
awkでも同じく。


602:<sage>
06/11/10 19:30:45
教えて下さい。

ダブルクオートで囲まれていない、コンマだけを置き換えたいのですが、
正規表現では、どうあらわせばいいのでしょうか?

例:
"aaa, bbb" xxxx, "ccc, ddd" yyyyyy

xxxx, <- このコンマを -> xxxx; とセミコロンにしたいです。

よろ

603:名無しさん@お腹いっぱい。
06/11/13 23:01:55
>>602
スレリンク(tech板)l100
のリンク先嫁


604:<sage>
06/11/14 15:35:11
>> 603
そのページのどこを読めと?

605:名無しさん@お腹いっぱい。
06/11/22 14:36:47
>>604
ほぼ全部
雑魚には無理な正規表現ってこった

606:名無しさん@お腹いっぱい。
06/11/22 20:49:29
氏ね

607:名無しさん@お腹いっぱい。
06/11/26 13:47:54
>>602

◆関連サイト
正規表現メモ
URLリンク(www.kt.rim.or.jp)
Perl正規表現雑技
URLリンク(www.din.or.jp)
Regular Expression(Riue ちゃんの正規表現講座)
URLリンク(www.sixnine.net)
正規表現パズル
URLリンク(oraclesqlpuzzle.hp.infoseek.co.jp)
詳説 正規表現
URLリンク(www.oreilly.co.jp)
正規表現プログラミングFAQ
URLリンク(capslockabcjp.kitunebi.com)

これだけ読めば解決できるが
池沼には無理

608:名無しさん@お腹いっぱい。
06/12/04 14:18:49
アルファベットの文字で構成されるが、「d」は入らない、を
[a-ce-z]以外の書き方で表現する方法はないですか?

もちろん↓はエラーだけど、こんな漢字で書ければいいのだけれど。

[a-z][^c]

609:名無しさん@お腹いっぱい。
06/12/04 19:22:18
a|b|c|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z

610:名無しさん@お腹いっぱい。
06/12/04 22:02:59
>>608
javaならできる

611:名無しさん@お腹いっぱい。
06/12/04 22:08:51
d|i|g|i|t|a|l


612:名無しさん@お腹いっぱい。
06/12/05 09:35:00
>>610
どうやるんだべさ?

613:名無しさん@お腹いっぱい。
06/12/06 02:45:07
>>612
[[a-z]&&[^d]]
こんな感じだったと思う。


614:名無しさん@お腹いっぱい。
06/12/06 09:44:34
>>613
うぉぉぉぉぉぉぉぉぉぉぉぉぉぉぉぉぉ~、すげぇ~。できました!
javaだとこんなのができるのか!
もちろん正規表現標準じゃないので、perlとか秀丸正規表現ではできないかぁ・・・

javaならではの裏技って他に何かあるんですかね?

615:名無しさん@お腹いっぱい。
06/12/06 12:20:30
>>614
うぉ++


616:名無しさん@お腹いっぱい。
06/12/06 12:23:51
タイプ数増えてるのは問題ないのかw

617:615
06/12/06 12:51:07
>>614
わざわざjavaで試した行動力に感服

強欲マッチといわれる615もためしてみるといい

618:名無しさん@お腹いっぱい。
06/12/06 13:11:31
java使う人ならタイプ数が増えることが問なさそう

619:名無しさん@お腹いっぱい。
06/12/06 14:12:54
>>615
うぉ+でいいんじゃないの?なんか違うの?

620:名無しさん@お腹いっぱい。
06/12/06 17:58:50
(+_+;)

621:名無しさん@お腹いっぱい。
06/12/07 02:56:32
>>619

違うよ。++が付いたほうはバックトラックしない。
Perlの (?> ...) と同じ。


622:名無しさん@お腹いっぱい。
06/12/16 17:28:28
1~1000
までの数字から始まって最後が
C]
で終わる正規表現を教えて下さい
m(_ _)m

623:名無しさん@お腹いっぱい。
06/12/16 17:45:19
^[0-9]\{1,4\}[^0-9]*C]$
かな?


624:名無しさん@お腹いっぱい。
06/12/16 17:55:45
>>623
駄目でしたorz
正規表現の勉強してきます。
有難うございましたm(_ _)m

625:名無しさん@お腹いっぱい。
06/12/16 19:58:43
^([1-9][0-9]\{0,2\}|1000)[^0-9]*C]$
こうか?


626:名無しさん@お腹いっぱい。
06/12/17 00:31:38
タイトル:文字列 の文字列の部分だけを取り出したいのですが、
どのような正規表現にすれば良いのでしょうか?
よろしければ、ご教授を願います。


627:名無しさん@お腹いっぱい。
06/12/17 00:34:12
いろいろ出ているようだけど
[0-9].*C]
ではダメな理由がわからない

628:名無しさん@お腹いっぱい。
06/12/17 00:52:14
>>626
文..

629:名無しさん@お腹いっぱい。
06/12/17 07:34:54
>>627
全然ダメ

0000C
がヒットする


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch