正規表現at UNIX
正規表現 - 暇つぶし2ch100:山崎渉
03/04/17 12:30.net
(^^)

101:あぼーん
あぼーん.net
あぼーん

102:名無しさん@お腹いっぱい。
03/04/22 15:32.net
『詳説 正規表現 第2版』
ISBN4-87311-130-7
本体価格5,400円

が5月に

103:あぼーん
あぼーん.net
あぼーん

104:名無しさん@お腹いっぱい。
03/04/22 23:53.net
>>101
おっ。
ソースどこ?

105:名無しさん@お腹いっぱい。
03/04/23 00:54.net
定義うんぬんよりも、便利な方がいい。

というわけで、

(?# (?: (?= (?! (?<= (?<! (?> (?()

106:名無しさん@お腹いっぱい。
03/04/23 16:36.net
>>103
オライリーのメルマガ

107:名無しさん@お腹いっぱい。
03/04/24 11:01.net
正規表現(regular expression)の名前の由来はなに?
regularをなぜ正規と略したんだろう?
「正式にきめられていること。正式の規定」という意味の正規では
幾分意味不明なんじゃないだろうか?
むしろregular verb(規則動詞)の意味のregularと捉えるべきで、
「規則表現(法or式)」とでもした方が文字列の規則性を規則的に表現するもの
という意味でより素直で的確なんじゃないだろうか。
ここにはnormal distributionを正規分布と略し日本語としては
意味不明にしてしまったのと同様のセンスの無さが感じられる。

108:名無しさん@お腹いっぱい。
03/04/24 11:51.net
「function」を「関数」と訳すアフォといっしょだろ。


109:名無しさん@お腹いっぱい。
03/04/24 11:54.net
regular に合うような日本語単語を考えると
正規、正則、規則、規律、規則的、整然、合式、本格的、定常、完全、定例
などが挙げられる。
正規に違和感を感じるのは同意。
ただし、規則だと regular より rule の方を感じる。

regular expression を長々と訳すならばオレテキには
規則正しい表現法
となるが、あとはそれをどのように短くするかだ。
正規表現には違和感あるが
規則表現にはさらに違和感ある。
規則正しい生活を規則生活と省略するのに似ている。


110:あぼーん
あぼーん.net
あぼーん

111:名無しさん@お腹いっぱい。
03/04/24 13:46.net
わたしは特に違和感ない。

複数の体系の共通項的要素を抽出して、どれをもあつかえる
単一の体系にまとめることをCS的に正規化というでは?

112:名無しさん@お腹いっぱい。
03/04/24 13:57.net
正則表現といわれたほうがシックリするわ。

113:名無しさん@お腹いっぱい。
03/04/24 14:15.net
>>107
「函数」が正解、という主張ならそれは翻訳の問題ではなく
日本の戦後国語教育の問題なわけだが

114:107
03/04/24 14:55.net
>>112
> 「函数」が正解、という主張なら
違う。


115:名無しさん@お腹いっぱい。
03/04/24 15:38.net
>>113
それならそれで108なみ詳細な解説きぼんぬ

116:113
03/04/24 17:11.net
>>114
> それならそれで108なみ詳細な解説きぼんぬ
どきっ!!
い、いやぁ、「function」は普通に訳したら「機能」じゃないかなぁ~、
なんて思うので。
なんで、「関数」になったのか疑問なので。
やっぱり、かっこいいからかなぁ。


117:名無しさん@お腹いっぱい。
03/04/24 18:10.net
数学方面なら「正則」とするところなのに、情報数学方面では「正規」の方が
定着しているということなのか?

>>115
数学で既に訳語があったからという単純な話なんでは。函数→関数の
書き換えはまた別の話だが。古い先生だと「関数」の表記を絶対使わない人
もいるね。自分も函数の方がいいと思う

118:名無しさん@お腹いっぱい。
03/04/24 18:38.net
中国語が英語から「function」という英単語を輸入するとき
それを「函数」と翻訳した。
函は中国語で「ファン」と発音し「function」の「ファン」に似ているところからきている。
そのあと日本は中国から「函数」という言葉を漢字で記述された文字として輸入した。
そして「函」を「カン」と発音した。
戦後の日本の教育において「函」が教育仕様内の標準的漢字から外れるという理由から
およそ同義で同音の「関」に置き換えられた。

すなわち「function」の「fun」を元にしてその部分は
以下の経緯で「関」に変わった。
英語の「fun」
↓発音の類似性から
中国語の「函」(ファン)
↓同じ文字
日本語の「函」(カン)
↓発音の類似性から
日本語の「関」(カン)

こういう改変に次ぐ改変で「関数」という言葉が生まれた。
もはや「関数」という言葉にはそう表現する適切な理由がない。
情報系の技術屋なら「function」ないし「ファンクション」
と表現すれば良いのだ。どうしても漢字で書きたければ「機能」で良し。
「関数」だなんていい加減な言葉を使うなら
「class」を「学級」とでも表現してくれた方がまだましと言えよう。


119:名無しさん@お腹いっぱい。
03/04/24 19:37.net
函(はこ)の数と意味も掛けてあるから、やはり捨て難い訳ではある

120:名無しさん@お腹いっぱい。
03/04/24 21:06.net
>>118
classは「級」でいいはずだけど、「きゅう」ではみじかすぎて
わからんからそのまま「くらす」。

121:名無しさん@お腹いっぱい。
03/04/24 23:01.net
くらす、きさん!!

122:名無しさん@お腹いっぱい。
03/04/24 23:41.net
もう「関数」で慣れちゃってるからなぁ。
「機能」と訳したところで
意味がわかりやすくなるわけでもないし。

「正規表現」にしても「関数」にしても
おれにとってはある概念に対するラベルでしかない。

123:名無しさん@お腹いっぱい。
03/04/25 00:41.net
「関数」は一つの名詞なので、
一旦覚えてしまえば
「関数」という訳について不自然さは感じにくい。

でも「正規表現」は「正規」と「表現」の複合語であるから、
正規な表現? という意味不明さはいつまでも残る。

124:名無しさん@お腹いっぱい。
03/04/25 00:43.net
"regular expression" というからには
regular じゃない expression もあるんでしょうか?
たとえばどんなのですか?


125:名無しさん@お腹いっぱい。
03/04/25 08:08.net
>>123
fgrepに書く検索パターン

126:名無しさん@お腹いっぱい。
03/04/25 11:26.net
>>115
プログラミング用語での function は単なる「機能」ではなく、
数学的な(値を返す) function としてのニュアンスが込められているんじゃ
ないのかなあ?

関数型言語ではいうに及ばず、FORTRAN とかでもそんな感じだし、
C だってもともと void 型なんてないし。

# 正規表現と関係ないので sage


127:名無しさん@お腹いっぱい。
03/04/25 11:34.net
「機能」も造語っぽくない?
明治あたりの。

128:名無しさん@お腹いっぱい。
03/04/25 14:00.net
関数が函数の書き換えだと知ったとき、小学校の算数の時間で関数の
説明に「ブラックボックス」という言葉を使っていたのを思い出した。
この書き換えは最悪だと思ったな。

しかし、いくら原語が同じだとしても、関数と機能は日本語としては完全に
別物になってしまっている。function key の function は、やはり「機能」の
意味でないと落ち着かない。

>>122
「正則」は、ほとんど術語としてでしか使われることがないけど、「正規」は
普通の文章でも使われるからね。「正規」と「表現」の結び付きが強くなって
しまう。

129:名無しさん@お腹いっぱい。
03/04/25 14:00.net
expression にしても、「式」とも訳される場合もあって悩ましいことこの上なし

130:名無しさん@お腹いっぱい。
03/04/25 15:18.net
じつは日本語って、語彙が豊富?
まぁ、ほとんど訳語だけど。。。


131:名無しさん@お腹いっぱい。
03/04/25 16:19.net
>>127
> function key の function は、やはり「機能」の意味でないと落ち着かない。

それは「function key」を「関数キー」と読んでる人に言ってくれ。いるのか?

Google で検索しても 163 件しかない上に、関数電卓の「関数キー」
(sin 関数のキーとか) だの「ハッシュ関数のキー」だのばっかりなのだが。


132:名無しさん@お腹いっぱい。
03/04/25 21:24.net
「ファンクションキー」と言ってるのしか聞いたことがないが、この「ファンクション」
は「機能」の意味でないと落ち着かないと言ってるだけだ

133:名無しさん@お腹いっぱい。
03/04/25 22:31.net
>>129
自国語で数学的概念を表現できる国は少ないほうだと思われ。
微分、積分、階乗、無理数、有理数、etc...
functionに対する訳で機能と函数で揉めるのは贅沢なことなんじゃないのかなぁ……
ていうか、算数、数学の教科書が日本語だけで完結できること自体、
ほかの国から見ると不思議なことなんじゃないの?

134:名無しさん@お腹いっぱい。
03/04/26 01:12.net
何の話をしてるんだか・・・

135:名無しさん@お腹いっぱい。
03/04/26 01:48.net
では、日本における性器表現についてどうぞ


136:名無しさん@お腹いっぱい。
03/04/26 02:04.net
[まち]んこ

137:名無しさん@お腹いっぱい。
03/04/26 05:40.net
\(藁田\|ワ[ロラ]タ\)

138:名無しさん@お腹いっぱい。
03/04/26 13:48.net
>>135 >>136
こういう日本語の正規表現の使える実装にはどんなのがありますか?

Ruby, 鬼車, jperl, xyzzy, Emacs, あたりは使えると思うけど、ほかには?

139:名無しさん@Vim%Chalice
03/04/26 13:59.net
Vim

140:名無しさん@お腹いっぱい。
03/04/26 18:15.net
perlとかなら
/(ma|chi)nko/i
みたいに i オプションつけることで
大文字小文字を同一視してくれる機能が一般的に普及してますね。
grepとか大抵の性器表現できるツールにはあるみたい。

そこでほしいのが平仮名片仮名同一視。
/[まち][んむ]こ/i
とすれば「マむコ」にも「チンこ」にもマッチしてほしいわけ。
そういう機能がついた性器表現ってどういうツールにございますか?
あと
/ベートーヴェン/i
で検索したら
「ベートーベン」や「べえとおべん」にもマッチしてくれる
ようなのもあるものでしょうか?


141:名無しさん@お腹いっぱい。
03/04/26 18:53.net
>>139
後者は正規表現の範疇ではないような。
前者はあってもよさそうだね。

142:名無しさん@お腹いっぱい。
03/04/26 19:16.net
文字クラスの拡張でしょうか

143:名無しさん@お腹いっぱい。
03/04/26 20:15.net
>>141
日本語用文字クラスってわけね。
しかしそんな日本でしか使えないもんはツールで対応すべきだな。

>>139
>/ベートーヴェン/i
>で検索したら
>「ベートーベン」や「べえとおべん」にもマッチしてくれる

こんなん正規でも正則でもない非正規表現だ。
>>139は正規表現使うのやめた方が幸せになれそうだよ。

144:名無しさん@お腹いっぱい。
03/04/26 20:25.net
>>139 Migemoの辞書をカスタマイズすればできるようになるよ

145:名無しさん@お腹いっぱい。
03/04/26 21:25.net
>>143
そういう問題じゃなかろう・・・

146:名無しさん@お腹いっぱい。
03/04/26 21:27.net
日本語正規表現の使える実装は Ruby, 鬼車, jperl, xyzzy, Emacs, Vim で全てですね?

147:名無しさん@お腹いっぱい。
03/04/26 22:05.net
>>145
いいえ。

148:名無しさん@お腹いっぱい。
03/04/27 02:24.net
文字クラスとか自分で設定できる正規表現みたいなのが
あればいいんじゃないの。
どうせ perl だって場あたり的に好きなように拡張してるんだから。


149:名無しさん@悩み中
03/04/28 05:24.net
sed ですが、
[[:xdigit:]]\{2\} にマッチする文字列のなかで、
\(61\|75\|6f\) にマッチしないようなものを指定したいとき
どないすればよろしい?


150:148
03/04/28 05:37.net
やっぱり、先に \(61\|75\|6f\) にマッチする奴を退避しておいてから、
[[:xdigit:]]\{2\} にマッチするやつを指定するしかないんかな…


151:名無しさん@お腹いっぱい。
03/04/29 02:16.net
誰か、正規表現だけで会話するスレ作ってくれ。


152:名無しさん@お腹いっぱい。
03/04/29 03:26.net
/いったい何を会話するというのだ/

153:名無しさん@お腹いっぱい。
03/04/29 04:09.net
>>150
それこそ言いだしっぺの法則だろ。正規表現だけで会話したい >>150 が立てれ。

154:名無しさん@お腹いっぱい。
03/04/29 09:51.net
駄スレ立てんな。

155:名無しさん@Meadow
03/04/30 10:51.net
>>153

$mes153 =~ s/。//;
reverse(split(//, $mes153));
わかた?
結果は、「なんてつたレスだ」




156:名無しさん@お腹いっぱい。
03/04/30 11:12.net
>>154
こうなりますた。
$ perl -e 'quotemeta($var='駄スレ立てんな。'); print reverse(split(//,$var));'
B∧んてぉ洛スμ・


157:名無しさん@お腹いっぱい。
03/04/30 11:29.net
>>150

名スレの予感

158:名無しさん@Meadow
03/04/30 14:53.net
>>155

jperlじゃないとだめですね。perl用もかきますた。

($var='駄スレ立てんな。') =~ s/立(.+)。/たつ$1/;
while ($var) {
if ($var =~ s/^[\xA1-\xFE][\xA1-\xFE]// or $var =~ s/^.//) {
push(@str, $&);
$var = $';
}
}
print reverse(@str), "\n";


159:名無しさん@お腹いっぱい。
03/04/30 15:47.net
>>156
2chですから、性器表現とこれを用いた強制痴漢ならあちこちに。

160:名無しさん@お腹いっぱい。
03/04/30 21:21.net
\hなのはいけないと思います!

161:名無しさん@お腹いっぱい。
03/04/30 23:49.net
\SM(?:性器拡張(?!器具))

162:名無しさん@Meadow
03/05/01 15:28.net
>>157
何やってんだろな、漏れ。
($var='駄スレ立てんな。') =~ s/立(.+)。/たつ$1/;
while ($var =~ s/^[\xA1-\xFE][\xA1-\xFE]// or $var =~ s/^.//) {
 push(@str, $&);
}
print reverse(@str), "\n";
で十分�


163:セった。この全角文字対応の正規表現は、euc-jpの奴ね。 でもさ、やっぱ正規表現で会話するってむずいよ。>>150よ。



164:名無しさん@お腹いっぱい。
03/05/01 21:39.net
print while s//>>161普通過ぎてつまらん/;

165:名無しさん@お腹いっぱい。
03/05/01 21:48.net
>>161
それは正規表現ではなく perl script というのではないだろうか。

166:名無しさん@お腹いっぱい。
03/05/01 21:50.net
>>163の的確すぎるツッコミに藁。


167:名無しさん@お腹いっぱい。
03/05/01 21:59.net
>>1-164
これら全てが正規表現であることは自明なのであります。

168:名無しさん@お腹いっぱい。
03/05/02 08:30.net
Perl正規表現の質問です。

Ascii文字コードは、アルファベット大文字→ちょこっと記号類→アルファベッ
ト小文字の順に並んでるですが、以下のようになるのはなぜですか。なぜ、ア
ルファベット大文字しか出てこない?

$ perl -e 'for(A .. z) {print $_, ", ";}'
A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z,


169:名無しさん@お腹いっぱい。
03/05/02 11:26.net
>>166

駱駝本(第二版)の p.103 の脚注 *32 に、

> もし指定された最終値が、マジックによる増加によっては生成できない
> ような値なら、最終値のケタ数を超えない範囲で値を生成する。

と書いてあるけど、違う?


170:名無しさん@Meadow
03/05/02 14:27.net
>>167ありがとん。
>マジックによる増加によっては生成できない

というのが分からなかったので、駱駝本(第3版)引いたら、「マジックイン
クリメント:普通の数値と同じようにして、英数字からなる文字列の値に「1
を加える」方法を知っているインクリメント演算子のこと。」だって。Aは、
16進数で41、Zは、5A。5B以下60までは、[、\, ], ^, _, `で、61から小文字。
一つずつインクリメントされて並んでいるが、できないところを見ると、「英
数字からなる文字列」だけをサポートしている演算子なんだね。

第2版の103ページにあたる121ページあたりにも、A .. Zやa .. zの例はある
けど、A .. zはない。


171:名無しさん@お腹いっぱい。
03/05/02 22:35.net
文字のインクリメントもちゃんと桁上げされるんよ。

#perl > result.txt
$a = "a";
print ++$a, "\n" while (length $a < 3);

172:169
03/05/02 22:38.net
あ、これじゃ for (A..Z) の説明にはならないな。

173:名無しさん@お腹いっぱい。
03/05/02 22:50.net
>>166
全然正規表現じゃなかった・・・。

174:名無しさん@お腹いっぱい。
03/05/04 07:28.net
/\x82\xad\x82\xbb\x82\xc1/
sjis


175:名無しさん@お腹いっぱい。
03/05/05 11:59.net
>>172
パターンマッチさせる意味は?

176:名無しさん@お腹いっぱい。
03/05/05 18:39.net
>>172
1) ネタがないから
2) わし166だので、172に揶揄されて「くそっ」と


177:名無しさん@お腹いっぱい。
03/05/05 18:44.net
ちがった、171にバカにされて・・・
      ~~~


178:名無しさん@お腹いっぱい。
03/05/05 19:18.net
おまえらみんな(ち|い|う)んぽ。

179:名無しさん@お腹いっぱい。
03/05/07 16:30.net
『詳説 正規表現』を読んでいるようなエキスパートの人に質問です。


「"a" が偶数個、"b" が奇数個含まれる、すべての文字列を表す正規表現」


って分かりますか?

自分は答えを見てもよく分かりませんでした。


180:名無しさん@お腹いっぱい。
03/05/07 17:37.net
まずどのような「状態」があるのかを考える。この場合は
 1. aが偶数個、bが偶数個
 2. aが偶数個、bが奇数個
 3. aが奇数個、bが奇数個
 4. aが奇数個、bが偶数個
で初期状態が1でゴールが2となる。
まず最初に1から2に行くには /b/ の1通り。aが来ると4に行く。
4からスタートして1もしくは3を経由し2へ行く最短パターンは /(aa|bb)*(ab|ba)/
以上から /b|a(aa|bb)*(ab|ba)/ が状態2に行き着く最短パターン。←第1段階
次に状態2からスタートして考えると /aa/ で3を経由して2へ戻り、
/bb/ で1を経由して2へ戻り、/ab|ba/ では4へ行ってしまう。
4へ行ってしまった後は先に考えた「2へ行く最短パターン」で帰って来れるので、
2から始まって2に戻るパターンは /aa|bb|(ab|ba)(aa|bb)*(ab|ba)/ となる。
これは0回以上起こり得ることを考慮して第1段階と結合すると
/(b|a(aa|bb)*(ab|ba))(aa|bb|(ab|ba)(aa|bb)*(ab|ba))*/

181:名無しさん@お腹いっぱい。
03/05/07 18:18.net
>>177
余裕があれば一度オートマトンに関する本を読んでみて。
URLリンク(www.amazon.co.jp)
の前半はすごくわかりやすいよ。

そこまでしなくても、一度 >>178 たんのいってることを
URLリンク(katsu.watanabe.name)
みたいな状態遷移図にしてみるといいかも。

182:177
03/05/07 21:15.net
自分がこの問題を見たのは古い UNIX MAGAZINE で、内容を簡単に引用しますと …

偶数か奇数かを調べるには文字の数を2で割った余りが0か1かという
決まった2つを調べればよいため、正規文法で記述することが可能。
なお、この文法では a に関して2つ、b に関しても2つの場合があるので、
2 x 2 = 4 つの記号(状態)を用いる。

A → aB   B → aA   C → aD   D → a
A → bC   B → bD   C → bA   D → aC
A → b                 D → bB

状態 A … a が偶数個で b が奇数個の文字列
状態 B … a が奇数個で b が奇数個の文字列
状態 C … a が偶数個で b が偶数個の文字列
状態 D … a が奇数個で b が偶数個の文字列

以上により答えは

((a|b(aa)*ab)(b(aa)*b)*(a|ba(aa)*b)|b(aa)*b)*((a|b(aa)*ab)(b(aa)*b)*ba|b)(aa)*

となる。

正規表現でうまく表現できない問題に当たったときは、いったん正規文法で記述してから
正規表現に変換すると解決できる場合も多い。


183:長いので分割。
03/05/07 21:17.net
… だそうです。

果たして↑の長い正規表現が >>178 さんの答えと同じものを表しているのかどうか
分かりませんけども。

>>179
有用な本と URL の紹介、ありがとうございました。


それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ?
不思議だ。


184:名無しさん@お腹いっぱい。
03/05/07 21:36.net
>>181
> それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ?
それはパッと見というよりは、冷静に分析してわかるものでしょ。
慣れれば一瞬で分析できるようになるかもしれんけど。

185:名無しさん@お腹いっぱい。
03/05/07 22:50.net
>>178,180
それは「aとbだけからなる文字列」について?


186:名無しさん@お腹いっぱい。
03/05/08 00:00.net
>>183 んなもん s/[ab]/[^ab]*&/ すりゃ良いだけじゃん

187:名無しさん@お腹いっぱい。
03/05/08 03:51.net
>>184
それって、正気表現でつか?


188:名無しさん@お腹いっぱい。
03/05/08 04:49.net
>>183 のために [^ab]* をはさみまくってたら、

「長すぎる行があります!」

っておこられたよ・・・


189:名無しさん@お腹いっぱい。
03/05/08 10:42.net
/[^ab]*(b|a([^ab]*(a[^ab]*a|b[^ab]*b))*[^ab]*(a[^ab]*b|b[^ab]*a))([^ab]*(a[^ab]*a|b[^ab]*b|[^ab]*(a[^ab]*b|b[^ab]*a)([^ab]*(a[^ab]*a|b[^ab]*b))*[^ab]*(a[^ab]*b|b[^ab]*a)))*/

190:名無しさん@お腹いっぱい。
03/05/08 12:54.net
>>187
それで baaabaaab がまっちすんの?

191:名無しさん@お腹いっぱい。
03/05/08 13:27.net
以下のようなデータから、著者の部分(最後の括弧から括弧まで)を
取り除きたいと思います。

木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)

s/(.+?)$//;

ですとうまくいきません。perl5.6で、文字コードはeucです。
webprog板のPerl初心者スレで聞いたのですが、どうも解決しないのです。
どうしたらよいか教えていただければ幸いです。


192:名無しさん@お腹いっぱい。
03/05/08 13:40.net
>>189
セイキヒョーゲンの問題ではなくパールの問題っぽいですね。
そっちのスレ行った方がよいかも。
できるなら「うまくいきません」を再現させる
できるだけシンプルなコードを添付してほしいな


193:名無しさん@お腹いっぱい。
03/05/08 13:41.net
>>189
プログラム技術板にPerlの質問スレがある。webprogに特化したこと以外はそっ
ちの方がいい。

s/([^()]+?)$//;


194:名無しさん@お腹いっぱい。
03/05/08 13:44.net
Perl の正規表現では ( ) は、後で \1, \2, ... にマッチさせるための
メタ表記だから、括弧そのものにマッチさせたければ \( \) と書かなければ
ならない。(egrep や emacs とは逆)

195:名無しさん@お腹いっぱい。
03/05/08 13:44.net
>>190
では、Perlスレ行ってきます。って、unix板にはなかったんで、
プログラム板ですね。ありがとございますた。




196:名無しさん@お腹いっぱい。
03/05/08 13:47.net
あれれ板探してたら、2つもレスが。
>>191
それ、jperlなら動くんでしょうが、perl5.6ではだめでした。
>>192
いや、全角括弧なんです。


197:名無しさん@お腹いっぱい。
03/05/08 13:53.net
>>192
それは \x28 や \x29 の場合だけでしょう。
今でてきてるのは \xa1\xca と \x1a\xcb。
ちなみにperlの最短一致は
マッチの先頭位置を後ろにずらす効果がないので注意。

($b="abcabc")=~s/b.*?c$//;
print "$b\n"; # output "a"

189の要望はここで"abca"を出してほしいということで叶わない


198:189
03/05/08 14:10.net
>>195
>perlの最短一致は
>マッチの先頭位置を後ろにずらす効果がない

なるほど。では、>>189のコードは、

木立
山の上の芋粥

を出力してもいいはずですが、何も出力しない(何にもマッチしない)んです。
どうしてですか。よろしければ教えてくらさい。


199:名無しさん@お腹いっぱい。
03/05/08 14:14.net
s/(.+)(.+)$/\1/;

200:189
03/05/08 14:19.net
>>197
これだと、

木立
山の上の芋粥

になってしまいます。求めているのは、

木立(こだち)のなかに
山の上の芋粥(いもがゆ)

です。


201:197
03/05/08 14:22.net
マジ? 手元の Perl 5.005_03 だと求めているのになるのだが・・・

202:189
03/05/08 14:28.net
>>199
すみませ~ん。
求めているものになりました。いろんなスクリプト混ざり合ってたので
混乱しました。
(.+)が最長一致するから(.+)でいいってことに気づきませんでした。



203:名無しさん@お腹いっぱい。
03/05/08 14:45.net
perlの正規表現と日本語文字列との相性の悪さを
実感する問題だったなあ

204:192
03/05/08 14:50.net
本当に全角だったのか。失礼。だとすると、/(/ が EUC の 2 バイト目と
文字に一致するとは限らないので注意。全角文字の 2 バイト目と次の文字の
1 バイト目がそれぞれ \xa1 と [\xca-\xcb] にマッチする場合があるので、
文字列「検便」\b8\a1\xca\xd8 にも「(」がマッチしてしまう。

日本語 EUC の 1 文字 にマッチさせたいなら、厳密には
(\x8f?[\xa1-\xfe]{2}|\x8e[\xa1-\xfe]|[\x00-\xff])
にマッチさせなくてはならない。

Perl6 の国際化された正規表現が普及して、こんな知識は不要になって
くれれば一番いいのだが…。

205:192
03/05/08 14:56.net
この例の場合、最後の括弧の中は全角ひらがなしか入らないから関係ないけどね。

206:名無しさん@お腹いっぱい。
03/05/08 15:51.net
5.8ならuse utf-8; use Encode;して適切なエンコード指定でファイル読み込ませれば解決するぞ。

207:名無しさん@お腹いっぱい。
03/05/08 21:50.net
URLリンク(61.210.205.4)
これなんだろ@@@

208:名無しさん@お腹いっぱい。
03/05/08 23:46.net
WebP


209:rog板の「正規表現道場@2ch Part2」はご存知? http://pc2.2ch.net/test/read.cgi/php/1038146241/



210:189
03/05/09 15:02.net
>>206
知ってます。最近、書き込み少ないので、こっちにしました。
あっちでは、以前、いろいろ答えてあげてたんですが。
実は、他のやり方ならいろいろ考え付いたのですが、
s/(.+?)$//;
がなぜだめかが知りたくて質問したのでした。
>>195だけがその質問に答えてくれました。そいえば、それも
らくだ本で読んだ覚えあったなぁと。しかし、「最短一致がマッ
チの先頭部分を後ろにずらしてくれない」という理由ですと、
なぜ、「木立(こだち)のなかに(夏目弱石)」が、「木立」
にならないか、いまだに不明です。($b="abcabc")=~s/b.*?c$//;
で$bが'a'になるんだから、そうなってもいいはずですよね。

# でも、3つのスレで「()をエスケープしろ」っていう返事をもらったのにも
# びっくり。漏れは、navi2chなので、半角と全角は一目瞭然ですが、IEで見
# てみたら、たしかに女滋養に見えますた。


211:名無しさん@お腹いっぱい。
03/05/09 15:32.net
女滋養(;´Д`)ハァハァ

212:名無しさん@お腹いっぱい。
03/05/09 17:39.net
生粋のプログラマーなら日常的に半角全角の違いがすぐ分かる環境を望む。
そうじゃない人はあまり気にしないので女痔用に見えても兵器。


213:名無しさん@Meadow
03/05/09 17:52.net
女痔用 (´;。;△;。;)キモ!!!!!!!!!!!!!!!

214:名無しさん@Meadow
03/05/09 21:33.net
>>207
漏れは、navi2chでも迷ったっぞい。



215:189=207
03/05/09 22:20.net
>>211
はっきり言っておくんなさい。
たすかに、fontの問題かもすれんですよ。
だかーら、記号類は半角とか全角とか注釈つけとけと…
でもって、半角カタカナなんか問題ない時代になったんだなー、と。


216:名無しさん@お腹いっぱい。
03/05/11 04:17.net
半角か全角かをいちいち説明されないと違いの分からないような
素人さんにはそもそも質問なんかされてないんですよ

217:名無しさん@お腹いっぱい。
03/05/11 15:57.net
189が意図的に使い分けてるという保証もなかったわけだが。

218:名無しさん@お腹いっぱい。
03/05/11 16:17.net
>>214
はじめから euc と断ってたし、
対象テキストデータとか試しに提示したダメコード片を良く見れば、
意図的に使い分けてることは十分想像できたと思うが。
質問の仕方や内容からも半角全角混同してるようなレベルの質問とは思えなかった。

つうか、>>207 は何をいまだにハマってるんだ?
s/(.+?)$//; なら「木立」になるから問題なかろう?

219:191=214
03/05/11 16:20.net
>>215
一応そう想定して答えた。

220:名無しさん@お腹いっぱい。
03/05/11 16:40.net
>>216
釈迦に説法か。スマソ

221:189=207
03/05/11 18:24.net
>>215
いえ、それが、全行出力されちゃうんです。
ちょっと、やってみていただけませんか。(インデントはわざとしません。)
---
while(<DATA>) {
chomp;
s/(.+?)$//;
print "$_\n";
}
__DATA__
木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)


222:215
03/05/11 18:36.net
>>218
ん~、なんないよ (5.005_03) 。
5.6 を試す環境が無いので申し訳ないでつが、Perl のバージョンの問題?

223:名無しさん@お腹いっぱい。
03/05/11 19:16.net
>>218
5.6.0 で試したらそのまま出ますた。
これまでの経緯をちゃんと読んでないんだが、 s/([^)]+)$//; じゃダメ?


224:名無しさん@お腹いっぱい。
03/05/11 19:23.net
>>220
それだと、 [^)] の部分は [^\xa1\xcb] なのでダメだと思われ。

>>204 の方法だとうまくいくようになるの?

225:名無しさん@お腹いっぱい。
03/05/11 21:08.net
>>218
5.8.0だと、191の式でうまくいくんだがなぁ。

while(<DATA>) {
chomp;
s/([^()]+)$//;
print "$_\n";
}
__DATA__
木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)


木立(こだち)のなかに
山の上の芋粥(いもがゆ)

226:189=207
03/05/11 21:30.net
追試どうもです。

>>219
古いマシンに5.005_03(5.005_03 built for i386-linux)もあったのでやっ
てみたら、奇妙なことに。
euc-jp-dos、shift_jis-unix → OK
euc-jp-unix、shift_jis-dos → 行全体が出てくる

v5.6.0 built for MSWin32-x86-multi-threadおよびv5.6.1 built for
cygwin-multiでは、どれでもだめです(行全体が出てくる)。文字コードutf8
にしても同じ。

>>222
こりゃもう5.8にするべきですかね。




227:名無しさん@お腹いっぱい。
03/05/11 21:31.net
>>222
いやいや、たまたまうまくいっているように見えるだけでしょ。
>>202 さんのを参考にしる。

228:195
03/05/12 09:32.net
>>218
s/(.*?.)$//;
にしとけ
perlのバグだ
暇ならソースのMINMODあたり追いかけて

229:189=207
03/05/12 21:13.net
>>225
ありがとん。「。」毎に改行入れようとして、s/(.+?。)//;やってみたが、こ
れすらできんかった。結局、perl5.6以上はjperlないから日本語処理を中心に
してる場合は、使えないってことかなぁ。もち、~ohzakiさんとこに書いてあ
るような注意をしたり、半角文字で置き換えたりすれば使えるげど、面どい。



230:名無しさん@お腹いっぱい。
03/05/12 23:01.net
>>226
5.8にしてEncodeつかう。

231:名無しさん@お腹いっぱい。
03/05/13 02:04.net
>>226
> 結局、perl5.6以上はjperlないから日本語処理を中心にしてる場合は、
> 使えないってことかなぁ。

違うっしょ。

232:189=207
03/05/13 07:23.net
>>227
やってみまつ。
>>228
じゃ、jperlでできるs/.+?[。!?]/$1\n/g;あたり、どやってやる?
めんどいでしょ。




233:189=207
03/05/13 07:24.net
あら、s/.+?[。!?]/$&\n/g;だった。


234:名無しさん@お腹いっぱい。
03/05/13 11:05.net
>>229
あぁ、そういう話か。それはその通りですね。

でも、それは 5.8 の Encode とやらを使うと解決するってことなのでは。
っつーか、漏れは 5.8 動かせる環境無いので確認しようがないんでつが、
誰一人として Encode が一体何者なのか説明しようとしないのは何故?

235:名無しさん@お腹いっぱい。
03/05/13 11:39.net
>>231
use utf-8; use Encode;
my $ENC = 'euc-jp'; # or 'cp932'
binmode STDOUT, ":encoding($ENC)"; binmode STDIN, ":encoding($ENC)";

普通に標準入出力にアクセスすればOK。スクリプト内に日本語書くときはUTF-8で。
っていうかperldoc嫁

236:名無しさん@お腹いっぱい。
03/05/14 01:43.net
>>232
perl 5.6 では不可能ということか?

237:189=207
03/05/14 08:50.net
>>232
まだ、5.8を試してないんですが、>>232って、euc-jpの端末でeuc-jpのスクリ
プト書いて、perlにutf-8で処理させるってことですね。utfサポートは、5.6
からあるので、mule-ucs+bdfフォントで、emacs上でprocess-coding-system
(inputもoutputも)もutf-8にして、やってみたけどだめですた。

私が問題にしているのは、[](文字クラス)や+?、*?(最短一致)がマルチバ
イトに対応しているかどうかということなのですが・・・


238:名無しさん@お腹いっぱい。
03/05/14 10:15.net
>>234 5.6時代から既に対応している

239:189=207
03/05/14 10:57.net
>>235
[](文字クラス)をテストしてみたけど、だめです。
utf-8で以下のスクリプト実行して見れ。jperlではOKですが・・・
---------
while(<DATA>) {
chomp;
while (s/.+?[。!?]//) {
print "$&\n";
}
print;
}
__DATA__
utf-8で処理させて下さいね。5.6でね。utfサポートは、
5.6からあるけど、このスクリプトだめぽ!>>235は、何が
5.6時代から既に対応しているって言ってんの?変だよ。


240:名無しさん@お腹いっぱい。
03/05/14 11:10.net
>>236 use utf8; してる?

241:189=207
03/05/14 11:24.net
>>237
してなかったっす。
みなさん、ごめんなさ。


242:名無しさん@お腹いっぱい。
03/05/14 17:10.net
perl 質問スレにするなよ。

243:名無しさん@お腹いっぱい。
03/05/15 19:55.net
というわけで、これにて終了。
正規表現スレはここまでです。
あれ?


244:名無しさん@お腹いっぱい。
03/05/16 01:42.net
単語に「マッチしない」のは
どうやれば? ^\<word\>
じゃないし。


245:名無しさん@お腹いっぱい。
03/05/16 03:07.net
>>241
そりを正規表現(だけ)で実現するのは難しいのでは?

普通は、grep なら -v とか、スクリプト言語なら !~ /word/ とかするんじゃないかと。

246:189=207
03/05/16 08:24.net
>>241
perlの拡張正規表現を使えば出来るよ。
/^(?!.*word)/



247:あぼーん
あぼーん.net
あぼーん

248:名無しさん@お腹いっぱい。
03/05/24 22:45.net
オ来リーの者じゃありませんが・・・

『詳説 正規表現 第2版』

Jeffrey E. F. Friedl 著
田和 勝 訳

2003年5月発行 -- 5月27日発売
464ページ
本体価格5,400円
ISBN4-87311-130-7

テキストやデータの処理に欠かせない強力なツールとして瞬く間
に普及した「正規表現」。現在ではPerl、Java、VB.NETやC#など
数多くの言語やツールに標準で装備されています。その幅広い可
用性、柔軟性と比類ない強力さにもかかわらず、実際に正規表現
を使いこなすことは難しいです。本書は正規表現の概念を詳細に
掘り下げる一方で、数多くの言語やツールの実例を示しながら、
正規表現についての理解を深める解説書です。第2版では、豊富
な実例を使い、詳しくていねいに解説するスタイルはそのままに、
Perl5.8の新機能に加え、Javaと.NETの正規表現にもそれぞれ独
立した章を設けるなど、全編にわたって大幅に加筆がなされまし
た。正規表現の本質を読み解く決定版です。とくに正規表現を使
いこなしていると自負している人にほど読んでほしい本です。


249:名無しさん@お腹いっぱい。
03/05/25 00:29.net
あれ?今日買ってきたんだけど27日発売だったのね…

250:名無しさん@お腹いっぱい。
03/05/25 00:43.net
>>246
つーことで発売記念age

251:名無しさん@お腹いっぱい。
03/05/25 03:23.net
素数にマッチする正規表現募集。

252:名無しさん@お腹いっぱい。
03/05/25 03:38.net
>>245
第1版と比較してのレビューきぼんぬ

253:名無しさん@お腹いっぱい。
03/05/25 03:44.net
>>249
> 2003年5月発行 -- 5月27日発売
とあるからまだ無理なのでは

254:名無しさん@お腹いっぱい。
03/05/25 03:49.net
>>248
正規表現だけでなく、なんかしら言語使ってやればよい。

255:名無しさん@お腹いっぱい。
03/05/25 03:56.net
>>248
何故敢えて茨の道を行くのか?

256:名無しさん@お腹いっぱい。
03/05/25 05:07.net
>>245
これの第1版買ったのですが、いまいち難しかったです。
もっと易しい本ってないですか?

257:名無しさん@お腹いっぱい。
03/05/25 05:35.net
>>253
Ruby の初・中級者なら、「Ruby Magic―Rubyで極める正規表現」はお勧め。

258:245
03/05/25 10:21.net
>>249
第1版を持ってないので比較は出来ないっす。
# 買おうと思ったら第2版が出ることを知ったので待ったのだ。

ここに特徴や目次が紹介されているので見てもらうとして
  URLリンク(www.oreilly.co.jp)
  URLリンク(www.oreilly.co.jp)

まえがきから第1版との違いを判断すると
  - Unicodeのちょっとした解説
  - Perl5.003からPerl5.8対応に
  - Java1.4のjava.util.regexと、その他6つの正規表現パッケージの比較
  - .NET framework正規表現の特徴と問題点、M$のドキュメント(貧弱らしい)の補足
のように言語サポートが新しくなった/増えたって感じ。

最初はHTMLのサンプルを少々追加する程度の予定(3ヶ月の見込み)だったみたいだけど、
結局は2年の歳月をかけて全面的に加筆修正することになったそうだ。

難易度は第1版と変わらないのではないかな?
# 読み易くなってるのかもしれないけど。。
>>253の期待には応えられないと思う。
> とくに正規表現を使いこなしていると自負している人にほど読んでほしい本です。
という宣伝文句があるくらいだしね。

>>250
いや、24日に買えたのよ。

259:名無しさん@お腹いっぱい。
03/05/27 11:05.net
今日発売か。
昼休みに買ってくるか。


260:名無しさん@お腹いっぱい。
03/05/27 21:10.net
>>256さん、どうですた?


261:249
03/05/27 21:28.net
>>255 さんのと、今日立ち読みした感じで、第2版も購入することにしますた。
そういえば、翻訳者 (監訳者) が変わってたんですね。

262:名無しさん@お腹いっぱい。
03/05/27 21:29.net
sed のタグ付き正規表現についてちょっと教えれ。たとえば、

{________I'm_dreaming_of_a_White_Christmas_}
{_Just_like_the_ones_I_used_to_know__}
{____Where_the_tree_tops_glisten_}

の前後の余計な _ のトリミングをしようと思って
sed 's/{\(_*\)\(.*\)\(_*\)}/{\2}/g'
とやっても意図した結果にならない。\2 をうまくマッチさせる方法は?

まぁこの例なら簡単に逃げられる - たとえば sed 's/{_*/{/;s/_*}/}/' -
わけだが、apache の log とかの簡単なパース(並び替えとかそんな程度)を
タグ付き正規表現でさくっと処理できれば楽でうれしい。よろしく。

263:名無しさん@お腹いっぱい。
03/05/27 21:38.net
二個目の*がlongest matchしようとして
3個目の*にmatchさせたいであろう_まで持っていってしまうのが原因。

sed -e 's/{_*\(.*[^_]\)_*}/\1/'

264:名無しさん@お腹いっぱい。
03/05/28 00:59.net
'<,'>s@^@//@

265:名無しさん@お腹いっぱい。
03/05/28 01:03.net
最少マッチって perl とか ruby にしかない?
sed, grep 等の伝統的 tool にはないの?

266:名無しさん@お腹いっぱい。
03/05/28 01:07.net
>>262
ないよ

267:名無しさん@お腹いっぱい。
03/05/28 14:45.net
>>262
grepに最小一致の機能があったとして
それの魅力はイッタイ何なのだろうか?


268:あぼーん
あぼーん.net
あぼーん

269:262
03/05/28 20:42.net
確かに sed では使っても grep では使わないかも。
いや、でも後方参照する時に必要なこともありえますね。


270:名無しさん@お腹いっぱい。
03/05/29 10:14.net
>>257
昼休みにいきつけの書店にいったが売ってなかったんで。
帰りに別の書店で買った。
でもまだ読んでない…
通勤時間に読むっつーてもあれを毎日持ち歩くのは
重たいしなぁ。


271:名無しさん@お腹いっぱい。
03/05/30 21:59.net
文字列中、丸括弧(全角、半角問わず)で閉じられた部分を取り出す表現を考えているけど、うまくマッチしてくれない。
(丸括弧の中に丸括弧は含まない。Perlの正規表現を使用)

$string = '(22(1)';
if($string =~ /[((]([^()()]*)[))]/){
print $1;
}
else{
print "No match..";
}

この場合は"1"がマッチするのを期待しているのだけど、なぜか"22"の部分がマッチした。
OS(UNIX/WinXP)、Perlのバージョン(5.0/5.8)の異なる環境で同じことを確認したけど、結果は変わらず。
さらに、文字コード(Shift-JIS/EUC)の違いでも、結果は変わらなかった。

"1"をマッチさせる別の表現はないですかね?

# 全角"("の中にどうも半角")"の文字が隠れてるのかなぁ?(あくまでも推測)



272:名無しさん@お腹いっぱい。
03/05/30 22:42.net
>>268
おめな、2byte文字と1byte文字が同じに扱われると思ってるらしいな。たぶん、
文系のドキュソだな。しかも、すぐ上で2byte文字コードの話出てたの見てね
えな。こいう、初心者質問は、webprogのPerl初心者スレ逝け。



273:名無しさん@お腹いっぱい。
03/06/05 14:26.net
>>268
Perl5.8.0 + UTF8 でやったら 1 になったよ。


274:名無しさん@お腹いっぱい。
03/06/07 12:10.net
[ ] のなかに '-' と ']' の両方を入れたい場合はどうすればいいのですか?

275:名無しさん@お腹いっぱい。
03/06/07 12:20.net
>>271
何で?

276:名無しさん@お腹いっぱい。
03/06/07 12:29.net
>>271
[]-]

277:名無しさん@お腹いっぱい。
03/06/17 23:25.net
>>271
!.-[

278:名無しさん@お腹いっぱい。
03/07/03 21:13.net
保守

279:名無しさん@お腹いっぱい。
03/07/08 11:49.net
regexp ml盛り上がってますね。読んでて楽しい。


280:名無しさん@お腹いっぱい。
03/07/08 14:02.net
このスレはいつからまともな人たちをヲチするようになったのですか?

281:名無しさん@お腹いっぱい。
03/07/12 21:26.net
すいません、テキストファイルの中の .bananaなどの単語(行頭ではなく)の先頭が
ドットがあるものだけをgrepで抜き出したいのですが、jp.appleのような単語までひっかかって
しまい上手く絞り込めません。

アドバイスをお願いします!!

282:名無しさん@お腹いっぱい。
03/07/12 21:54.net
>>278
\b?\.\w+?
で、どうじゃろ?

283:名無しさん@お腹いっぱい。
03/07/12 22:44.net
>>279
すいません、なんか上手くいかないです。
ls -laでディレクトリ内の全ファイルを表示して、grepで隠しファイルだけを抽出したかったのですが。

284:名無しさん@お腹いっぱい。
03/07/12 23:34.net
ls -la | grep ' \.'
ではあかんの?


285:名無しさん@お腹いっぱい。
03/07/12 23:57.net
>>281
行のどこかに"."があれるとヒットしてしまうんです

286:名無しさん@お腹いっぱい。
03/07/13 00:28.net
ls -la | grep '^\.'
こういうこと?

287:名無しさん@お腹いっぱい。
03/07/13 00:28.net
>>282
とはいえ、"."って、ファイル名にしかでてこないよね?
>>281 をよーくみる。


288:283
03/07/13 00:30.net
間違えた。

ls -1a | grep '^\.'
これか
ls -la | grep ' \.'
これだな。下は余計なものを拾う可能性もあるが。

289:名無しさん@お腹いっぱい。
03/07/13 00:31.net
ls -d .*
なんてね。


290:名無しさん@お腹いっぱい。
03/07/13 00:32.net
あ、正規表現スレだった。すまん。

291:名無しさん@お腹いっぱい。
03/07/13 02:00.net
ヤハリココハオモッテタトオリバカバッカリダッタナ(プ

292:名無しさん@お腹いっぱい。
03/07/13 02:57.net
ls -la | awk '$9 ~ /^\./{print $0}' はどうよ。

293:名無しさん@お腹いっぱい。
03/07/13 11:30.net
>>280 ふつーそういうときは ls つかわず findつかえ。
find ./ -type f -name "\.*" -print


294:名無しさん@お腹いっぱい。
03/07/13 14:36.net
(())

295:名無しさん@お腹いっぱい。
03/07/14 11:38.net
>>290 ふつーそういうときは >> つかわず >> つかえ。

296:名無しさん@お腹いっぱい。
03/07/14 19:04.net
backreferenceを前方参照と訳したのはなぜですか?


297:名無しさん@お腹いっぱい。
03/07/14 21:19.net
後方参照としている訳もあるよ。
まぁ、現在の位置よりも前を参照するという意味では
日本語的には前方参照であってると思う。
ようするに「今いる位置より戻って参照」って意味になるんだから。

んでも、意味を考えて訳すなら「戻って参照」とか、どう?

298:名無しさん@お腹いっぱい。
03/07/14 21:32.net
>>294
ちょっと前にCスレで話題になったんだけど、Cで「前方参照」といった場合の前方って、
ファイルの終端方向を指す。「ひどい訳語だ」ってことで話は終わったんだけど、
正規表現でも混乱が見られるしなんかいい言葉ないもんかねえ。

日本語では時間を表す文脈で「前」にまるで正反対の意味があるからよくないのだと思う。
「以前」だと過去だし「前進」だと未来だし。

あとこれはすれ違いか? そうだよね。すまん。

299:名無しさん@お腹いっぱい。
03/07/14 21:41.net
>>279 >>281 >>283 >>284 >>285 >>286 >>287 >>289 >>290

みなさま、ありがとうございます。

シングルクォーテーションに空白が使えたり、
アッパーチルダとハット(キャレット?)の区別を知ったりと、
正規表現の難しさを知りました。

今、「テキストデータ料理学」っていう古い本を読んでいるのですが、
オライリーの正規表現本は買ったほうがいいですか?

(もう2~3週間前にオライリーのサイトでカタログを注文したのに、
まだ来ない…)

300:名無しさん@お腹いっぱい。
03/07/14 22:23.net
おれは初版も新しいのも持ってるけど、自分の知識に自信がないうちは
お薦めしない。もちろんあったらあったで便利だけど。

やっぱり、「俺、正規表現バリバリだぜーYAH」状態で買って読んで
目からうろこ落ちまくり感を堪能するのがいいんではないかと。

301:名無しさん@お腹いっぱい。
03/07/14 23:31.net
>294
するってえと、正規表現的には日本語で前方参照あるいは後方参照と書いてあったら
どっちもbackreferenceと思えってわけだぁね。
>295
計算機分野だと「前方」という言葉はforwardの訳語というのがあたりめえだと思ってたから、
正規表現関係だと、「前方参照」がbackreferenceのことだっていうのがわかんなくて
難儀したってわけよ。


302:名無しさん@お腹いっぱい。
03/07/14 23:33.net
>>297
>>296は学ぶ意欲を持っているから、今のうちに買っておいて損はないと思う。
むしろ薦める。
オイラリーはハズレが少ないからな。

303:名無しさん@お腹いっぱい。
03/07/14 23:35.net
>>298
俺はperlから入ったから後方参照が当たり前かと思ってた。
他言語使うようになってから吃驚したってわけよ。

304:298
03/07/14 23:43.net
perl5の日本語マニュアルで、「前方参照」を "lookahead assertion"の訳語として
使っているやつがあった。

(?=regexp) 長さの無い、前方参照位置指定子。
(?!regexp) 長さの無い、前方参照否定位置指定子。

英語だと

(?=pattern) A zero-width positive lookahead assertion.
(?!pattern) A zero-width negative lookahead assertion.

わけわかんねぇな(w


305:298
03/07/14 23:48.net
ありゃりゃ?

(?<=pattern) A zero-width positive lookbehind assertion.
(?<!pattern) A zero-width negative lookbehind assertion.

"lookbehind assertion" の訳語って何だ?


306:名無しさん@お腹いっぱい。
03/07/15 00:32.net
「俺の背後に立つな」
デューク東郷の格言だろ。

307:名無しさん@お腹いっぱい。
03/07/15 00:35.net
lookahead 見越し
lookbehind 見返り

308:名無しさん@お腹いっぱい。
03/07/15 01:01.net
前後不覚だな。

309:名無しさん@お腹いっぱい。
03/07/15 03:12.net
>>296
>オライリーの正規表現本は買ったほうがいいですか?

持ってなくても覚えられるし、
エディタのサーチとか grep とかで実験しながら
感覚的に慣れるのも悪くないんじゃない?

ただし emacs で覚え始めるのはすすめない。
backslash で混乱する。

310:名無しさん@お腹いっぱい。
03/07/15 07:21.net
>>297
>>299
>>306
ちょっと大きな本屋に行って立ち読みしてみます。
ありがとうございました~

311:あぼーん
あぼーん.net
あぼーん

312:名無しさん@お腹いっぱい。
03/07/17 13:35.net
>>308
二度と目を覚ますな。


313:あぼーん
あぼーん.net
あぼーん

314:名無しさん@お腹いっぱい。
03/07/20 21:36.net
さげ保守

315:名無しさん@お腹いっぱい。
03/07/27 22:01.net
OOはもうすぐ1.1出るけど、MSWORDよりセキュリティ大丈夫かな?
スレリンク(bsoft板:392番)


316:あぼーん
あぼーん.net
あぼーん

317:高校生
03/08/02 17:12.net
boo
baa
baz
っていうテキストが例だとして、sedを用いて、
booまたはbaz、っていう正規表現はどうなるの?
rubyやperlならパイプ記号で条件和の表現が出るけど、
同じように書いてもsedに誤解されてしまう。

318:名無しさん@お腹いっぱい。
03/08/02 17:52.net
>>314 ん? \|使えば良いのでは


319:高校生
03/08/02 18:06.net
sed 's/boo\|baa/hoge/g' ./hage.txt
とかだとやっぱりだめなんすよね。
「boo」とかの単語の括り方がよくわからんのです。

320:名無しさん@お腹いっぱい。
03/08/02 20:53.net
GNU sed 4.0.7版 ではそれでもできてるけどな。
sed 's/\(boo\|baa\)/hoge/g' これでどう?


321:名無しさん@お腹いっぱい。
03/08/02 22:07.net
>>317
gsedならできるがsedは食ってくれない。

322:名無しさん@お腹いっぱい。
03/08/03 01:09.net
単一の正規表現じゃなきゃいかんの?
sedと決まってるなら
sed -e 's/boo/hoge/g' -e 's/baa/hoge/g'
でいいんちゃう?

置換後の文字列と置換前の文字列の片方とで重なりがある場合
どうするかひとしきりモメたりする ↓↓↓ のがお決まりだな。

323:名無しさん@お腹いっぱい。
03/08/03 09:52.net
単一の正規表現でないと記述が冗長で見た目がキモイ、
っていうのはあると思うよ。
おいらはインストール直後のFreeBSDの環境構築をスクリプトに任せたくて、
結局シェルスクリプトにawkな記述を書いて解決した。
カーネルの再構築にしても、/etc/下の記述にしても、要はテキストの置換なわけで。
本当はrubyがFreeBSDの/usr/bin下にあるようなご時世だったら
楽ができるんだけど、そこら辺は個人的な勉強不足だなぁ。

324:名無しさん@お腹いっぱい。
03/08/13 19:13.net
{a,b}上の言語Lが
『aaで開始し、かつ、bbを部分列として含む』という条件を満たす語からなるとき
Lを表す正規表現ってどうなるの?
L=aa(a*b*+bb)* ?

325:名無しさん@お腹いっぱい。
03/08/13 20:45.net
L=aa(a+b)*bb(a+b)*

326:名無しさん@お腹いっぱい。
03/08/13 22:05.net
>>321
*+ ???

327:名無しさん@お腹いっぱい。
03/08/13 23:05.net
>323
'+'より'|'のほうが普通かな。
L=aa(a|b)*bb(a|b)*

本来的には連接、選択、閉包が表現できればいい。


328:名無しさん@お腹いっぱい。
03/08/13 23:08.net
L ::= aA
A ::= aB
B ::= aB | bC
C ::= aB | bD
D ::= ε | aD | bD


329:名無しさん@お腹いっぱい。
03/08/13 23:34.net
.*
何にでもマッチする最強の正規表現です!


330:名無しさん@お腹いっぱい。
03/08/13 23:50.net
>>326
ドットが含まれてなかったらマッチしない罠


331:名無しさん@お腹いっぱい。
03/08/13 23:53.net
キター

332:名無しさん@お腹いっぱい。
03/08/14 00:13.net
ageてるし、ネタと見た。

333:名無しさん@お腹いっぱい。
03/08/14 23:29.net
>>329
しね!

334:あぼーん
あぼーん.net
あぼーん

335:あぼーん
あぼーん.net
あぼーん

336:名無しさん@お腹いっぱい。
03/08/28 20:12.net
うまづら。

337:名無しさん@お腹いっぱい。
03/09/02 03:30.net
ほす。

338:名無しさん@お腹いっぱい。
03/09/14 04:27.net
☆湯

339:名無しさん@お腹いっぱい。
03/09/16 13:49.net
[ruby-list:38393] じゃないけど、[a-z] みたいな文字クラスの表現は、
EBCDIC とかだと「意図した通り」には動かないと思うんだけど、
ASCII か ASCII を包含したキャラクタセットという前提で書くべきものなの?

340:名無しさん@お腹いっぱい。
03/09/16 14:08.net
>>336
[:lower:] とかは使っちゃだめ?

341:名無しさん@お腹いっぱい。
03/09/16 15:34.net
>>337
あ、いや、質問が悪かったですね。
範囲指定する文字クラスはどうあるべき (書くべき) か?っていう話です。

ていうか、 re_format(7) を私の拙い英語力で読んでみたところ、
ASCII コードの並びを前提とするような文字クラスの範囲指定は、
portable じゃないからやらない方が良い、ということのようですね。

というわけで、極力 >>337 さんのみたいな文字クラス指定を使った方が良い、と。

342:名無しさん@お腹いっぱい。
03/09/20 10:41.net


343:名無しさん@お腹いっぱい。
03/10/08 15:50.net
保守

344:名無しさん@お腹いっぱい。
03/10/12 16:53.net
vimで"DEL"という文字列が含む行で、"DEL"以下を削除したい場合はどうしたらいいでしょうか?

345:名無しさん@お腹いっぱい。
03/10/12 17:15.net
スレ違い。


Vim


346:6 Part6 http://pc.2ch.net/test/read.cgi/unix/1058706125/



347:名無しさん@お腹いっぱい。
03/10/13 01:12.net
:%s/DEL.*//


348:名無しさん@お腹いっぱい。
03/10/13 15:10.net
>>343
サンクス、すみません。

349:名無しさん@お腹いっぱい。
03/10/18 17:51.net


350:名無しさん@お腹いっぱい。
03/10/21 23:12.net
>>343
DELは残したい場合はどうすればいいですか?

351:名無しさん@お腹いっぱい。
03/10/21 23:24.net
:%s/DEL.*/DEL/

352:名無しさん@お腹いっぱい。
03/11/05 11:20.net
MS-DOSが使われていた頃に、"mifes"と言うエディターが有った。
そのマニュアルに1頁ほどの正規表現の説明があって、自分は最初に、それで
覚えて使い出した。
使い始めの頃は、何回も間違えたけど、少しづつ慣れてきた。

自分の周りを見ても、プログラマを何年もやっていても正規表現を知らない
人は、結構いる。
一旦、覚えてしまうと非常に便利だと思うんだけど。

353:名無しさん@お腹いっぱい。
03/11/05 17:48.net
正規表現で俺の存在を抹消してくれ。

354:名無しさん@お腹いっぱい。
03/11/05 19:01.net
s/俺の存在//g;

355:名無しさん@お腹いっぱい。
03/11/05 20:10.net
gsub!(/俺の存在/, "")

356:名無しさん@お腹いっぱい。
03/11/18 18:31.net
捕手

357:名無しさん@お腹いっぱい。
03/11/19 01:38.net
        rー、
    」´ ̄`lー) \
    T¨L |_/⌒/
     `レ ̄`ヽ〈
       |  i__1
     _ゝ_/ ノ
      L__jイ´_ )
        |  イ
         |  ノ--、           r'⌒ヽ_
        ゝ、___ノ二7  /´ ̄l、_,/}:\
         |ーi |   l_/ /__ィ::.  ゝ~_ィ´:; ,ゝ
        __〉 {      (T´ |1:::.  \_>、};;_」
       'ー‐┘       ! ` ̄''ァ一 、\ ヽ}  ← 保守
               〈` ̄ ̄^`¬ノ .::〔 ̄´
                   1  ヽ   .:::レ  ヽ、
                |_イー-、_;;j|_:.   ゝ、
                __,,,... -- |. {――‐フゝ、   〉 -- ...,,,__
        _,, -‐ ´       ,r|__ト,    1ニノ ー'´       ` ‐- ,,_
    , ‐ ´         └―'´                     `


358:名無しさん@お腹いっぱい。
03/11/19 09:17.net
>>353
それ捕手じゃなくて投手やっ!www

359:名無しさん@お腹いっぱい。
03/12/04 19:24.net
別のスレからの引用
ps ax |grep '[s]shd'
とやると、grep自身の行にヒットしないそうだけど、なぜ?
sってメタ文字でもなんでもないのに。

360:名無しさん@お腹いっぱい。
03/12/04 19:30.net
なぜって言われても、自明だが。

361:名無しさん@お腹いっぱい。
03/12/04 19:33.net
grep sshd と何が違うの?

362:名無しさん@お腹いっぱい。
03/12/04 19:35.net
あ、ごめん、わかった(w


363:名無しさん@お腹いっぱい。
03/12/04 19:36.net
grep sshd だと、ps の出力に含まれる "grep sshd" の "sshd" がマッチする。

grep '[s]shd' だと、ps の出力には "grep [s]shd" が含まれるが、
この "[s]shd" は、[s]shd にはマッチしない。よね?わかる?

364:名無しさん@お腹いっぱい。
03/12/04 23:59.net
なるほど。トリックだな。


365:名無しさん@お腹いっぱい。
03/12/05 10:59.net
まあバッドノウハウだとも思うけどナー
URLリンク(www.namazu.org)


366:名無しさん@お腹いっぱい。
03/12/05 13:26.net
そこまでのものではないと思うけど、
この例だと、頭の中でpsの出力まで加工しちゃうからな(w


367:名無しさん@お腹いっぱい。
03/12/05 20:33.net
grep -v grep でええやん。

368:名無しさん@お腹いっぱい。
03/12/30 00:05.net
muttのaliasで
    alias keyword Name <mailaddress>
みたいなフォーマットで並んでいるファイルを
    alias keyword <mailaddress> # Name
に整形しようと思い,
    cat alias | sed 's![[:space:]]*alias[[:space:]]*\([^[:space:]]*\)[[:space:]]*\(.*\)[[:space:]]*<\(.*\)>!alias \1 <\3> # \2!' > alias.new
としました.

上手く行くんですが, "#" の位置が行ごとにバラバラなのが気持ち悪いです.

そのファイルで "#" 以前の文字数が一番長いものを調べ, そこに合わせて
その他の行の "#" 以降を持ってくるようにするにはどうすればいいんでしょうか?

369:名無しさん@お腹いっぱい。
03/12/30 00:14.net
sedでやれってか?
漏れはへたれなので、Perlなどを使ってしまうが(w


370:名無しさん@お腹いっぱい。
03/12/30 00:28.net
>>364
2パスでやれば?

371:名無しさん@お腹いっぱい。
03/12/30 09:20.net
  2パス?

372:名無しさん@お腹いっぱい。
03/12/30 16:05.net
>>367
"#" 以前が一番長いのを調べてから、それに合わせて整形し直せば。

373:名無しさん@お腹いっぱい。
04/01/11 21:57.net
>>364
70桁でそろえる場合

sed ':a /.\{70\}\#/!bc; b; :c s/\(.*\)\#\(.*\)$/\1 \#\2/; ta'

亀ですが、こんなんでどうでしょう


374:名無しさん@お腹いっぱい。
04/01/11 22:21.net
決め打ちでいいなら何の苦労もないわけで。

375:名無しさん@お腹いっぱい。
04/01/14 23:40.net
>>369
反則技。gawk で。sed ではどうやっても出来ないような気が……(_ _;)
# sed でできるのか?

{
a=index($0,"#");
if(a>best) {
best=a;
}
c[FNR]=$0
}

END {
for(i=0;i<=NR;i++){
x=index(c[i],"#");
if(x && x<best) {
for (j=x;j<best;j++) {
gsub("#"," #",c[i]);
}
}
print c[i]
}
}


376:名無しさん@お腹いっぱい。
04/01/15 23:45.net
( ´∀`)

377:名無しさん@お腹いっぱい。
04/02/03 10:33.net
保守

378:名無しさん@お腹いっぱい。
04/02/06 18:23.net
教えてください。
Windows用のファイルをemacsなんかで開いたとき,最下行に
^Z
という符号が表示されることがあります。
これはいったい何でしょうか?


379:名無しさん@お腹いっぱい。
04/02/06 19:31.net
いわゆるeof

380:名無しさん@お腹いっぱい。
04/02/06 21:01.net
>>375
ありがとうございます。この符号のあるファイル同士をcatで連結すると,途
中にこの符号が入ってしまいます。この符号をsedでマッチさせて消去したい
のですが,どうすればいいでしょうか。
sed '/^$/d' ではダメでした。


381:名無しさん@お腹いっぱい。
04/02/06 21:09.net
>>376
いわゆるeof

382:名無しさん@お腹いっぱい。
04/02/06 22:38.net
EOF符号をsedで消去できますか?


383:名無しさん@お腹いっぱい。
04/02/21 22:59.net
grep で使える正規表現を精密に解説したサイトはありますかね?
日本語/英語どっちでもいいのですが。

384:名無しさん@お腹いっぱい。
04/02/22 00:19.net
URLリンク(www.kt.rim.or.jp)

385:名無しさん@お腹いっぱい。
04/02/22 00:29.net
レベル低いなー
378に対して出来るとも出来ないとも言えないのか...


386:名無しさん@お腹いっぱい。
04/02/22 00:58.net
378=381 ですか?

387:名無しさん@お腹いっぱい。
04/02/22 02:14.net
>>378
できるよ。普通に
s/^Z//
とかすればいい。もちろん^ZはEOFの一文字ね。

こんなの試せばすぐわかるだろと思ってたんだが、よく>>376を読むと、
「正規表現は純なテキストであるべきで特殊記号を混ぜるのはイクナイ」
と感じたんだろうな。まあ気持ちはわかるわ。

最近の正規表現拡張では、文字をコードの数値で表現する文法が
入ってたりする方が普通(例えばperlとか)だもんな。

388:338
04/02/22 02:24.net
でね、特殊記号の特別なケースがtab。大昔は\tなんて表現なかったさ。
よく画面上の見た目やハードコピーや雑誌からシェルスクリプトを打ち直して、
tabとspaceの違いで動かないなんてことが時々あったんだよ。

あと勝手にシェルスクリプトを整形されて動かなくなるとか。


389:名無しさん@お腹いっぱい。
04/02/22 02:52.net
>>382
いいえ
>>383
ありがトン!


390:名無しさん@お腹いっぱい。
04/02/22 02:55.net
>>382
381=385 が正解


391:名無しさん@お腹いっぱい。
04/02/22 16:53.net
>>380
ブックマークにいれますた。

392:名無しさん@お腹いっぱい。
04/03/27 17:05.net
[\\w$'-]
これはどういうことなのでしょう?
[\w$'-]
ならわかるのですが..

393:名無しさん@お腹いっぱい。
04/03/27 17:09.net
>>388
処理系は何?

394:名無しさん@お腹いっぱい。
04/03/27 17:20.net
>>389
Rubyです
Regexp::compile("\b\d[\d\.]+\d\b|[\w]+|[\\w$'-]+")
scanメソッドで英文を分割してます

395:名無しさん@お腹いっぱい。
04/03/27 17:22.net
>>390
ほほう。バグってる悪寒。

396:名無しさん@お腹いっぱい。
04/03/27 17:25.net
Regexp::compile("\\b\\d[\\d\\.,]+\\d\\b")
こんなのがあるんですが..

397:名無しさん@お腹いっぱい。
04/03/27 18:30.net
>>392
Ruby で "..." の中で '\' を書くときは、'\' でエスケープする必要があるの。
つまり Regexp::compile("\\w") は /\w/ と同じ。

>>390 のだと '\' のエスケープが足りない部分があるように見える。
たとえば、 "\w" は "w" に、 "\b" は "\010" になっちゃう。
ので「バグってる悪寒」と言いました。

398:名無しさん@お腹いっぱい。
04/03/27 18:53.net
>>393
なるほど、必死に\\と重ねる正規表現について調べてましたよ
ありがとう


399:名無しさん@お腹いっぱい。
04/03/30 01:42.net
perl で質問です。

NOTE note "note" notes

上のような文字列を「book」だけを「note」に置換したいのですが
s/\bnote\b/book/g
のようにすると、ダブルクォートで囲まれているものも置換されてしまうのですが
それを

NOTE book "note" notes

のようにするにはどう表記すればよいのでしょうか?
詳しい方、教えてください。


400:名無しさん@お腹いっぱい。
04/03/30 04:15.net
>>395
> NOTE note "note" notes
>
> 上のような文字列を「book」だけを「note」に置換したいのですが

401:名無しさん@お腹いっぱい。
04/03/30 10:07.net
>>396
その下の
s/\bnote\b/book/g
ぐらい読んで多目にみてやれ。

>>395
とはいえ、仕様があいまいすぎ。
'note' はどうする? :note: は? "abc note def" は?

402:名無しさん@お腹いっぱい。
04/03/30 10:29.net
s/ note / book /g
か?

>>397
> とはいえ、仕様があいまいすぎ。
んだな。

403:名無しさん@お腹いっぱい。
04/03/30 12:34.net
>>395
s/(?=[^"])\bnote\b(?=[^"])/book/g;

# こんなんで良いわけないよなと思いつつ・・・

404:名無しさん@お腹いっぱい。
04/03/31 02:02.net
>>397

> とはいえ、仕様があいまいすぎ。

すいません、おっしゃるとおりです。
ある単語(note)をある単語(book)に置換したいのですが、
ダブルクォートで囲まれているもの("note")は、その置換からは除外したいのです。

> 'note' はどうする? :note: は? "abc note def" は?

したがいまして、これらはとりあえず想定外で構わないので置換してしまっても構いません。
もう少し昨日の例を詳しく書きますと

NOTE,note"note"notes-note

このようなものでも

NOTE,book"note"notes-book

のようになってくれるのを期待しています。

ただ、"abc note def" これも想定外で構わないのですが
対応が可能であるのなら、私の勉強の為に教えてくださるとありがたく思います。

>>399
ありがとうございます。

>s/(?=[^"])\bnote\b(?=[^"])/book/g;
これを試してみました。
基本的にOKかなと思ったのですが、行頭、行末では置換の対象となってくれませんでした。



405:名無しさん@お腹いっぱい。
04/03/31 02:52.net
>>400
補足です。
ここでいう単語とは \w+ で表せる範囲のもので、
アルファベット大文字、小文字も含めて完全に単語の
先頭から末尾までが一致するものです。


406:名無しさん@お腹いっぱい。
04/03/31 07:45.net
もっと簡単にできるかもしれないけど、
s/(^|(?<=[^\w"]))note\b|\bnote($|(?=[^\w"]))/book/g;
とかは?

> ただ、"abc note def" これも想定外で構わないのですが

後ろから数えた"の個数が奇数ならマッチしないようにして、
$b =~ s/\bnote\b(?=([^"]*"[^"]*")*[^"]*$)/book/g;
とすれば、"のマッチングが保証できる範囲ではなんとかなるかも。
前からの"の個数でマッチさせようとしたら、
可変長のlook-behindは実装してないらしい。(perl 5.8)


407:名無しさん@お腹いっぱい。
04/03/31 14:53.net
s/"note"/hogehoge/g
s/note/book/g
s/hogehoge/"note"/g
おれならこうしちゃうな。
考えんのめんどい。

408:名無しさん@お腹いっぱい。
04/04/01 01:10.net
>>402

ありがとうございました。
たいへん勉強になりました。


409:名無しさん@お腹いっぱい。
04/04/07 15:07.net
質問させてください。

&にはマッチして欲しいのですが、&にはマッチして欲しくないのです。

どのように記述すればよいのでしょう。

お願いします。

410:405
04/04/07 15:09.net
&にはマッチ
&amp;にはマッチしない

でした。すいません。

411:名無しさん@お腹いっぱい。
04/04/07 15:26.net
>>405
Perl5 でいい?

412:名無しさん@お腹いっぱい。
04/04/07 15:32.net
>>405
/&(?!amp;)/

413:名無しさん@お腹いっぱい。
04/04/11 13:22.net
正規表現のおすすめ書って何がありますか?

414:名無しさん@お腹いっぱい。
04/04/11 14:13.net
オライリーのやつ。

415:名無しさん@そうだ選挙に行こう
04/07/11 16:49.net
ワイルドカード(DOS)の *.txt って、正規表現だとどう書くの?

416:名無しさん@お腹いっぱい。
04/07/11 20:35.net
{(([0-9a-zA-Z]){0,})\.txt}とか半端に返してみるテスト

417:名無しさん@お腹いっぱい。
04/07/11 20:46.net
[^\\/]+\.[Tt][Xx][Tx]\z とか (ry

418:名無しさん@お腹いっぱい。
04/07/11 22:41.net
foo と bar 両方含む行をマッチさせたいんだけど、
awkでいうところの and演算子
% awk /foo/&&/bar/
が使える、windowsで動くgrepツールなんか教えてください。

#絞込み再検索のないGUIなgrepツールなんかイラネ

419:名無しさん@お腹いっぱい。
04/07/11 23:39.net
>>412,413
. 記号は \ でエスケープになるのですね。.*\.txt でマッチはしました。
助かりました、ありがとうです。

420:名無しさん@お腹いっぱい。
04/07/12 22:46.net
>>414

FIND "foo" | FIND "bar"

みたいのじゃ駄目?

421:名無しさん@お腹いっぱい。
04/07/14 00:51.net
>>414
|が使えるツールなら、/foo.*bar|bar.*foo/とかで近似できるんじゃないの。
CygwinのGNU grepで試してみた。

> cat foobar.txt
foo
bar
foo foo
foo bar
bar bar
bar foo
> grep -n "foo.*bar\|bar.*foo" foobar.txt
4:foo bar
6:bar foo
>

422:414
04/07/23 03:17.net
なるほど、andをorに展開すればいいのか。
しかし fooかつbarかつbazを検索、つーばあい展開すんのめんどくさいなぁ。

windowsのGUIなgrepツールは、サブフォルダも検索、とかできて
結構便利なのも歩けど、パイプとかorが使えなかったりしてイマイチ。

結局cygwinでawk使ってるけど、これもいまひとつメンドクサイ。
2chのログを検索してるだけなんだが_| ̄|○

423:名無しさん@お腹いっぱい。
04/07/29 01:12.net
>>418
xyzzy の ggrep 辺りがいいんじゃない?

424:名無しさん@お腹いっぱい。
04/07/30 00:18.net
Windows の AWKじゃだめですか?

425:名無しさん@お腹いっぱい。
04/08/03 09:48.net
Perloしかないべ


426:名無しさん@お腹いっぱい。
04/08/06 22:51.net
#から行末までをあらわす正規表現ってどうやればいいんでしょうか。

427:名無しさん@お腹いっぱい。
04/08/06 23:22.net
#.*$

428:名無しさん@お腹いっぱい。
04/08/12 15:32.net
#[^#]*$

429:名無しさん@お腹いっぱい。
04/08/24 00:25.net
質問があります。

サクラエディタ(正規表現ライブラリ:BREGEXP.DLL)でCソース中のhogehogeをgrepしてた
場合に、コメント化(//)されている行だけは検索結果に表示したくないんですが、
どのような正規表現で検索すればいいでしょうか?


430:名無しさん@お腹いっぱい。
04/08/24 01:48.net
あげ

431:名無しさん@お腹いっぱい。
04/08/24 01:56.net
>>425
そのエディタよく知らないんだけど、Unix で動くの?

432:名無しさん@お腹いっぱい。
04/08/24 13:36.net
スレタイだけ見て、板を確認してないんだと思われ。

433:名無しさん@お腹いっぱい。
04/08/24 13:43.net
それを言うと、このスレ自体板違いな気もしなくはないが。ム板のだけで十分やん。

434:425
04/08/24 21:24.net
UNIX板って知っていて質問をしましたが。
とりあえず、ム板に逝ってみます。

435:名無しさん@お腹いっぱい。
04/08/24 21:38.net
>>430
Unix 用のソフトなの?

436:名無しさん@お腹いっぱい。
04/08/24 22:51.net
>>431
is not UNIX

437:名無しさん@お腹いっぱい。
04/08/24 23:41.net
多分エディタの種類はどうでもよくて、 /\/\*.*\*\/ とか、そんな答えを期待していたと思われ


438:名無しさん@お腹いっぱい。
04/09/05 06:33.net
ム板の正規表現もとんと書き込みないから、テストしてみたら
書き込めた。ここもどうなんだか、書き込んでみる。

439:名無しさん@お腹いっぱい。
04/09/06 18:18.net
ハハ*.*ハハ

440:名無しさん@お腹いっぱい。
04/09/07 16:51.net
指定文字列A 何か 指定文字列B
という何かにヒットさせるにはどういう正規表現にすればいいですか?

441:名無しさん@お腹いっぱい。
04/09/07 17:18.net
>>436
素で答えると「文字列A.*文字列B」だけど?そういう話?

もちろん文字列ABに特殊記号があったらどうするかとか、
.*は最長マッチでいいのとか、いろいろ細かい話はあるけど。

442:436
04/09/07 17:21.net
自分で、
(文字列A).*{2,15}(文字列B)
とかでやってみたんですが、
マッチするのが、
指定文字列A 何か 指定文字列B
がマッチしてしまうので…

何か の部分だけを抽出しようと思ってます。

443:名無しさん@お腹いっぱい。
04/09/07 17:55.net
後から取り出したい部分を()で囲む。(.*{2,15})みたいに。

444:436
04/09/08 01:37.net
>>439さんの方法でも結果が変わりませんでした… 処理系が違うからかな?

とりあえず諦めて、
指定文字列A 何か 指定文字列B
をマッチさせて、指定文字列A+1文字目から 何か の文字数だけ切り取ることにします。

ありがとうございました。

445:名無しさん@お腹いっぱい。
04/09/08 02:28.net
>>440
で、その処理系が何かを晒すつもりは毛頭無いわけですね?

446:名無しさん@お腹いっぱい。
04/09/08 10:13.net
>>441
ハゲには無理

447:436
04/09/08 11:58.net
何度もすいません。

C#です… 改めてやってみると>>439さんの方法でいけました。
group[1]に入ってたんですね。全体しか見てませんでした。

板違いにお騒がせしました。

448:名無しさん@お腹いっぱい。
04/09/10 00:33.net
Perlの場合、

$_ = "いっぱい";
s/い/お/;          # おっぱい
s/い/お/g;         # おっぱお

ということでおk?

449:名無しさん@お腹いっぱい。
04/09/10 02:41.net
  _  ∩
( ゚∀゚)彡 おっぱい!おっぱお!
 ⊂彡


450:名無しさん@お腹いっぱい。
04/09/10 15:00:12.net
小学生のころ流行ったネタ

451:名無しさん@お腹いっぱい。
04/09/27 06:28:21.net
性器表現

452:名無しさん@お腹いっぱい。
04/09/27 09:23:16.net
ワロテモータ

453:名無しさん@お腹いっぱい。
04/09/27 11:29:59.net
さんざん概出なのに・・・

454:
04/10/13 14:29:29.net



455:名無しさん@お腹いっぱい。
04/10/13 14:50:43.net
.*

456:ウサチャソ
04/10/29 21:49:31.net
↑アナルは性器じゃねーよな、とか思ってよく見ると、ドット米。
イボ痔か?

457:名無しさん@お腹いっぱい。
04/10/30 20:30:37.net
>>452
拭き忘れたウンチだよ。きっと!

458:名無しさん@お腹いっぱい。
04/11/10 15:37:24.net
regexp

459:名無しさん@お腹いっぱい。
04/11/26 21:14:34.net
rege*p

460:名無しさん@お腹いっぱい。
04/12/16 23:14:21.net
正規表現で複数の単語の中に「/」があるときにヒットさせたいんですが

echo "hoge / hoge" | grep "\</\>"

でだめでした・・。だれか修正をお願いしますorz


461:名無しさん@お腹いっぱい。
04/12/16 23:50:35.net
>>456
条件をもっと明確に定義しろ。
マルチすんな。

462:456
04/12/17 00:16:01.net
>>457

複数の単語の中で、"/"のみで構成される単語が存在する場合のみ
ヒットさせたいのです

つまり
a b c / d
上記ようなときで下記のどの事象にもヒットさせたくはないのです
// /a a/ a/a



463:名無しさん@お腹いっぱい。
04/12/17 01:22:18.net
>>456
スレリンク(linux板:957番)
とこっちと、どっちで続けるのかね。

464:名無しさん@お腹いっぱい。
04/12/17 11:17:13.net
まことに勝手ながらこちらで続けさせてください
質問を改めます
やりたいことは
-----------------------
1) echo "/" | grep ......
2) echo "/ a b" | grep ......
3) echo "a b /" | grep ......
4) echo "/a / b/" | grep ......
-----------------------
上ですべてマッチさせて
以下はすべてはじくようにしたいのです
-----------------------
5) echo "//" | grep ......
6) echo "// /// ////" | grep ......
7) echo "/a b/ /c/" | grep ......
-----------------------
上と下の違いは、前後にスペースを含む" / "が存在するか否かです

よって以下のように考えましたが、ヒットしませんでした
echo "a / b"|grep "\</\>"
echo "a / b"|grep "\<\/\>"

どなたか修正をおねがいしますorz


465:名無しさん@お腹いっぱい。
04/12/17 11:22:35.net
>>460
grep と言ってもいろいろあるんだが
どの OS のどの grep よ。

466:456
04/12/17 11:23:16.net
↑修正します

修正前)上と下の違いは、前後にスペースを含む" / "が存在するか否かです

修正後)上と下の違いは、単語 / が存在するか否かです

467:名無しさん@お腹いっぱい。
04/12/17 11:27:31.net
>>460
> 上と下の違いは、前後にスペースを含む" / "が存在するか否かです
1) と 2) には存在しないようだが。

468:名無しさん@お腹いっぱい。
04/12/17 11:28:10.net
>>462
「単語」とは?

469:名無しさん@お腹いっぱい。
04/12/18 00:00:37.net
ブラケットの中でピリオドを入れる時ってメタキャラクタとして扱われますか?

[\w.]

[\w\.]
が同じ動きにになるみたいなんですけど・・・。

ちなみに、パールです。


470:名無しさん@お腹いっぱい。
04/12/18 02:48:16.net
>>465
「みたい」じゃなくてテストコードで示してよ。

471:名無しさん@お腹いっぱい。
04/12/18 08:58:34.net
どの言語の正規表現がどんな有限オートマトン使ってるという情報って
どこかにありますかねぇ。正規表現コンバータ作ろうかと思ってるのですが。。

NFA、DFAの違いぐらいは詳説正規表現の本でわかるのですが、実装ともなると。
オートマトンの変換に関してはコンパイラの本を参考にしてますが、
やはりかなりつらいものがありますね。たんに字句解析して作った方がいいのかなぁ。

472:名無しさん@お腹いっぱい。
04/12/18 09:16:42.net
普通にNFA+DFAでいいじゃん

473:名無しさん@お腹いっぱい。
04/12/21 02:13:26.net
オブジェクト指向正規表現の仕様策定はまだですか?

474:名無しさん@お腹いっぱい。
04/12/21 14:44:45.net
>>469
聞いたことないな。
何それ?

475:名無しさん@お腹いっぱい。
04/12/21 19:26:19.net
>>469
まかせた。

476:名無しさん@お腹いっぱい。
04/12/22 19:35:55.net
お前らWinの.NETなんだが正規表現の質問をさせてくれ。

RegularExpressions.Regexで下の文字列を検索して<TD>から</TD>に分けたい。

string strHtml = "<TD>a</TD><TD>b</TD><TD>c</TD>"

Regex regex = Regex("<TD>.*</TD>");
MatchCollection matchcollection = regex.Matches(strHtml);

だと最長一致で "<TD>a</TD><TD>b</TD><TD>c</TD>"の1つのコレクション取得。

Regex regex = Regex("<TD>.*?</TD>");

だとやりたい "<TD>a</TD>", "<TD>b</TD>","<TD>c</TD>"の3つのコレクションが取得できる。

.*? の意味をアフォにも分かるように説明してくれ。
.*(任意の0文字以上)が?(あるかないか)だろ。
なんで思った通りに3つのコレクションが取得できるの?

477:472
04/12/22 19:38:29.net
*? つーのは最短一致という便利なキーワードなのか。
つまらん質問失礼しますた。

478:名無しさん@お腹いっぱい。
05/01/07 22:21:40.net
下がってるので、どれ一つ、とんちでも。
rubyでは
/aa+??/ =~ "a" => 0
emacsでは
"aa+??" =~ "a" => nil
さて、こうなってしまうのは、各々がどのようなオートマトンで
解釈されているからでしょうか。

479:名無しさん@お腹いっぱい。
05/01/08 07:36:53.net
emacsって最短マッチあんの?

480:名無しさん@お腹いっぱい。
05/01/08 11:15:48.net
ありましゅよー
URLリンク(www.cs.huji.ac.il)

でも、{m,n}? の最短マッチはないみたい…。

481:名無しさん@お腹いっぱい。
05/01/11 11:11:46.net
最短マッチに対応した grep ってある?

482:名無しさん@お腹いっぱい。
05/01/11 13:31:51.net
>>477
grep が最短マッチに対応してるかどうかが問題になるケースってある?

483:名無しさん@お腹いっぱい。
05/01/30 22:46:31 .net
[^ま]*まってかくのめんどくさい

484:名無しさん@お腹いっぱい。
05/02/26 05:47:57 .net
あげ

485:名無しさん@お腹いっぱい。
05/03/30 02:33:49 .net
up

486:名無しさん@お腹いっぱい。
05/04/19 17:08:07 .net
正規表現の実装っていろいろあることにやっと気づいた漏れorz

487:名無しさん@お腹いっぱい。
05/05/14 15:12:25 .net
ほしゅ

488:名無しさん@お腹いっぱい。
05/05/16 16:51:45 .net
abc xyzをaxbyczにしたいのですが

489:名無しさん@お腹いっぱい。
05/05/16 17:05:02 .net
s/abc xyz/axbycz/g

490:名無しさん@お腹いっぱい。
05/05/16 19:33:57 .net
ワロタ


491:名無しさん@お腹いっぱい。
05/05/16 19:34:25 .net
保守

492:名無しさん@お腹いっぱい。
05/05/17 22:45:20 .net
>>484
echo abc xyz |sed -e "s/^/%/; :ll; s/[%]\(.\)\(.*\) \(.\)\(.*\)/\1\3%\2 \4/; tll; s/%//;"

493:名無しさん@お腹いっぱい。
05/05/18 00:13:40 .net
うひょー

494:名無しさん@お腹いっぱい。
05/05/28 03:19:18 .net
うに厨として、% をめぐる動きに溜息出た…真剣にありがと 何重にも目が覚めた

495:名無しさん@お腹いっぱい。
05/05/28 05:32:41 .net
abc xyz でも
abcdefg ABCDEFG でもできるね。すげーや。

496: ◆2fmGY.thDg
05/06/02 22:17:25 .net
a

497:名無しさん@お腹いっぱい。
05/06/04 23:07:23 .net
('A`)

498:名無しさん@お腹いっぱい。
05/06/19 02:53:08 .net
Onigurumaを使っているんですが、
あるテキストデータがあります。
----- ここから
END

注釈 ○○○
注意 △△△
補足 ◎◎◎

TITLE
----- ここまで
という部分の、ENDの後の空白行からTITLEの前の空白行の部分(間の行)を削除して、
ENDとTITLEの間は1行だけの空白行にしたいです。
「END\s^[0-9a-zA-Z。-゜ぁ-んァ-ヶ亜-?]*\sTITLE」を指定してもマッチしないんですが、
これは私の正規表現の式が間違えているんでしょうか?
(複数行を1度に選択する方法を間違えている???)

499:名無しさん@お腹いっぱい。
05/06/19 03:13:31 .net
>>494
つーか、正規表現だけ見せられても判断できないと思うんだけど。
改行処理や文字コードのオプション設定はどうしてるかとかいろいろ情報が足りない。

500:名無しさん@お腹いっぱい。
05/07/13 09:25:56 .net
素直に、
~s/END(\s*.*?\s*)TITLE/END\n\nTITLE/sg;
じゃダメ?

501:名無しさん@お腹いっぱい。
05/07/13 13:15:24 .net
>>496
Oniguruma の質問なわけだが?

502:名無しさん@お腹いっぱい。
05/07/13 17:54:26 .net
…とは思ったのだが、Perl 互換らしーから、いーかなとw

てか、見つかるのむちゃくちゃ早いなww
事後ながら、oniguruma (ライブラリ)取りに行った

503:名無しさん@お腹いっぱい。
05/07/13 19:58:46 .net
>>498
> 見つかるのむちゃくちゃ早いなww
どういうこと?


504:名無しさん@お腹いっぱい。
05/07/17 23:17:41 .net
>494
> 「END\s^[0-9a-zA-Z。-゜ぁ-んァ-ヶ亜-?]*\sTITLE」を指定してもマッチしないんですが、
> これは私の正規表現の式が間違えているんでしょうか?
> (複数行を1度に選択する方法を間違えている???)

これのどこが、複数行を一度に選択しているの?


505:名無しさん@お腹いっぱい。
05/07/19 19:22:13 .net
>>500
ONIG_OPTION_MULTILINE (や REG_NEWLINE や RE_OPTION_MULTILINE など) をセット
しているかどうかで複数行選択できるかどうか変わるので、
そのへんを晒せばもうちょっと状況がわかると思うのだが、
元質問者はもう既にどっかいっちゃったのだろうな。

506:名無しさん@お腹いっぱい。
05/09/21 20:57:28 .net
正規表現で
○○ か ○○の場合と言うのはどう表現するのでしょうか?

Cで言う、 || のようなものです。

507:名無しさん@お腹いっぱい。
05/09/21 21:07:45 .net
テンプレに何もないんだなこのスレ。
このあたりで調べろ

URLリンク(www.kt.)


508:rim.or.jp/%7Ekbk/regex/regex.html



509:名無しさん@お腹いっぱい。
05/09/21 21:18:44 .net
\(>∀<\) キャー

510:名無しさん@お腹いっぱい。
05/09/21 21:58:13 .net
(;`∇´))))))))))) \(>∀<\) キャー

511:名無しさん@お腹いっぱい。
05/09/21 22:48:45 .net
俺ならこう→「\(○{2}\) か \1の場合」

512:名無しさん@お腹いっぱい。
05/09/21 23:46:20 .net
何気に正規表現本もラッシュだな。


513:名無しさん@お腹いっぱい。
05/09/22 00:19:11 .net
\([^ ]∀[^ ]*\)

AAみたいな正規表現を作りたいが難しい。

514:名無しさん@お腹いっぱい。
05/09/22 02:52:41 .net
つくれて�


515:驍竄I



516:名無しさん@お腹いっぱい。
05/09/23 23:15:15 .net
∀ がメタキャラになってくれると楽しいかも


517:名無しさん@お腹いっぱい。
05/09/26 20:32:51 .net
дも

518:名無しさん@お腹いっぱい。
05/09/28 14:54:06 .net
ネタキャラ


519:名無しさん@お腹いっぱい。
05/12/09 01:04:17 .net
純粋に興味の問題なんだけど、
「ある文字集合の要素が各1回ずつしか出現しない」という文字列は
正規表現で表現できる?

例えばA, B, Cの文字からなる言語を考えたとすると、
ABC ACB BAC BCA CAB CBAの6つの文字列にマッチする表現っす。

520:名無しさん@お腹いっぱい。
05/12/09 01:08:23 .net
文字集合の濃度が有限なら
単に | でつなげばいいな。

521:名無しさん@お腹いっぱい。
05/12/09 02:30:43 .net
いろは歌とか"a quick brown fox..."みたいなのにマッチさせる正規表現、
って書けば説明が早かったかもですね。

>>514
ひらがなの場合で47!個、アルファベットの場合で26!個の文字列を
|でつなぐってことになると思うんですが、やはりこれしか方法ないんですかね。
正規表現の長さは… アルファベットの場合でも約1京テラバイトか… orz

522:名無しさん@お腹いっぱい。
05/12/09 09:42:38 .net
>>513
[^A]*A[^A]* ではどうよ

523:名無しさん@お腹いっぱい。
05/12/09 09:53:24 .net
>>516
BBA にもマッチしちゃうんでは。

524:名無しさん@お腹いっぱい。
05/12/09 09:57:44 .net
>>515
> "a quick brown fox..."みたいなのに
o 2回出てるよ。

実用を考えたら正規表現以外でやった方がいいな。

525:名無しさん@お腹いっぱい。
05/12/09 19:50:27 .net
いろは歌って内容も傑作だよな。

526:名無しさん@お腹いっぱい。
05/12/09 21:53:37 .net
> o 2回出てるよ。

おお、32年生きてて初めて気が付いたっす。漏れの目はfusianasanさんだ… orz

> 実用を考えたら正規表現以外でやった方がいいな。

そうことになっちゃいますかね。みなさんレスどうもでした。

527:名無しさん@お腹いっぱい。
05/12/11 08:09:16 .net
Windowsで正規表現にマッチする文字列のみ(行全体じゃなく)を表示・保存するにはどうすればいいのでしょうか?
xyzzyとかのエディタのgrepでやろうとしたのですが、検索してもよくわかりません。
Rubyとかスクリプト言語を使わないと無理でしょうか?


528:名無しさん@お腹いっぱい。
05/12/11 08:13:57 .net
上すいません。書きこむスレ間違えました。(プログラム板の正規表現スレに書きこんだつもりでした。)

529:名無しさん@お腹いっぱい。
05/12/11 11:19:25 .net
ちょうど一回出るんなら何かの順序でソートして文字列が完全一致することをチェックかなあ

530:名無しさん@お腹いっぱい。
06/01/01 11:16:33 .net
エディターの正規表現で置き換えをしたいんですが・・・
1、2、3、・・・という連番を
(1) (2) (3)というふうに置き換えたいのですが
どうしたらよいでしょうか。

531:名無しさん@お腹いっぱい。
06/01/01 11:57:28 .net
まずは(ry

532:名無しさん@お腹いっぱい。
06/01/01 12:39:56 .net
置換元:[1-9]
置換先:(\0)
で、できるかもよ。

533:名無しさん@お腹いっぱい。
06/01/01 17:30:57 .net
>>526
だめでした。


534:名無しさん@お腹いっぱい。
06/01/01 19:50:58 .net
置換元:[1-9][0-9]*
置換先:\(\0\)
こんな風にすればできるのかな?
どんな風に駄目だったかわからないけれど。

535:名無しさん@お腹いっぱい。
06/01/01 20:02:16 .net
>>528
それもやってみましたが、検索はされるのですが、
置き換えが出来ません。(0)となってしまいます。
前回のは(となってしまいます。
エディターだから駄目なのでしょうか。


536:名無しさん@お腹いっぱい。
06/01/01 20:09:51 .net
\0のところを、
\1
$1
にしても同じかな?

537:名無しさん@お腹いっぱい。
06/01/01 20:13:18 .net
>>530
($1)となってしまいます。


538:名無しさん@お腹いっぱい。
06/01/01 20:17:25 .net
そのエディタの正規表現がreference(\1とか$1とか)をサポートしてないに1票。

539:名無しさん@お腹いっぱい。
06/01/01 21:27:04 .net
!(^^)!ピンポーンです。
ヘルプを見ていたら、referenceはサポートしていないと出ていました。
他のエディターを探すか、どうしたらいいでしょうか。


540:名無しさん@お腹いっぱい。
06/01/01 23:17:07 .net
続きです
結局QXエディタをダウンロードして使いました。
びっくりしたのはWindows上では
正規表現というのは全然一般的ではないんですね。
勉強しようにも正規表現サポート自体が脆弱だったんですね。


541: 【大凶】 3回目
06/01/01 23:32:29 .net
ググればなんぼでも出てきます。少し自分で考えなはれ。

542:名無しさん@お腹いっぱい。
06/01/03 22:49:27 .net
まあやることがハッキリ決まってるんなら、
(念の為)対象ファイルのカレントディレクトリのDOS窓を開いてsed、だな。

543:名無しさん@お腹いっぱい。
06/01/07 07:00:27 .net

{aaa}[bbb}{ccc}
という文字列から、aaa bbb cccをそれぞれマッチさせてとりだしたいので、

/¥{(.*)¥}¥{(.*)¥}¥{(.*)¥}/

としていましたが、
とりだしたい文字列のなかに、さらに{}がはいっていることがあることが
わかりました。
{aaa}[b{b}b}{ccc}
とか。
それぞれaaa b{b}b cccというかたちでとりだしたいのですが、どうしたものでしょうか。


544:名無しさん@お腹いっぱい。
06/01/07 10:07:50 .net
>>537
sedはそのままでok

545:名無しさん@お腹いっぱい。
06/01/07 14:56:41 .net
グループ化用のカッコにエスケープが必要だからsed「では」ダメじゃないの?
Perlならエスケープ不要なので大丈夫。

ところで>>537はテクニシャンだな。
navi2chで円マーク(¥じゃないほう)を表示させやがって…

546:名無しさん@お腹いっぱい。
06/01/07 15:36:35 .net
>>539
ヒント:}{

547:名無しさん@お腹いっぱい。
06/01/07 15:46:46 .net
いや、それは分かってるつもりだけど。
sedだと例えば{(aaa)}{(bbb)}{(ccc)}にマッチしちゃいますよってこと。

548:名無しさん@お腹いっぱい。
06/01/07 17:31:15 .net
>>541
じゃあ不必要な{}()を最初にスペースに変換してからマッチさせたら

549:名無しさん@お腹いっぱい。
06/01/07 18:58:38 .net
そんな必要ない。sedでも>>537のカッコをすべてエスケープすれば良い。
>>538の「sedは」というのが余分だっただけ。

550:名無しさん@お腹いっぱい。
06/01/12 05:55:00 .net
郵便番号をPHPで「1234567」から「123-4567」へ整形する正規表現を教えて下さい。

551:名無しさん@お腹いっぱい。
06/01/12 11:06:51 .net
>>544
【PHP】質問スレッドpart32【php】
スレリンク(php板)


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch