Regular Expression(正規表現) Part16

Regular Expression(正規表現) Part16at TECH

Regular Expression(正規表現) Part16 - 暇つぶし2ch962:デフォルトの名無しさん
23/11/03 21:12:42.60 PqFUo1lf.net
この外部コマンドを考えた方は2004年に亡くなっている
URLﾘﾝｸ(en.wikipedia.org)
20年前にこのコマンドを実装済みだったのはやばいな
perlの正規表現ですらそんなに機能が無かった時代だ

963:デフォルトの名無しさん
23/11/03 21:17:14.08 N1OKG/2k.net
最初から略称と言ってるのに文字順不問だと思うほうがどうかしてる

964:デフォルトの名無しさん
23/11/04 08:36:40.13 w1sIftMp.net
(正直|ぶっちゃけぇ?)高度すぎて理解が追いつかない

965:デフォルトの名無しさん
23/11/04 11:16:01.85 PZuBSK2Q.net
カラクリを簡単に説明しよう
１、 (?:キ?ム?ラ?) で文字順を固定
２、その他の部分でカッコ内でマッチする文字数の制限をかけている
例、 (?:キ?ム?ラ?) が0文字にマッチしたとしよう
\1が捕獲した中身は0文字に

966:なる (?!\1) の\1の中身が0文字だったら (?!\1) は (?!) と同じ動作になる (?!) は常にマッチを失敗させるから\1が0文字ならマッチ出来ない結果的にこれが文字数制限になっているちなみに正規表現にカウント機能があればもっと簡単に書けていた ( 　(?:キ$COUNT(x))? 　(?:ム$COUNT(x))? 　(?:ラ$COUNT(x))? ) $COUNT(0<x) perlは(?{code})でカウント可能、鬼車もカウント機能を実装済

967:デフォルトの名無しさん
23/11/04 14:47:51.87 Xn6+uSVd.net
perlジジイこのスレでも自演してんのかｗ

968:デフォルトの名無しさん
23/11/04 17:37:08.01 PZuBSK2Q.net
COBOLジジイからperlジジイにランクアップ

969:デフォルトの名無しさん
23/11/05 13:03:00.89 q8heJbgz.net
サクラエディタ

// 1
\1(a)

// 2
\k<name>(?<name>a)

2は1を名前付き括弧にしただけ
1は実行してもマッチに失敗するだけだが2はエラー
これはどちらもエラーになるほうが良い

970:デフォルトの名無しさん
23/11/05 13:07:33.08 q8heJbgz.net
ん？本当にそうか？分からん

971:デフォルトの名無しさん
23/11/05 15:52:16.56 q8heJbgz.net
2がエラーになるのは誤りだ、異論ある？
いつもの超優秀な人(AI?)の意見を聞かせて欲しい

972:デフォルトの名無しさん
23/11/06 06:59:13.82 j6L5l5bH.net
異論はないってことで良いかな、おそらく既知の問題(仕様)だと思われる
この問題に長年気付かないとは考えられないから

本来動くべきサンプルを貼って>>949の件は終了とする

x2("(?:\\k<n>b|(?<n>a))+", "aab", 0, 3); // ERROR: undefined name <n> reference
x2("(?:(?<n>a)|\\k<n>b)+", "aab", 0, 2); // OK

x2("(?:\\1b|(a))+", "aab", 0, 3); // OK
x2("(?:(a)|\\1b)+", "aab", 0, 2); // OK

973:デフォルトの名無しさん
23/11/06 19:00:47.89 j6L5l5bH.net
回避策
x2("(?<n>a){0}(?:\\k<n>b|\\g<n>)+", "aab", 0, 3); // OK

974:デフォルトの名無しさん
23/11/15 17:50:43.57 Karf8A+O.net
文字列の頭に部分一致するパターンなんですが・・・
「abcdefg」にマッチするパターンですが、
/^a(?:b(?:c(?:d(?:e(?:f(?:g)?)?)?)?)?)?/
と書くしかないですか？
文字列が長大な場合、ちょっと無理なんですが・・・
(文字はアルファベットとは限らず)
WindowsのJScriptですが。

975:デフォルトの名無しさん
23/11/15 18:12:27.94 ctqB5947.net
/^abcdefg/

976:デフォルトの名無しさん
23/11/15 18:41:54.66 /mJ+eeiZ.net
無いんじゃないか？
^(?:abcdefg|abcdef|abcde|abcde|abcd|abc|ab|a)
とどっちがマシかな

977:デフォルトの名無しさん
23/11/16 14:47:23.08 7i/8qZTv.net
/^m/ にマッチして map だけマッチして欲しくない
/^m[^a][^p]/ これだと man にマッチしてくれない
どう書けばいいですか

978:デフォルトの名無しさん
23/11/16 14:53:22.83 4tHpE5Jq.net
>>957
否定先読みが使えるなら^m(?!ap)かな？

979:デフォルトの名無しさん
23/11/16 15:59:06.48 7i/8qZTv.net
ありがとう

980:デフォルトの名無しさん
23/11/17 04:25:56.84 gwXFy+9L.net
特定の文字列を検出したい場合、\Q～\Eの～に、その特定の文字列を入れておけば、どんな文字が来ても大丈夫でしょうか？

981:デフォルトの名無しさん
23/11/17 06:13:31.18 28WV0iMa.net
\Eが来ると困る

982:デフォルトの名無しさん
23/11/28 12:33:08.74 vIU65Zk5.net
正規表現スレがいいと聞いてきました
ここがいい正規表現すれですか？
$ perl -e '$a="abc"; $a =~ s/(.*)/[$1]/g; print $a . "\n"'
[abc][]

なんで後ろにカッコが来るん？
.*に全部マッチするんだから
二個目の[]が来るなんてお菓子にゃん？

983:デフォルトの名無しさん
23/11/28 13:42:04.64 EkqG9ePT.net
perlよく知らんがgとったら消える

984:デフォルトの名無しさん
23/11/28 13:54:45.94 uy7CvN4q.net
推測だが、
1) .*にabcがマッチする　-> [abc]
2) .*は0個でもいいので、末尾位置(NUL)にマッチする -> []

985:デフォルトの名無しさん
23/11/28 14:25:52.10 uy7CvN4q.net
２回目は$a=""の場合と同じだと思えばいい
ヌル文字列でも.*だとマッチするでしょ？

986:デフォルトの名無しさん
23/11/28 16:18:10.81 vIU65Zk5.net
>>963
gとったら消える。Rubyも同じらしい。
>>964
[]が出るってことはなにかにマッチしてるってことでしょ？
>>965
それなら最初の.*にもマッチするじゃん？
一回目にマッチしなくて、二回目にマッチする理由がわからんのよ

987:デフォルトの名無しさん
23/11/28 16:18:30.67 JJPCdnVt.net
仮に2回目でマッチする何かがあったとしても
.*はgreedyなんだから1回目で消費してないとお菓子イイ

988:デフォルトの名無しさん
23/11/28 16:20:34.59 JJPCdnVt.net
でもなぁ
バグなら今までこんなん気が付かないはずないと思うからどうなんだろ

989:デフォルトの名無しさん
23/11/28 16:21:19.02 vIU65Zk5.net
$ perl -e '$a="abc"; $a =~ s/(.*)$/[$1]/g; print $a . "\n"'
[abc][]
$ perl -e '$a="abc"; $a =~ s/(.*$)/[$1]/g; print $a . "\n"'
[abc][]
後ろに$入れても同じ
行末以降の何にマッチしてんのこれ？

990:デフォルトの名無しさん
23/11/28 16:22:48.63 vIU65Zk5.net
Rubyのコードも持ってきた。持ってきただけだから意味は知らん。
ruby -e 're=/(.*)/; puts %Q(abc).sub(re){ %Q([#$1]) }'
[abc]
ruby -e 're=/(.*)/; puts %Q(abc).gsub(re){ %Q([#$1]) }'
[abc][]

991:デフォルトの名無しさん
23/11/28 16:44:51.01 wVUnEJO+.net
ググってみたがperlのそういう”仕様”として定着してるみたいだな
引っかかったことなかったわ

992:デフォルトの名無しさん
23/11/28 16:47:59.11 uy7CvN4q.net
>>968
1回目の.*で文字列全体がマッチ、2回目でNUL文字列にマッチするのは
どの正規表現環境でも同じだと思うよ

993:デフォルトの名無しさん
23/11/28 16:49:01.41 CppHkuHl.net
0文字と一致させたくなければ.*ではなく.+と書けよ

994:デフォルトの名無しさん
23/11/28 16:59:51.73 fB6/42vV.net
>>972
Perlの文字列はNull Terminatedされてないよ
/gだとマッチできないか再度確かめるからzero-lengthのempty stringにマッチするんだとさ
でも同じ位置でempty stringに2回はマッチしないようなチェックが入ってるからそこで抜けるんだとさ
個人的にはバグだと思うけどPCRE準拠でみんな作ってるから同じ動きをさせたんだろうね
regex101で試すとRustだけが一般に期待する動作をしてる

995:デフォルトの名無しさん
23/11/28 17:02:27.57 fB6/42vV.net
/(.*)$/みたいに末尾のアンカー入れても結果変わらないから余計におかしい
^を入れたら当然防げるけど

996:デフォルトの名無しさん
23/11/28 17:09:04.46 vIU65Zk5.net
>>971
探したけど見つからんかった。
どこにあった？ or どうやって探した？
キーワードがわからん

997:デフォルトの名無しさん
23/11/28 18:08:10.66 waKUlTL5.net
これは長さゼロでマッチした直後に長さゼロにマッチしてposが進まなかったときにマッチを終了するという、頭の悪い正規表現を書くマヌケのために配慮された動作が例外的なんだよ
そのおかげで頭の悪い正規表現を書いても無限ループさせずに済んだことにむしろ感謝するべきだね

998:デフォルトの名無しさん
23/11/28 18:30:16.15 mMoqXMUf.net
（ﾊｸｼｮﾝ！

999:デフォルトの名無しさん
23/11/28 19:16:57.98 6l9rHssS.net
単に便利だからゼロ幅マッチさせてるん
$str =~ s/()/$1,/g; やってみるといいのん

1000:デフォルトの名無しさん
23/11/29 13:08:47.77 yvH2v9xT.net
正規表現検索は失敗しないかぎり終わらないって話では

abcに対して(.*)$が検索される→「abc+末尾」がマッチ、この時点での位置はcの後ろのゼロ幅
残りの部分に対して再度(.*)$が検索される→「ゼロ幅+末尾」がマッチ、cの後ろのゼロ幅が消費される
残りの部分に対して再度(.*)$が検索される→対象を消費しきっているので失敗→検索終了

1001:デフォルトの名無しさん
23/11/29 14:41:21.44 lw8jVmFR.net
そういうもんだと思って使ってたわ
それをバグだと思ってる人がいてびっくりぽんや
しかしこういうことに疑問を持つ人は今後伸びるで

1002:デフォルトの名無しさん
23/11/29 17:53:32.44 AoutXZD6.net
>>980
その理屈で言えば1回目で対象を消費しきってるから2回目が失敗するべき
1回目で消費しきっているにも関わらず2回目のゼロ幅マッチが成功するなら3回目のゼロ幅マッチだって成功するはず
そうならないのは対象を消費しきってるかどうかを確認せずにマッチを実施しており最終的には2回連続同一箇所でのゼロ幅マッチという失敗条件に合致してはじかれているから

1003:デフォルトの名無しさん
23/11/29 18:01:27.70 lw8jVmFR.net
確かにその通りやな、１度目で消費しきっとるはずや

1004:デフォルトの名無しさん
23/11/29 18:06:42.76 lw8jVmFR.net
分かったつもりになってるだけで全然分かってへんのがおるから
ちゃんと本か何かで学習したほうがええで、今までそういう学習をしてへんやろ

1005:デフォルトの名無しさん
23/11/29 20:04:08.42 x7bR/xfi.net
/(.*)$(.*)$((.*)$){999}/

1006:デフォルトの名無しさん
23/11/29 22:25:25.39 yvH2v9xT.net
>>985
えーと、つまり
・ゼロ幅は消費されない。パーマネントにゼロであり続ける。なので無限にマッチ可能
・無限にマッチ可能→同じゼロ幅に2回連続マッチしたからといってposを進めたり終了するわけではない
てことかな？
2回目以降が発生するかどうかは、、どうなんだろう
前回と完全に同じマッチになるときは試行せず終わる、っぽいけど

1007:デフォルトの名無しさん
23/12/01 02:37:28.94 07OBAnmr.net
sedの基本正規表現と拡張正規表現だとゼロ幅にマッチしないね
元はPerlのバグだったのが仕様ってことになったのでは？
$ printf 'abc' | sed 's/$.*$/[\1]/g'
[abc]
$ printf 'abc' | sed -E 's/(.*)/[\1]/g'
[abc]

1008:デフォルトの名無しさん
23/12/01 08:09:57.11 RWimeGTM.net
/^\w+|$/[$&]/
これが[abc][]になるのはおかしいと感じないよね？
前半が末尾まで食い尽くすから$はマッチしないはずだと思う？

1009:デフォルトの名無しさん
23/12/02 00:36:44.31 /f7jnFb0.net
挙動を仕様書で厳密に定義しているJavaScriptではこうなってた
URLﾘﾝｸ(tc39.es)

・1回目のマッチが "abc" すべてを消費する
・2回目のマッチは文字列末尾から始まるけど正規表現が.*なのでマッチングに成功する
　ただし空文字にマッチした場合、先へ進まなくなることを回避するために
　次回開始位置を一つ後ろへずらす処理が入る (12.c.iii.2以下)
　これにより3回目のマッチは文字列の終端+1という範囲外の位置から始まることになり失敗に終わる

1010:デフォルトの名無しさん
23/12/07 23:24:41.69 Ug9Hn2aN.net
KEEPのKはあるのにPが無い、何故？

1011:デフォルトの名無しさん
23/12/07 23:31:35.71 Ug9Hn2aN.net
(?<=uma)musu(?=me) 柿憎い
uma\Kmusu\Pme 柿安い

1012:デフォルトの名無しさん
23/12/10 09:57:52.47 8JqB6SG/.net
>>988
思うよ
+の後に$を置けば余計にそう思う

1013:デフォルトの名無しさん
23/12/10 13:04:54.79 t3u5G9tC.net
$は「後ろが終端である位置」の指定であって「最後まで全部」という意味ではない
なので.+$で文字列を末尾まで消費した後でも再度末尾のゼロ幅にマッチできることはバグでもなんでもない

1014:デフォルトの名無しさん
23/12/10 14:15:57.63 ayXeZXuA.net
実装上のバグではなく仕様バグだろって話をしてるのがわからないのか？

1015:デフォルトの名無しさん
23/12/10 15:43:26.80 e6Tz3fj/.net
.*と$でマッチするものが異なるのに.*と.*|$でマッチするものが変わらないのは明らかにバクってるな
正規表現のパターンを変えるだけでperlでは[abc][]にも[abc]にもできるのにsedではこのバグのせいで[abc][]には絶対にできなくなってる
$ printf 'abc' | sed -E 's/.*|$/[&]/g'
[abc]

1016:デフォルトの名無しさん
23/12/10 15:44:52.66 e6Tz3fj/.net
s/バク/バグ/

1017:デフォルトの名無しさん
23/12/13 11:48:29.08 wzNHEkEB.net
ただの仕様だよ、あほらし

次スレよろ

1018:デフォルトの名無しさん
23/12/16 09:00:59.04 KMxF6SWS.net
次スレ
ｽﾚﾘﾝｸ(tech板)

1019:デフォルトの名無しさん
23/12/16 09:36:31.90 pgUnJUCg.net
天地無用

1020:デフォルトの名無しさん
23/12/16 10:49:04.16 faoSWywL.net
>>998
ほめてつかわす

1021:1001
Over 1000 Thread.net
このスレッドは１０００を超えました。
新しいスレッドを立ててください。
life time: 772日 14時間 59分 3秒

1022:過去ログ ★
[過去ログ]
■ このスレッドは過去ログ倉庫に格納されています