正規表現 Part5

正規表現 Part5at TECH

正規表現 Part5 - 暇つぶし2ch200:デフォルトの名無しさん
08/09/04 00:17:26
丁寧にありがとうございます。

201:デフォルトの名無しさん
08/09/04 00:22:59
rubyの(?>　)とほぼ等価ですかね。
イマイチ使う場面に遭遇しないんですけど…
どういう整形に必要かわからないんですけど、パタン表現になるぐらいだから、ある程度は需要があるのかなと思います。
これら特殊表現は、サンプルが多く出てくると、表現を理解できて、使える人がたくさん増えてくるのかなと思います。

202:デフォルトの名無しさん
08/09/04 04:46:06
タグ処理でよくあるんですけど、

<(.+?)>
<(.+)?>

は何か差があるんでしょうか。

203:デフォルトの名無しさん
08/09/04 07:21:56
下は
<> や <abcd>>> みたいなのにもマッチするぞ

204:デフォルトの名無しさん
08/09/04 08:48:19
>>201
正規表現を最適化するのに役立つ。
つまり「バックトラックしても無駄だ」っていうことを表明できる。

205:デフォルトの名無しさん
08/09/04 08:53:47
実装はそうでしょうけど、使う方からすると気にしてませんよ。
そもそもそのバックトラックの違いで速度などの差が出るようなら、regexpライブラリ使わないでしょうし。

206:デフォルトの名無しさん
08/09/04 08:54:59
>>205
お前が気にするか気にしないかは問題じゃない

207:デフォルトの名無しさん
08/09/04 09:05:39
おまえが気にするかとかよりも、バックトラックで問題が出るなら一般的には誰も使わないんじゃないですかね？
気にしてるのは、あなたの方ですよｗ

208:デフォルトの名無しさん
08/09/04 09:13:57
だから俺は気にするといってるんだが…

209:デフォルトの名無しさん
08/09/04 10:46:12
>>203
おお、そんなところに差があったんですか！感謝です！

210:デフォルトの名無しさん
08/09/04 11:01:52
気にするって、まさか自分で実装してるんですか？
c　のstring.h程度なら自力で実装できるんですけど・・・

211:デフォルトの名無しさん
08/09/04 11:36:34
正規表現の記事なんだが
やっと読み終わったぜ
URLﾘﾝｸ(codezine.jp)

212:デフォルトの名無しさん
08/09/04 12:02:17
バックトラックの量は正規表現を利用するだけの立場でも気にするべきことですよ。

213:デフォルトの名無しさん
08/09/04 12:05:02
ところでそれ、実測しましたか？

214:デフォルトの名無しさん
08/09/04 12:30:14
$unko =~ m!-_-!m;

215:デフォルトの名無しさん
08/09/04 13:20:26
正直怖いです

216:デフォルトの名無しさん
08/09/15 09:35:05
/\w+/にマッチし
/end/にマッチしない
というのをひとつの正規表現で書くのはどうすればいいですか？

217:デフォルトの名無しさん
08/09/15 10:31:31
否定読み

218:デフォルトの名無しさん
08/09/15 10:37:40
!/\W|end/

勝手に /^\w+$/ だと思い込んでみた。

219:デフォルトの名無しさん
08/09/15 20:23:01
サンクス
!//なんて技があるのか。
でもエディタの設定に//の中だけ書かなきゃいけないから使えないっぽい･･･
\b [^] |を駆使すれば出来そうだがめんどいな。

220:デフォルトの名無しさん
08/09/15 23:02:18
//の中だけじゃ、ignoreとかのフラグはどうしてんの？

221:デフォルトの名無しさん
08/09/15 23:17:10
チェックボックスがあるんだろ

222:デフォルトの名無しさん
08/09/16 00:23:31
○○あいうえお□□１２３
○○かきくけこ○□３４５
○○あかさたな□○５６７
○○はまやらわ□□７８９
○○あいうえおかきくけこ

このような文字列の○○と□□を入れ替えるには
どうしたらいいのでしょうか？

※○□と□○はそのままにする

223:デフォルトの名無しさん
08/09/16 00:25:51
(○○)(.*)(□□)(.*)
\3\2\1\4

224:デフォルトの名無しさん
08/09/16 00:59:03
素早い返事ありがとうございます。
ただ、それだと2、3、5行目の○○が□□にならないです。

225:デフォルトの名無しさん
08/09/16 01:37:44
s/○○/dummy/;
s/□□/○○/;
s/dummy/□□/;

226:デフォルトの名無しさん
08/09/16 23:29:17
正規表現である文字を含まない行に一致させる方法はありませんでしょうか？

たとえば

あいう
えおか
きくけ

とこのようにあった場合「お」を含まない行「あいう」「きくけ」にマッチさせたいんですが

227:デフォルトの名無しさん
08/09/16 23:52:05
grep -v お n.txt

228:デフォルトの名無しさん
08/09/17 00:47:11
>226
多バイト文字に対応しているとして ^[^お]*$
だけど、大抵の正規表現処理系において >227 のように「マッチしない」を指定する方法があるので
そっちを使う方が賢明。

229:デフォルトの名無しさん
08/09/17 01:15:58
>>227
>>228
レスありがとうございます。
すみません正規表現で文字処理するマクロソフト使用でしたので処理系があまり詳しくあえいませんでした。

^は基本でしたね、無事 ^[^お]*$　ですることが出来ました
ありがとうございます。

230:デフォルトの名無しさん
08/09/17 03:31:00
しかし現行の正規表現って使いづらいよな。
読みにくく書きにくくしかも非力。もう駄目駄目。
２ｃｈの面白いレスにのみマッチするといった条件が記述できるくらい強力な
オブジェクト指向か関数型ベースの正規表現を作るべきなんだよ。

231:デフォルトの名無しさん
08/09/17 07:51:36
文字列に対してオブジェクトや関数型ベースってどういう意味？

232:デフォルトの名無しさん
08/09/18 01:50:50
ブラウザによってもjavascriptの動作変わりますよね

javascriptです。
123451234512345

このような文字列があった場合　/1[0-9]*5/g　とするとどのようにマッチするかわかりますか？
このようにして使っていたんですが、ブラウザごとに違う動作をするようでうまくいきません。
IEでは12345　　12345　　12345　と三つにマッチするみたいです。
このような曖昧なものにするとだめなのでしょうか。
対処策などありましたらお願いします。

233:デフォルトの名無しさん
08/09/18 03:36:50
いや、、、どうしたいの？

234:デフォルトの名無しさん
08/09/18 09:17:03
貪欲マッチで「12345」にしかマッチしないのは変だな。

235:デフォルトの名無しさん
08/09/18 09:53:49
Firefoxで以下を実行すると12345123451234にマッチする
javascript:alert("123451234512345".match(/1[0-9]*4/g));
もちろん
1[0-9]*5
に変えると全部にヒット
JavaScriptのエンジンまでとは言わないからせめてブラウザぐらい書いてくれ

236:デフォルトの名無しさん
08/09/18 09:57:10
IEですね、本当にすみませんでした。

237:デフォルトの名無しさん
08/09/18 10:05:11
WinME IE6では123451234512345にマッチした

238:デフォルトの名無しさん
08/09/18 10:40:46
/▶1◀▶[0-9]*◀▶5◀/
"▶1◀▶23451234512345◀"
[0-9]*で残り全部にマッチしちゃって、最後の「5」があぶれそうに思えるけど、
ちゃんと全体にマッチするんだね。自分もまだ修行が足りない。

239:232
08/09/18 12:27:11
IE7でした。IE７でも>>235さんのものを実行したら12345123451234にマッチしますね
正規表現間違っていただけかも・・

「12345」「12345」「12345」
このように3つにマッチさせたいと思ってました。

実際処理していた文字列は長いのですが
.*　これを挟んでいたのになぜか
IE7では「12345」「12345」「12345」のように最短マッチのように出ていたみたいです。firefoxでは「123451234512345」

innerHTMLでの処理だったのでIEとfirefoxとでは改行？かなにか、文字列が変わっていたことが原因だったと思われます。

/1[0-9]*?5/gのように?をつけたら同じ動作をするようになりました。
レス下さった方ありがとうございます、勉強になりました。

240:デフォルトの名無しさん
08/09/19 19:54:29
単純な知的好奇心の質問なのですが、
123456789と適当な桁数の数値があった時、先後読みだけで3桁ごとにカンマを挿入するにはどう記述したらいいのでしょうか。

preg_replace("/(?=[0-9]{3})/", ",", "123456789");
では左から3桁以下になるまでカンマが一桁ごとに入ってしまいます。
前後逆転せずにできる方法があればお願いします。

241:デフォルトの名無しさん
08/09/19 20:20:56
>>240
URLﾘﾝｸ(www.din.or.jp)

242:デフォルトの名無しさん
08/09/19 20:25:42
>>240
整数をカンマ区切りに置換
URLﾘﾝｸ(oraclesqlpuzzle.hp.infoseek.co.jp)

243:デフォルトの名無しさん
08/09/19 21:18:24
>>241-242
ありがとうございます。
自分の頭の固さを痛感しました。

{3}+$で右側が3の倍数である時のみ、という風に指定すればいいんですね。
スッキリいたしましたm(_ _)m

244:デフォルトの名無しさん
08/09/20 17:54:15
javascriptで正規表現に%記号がうまく使えません。対処法はありますでしょうか？
/%a/i にすると「%a」にマッチするんですが /%a5/i のように%の後に2文字以上続けるとマッチしなくなります。

エスケープもうまくいきませんでした。宜しくお願いします

245:244
08/09/20 17:56:09
エンコードされた文字列にマッチさせたいと思っています。

246:デフォルトの名無しさん
08/09/20 19:30:20
"\%a5".search(/%a5/i); // => 0

"%a5" という３文字にマッチさせたいんだよね？
0xA5 という文字コードの文字じゃなく。

247:デフォルトの名無しさん
08/09/20 19:57:14
ブラウザとか環境を書けって上でも

248:デフォルトの名無しさん
08/09/21 00:51:45
そうです。文字エンコードされた　%82%a0%82%a2%82%a4%82%a6　という文字列の中から特定の文字をマッチさせたいと考えています。

javascript:alert("%82%a0%82%a2%82%a4%82%a6%82%a8%82%a9%82%ab%82%ad%82%af%82%b1".match(/%82%a0/g));
このように実行してもマッチされないんですよね
IEでも狐でもやってみましたがnullになります
どこが間違っているんでしょうか

249:デフォルトの名無しさん
08/09/21 01:03:10
>>248
その式をコピペしたけど、IE8βでもFirefoxでもOperaでもマッチしたぞ。
何かテスト方法を間違えてる。

250:デフォルトの名無しさん
08/09/21 02:59:21
URLﾘﾝｸ(server)<)
　URLﾘﾝｸ(server9.www)<)

よろしくお願いします。

251:デフォルトの名無しさん
08/09/21 03:34:01
少しは自分で調べたり考えたりしたのか？

252:250
08/09/21 03:42:18
>>251
わからないならレスしないでください。
それに質問に質問で返すのは失礼です。

253:デフォルトの名無しさん
08/09/21 04:02:29
あまりにも初歩的だから>>251の気持ちもわかるｗ

254:250
08/09/21 04:51:58
難しく考え過ぎてた。
風呂入ってきたら自己解決しましま
[|\d]*

255:デフォルトの名無しさん
08/09/21 04:54:57
[| ]
これは必要なのか？

256:デフォルトの名無しさん
08/09/21 12:02:25
練馬というファイル名リネームソフトで正規表現が使えるのですが、

s/\]([^ \.].+)/\] \1/

という正規表現で何故か「従妹」が「従妹」、「ゾン」が「ゾン」という風に
関係ないところまで半角スペースが入ってしまいますが何故でしょうか？

ヘルプを見ると正規表現の仕様は BREGEXP.DLL に準拠すると書かれています
よろしくお願いします

257:デフォルトの名無しさん
08/09/21 13:33:33
そのソフトは知らんが、作者が抜けてるだけだろ。

258:デフォルトの名無しさん
08/09/21 15:52:50
従やゾの２バイト目が SJIS で ] なんだろう。
正規表現ライブラリが日本語対応してないんだろうな。

259:デフォルトの名無しさん
08/09/21 18:45:09
サンクス
他の探すか作者に聞いてみます

260:デフォルトの名無しさん
08/09/21 22:45:57
DLL差し替えればいいじゃない

261:デフォルトの名無しさん
08/09/22 00:13:26
DLL自体は更新止まってるみたいです

262:デフォルトの名無しさん
08/09/22 05:34:17
その練馬とやらを使ってみたし、DLLの説明も見たけど、
SJISとして扱うのには、 k修飾子をつけるｙぷになってるんだが
ちゃんとつけてる？

263:デフォルトの名無しさん
08/09/22 05:35:30
って>>256みるとついてないね。つけてやってみては。

264:デフォルトの名無しさん
08/09/22 11:04:27
Visual Basic 2005で正規表現の処理を入れ子にしようとしたんだけど、
これだと、henkanに「$&」が文字列としてそのまま渡されてしまいます。

str = Regex.Replace(str, "<a href="".*?"">", henkan("$&"))

perlのeオプションみたいなのは見つけられなかったのですが、
どうすればいいのでしょう？

265:デフォルトの名無しさん
08/09/22 11:22:09
php5 mb_eregを使用しています。

n個のパターンを後方参照で取得したいです。
例えば 'abcde' を
'([a-z])([a-z])([a-z])([a-z])([a-z])'
というパターンであれば 'a', 'b', 'c', 'd', 'e' ととれるのですが
'([a-z])+'
こんなパターンで取得することは不可能でしょうか？

266:256
08/09/22 17:23:44
>>262
ありがとうございます！　/kで問題なくいけました！
ちゃんと説明読んでなかった自分が恥ずかしいです・・・

267:264
08/09/22 18:03:23
自己解決したので、カキコ。

まず、文字列を評価するための宣言をする
Dim myEv As MatchEvaluator = New MatchEvaluator(AddressOf henkan)

んで、置換部分をこんな感じにする。
str = Regex.Replace(str, "<a href="".*?"">", myEv)

さらに、関数をこんな感じに作る。
Public Function henkan(ByVal url As Match) As String
　　　　Dim s As String = url.ToString()
　　　　s = Regex.Replace(s, "\\", "/")
　　　　Return s

End Function

268:デフォルトの名無しさん
08/09/23 18:48:58
>>265
mbじゃないなら
$ php -r 'preg_match_all("([a-z])","abcdef",$reg);print_r($reg);'
でできるんだよな。

でもそれはどうでもいいんだよな。

269:デフォルトの名無しさん
08/09/23 21:44:17
PHPのpreg_matchを使ってHTML文書から次の内容を検索する
正規表現で困っています。

<a href="URL">前のページ</a>　<a href="URL">次のページ</a>

ここから「次のページ」を囲んでいるAタグのURLを検索したいです

/<a href=\"(.+?)\">次ページ<\/a>/
これだと、前のページのAタグまで含んでしまい困っています。
最左から検索するのが問題だということまでは分かったのですが解決法が分かりません。

/<a href=\"(.+?)\">(?=次)次ページ<\/a>/
こんな書き方もダメでした。

ヒントでもいいので教えていただけませんか？

270:デフォルトの名無しさん
08/09/24 01:53:37
>>269
> href=\"(.+?)\"
を
href=\"([^"<>]+?)\"
にでもしたらどーでしょ。

271:デフォルトの名無しさん
08/09/29 06:47:50
始めての…表現
URLﾘﾝｸ(anond.hatelabo.jp)

272:デフォルトの名無しさん
08/09/29 19:04:52
いままでMac OS9 Jeditにて正規表現での置換をしていました．
正規表現での一括置換ができる検索置換ラクダv1.01を導入したのですが
表現方法？Perlでの書き方が違うみたいで上手く置換できません．

できればOS9環境で正規表現の連続置換がしたいので検索置換ラクダで可能な
正規表現をPerl初心者の私にどうかアドバイスというか答えを教えてください・・

「全角文字の前後の半角スペースを削除」例＝　この MPEG は　→　このMPEGは　
{[、-◯ぁ-んァ-ヶ亜-腕弌-熙]}\s　【タブ】　\1
\s{[、-◯ぁ-んァ-ヶ亜-腕弌-熙]}　【タブ】　\1

「全角文字の前後の半角カンマを全角カンマへ」例＝　あ,あ　→　あ，あ
{[、-◯ぁ-んァ-ヶ亜-腕弌-熙]},　【タブ】　\1，
, {[、-◯ぁ-んァ-ヶ亜-腕弌-熙]}　【タブ】　，\1

「行末の西暦を括弧で囲む」例＝　XX, 2005　→　XX（2005）　XX,1998　→　XX（1998）
, {200[1-9]}$　【タブ】　（\1）
,{200[1-9]}$　【タブ】　（\1）
, {19[1-9][1-9]}$ 　【タブ】　（\1）
,{19[1-9][1-9]}$ 　【タブ】　（\1）

「半角数字間の全角ピリオドをピリオドを半角ピリオドへ」例＝　1．1%　→　1.1%
{[0-9]}．{[0-9]}　【タブ】　\1.\2

273:デフォルトの名無しさん
08/09/29 19:13:47
>>272
全角文字を文字範囲で指定するのは、
文字コードに依存するからうまくいかない環境もあると思う。

274:デフォルトの名無しさん
08/09/29 20:05:20
OS9って昔の環境だよな
検索置換ラクダとやらが何だか知らんし
Perlのバージョンも分からんが、
多分、単に漢字を文字クラスの中で使えない可能性が極めて高い

例えば、. が漢字一文字にマッチするか試してみればいいが、
多分そうなっていないだろう

275:デフォルトの名無しさん
08/09/30 09:41:18
php5です

文字列
<tr>
<td colspan="2"><img height="5" src="URLﾘﾝｸ(localhost)" width="1"></td>
</tr>
<tr>
<td width="100" height="147"><a href="/aaaa/bbbb/" title="hogehoge"><img src="URLﾘﾝｸ(localhost)">

この文字列の中のaタグのすぐ後ろのimgタグのURLを取りたく

preg_match("/"<a href=\".*?\" title=\".*?\"><img src=\"(http.*?\.jpg)\">/i", $body, $match);

こうしてみましたが、マッチしません
どのように書けばよろしいでしょうか

276:デフォルトの名無しさん
08/09/30 10:48:28
>>275
imgタグの中で、srcは必ず先頭に来る前提でいいのかな。
/<a[^>]+><img src="([^"]+)/
で、$1を取り出す。

277:デフォルトの名無しさん
08/09/30 11:13:03
空白1つを含む文字列にはマッチするけど、2つ以上連続の空白でマッチしないようにするには
どうすればいいのでしょうか？

ab cd ef 　gh

この場合、"ab cd ef"にマッチ。

278:デフォルトの名無しさん
08/09/30 12:13:17
>>277
{1}

279:デフォルトの名無しさん
08/09/30 12:32:32
>>277
[^ ]+( [^ ]+)*

280:デフォルトの名無しさん
08/09/30 12:50:20
>>279
サンクス
うまくいきました

281:デフォルトの名無しさん
08/09/30 16:09:48
>>276
できました
ありがとうございました

282:デフォルトの名無しさん
08/09/30 23:00:39
質問です。

●正規表現の使用環境
サクラエディタ ver.1.6.2.0

●検索か置換か？
検索

●説明
XMLファイルのタグの中を検索したいです

●対象データ
<aaa><bbb>hogehoge</bbb></aaa>

●希望する結果
aaa と bbb と /bbb と /aaa のみ検索される

色分けをしたいのです。
おねがいしまう

283:デフォルトの名無しさん
08/09/30 23:09:21
(?<=<).*?(?=>)

284:デフォルトの名無しさん
08/09/30 23:11:00
しまうーなら答えざるを得ない

285:デフォルトの名無しさん
08/09/30 23:24:06
今回のパナソニックって
s/松下[電器産業]/パナソニック
でいいですか？

286:デフォルトの名無しさん
08/09/30 23:29:57
電波ぽいのが気になるが
s/松下(電器産業)?/パナソニック/ じゃないか

287:デフォルトの名無しさん
08/09/30 23:40:13
>>283
できました。ありがとうございました！

288:デフォルトの名無しさん
08/09/30 23:43:26
そうだｗ
()はグループ化で
[]は1文字だけか

289:282
08/10/01 00:16:25
やっと理解できたｗｗｗｗｗｗｗｗｗｗ
理解できたってか調べるのに時間かかりました
(?<=<) これで < が前に存在することを保証する
.*? 任意の文字の連続(最短)
(?=>) > が後に続くことを保証する
283は天才www
チラ裏スマソ

290:デフォルトの名無しさん
08/10/01 00:18:33
お礼よりも… 分かってんだろうなボウズ

291:デフォルトの名無しさん
08/10/01 00:19:44
>>290
わかりませんサーセン

292:デフォルトの名無しさん
08/10/01 00:25:56
さっきからチンポ出して待ってんだから… と言えば何か分かるだろ。

293:デフォルトの名無しさん
08/10/01 04:10:07
そういうのりきもいよボケ

294:デフォルトの名無しさん
08/10/01 05:53:23
>>293
お前ここは初めてか？
いいから力抜けよ。

295:デフォルトの名無しさん
08/10/01 07:12:33
>>294
むしろお前が初めてか？
空気嫁よ

296:デフォルトの名無しさん
08/10/01 09:46:51
アッー！

297:デフォルトの名無しさん
08/10/01 10:05:59
最近の腐女子は正規表現も嗜むのか。
時代は進んでるな。

298:デフォルトの名無しさん
08/10/01 11:51:08
PHP4での処理をしております

$str = preg_replace('/( | )/i', ' ', $str);

いろいろやっているうちにチンプンカンプンでしまいには変な顔文字に見えてきて挫折しそうなので
どうかご教授お願いします

やりたい事は$strの中のbrタグが連続して２つ以上あればそれを１つに置き換えたいです
条件として、 と を同じ文字列として考えるのと、たまにbrの間に改行コードがあります
 \n \n 　→　 
このようにbrタグの間に改行コードがあってもbrタグは連続するものとしたいです
よろしくお願いします

299:デフォルトの名無しさん
08/10/01 12:13:59
php -r '$s=" \n \n ";echo preg_replace("/(( | )\n?)+/i", " ", $s)."\n";'

300:デフォルトの名無しさん
08/10/01 12:21:01
brタグのすぐ後ろの改行も吸収してしまうが
$s=" \n \ntest \n\n ";
$str = preg_replace("/(<br( +\/)?>\n*)+/i", " ", $s);

301:デフォルトの名無しさん
08/10/01 13:19:37
>>299-300
望みどおりの処理ができました
ありがとうございました

302:デフォルトの名無しさん
08/10/03 16:41:07
\d+\.\d+\.\d+\.\d+
でＩＰアドレスを取得しようとしてますが、
127.0.0.1 にだけはマッチさせたく無いです。
どうやったらいいですか？

303:デフォルトの名無しさん
08/10/03 17:16:01
(((((((((((((((([^1]*)*(1+[^2][^1]*)*)*)*(1+[^7][^1]*)*)*)*(1+[^.][^1]*)*)*)*(1+[^0][^1]*)*)*)*(1+[^.][^1]*)*)*)*(1+[^0][^1]*)*)*)*(1+[^.][^1]*)*)*)*(1+[^1][^1]*)*)*

304:デフォルトの名無しさん
08/10/03 17:16:18
不可能ではないが2段階に分けたら？
なにがなんでもひとつの正規表現でやらなきゃならない？

305:デフォルトの名無しさん
08/10/03 17:18:55
>>303
((((；ﾟДﾟ))))ｶﾞｸｶﾞｸﾌﾞﾙﾌﾞﾙ

306:デフォルトの名無しさん
08/10/03 17:23:05
>>303
そんなの死んでもイヤです！

307:デフォルトの名無しさん
08/10/03 17:28:43
まあIPアドレスなら127.まででもいいとは思うけどな。

308:デフォルトの名無しさん
08/10/03 21:02:00
文字列がIPアドレスのみなら

$str="192.168.0.1";
preg_match("/(127\.0\.0\.1)?(.*)/",$str,$m);
echo $m[2];

でいけるよな

309:デフォルトの名無しさん
08/10/03 21:29:36
127…でやってみた？

310:デフォルトの名無しさん
08/10/03 23:16:55
s/127.0.0.1/うんこ/g

/\d+\.\d+\.\d+\.\d+/gp

s/うんこ/127.0.0.1/g

311:デフォルトの名無しさん
08/10/03 23:18:12
>>309
>308の事なら中身の有無で分岐すればおk

312:デフォルトの名無しさん
08/10/03 23:19:03
ドットにエスケープなんているの？

313:デフォルトの名無しさん
08/10/03 23:23:17
可読性

314:デフォルトの名無しさん
08/10/04 00:55:36
ドットってエスケープいらないの？

315:デフォルトの名無しさん
08/10/04 01:04:01
すまない、必要だった
エスケープしないと任意の一文字でしたね

316:デフォルトの名無しさん
08/10/04 01:51:11
VC++でマルチバイト（ユニコードではない）日本語文字列を対象とした正規表現ライブラリの定番は何ですか？

317:デフォルトの名無しさん
08/10/04 09:19:23
Unicodeに変換しちゃだめなの？

318:デフォルトの名無しさん
08/10/04 21:25:17
ユニコード用しかないのか・・・。
VC++でまともな正規表現やろうと思ったら、ユニコード用の正規表現ライブラリしかないんですかね？
VBAのRegExpコントロールとか、boostのregexとか。

いますごく困ってるのは、VBAのRegExpコントロールを使ってVC++でMBCSプログラミングをしてるんですが、
MatchオブジェクトのFirstIndexプロパティが文字数単位で返ってくることなんですよ。
MBCSだと、バイト単位でどの位置なのか知りたいのに。
もちろん対象となるテキストの先頭から２バイト文字かどうかを調べていけば、
何文字目が何バイト目かを調べることはできるけど、テキストが長くなると処理速度的に満足できない。

ユニコードで何文字目→MBCSで何バイト目を高速に計算するAPIってないですか？

319:デフォルトの名無しさん
08/10/04 21:43:13
あと思いつくライブラリは鬼車だけど、どうだろう
何バイト目？ってのは結局頭から見ていくしかないので高速化も難しい
でも長いテキストでも見る開始位置を後ろに持っていくぐらいはできるかな

320:デフォルトの名無しさん
08/10/04 23:14:36
>>319
鬼車というのはちょっと見てみましたが、クセがありそうなのでやめときます。
文字数→バイト変換はやっぱり先頭から真面目にカウントするしかなさそうですね。

過去のカウント結果を保持するような文字数→バイトカウント専用のクラスを作って、
同じテキストに関するカウントの高速化をするとか工夫してみます。

321:デフォルトの名無しさん
08/10/05 10:09:25
MBCSの定番と言えばbregexp.dllじゃね？あるいは鬼車を同じIFにしたbregonig.dllとか。
鬼車以上にクセがあるが。

322:デフォルトの名無しさん
08/10/06 13:33:23
一括置換ソフトを使い、
複数のファイルにて、一括複数行置換をしたく、そのために正規表現を使わなくてはなりません。
色々と試してみてもうまく検索されないので教えてください。


<script type="text/javascript" src="URLﾘﾝｸ(x7.shidareyanagi.com)ここに９桁の英数字があります"></script>
<noscript><a href="URLﾘﾝｸ(x7.shidareyanagi.com)ここに９桁の英数字があります" target="_blank">
<img src="URLﾘﾝｸ(x7.shidareyanagi.com)ここに９桁の英数字があります" border="0"></a> 
<img style="margin:0;vertical-align:text-bottom;" src="URLﾘﾝｸ(img.shinobi.jp)" width="19" height="11">
<a href="URLﾘﾝｸ(sbc.rentalurl.net)" target="_blank">美容整形</a></noscript>


ファイルにより、上記の中で、「ここに９桁の英数字があります」のところがそれぞれ異なります。

その複数ファイルの中でからまで囲まれた部分を検索にかける場合、正規表現ではどう書きますでしょうか？

一括置換ソフトは
複数行置換　を使用しております。

323:デフォルトの名無しさん
08/10/06 13:37:08
>>322
.*
ではダメなの？

324:デフォルトの名無しさん
08/10/06 13:39:04
.*

325:デフォルトの名無しさん
08/10/06 13:57:09
最長一致しちゃうから、.* じゃマズいでしょ。
途中にコメントがないなら、<! を避ければいけそう。

326:デフォルトの名無しさん
08/10/06 19:16:41
.*? でいいんじゃ

327:デフォルトの名無しさん
08/10/06 21:30:13
最短一致で何か問題あるの？

328:デフォルトの名無しさん
08/10/06 21:59:53
だれもそんなことはいってないが

329:デフォルトの名無しさん
08/10/07 08:19:34
正規表現を使わなければならない、って云ってるのに
やり方が分からないってどういう事だ

330:デフォルトの名無しさん
08/10/07 09:48:57
その一括置換ソフトとやらが正規表現を使えるってことじゃ？

331:デフォルトの名無しさん
08/10/07 10:25:20
sedで、

　<a href="http://○○ ○○ target="_blank">△△</a>
　<a href="http://○○○○ target="_blank">△ △</a>

にマッチングして、 を削除したいのですがどの様な記述になるのでしょうか。

332:デフォルトの名無しさん
08/10/07 10:28:10
( ){2,}

333:デフォルトの名無しさん
08/10/07 10:35:57
追加

　□□<a href="http://○○ ○○ target="_blank">△△</a>□□
　□□<a href="http://○○○○ target="_blank">△ △</a>□□

失礼しました。<a href=""></a>の前後にも文字列があります。<a href=""></a><a hr・・・と
繰り返している可能性もあり、<a href=""></a>内で が発生している時はsedで取り除きたいのです。

334:デフォルトの名無しさん
08/10/07 11:22:35
<a href="">.*?( ){2,}.*?</a>

335:デフォルトの名無しさん
08/10/07 11:33:58
>>334
有り難うございます。　<a href=".*?( ){2,}.*?</a>　と変更しまして、ためしましたと所、

　<a href=""></a>○○ ○○<a href=""></a>　

にもマッチングしてしまいます。

336:デフォルトの名無しさん
08/10/07 14:14:50
/(<a href=.+?>.*?) (.*?<\/a>)/$1$2/ でどうだ

337:デフォルトの名無しさん
08/10/07 14:17:50
あ、まちごうた。これでどうだ
/(<a href=.+?) (.*?>)/$1$2/
もしくは
/(<a href=[^<>]+?) (.*?>)/$1$2/

338:デフォルトの名無しさん
08/10/07 17:13:07
>>337
有り難うございます。
会議が入ったので取り敢えずの中間報告です。どちらも100件の小さいログサンプルでは、
<a href="○○ ○○></a>にはちゃんと働いてくれました。

良い感じだったのですが、<a href="△△">○○ ○○</a>□□<a href="・・・
とリンク文字間に が有る場合は反応いたしませんでした。

339:デフォルトの名無しさん
08/10/07 20:37:43
このスレに複数のbrタグを一つにする正規表現があるから
それを活用するといいよ

340:デフォルトの名無しさん
08/10/15 17:14:42
その妙なHTMLを吐き出してる奴を修正する。

341:デフォルトの名無しさん
08/10/17 20:22:59
C#の正規表現で、「スペース（半角、空白）か改行しかない」という
条件はどう表現するのでしょうか。

^\s+\n と ^\s*$ を組み合わせる事で表現出来たような気したんですが
------

a

------
もマッチしてしまいます。

342:デフォルトの名無しさん
08/10/17 20:46:45
空白が何を指すのかちょっとわからないけど
^\s+$ か ^\s*$で通常なら事足りるはず

メソッドの使い方間違えてるかもしれないから
とりあえずC#のコード貼ってみて

343:デフォルトの名無しさん
08/10/17 21:55:13
>>342
親切に有り難う御座います。
^\s+$ で無事マッチさせる事が出来ました。
一応メソッドの方は汚いですが抜粋すると以下の様にして判定しており
buffの中に正規表現が入っていてstTargetを判定している感じです。

for (int i = 0; i < buff.Count; i++)
{
　　 bool regexCheck;
　　 try
　　 {
　　　　 regexCheck = Regex.IsMatch(stTarget, buff[i]);
　　 }
　　 catch
　　 {
　　　　 return true;
　　 }
　　 if (regexCheck == true)
　　 {
　　　　 return true;
　　 }
}

344:デフォルトの名無しさん
08/10/24 04:23:35
質問に来ました。

●正規表現の使用環境
boost regexを使用した「Flexible Renamer」というファイルリネームソフト

●検索か置換か？
置換

●説明
[aaaa][bbbb].xxx などとなっているファイル名の最初の[]だけを()に変えたい
(aaaa)[bbbb].xxx となるようにしたい

ソフトがバグっている可能性もあるのですが、いろいろやったけどできません。

345:デフォルトの名無しさん
08/10/24 04:28:04
それで質問は？

346:デフォルトの名無しさん
08/10/24 07:52:39
s/^(.*?)\[(.*?)\](.*)$/\1(\2)\3/
できないのはソフトのバグではない
じゃあ何の所為なんだろうね

347:デフォルトの名無しさん
08/10/24 11:11:02
>>346
㌧
やっぱりできませんでした
どうもソフト自体が正規表現を受け付けないみたい、説明にもヘルプにもできるって書いてあるのになー
別のフリーソフト探します

348:デフォルトの名無しさん
08/10/24 11:56:11
ちょっと触ってみたけど、高度なりネームにチェック入れたか？

349:デフォルトの名無しさん
08/10/24 12:11:36
高度なリネームにチェックして、正規表現を選択、
検索：^(.*?)\[(.*?)\](.*)$
置換：\1(\2)\3
で動作したが。

350:346
08/10/24 12:18:31
えっ、そこからなの？
ソフトの使い方とか予想外だった

351:デフォルトの名無しさん
08/10/27 09:42:10
HTMLのあるタグの中身が入れ子になっていても確実に外側にマッチできる正規表現ってありませんか？
正規表現だけに頼らず、HTMLをパースするしかないんでしょうか？

<div class="1">
あああ
<div class="2">いいい</div>
</div>
↑この、<div class="2"> があろうとなかろうと、<div class="1"> に対応する</div>までをマッチさせたい

352:デフォルトの名無しさん
08/10/27 10:23:24
たぶん、正規表現マッチのみだと、荷が重いか無理。
その例みたいに、「divのみで２重まで」とか条件があればまだしも。

353:デフォルトの名無しさん
08/10/27 11:17:41
HTMLとかXMLとか扱うのなら、たいていのケースでパーズしたほうが簡単。

354:デフォルトの名無しさん
08/10/27 13:40:07
世の中のHTMLがまともなHTMLばかりなら
それで苦労ないんだけどなw

355:デフォルトの名無しさん
08/10/28 01:02:35
ネストが狂ってたり閉じタグが無かったりなんてのはザラだからなー

356:デフォルトの名無しさん
08/10/28 01:19:07
一つの正規表現では無理だが、ループ作れば何とか。でも、自分では普通かかんよねー。
$match = '';
$str =~ /(<div class="1">)/g or die "no match";
$match .= $1;
while ($str =~ m{\G(.*?</div>)}gs) {
　$match .= $1;
　last if $1 !~ m/<div/;
}

357:デフォルトの名無しさん
08/10/28 11:17:52
現在『[\x20-\x7E]』とやって半角文字を抽出してるんですが
半角の空白のみを含まない場合は、どうやって表現したら良いでしょうか
お願いします。

358:デフォルトの名無しさん
08/10/28 12:25:44
>>357
アスキーコード表を眺めてみましょう。

359:デフォルトの名無しさん
08/10/28 12:38:16
>>358
ありがとうございました『[\x21-\x7E]』でいけました。
ところで、vb2008のRegexクラスでは、＾による否定ってできないのでしょうか

360:359
08/10/28 13:01:21
使えることがわかりました。自分の記述が悪かったみたいです。ありがとうございました。

361:デフォルトの名無しさん
08/10/29 18:31:37
C#で

数字４桁で後ろに
何もない
ハイフンが１個
ハイフンと小文字のアルファベットa-z
の３パターンにマッチするには、どう書けばいいのでしょうか

例
1234
2345-
7896-d

362:デフォルトの名無しさん
08/10/29 19:21:52
>>361
>>2あたりは一通り読んだのか？

363:デフォルトの名無しさん
08/10/29 21:45:54
優しさに泣いた

364:デフォルトの名無しさん
08/10/30 01:04:02
環境）OS：WinXP-Pro，Mem＝3GB，開発ソフト：FlashCS3-Pro（Player9.0，AS3.0）

Flash-ActionScript 3.0で正規表現を用いて、テキスト中の
　1.2345
-0.1234
10.5678

といった数値を抽出しようと思いますが、この場合の小数点の扱いはどのようになるのでしょうか？
テストで　.[0-9]　（小数点とその右の数値を抽出）を行ったところ、e1 というコードが現れ、
全く出鱈目な結果を得ました。
（ActionScript3.0で「.」は任意の１文字なので仕方ないのですが・・・）

Flashの場合に限らず、小数点を含む類似のサンプルがありましたらご紹介下さい。

365:デフォルトの名無しさん
08/10/30 01:07:55
OSとメモリに和んだ

任意の一文字を表す . を \ でエスケープすれば
. そのものになると思うよ

366:364
08/10/30 01:31:46
>>365
早速のレス有難うございます。

たった今、手元の本で見つけたのですが、　.　はAsciiコードで　\x2E と表現するということなので、
これで試しましたが駄目でした（Unicode表記　\u002E でも駄目でした）

半角マイナス（\x2D）やスラッシュ（\x2F）は問題なく抽出できたのですが・・・

367:デフォルトの名無しさん
08/10/30 02:06:44
正規表現オブジェクトをどうやって作ったのか
そのオブジェクトとどうやってマッチさせたのかわかるコードを貼ってみて

もし前者で new RegExp("\x2E[0-9]") とかしてるとややこしいことになる
正規表現リテラル /\x2E[0-9]/ や /\.\d/ なら期待通りに動くはず

368:デフォルトの名無しさん
08/10/30 02:54:50
[.][0-9]
なんて手もある。
一文字多いけど、 \ の扱いが面倒な状況だと役に立つかも。

369:364
08/10/30 22:42:15
>>367-368
試してみました。コードの構成は以下の通りで、マウスクリックでのアクションです。

var str:String = "+ +-- ** / / 0120-123-456 1.2345 -0.1234 10.5678 0.0012"; //適当な文字列

this.expBtnM0.buttonMode = true;// マウスポインタを指の形に
this.expBtnM0.addEventListener (MouseEvent.CLICK, mcClick0);
//　５個のムービークリップ　expBtnM0～expBtnM4　を押して動作

function mcClick0 (event:MouseEvent):void {
var pattern:RegExp = /\x2E[0-9]/g; // <----- ここを５種類で試す
var regObj:Object = pattern.exec(str);
trace ("0 マッチング： " + regObj); //　0 マッチング：　～　4 マッチング：
trace ("0 文字列： " + str.match(pattern)); //　0 文字列：　～　4 文字列：
trace ("");
}

結果は、　var pattern:RegExp = /\x2E[0-9]/g;　，　var pattern:RegExp = /\.\d/g;　，　
var pattern = new RegExp("[.][0-9]", "g");　および　var pattern:RegExp = /[.][0-9]/g;　の４つで可でしたが、
var pattern = new RegExp("\.\d", "g");　ではod が返されて不可でした（odの意味を調べましたが、
分かりませんでした）。
取りあえず、少数点（ドット）には　var pattern:RegExp = /～/;　の形が良いようです。

アドバイス、有難うございました。

370:デフォルトの名無しさん
08/10/31 01:02:32
今北
最後のやつはダブルクォート中のエスケープだから実態は“.d”で
任意の１文字＋dで解釈されたと思われる
それをするなら“\\.\\d”だろうか
どうも「\でエスケープ」の意図が伝わってなかった気がするね
できたんならよしとすればいいけど

371:デフォルトの名無しさん
08/10/31 06:50:23
だね。ややこしいところではある

// ASコンパイラは文字列「ドット、次に d 」と解釈
"\.\d"

// 正規表現コンパイラは文字列「ドット、次に d 」を元に正規表現を作成
// 結果、任意の一文字に続いてdが来る文字列にマッチする正規表現が出来上がる
new RegExp("\.\d", "g");

こういうのにはまったら、ASコンパイラと正規表現コンパイラの二者が
（概念的には）存在することを思い出すといいんじゃないかと思う
もちろん、とりあえず正規表現リテラル /.../ 使っとこう、でも構わない
あと >>369 のコード中の str に文字列 od が含まれていないか確認を

372:364
08/11/01 11:41:13
>>371
すいません、レス遅くなりました。

ここに貼った　var str:String　は元が長いので、途中を省略したもので、コード上の元の
文字列には確かに　od　が入っています。
AS3.0の　new RegExp("\.\d", "g");　だと、od（～d）　が対象になるのかなあ・・・・

373:デフォルトの名無しさん
08/11/03 18:48:42
●正規表現の使用環境
PHP4.3.11

●検索か置換か？
検索

●説明
CSVファイルを「,」で分離したいが、
「"」で囲まれているフィールドに関しては「,」で分離したくない

●対象データ
AB,BC,"CD,DE,EF",FG

●希望する結果
(1)AB
(2)BC
(3)"CD,DE,EF"
(4)FG

すいません、基礎的な質問かと思いますが
お分かりになる方がいらしたらよろしくお願いいたします。

374:デフォルトの名無しさん
08/11/03 19:47:44
CSVの分割は正規表現では完璧に表現できない
プログラムで対処が一般的

375:デフォルトの名無しさん
08/11/03 21:01:42
>>373
PHPなら専用の関数が元からあるだろう?

376:デフォルトの名無しさん
08/11/03 21:31:19
●正規表現の使用環境
Ruby1.8

●検索か置換か？
置換

●説明
ファイル名の頭から指定の文字列Xまでをなくす

●対象データ
例）指定の文字列X　→　"test"

ドラゴンボールtestあいうえお.txt
あああいいいtest.txt

●希望する結果
testあいうえお.txt
test.txt

377:デフォルトの名無しさん
08/11/03 21:35:30
"aaaiiitest.txt".sub(/.*?test/, "test")
"aaaiiitest.txt".slice(/test.*/)

378:デフォルトの名無しさん
08/11/03 21:40:12
ﾃﾗ早い回答ありがとうございました

379:デフォルトの名無しさん
08/11/08 09:49:48
●正規表現の使用環境
Perl v5.8.8

●検索か置換か？
検索

●説明
F1という文字列が含まれていたらヒットさせたい
ただしF1の前にFが付いている場合はヒットさせたくない

●希望する動作
"F1 ほげほげ"　→真
"FF11 ほげほげ"　→偽

[^F]F1
[^F]?F1
などと試して見ましたが失敗でした

380:デフォルトの名無しさん
08/11/08 10:11:16
自己解決
これでうまくいきました
^F1|[^F]F1

381:デフォルトの名無しさん
08/11/08 14:32:31
否定戻り読みとか使うのもいいだろう。
(?<!F)F1

382:デフォルトの名無しさん
08/11/08 14:36:05
CodeZineの記事オススメだなテンプレにいれとこうぜ

URLﾘﾝｸ(codezine.jp)
URLﾘﾝｸ(codezine.jp)

383:デフォルトの名無しさん
08/11/09 06:56:57
>>381
それは否定先読み

384:デフォルトの名無しさん
08/11/09 07:01:53
これ間違ってる？

(?<=aaa)bbb　直前にaaaがくるbbbにマッチ(先読み)。
(?<!aaa)bbb　直前にaaaがこないbbbにマッチ(否定先読み)。
aaa(?=bbb)　直後にbbbがくるaaaにマッチ(戻り読み)。
aaa(?!bbb)　直後にbbbがこないaaaにマッチ(否定戻り読み)。

385:デフォルトの名無しさん
08/11/09 07:04:38
>>383は無かったことにしてくれ

386:デフォルトの名無しさん
08/11/10 09:18:59
●正規表現の使用環境
lex
●検索か置換か？
検索？
●説明
C言語のコメントで使われるような書式の検索
/*で始まり*/で終わるような文
ただし途中で*/は出現しない
漢字コードはEUCです。
コメントが英数字だけならできそうなのですが
漢字などが入ってくるとよくわかりません。
よろしくお願いします。

387:デフォルトの名無しさん
08/11/10 10:47:44
EUCなら、漢字がバラになっても英数字とコードが重複しないから
問題ないのでは？

388:デフォルトの名無しさん
08/11/10 11:20:03
>>387
できれば正規表現を教えてもらえないでしょうか？
英数字は[a-zA-Z0-9]のようにできると思いますが
ひらがなやカタカナは[あ-んア-ン]のようにはやはりできませんよね？
文字コードで書くのでしょうか。。。。

389:デフォルトの名無しさん
08/11/10 11:21:52
>>388
この場合、正規表現にひらがなやカタカナを書く必要ないでしょう？

390:デフォルトの名無しさん
08/11/10 11:40:01
>>389
コメント/**/の中にひらがなやカタカナ、漢字、英数字がでて来ると思うのですが
必要ないのでしょうか？
例として
「/*(A|＊＊*B)*/」
Aは「*、/」以外の文字を表しBは「/」以外の文字を表す。
演算の*と混乱をさけるためアスタリスクは全角大文字にしているが
実際は半角にする。
このAとBを表したいのですが。。。。
例えば[0-9a-zA-z(漢字コード?)^/*(/と*を除く)]のようにすればいいのでしょうか？

391:デフォルトの名無しさん
08/11/10 12:15:38
後出しで条件つけるなよ・・・

392:デフォルトの名無しさん
08/11/10 13:04:37
>>390
目的は、コメント中の「＊」を「*」にすること?

393:デフォルトの名無しさん
08/11/10 13:19:29
>>391
すみません、質問の仕方が悪かったです；
>>392
いえ、「/*(A|＊＊*B)*/」の「＊」は本当は「/*(A|xx*B)*/」
とかけてC言語ではかけるの「x」は「*」で、
正規表現の0回以上繰り返す「*」とかぶってしまうため
「/*(A|***B)*/」とかかないで「/*(A|＊＊*B)*/」と書いていると思います。
何がしたいのかはlexを使って字句解析をしたいのですが
コメントの部分をスルーするための正規表現の仕方がしりたいのです。

394:デフォルトの名無しさん
08/11/10 13:25:36
字句解析するなら /* と */ だけ検知して
途中は読み飛ばせばいいような気がするんだけど、そうじゃないの？

395:デフォルトの名無しさん
08/11/10 13:29:59
英数字なら出来そうとかのたまっているけど、まずはそれで実装してみりゃいいじゃんね。
それでＥＵＣコードの部分で引っかかるようなら改良すればいい。

396:デフォルトの名無しさん
08/11/10 13:40:59
ダメだこりゃ

397:デフォルトの名無しさん
08/11/10 13:45:57
>>394 が正解。

コードで書くのは簡単なんだが、正規表現にするには独特のコツがいるという
タイプの問題なので、下手にこだわるよりさっくり問題そのものを別の方法で
解決してしまったほうが早い。

398:デフォルトの名無しさん
08/11/10 13:58:13
よく分からんが、最短マッチが使えないからどうしようって話か？
/* -> COMMENT状態に遷移
*/ -> 戻す
でいいんじゃね

399:デフォルトの名無しさん
08/11/10 14:03:53
>>394
/*と*/を検知するには
{^/*}{/*$}のような感じでいいのでしょうか？
行が複数行になったらおかしくなりませんんかね。。。。。

400:デフォルトの名無しさん
08/11/10 14:28:50
ん、あれ？
別の板の正規表現スレで似た話があったから、その続きかと思った。
量指定子を＋と＊で書くと、

/*([^*]|*＋[^/*])＊*＋/

となる。

401:デフォルトの名無しさん
08/11/10 15:03:37
>>400
回答ありがとうです<(_ _)>
よく考えて見ます。。
ちなみにマルチはしていません＠＠

402:デフォルトの名無しさん
08/11/10 22:36:25
コンパイラコンパイラで使用できる正規表現というかEBNFは、しょぼくて、マルチバイト
対応するの大変だから生成されたパーサだけ使用して、スキャナは自前実装がお勧め。

403:デフォルトの名無しさん
08/11/11 04:08:42
●正規表現の使用環境
Excel & 正規表現検索
※ URLﾘﾝｸ(srcedit.pekori.jp)
●検索か置換か？
置換
●説明
英単語のみ先頭文字を小文字化
●対象データ
One
Two
Three3
●希望する結果
one
^
two
^
Three3
^^^^^^^
○自分の経緯
　検索：(^[a-z])([a-z]*)
　置換：[LOWER]$1$2
　結果：One　⇒　[LOWER]One
○知りたいこと
　このアドインにある「特殊置換」を利用する際の文法
以上、お願いいたします。

404:デフォルトの名無しさん
08/11/11 10:08:45
おれなら Excel　をデスクトップの「ごみ箱」へＤ＆Ｄする

405:デフォルトの名無しさん
08/11/11 18:18:15
コントロールパネルからアンインストールしないと意味ないって警告出るだろ。

406:デフォルトの名無しさん
08/11/12 05:26:09
mmMMamUUqpndbback

407:403
08/11/12 05:43:22
それができたら、どんなに楽か・・・

408:デフォルトの名無しさん
08/11/12 20:14:38
とりあえずこのスレ>>1-10まで流し見て全く理解できなかった
もう一度読んでみるのが怖い

409:デフォルトの名無しさん
08/11/12 20:43:19
>>403
特殊置換は変換後にそれだけしか書けないんじゃない？
とりあえず変換するだけなら↓でいけないか
変換前：^[a-z]+$
変換後：[LOWER]

410:デフォルトの名無しさん
08/11/13 00:28:30
検索：A([a-z]*)　　置換：a$1
検索：B([a-z]*)　　置換：b$1
検索：C([a-z]*)　　置換：c$1
検索：D([a-z]*)　　置換：d$1
検索：E([a-z]*)　　置換：e$1
検索：F([a-z]*)　　置換：f$1
検索：G([a-z]*)　　置換：g$1
検索：H([a-z]*)　　置換：h$1
検索：I([a-z]*)　　置換：i$1
検索：J([a-z]*)　　置換：j$1
検索：K([a-z]*)　　置換：k$1
(省略されました続きを読むにはここをクリックしてください)

411:デフォルトの名無しさん
08/11/14 12:10:39
●正規表現の使用環境
Repl-Ace
※ URLﾘﾝｸ(www.sirmiles.com)
●検索か置換か？
置換
●説明
testA
きょう
あした
testEndA
や
testA
あした
あさって
しあさって
testEndA
のようなtestAからtestEndAで囲まれている文字列（改行あり）を特定文字列に置換
●希望する結果
testA
１週間前
２週間前
testEndA

412:デフォルトの名無しさん
08/11/14 14:23:21
正規表現を魔法のプログラミング言語だと勘違いしてないか？

413:デフォルトの名無しさん
08/11/14 14:52:11
そのツールでうまくいくかどうかわからんが

パターン testA\n.*?testEndA\n
置換文字列 testA\n１週間前\n２週間前\ntestEndA\n

でいいのか？

何を期待してるのだかよくわからんが...

414:デフォルトの名無しさん
08/11/14 14:59:43
処理系によってはドットは改行とマッチしないので注意。

415:デフォルトの名無しさん
08/11/14 19:38:18
正規表現に通じている先輩は正に魔法のように正規表現を使ってあらゆるリクエストに解を提示している。
あんな人になるには一体どうすればいいんだろうか？

416:デフォルトの名無しさん
08/11/14 20:57:27
とりあえずふくろう本は読んだか？

417:デフォルトの名無しさん
08/11/14 21:46:38
やっぱりあのそこそこ分厚い青い本に挑戦したほうがいいみたいですね。TODOリストの一番上に上げときます。

418:デフォルトの名無しさん
08/11/14 23:15:54
正規表現って何なんだよ
表現に正規も糞もあるか！

419:デフォルトの名無しさん
08/11/14 23:20:45
正則表現という訳も、あるにはある。

420:デフォルトの名無しさん
08/11/15 00:25:47
「正規表現」という表現は、確かに適切でない。
では何が良いかといわれると、判らない。
明治時代の人々は、偉大だった。

421:デフォルトの名無しさん
08/11/15 02:38:54
regular expression を無理やり「正規表現」と訳しただけ。
アテ字と言って過言ではない。意味を深く考える必要は無い。

422:デフォルトの名無しさん
08/11/15 02:39:30
「帝王切開」みたいなもんだな。

423:デフォルトの名無しさん
08/11/15 02:53:00
は？

424:デフォルトの名無しさん
08/11/15 02:54:53
洗濯を選択だな

425:デフォルトの名無しさん
08/11/15 13:49:35
何それ気になる

426:デフォルトの名無しさん
08/11/15 17:37:48
形式言語理論の分野では正則表現ともいう

まあ今時の言語で使えるような正規表現はもはや正則言語で表現できる範囲を
越えてたりするんだけどね

427:デフォルトの名無しさん
08/11/15 19:05:57
性器表現

428:デフォルトの名無しさん
08/11/15 22:00:13
モザイクやハレーションか。
「♪ヤッホー FORTRANランラン」並みに手垢が付いたネタだな。

429:デフォルトの名無しさん
08/11/15 22:07:24
>性器表現
>手垢が付いたネタ
つまりエロ本のことだな

430:デフォルトの名無しさん
08/11/16 14:47:16
よろしければ、お知恵をおかしいただきたいです。

"あるマックなどPCがあり、マックなどのコンピュータ"

の文字列から、/マックなどの?(.+)/のような正規表現で、「PCがあり、」「コンピュータ」の文字列を
取得したいのですが、うまくいきません。この場合、どのようにするのがよいのでしょうか？
よろしくお願いいたします。

431:デフォルトの名無しさん
08/11/16 18:58:39
>>430
環境を書け

432:デフォルトの名無しさん
08/11/16 19:46:20
環境を書けば答えられるの？

433:デフォルトの名無しさん
08/11/16 19:51:09
出来ない、というのも答えの一つだしな

434:デフォルトの名無しさん
08/11/16 20:14:40
>>431
430です。
Ruby 1.8.6、UTF8です。
お願いします。

435:デフォルトの名無しさん
08/11/16 20:18:42
>>431
ほら、質問者が環境書いたぜ。
「出来ない」って答えろよ。

436:デフォルトの名無しさん
08/11/16 20:21:20
文字列を切り取りたいわけだろ？
文字列を切り取るには、何が必要だ？
どこから、どこまで。スタートとエンドだ。

/マックなどの?(.+)/

これにはスタートはあるが、エンドが無い。
どこまで切り取ればいいのか不明なんだよ。

どこから・・・マックなどの?
どこまで・・・　　　　←これを決めろ。

437:デフォルトの名無しさん
08/11/16 20:46:51
>>435
何なんお前
建設的なレスできないなら無駄なレスすんなよ

438:デフォルトの名無しさん
08/11/16 20:49:37
で？環境書けば出来るの？

439:デフォルトの名無しさん
08/11/16 20:51:20
うん

440:デフォルトの名無しさん
08/11/16 21:02:54
>>430
str = "あるマックなどPCがあり、マックなどのコンピュータ"
re = /あるマックなど(PCがあり)、マックなどの(コンピュータ)/
puts re.match(str).to_a[1..2]

441:デフォルトの名無しさん
08/11/16 21:13:42
↑↑
氏ね

442:デフォルトの名無しさん
08/11/17 08:23:20
次のマックなどの?(.+) もしくは行末までなんじゃないかな。

443:デフォルトの名無しさん
08/11/17 09:34:46
片仮名と平仮名の境目で切るのかな。
状態を持つ物なら、何らかのプログラミング言語を使わないと。

444:デフォルトの名無しさん
08/11/17 13:32:29
他人が勝手に仕様を決めていいのかよ

445:デフォルトの名無しさん
08/11/17 15:33:30
>>421
最初に訳した人が誰かは知らないが、regularの捉え方を間違えている。
正しいではなく、普通のと言う意味あいで（例：レギュラーガソリン）
汎則式とでもしておけば、初学者の違和感も起きないものを…

446:デフォルトの名無しさん
08/11/17 15:43:21
どうでもいいですよ

447:デフォルトの名無しさん
08/11/17 17:07:42
みんなチョムスキーが悪い

448:デフォルトの名無しさん
08/11/18 00:23:42
すみません。教えてください。

●正規表現の使用環境
サクラエディタ ver.1.6.2.0

●検索か置換か？
置換

●説明
フルパスが記述されたテキストファイルをとあるソフト（画像ビューアのHamana）のリストファイルにしたい

●対象データ
C:\Program Files\Windows Media Player\wmplayer.exe

●希望する結果
D=C:\Program Files\Windows Media Player\
F=wmplayer.exe

行末の直前の\を置換すればいいのかな？と思ったのですが
指定の仕方がわかりませんでした・・・

449:デフォルトの名無しさん
08/11/18 00:40:18
とりあえず
置換前：^(.*\\)(.*?)$
置換後：D=\1\r\nF=\2

450:デフォルトの名無しさん
08/11/18 01:03:03
>>449
ありがとうございました

451:デフォルトの名無しさん
08/11/18 12:09:47
<img width="120" height="180">
</img width="120" height="180">
<img width="120" height="180"/>

という文字列をすべて
width="120" height="180"
width="120" height="180"
width="120" height="180"

にしたいのですが秀丸の置換で
検索→.* (.*)[/>].*$
置換→\1

とやってるのですが

width="120" height="180"
width="120" height="180"
width="120" height="180"/

と、さいごのスラッシュが消えません。
是非助言をください！・・・もう何時間もやってるんです（汗

452:デフォルトの名無しさん
08/11/18 12:14:47
.* (.*?)[/>].*$
でいけました！お手数おかけしました！

453:デフォルトの名無しさん
08/11/20 09:31:33
とても大変だと思うのですが、よろしくお願いします。

●正規表現の使用環境
Windows上で動く「Perl5の正規表現と互換性のある」とマニュアルに書いてある
フリーの（今はシェアになっています）クリップボード拡張ソフト

マニュアルには、参考事例として
・複数行のテキストに含まれている空白記号をすべて削除する
[@ s/[ ￥t　]//gmk]
・複数行のテキストに引用記号をつける
[@ s/^/> /gmk]
などが書かれています。

●検索か置換か？
置き換え　です。

●説明
窓の杜などからソフトウェアのファイルをダウンロードするときに、
そのソフトをレビューした記事のタイトルをダウンロード先フォルダの名前にしています。
しかし、記事からタイトルをコピーして、フォルダ名としてペーストするだけでは
「ファイル名には次の文字は使えません。」という警告をWindowsから受けてしまうことが頻繁にあります。

Windowsでフォルダ名に使えない文字を削除しつつ、無意味な連続する空行を削除し、
ペーストしただけでフォルダ名として使える文字列へと変換できる正規表現を考えていただけないでしょうか？

454:453
08/11/20 09:34:37
●対象データ1
「改行」
Moo0 オーディオ再生器「改行」
コンパクトで軽快に動作し、直感的に操作できるオーディオプレイヤー「改行」
「改行」
for Windows「改行」

●希望する結果1 (フォルダ名に改行を使えないので、全ての改行をアンダースコアに置き換えつつ1行の文字列へ)
_Moo0 オーディオ再生器_コンパクトで軽快に動作し、直感的に操作できるオーディオプレイヤー_for Windows
(先頭のアンダースコアはあってもなくても構いませんが、無い方がうれしいです)

●対象データ2
シンプルかつ高機能な音楽プレイヤー
foobar2000
バージョン【0.9.5.6】　

●希望する結果2 (ここまでの変換に加え、連続する空白、TABをひとつのアンダースコアに置き換えつつ、さらに末尾の空白を削除)
シンプルかつ高機能な音楽プレイヤー_foobar2000_バージョン【0.9.5.6】

●対象データ3 (○アールはregistration symbolと呼ぶらしい丸の中のRなのですが、打てませんでした。)
1.
Intel○アール Graphics Media Accelerator Driver for Windows* XP (exe) (20476KB)
14.36.4.5002 2008/10/24

●希望する結果3 (ここまでの変換に加え、registration symbolを(R)へ、フォルダ名に使えない文字/をハイフンへ）
1.Intel(R) Graphics Media Accelerator Driver for Windows* XP (exe) (20476KB)_14.36.4.5002_2008-10-24

455:453
08/11/20 09:35:51
なお、Windowsでフォルダ名に使えない文字列は
\ / : , ; * ? " < > | および　改行
とのことなので、これらを含まない形へ整形できたらと思います。

これらを一度に処理することが、正規表現で可能なのかどうかも分からないのですが、
もし、できそうなら、どなたか編み出してもらえないでしょうか？
よろしくお願いします。

456:デフォルトの名無しさん
08/11/20 13:49:38
とりあえず、

s/[\\\/:,;*?"<>|]/_/g

みたいな。細かい改良点は自分で考えなよ。

457:デフォルトの名無しさん
08/11/23 00:32:05
………[2バイト文字][改行]
[2バイト文字]

↑このパターンを

………[2バイト文字][2バイト文字]

にするにはどう書けばよいでしょうか？

458:デフォルトの名無しさん
08/11/23 02:19:43
s/\n//

459:デフォルトの名無しさん
08/11/23 02:39:08
>>457
テンプレくらい読め。

それにそんだけじゃ情報が足りなすぎだ。
どうせ元データは何百行とあるんだろう?

どういう行とどういう行を連結したいのか位は明確にしろ。

460:デフォルトの名無しさん
08/11/26 05:14:10
●正規表現の使用環境
Devas 3.4

●検索か置換か？
置換

●説明
各行先頭にある
空白4つと数字（1から85）、ピリオドを抜き出したい

例えば
1. 120.136.16.13:3128
2. 94.178.64.37:48018
79. pps.nntime.com:554
このようなIP+Portの前にある文字列のことです。

●対象データ
1.
85.

461:デフォルトの名無しさん
08/11/26 05:28:19
^ *\d+\.

もし空白やドットが不要で通し番号だけ拾うのなら、
ツールにもよるけど ^ *(\d+)\. とか適当にアレンジして試しておくれ

462:デフォルトの名無しさん
08/11/26 06:36:22
>>460
それ、置換なの？

463:デフォルトの名無しさん
08/11/26 10:02:54
>>461
ありがとうございました！
^ *(\d+)\.
これでIPとPortだけに置換することができました。

464:デフォルトの名無しさん
08/11/27 15:26:32
よろしくお願いします。

●正規表現の使用環境
Flexible Renamer(Perl5互換)

●検索か置換か？
置換

●説明

ファイル名の一部を別の位置へ移したい。

●対象データ
(日付)(場所)hogehoge　というフォルダ名や (日付)(場所)hogehoge,jpgというファイル名

●希望する結果

(日付)hogehoge(場所)や(日付)hogehoge(場所),jpgというようにしたい。

465:デフォルトの名無しさん
08/11/27 15:29:21
その日付や場所を特定するための法則は？

466:デフォルトの名無しさん
08/11/27 15:41:40
それぞれ「()」でくくってあります。ともに一緒の括弧だとまずかったりしますか？

467:デフォルトの名無しさん
08/11/27 15:56:36
ああ、その括弧は実際も括弧だったのねｗ

468:デフォルトの名無しさん
08/11/27 16:03:16
>>464
s/^($.+?$)($.+?$)(.+)(\..+)?$/$1$3$2$4/

469:デフォルトの名無しさん
08/11/27 16:43:45
ありがとうございます。
自分の悩んだ時間などウソのようにすっきり成功してしまいました。

今までも正規表現を使いたいと思って色々サイトを巡ったのですが
今回の答えも答えをもらって、見れば分かるぐらいの理解しかないのです。
良い学習サイトなどがあれば教えてくれませんか？それともオライリーの本を買うべき？

470:デフォルトの名無しさん
08/11/27 16:45:58
>>469
俺はこのスレでROMって勉強してる

471:デフォルトの名無しさん
08/11/27 16:47:49
とりあえずソフバンあたりで出してる入門書でもいいから
一冊読んだ方がその後が楽になる

472:デフォルトの名無しさん
08/11/27 17:29:37
>>468が理解できるのなら、正規表現の基本はできてる気がする。
（カッコのエスケープ、最短マッチ、後方参照あたり）

もしプログラミングの経験がなければ、そっちを補ったほうがいいと思う。
正規表現も一緒に学べる『初めてのPerl』『たのしいRuby』あたりお勧め。
リネーマーも自分で作れるよ。

473:デフォルトの名無しさん
08/11/27 17:49:46
おお、このスレの人は優しい人ばかりですね。
プログラムはPHPぐらいで、しかも正規表現がどうしても必要な場面に
遭遇した事がありません。

これからこのスレをROMったり、挙げてもらった本も入門書のようですので
探して見て勉強してみようと思います。
ありがとうございます。

474:デフォルトの名無しさん
08/11/29 10:49:00
■質問
2ch のレスの
>>***
を、テキストエディタを用いて
#aa(){{{>>***}}}
に置換したいのですが、方法はありますでしょうか？

475:デフォルトの名無しさん
08/11/29 10:56:30
>>*** のうち、どれが固定でどれが可変なのか区別がつかないと答えられない。
もし全部固定なら、そのままエディタの置換機能を使えば済む。
>>5を見て、対象データの例と希望する結果を書いてくれ。

476:デフォルトの名無しさん
08/11/29 12:56:55
>>475
ありがとうございます。わかりにくい表現で申し訳ありません。
↓が対象データの例と希望する結果です。

●対象データ
>>123
>>456

●希望する結果
#aa(){{{>>123}}}
#aa(){{{>>456}}}

477:デフォルトの名無しさん
08/11/29 13:01:41
>>476
検索 >>(\d+)
置換 #aa\{\{\{>>$1\}\}\}

478:デフォルトの名無しさん
08/11/29 13:18:38
置換後の文字列が↓のようになってしまいました。
$1 のところを \d+ や (\d+)、$\d+、$(\d+) に変えて色々やってみましたが
ダメでした。置換には EmEditor Pro 7.02 を使っていますが、
何かやり方が誤っているでしょうか？

#aa(){{{>>$1}}}
#aa(){{{>>$1}}}

479:デフォルトの名無しさん
08/11/29 13:37:14
それはソフトの使い方を読むか、サポートに聞け

480:デフォルトの名無しさん
08/11/29 14:31:04
>>478
後方参照を $1 ではなく \1 で行う
置換 #aa\{\{\{>>\1\}\}\}

481:デフォルトの名無しさん
08/11/29 14:49:18
>>480
お返事遅れました。
すっげｗマジで出来たｗ　正規表現って本当にすごいですね。

自分は \t や \n 等、基本的なものしかわからなかったのですが、
今回の質問が非常に勉強になりました。

次に疑問が湧いた時には、正規表現でできないことはないという姿勢で
解決に望もうと思います。
ありがとうございました。

482:デフォルトの名無しさん
08/11/29 14:49:51
>>480
その括弧のエスケープはなんかいみあるの？

483:デフォルトの名無しさん
08/11/29 14:55:12
■追記
ちなみに、今回の置換の目的なのですが、
atwiki という wiki のページで
>
のような特殊文字を書くと、
適切に表示がされない不具合(？)があるので、
アスキーアート表示用のメソッド
#aa(){引数}
を用いて、> を囲みたいなと思ったのが目的でした。

初めは手動でやっていたのですが、あまりにも数が多いので
置換化できないかな、と思った次第です。

長文失礼いたしました。

484:480
08/11/29 15:01:52
置換文字列なので無いｗ

置換 #aa(){{{>>\1}}}

こうだね。吊ってくる

485:デフォルトの名無しさん
08/11/29 16:21:23
>>482,484
小かっこ () って、正規表現モードでも \ をつける必要ないんですか。
勉強になりました

486:デフォルトの名無しさん
08/11/29 16:29:35
>>485
置換文字列は正規表現じゃないというだけ。
正規表現で書かなきゃいけないところで()そのものを書くには
エスケープする必要がある。

487:デフォルトの名無しさん
08/11/30 13:46:28
●正規表現の使用環境
.NET FrameworkのRegexクラス。
ですが、Perlなどの正規表現でもかまいません。

●検索か置換か？
検索です

●説明
エスケープ記号(\)がついていない括弧で囲まれた文字列の検索が目的です。
[^\\]$(?<content>[^\(]+[^\\])$という正規表現で試したところ、
入力文字列"a(b)"で正しくマッチし"a$b)"や"\(b)"で正しくマッチしないのですが、
"(b)"では本来マッチしてほしいのにできなくなります。

●対象データ
エスケープ文字がついてないカッコで囲まれた文字列

●希望する結果
マッチ：　 "a(b)", "(b)"
非マッチ： "\(b)", "a\(b$", "a(b\)"

488:487
08/11/30 14:12:51
申し訳ありません。(^$|[^\\]\()(?<content>[^\(]*[^\\])$
で解決しました。

489:デフォルトの名無しさん
08/11/30 14:16:29
/(?<!\\)$(?<content>.*)?(?<!\$\)/

490:デフォルトの名無しさん
08/12/03 17:36:22
aaa777 あああああ
aaa778ああああ
aaa7
aaa7あああ
aaa7aaa8
aaa7 aaa8

目的はaaa7をbbb7に置き換えたい。
しかしマッチ方法で苦しんでいます　お助けを・・

/aaa7/　これでは全部置き換わる
/aaa7[^\d]/これでは　下の３つが余計な部分含めてマッチしてしまう。。

下から４つ、aaa7のみマッチさせる方法はあるでしょうか。

URLﾘﾝｸ(www.rider-n.sakura.ne.jp)　
ここで簡単に調べられるのですが宜しくお願いします。
Perl互換の正規表現にチェックをいれていただけるといい感じです。

491:デフォルトの名無しさん
08/12/03 17:46:49
>>490
/aaa7(?=[^\d])/

次からは>>5でお願い。

492:デフォルトの名無しさん
08/12/03 17:48:08
aaa7(?=[^\d]|\Z)

そのチェッカーとやらの使い方がよくわからんので試してないが。

(?=ほげ) で先読みが、\Z で改行または文字列末にマッチ、ができることを
前提としている。
何を使っているのかよくわからないが（PHPのPerl互換モード？）
先読みと改行と文字列末の扱いを確認してみること。

493:デフォルトの名無しさん
08/12/03 17:50:47
よく考えたら /aaa7(?!\d)/ でよかった。

494:490
08/12/03 18:28:57
>>491　
もうしわけないです次から気をつけます。
>>491-493
ふむふむ　先読みという事ができるのですね
結果うまくいきました！ありがとうございました。
先読みと改行と文字列末　これを詳しく勉強してみます。

495:デフォルトの名無しさん
08/12/03 18:31:18
よくそれだけで答えられるな
こう読んだけど違うのかな
s/aaa(?=7)/bbb/
>>494が来てたのでもういいみたいだけど

496:492
08/12/03 18:47:11
[^\d] は \D でよかったな。

>>495
aaa777 にもそれだとひっかかるよね？
それにはひっかけたくないらしかったから。

497:
08/12/05 00:09:56
()（）
[]［］
{}｛｝

498:デフォルトの名無しさん
08/12/06 21:09:48
ふらっとC#,C♯,C＃（初心者用） Part34
ｽﾚﾘﾝｸ(tech板:607番)
から来ました

C#でRegexを使って正規表現を利用しています

if (Regex.Match(" Xxxxxxxxx.xxxxxxxxxxxxxx.xxxx", @"\s+((\w+\.?)+)$").Success)
{
Console.WriteLine("True!");
}
else
{
Console.WriteLine("False!");
}
Console.WriteLine("カンマあり");
if (Regex.Match(" Xxxxxxxxx.xxxxxxxxxxxxxx.xxxx,", @"\s+((\w+\.?)+)$").Success)
{
Console.WriteLine("True!");
}
else
{
Console.WriteLine("False!");
}

マッチする場合は後で ((\w+\.?)+)$ の部分について処理をして、マッチしない場合はそのまま次にいくようにしたいのですが
このパターン文字列だと上記のような文字列でカンマが末尾にある場合はfalseが返ってくるまで異常に時間がかかってしまいます
最終的に ((\w+\.?)+)$ 出マッチする場合とと同じ文字列が得られる、末尾にカンマが合っても処理が遅くならないパターンがあれば教えてください

499:デフォルトの名無しさん
08/12/06 22:50:00
>>498
(\w+)+ みたいな感じになるから遅いんだろうねえ。

\s+\w+(\.\w+)*$

でどうか。

500:デフォルトの名無しさん
08/12/06 22:50:51
キャプチャするから
\s+(\w+(\.\w+)*)$
こうか。

501:498
08/12/06 23:56:46
>>499,500
ありがとうございます、見違えるように早くなりました
(\w+)*は良くても(\w+）+は遅くなるんですね

502:デフォルトの名無しさん
08/12/07 03:52:21
>>501
> (\w+)*は良くても(\w+）+は遅くなるんですね

んー、そういうことではないぞ。
\.? は有っても無くてもいいけど、(\.\w+)* の \. は必要でしょ。
(\.?\w+)* にしたらやっぱり遅くなるはず。

(\w+\.?)+ は「.xxxxxx」だけにも何通りもマッチの仕方があるけど、
(\.\w+)*は1通りしかマッチできない。この違いだよ。

503:498
08/12/07 10:07:49
>>502
? と +（もしくは*）の組み合わせが最悪だったわけですか
今度から注意します

504:デフォルトの名無しさん
08/12/07 13:53:02
>>503
なんかまだ誤解してるっぽいな。
*)*
みたいに、カッコの内側の最後に繰り返し指定(*やら+やら)があって、
その外側すぐにも繰り返しがあるのが問題(になることが多い)。
498が最初に書いたようなマッチしないデータを食わせたときに、
バックトラック回数がとんでもなくでかくなって遅くなる(可能性がある)。

505:498
08/12/07 15:05:16
>>504
理解が遅くてすみません、ようやく分かりました
丁寧にありがとうございました

506:デフォルトの名無しさん
08/12/07 20:39:26
正規表現が手に入れた強力すぎる「構文理解(マッチ)能力」って、
外国語の翻訳に使えそうな気がするんだけど、その観点での研究って進んでないの？

507:デフォルトの名無しさん
08/12/07 21:38:53
そりゃ無理でしょ。
yaccやbisonで実用になる翻訳ソフトが作れるって話は聞かないから。

508:デフォルトの名無しさん
08/12/07 21:53:34
>>506
正則言語はそんなに広いクラスじゃないぞ

509:デフォルトの名無しさん
08/12/07 21:56:51
>>506
一般の自然言語と正規言語では言語のクラスとして天と地ほどの差があるよ。
たとえば、多くの自然言語は無限回のネストを許容するが、これは正規文法で表せない。

510:デフォルトの名無しさん
08/12/08 08:03:55
お前らちゃんと日本語話せよ何言ってるか分かんねぇよ

511:デフォルトの名無しさん
08/12/08 11:28:01
お前が勉強不足なだけだ。

512:デフォルトの名無しさん
08/12/08 11:45:24
なんて面白みの無い、むしろマイナスなレスなんだ

513:デフォルトの名無しさん
08/12/09 18:38:31
●正規表現の使用環境
PHP4.4以降

●検索か置換か？
検索後、個々に置換

●説明
ユーザーが入力したhtmlデータ内に
特定の文字で囲まれたものを変換したい。
%test%や%nullpo%など。

●対象データ
フォームで送信されたhtmlデータ
<html>
<head>
</head>
<body>
%adv%
あいうえおかきくけこ 
%adv%
</bnody>
</html>

●希望する結果
%adv%を発見した位置を返し、それを指定された文字列で置換する。
%adv%は全て同じではなく、別の文字をそれぞれ割り当てたい。

よろしくお願いします。

514:デフォルトの名無しさん
08/12/09 19:41:55
>>513
＞%adv%は全て同じではなく、別の文字をそれぞれ割り当てたい。
この時点で、正規表現でやるのには無理がある。
状態を持つには何らかのプログラミング言語で。
HTMLならJavaScriptか。

515:デフォルトの名無しさん
08/12/09 21:03:49
PHP使ってるからテンプレートエンジン使ったらどうだろうか

516:デフォルトの名無しさん
08/12/12 02:35:21
よくわかんないけど、%date%→2008/12/12 %name%→田中みたいにして

%name%様への%date%のお知らせです。
が
田中様への2008/12/12のお知らせです。みたいになるようにしたいんじゃないの？
正規表現っていうか普通に置換すればいいだけじゃないの？%name%→%date%とかなると置換順序によってはおかしくなるから、
そこは%name%を%date%で置換したいなら%%date%%と入力しといて後で%%を%に(ryみたいにすればいいと思うけど。
>>514は何が言いたいのか良くわからない。
>>515に同意。Smartyとか使えば全部やってくれるから楽だけど…

517:デフォルトの名無しさん
08/12/12 09:24:04
>>516
＞%adv%は全て同じではなく、別の文字をそれぞれ割り当てたい。
この文章を素直に解釈すると、同じ「%adv%」でも状況に応じて
「こんにちは」にも「さようなら」にもなるって事じゃないのかな。
で、そういう状況依存的な内部状態を持つ操作は、
変数や条件判断文のあるプログラミング言語でないと不可能。
何か変？

518:506
08/12/13 22:59:58
>>507-509
正規表現の（現時点での）限界があることはわかりました。
が、自然言語の「（ある種の）典型的な表現」を滑らかに翻訳するという狭いクラスのタスクに対しては
正規表現がその強力な威力を発揮できると今でも思っています。

519:デフォルトの名無しさん
08/12/14 00:02:11
限界とか威力とか意味わかんね。
正規表現なんて正規文法を別の記号で書き直しただけじゃん。
数学的に厳密な定義のあるものなんだから、
明日になって威力が変わったりしないよ。

520:デフォルトの名無しさん
08/12/14 02:58:28
正規表現を、どんな夢でもかなえてくれる魔法の呪文とでも勘違いしてないか？

521:デフォルトの名無しさん
08/12/14 08:53:37
文法の表現力では
正規文法 < 文脈自由文法 < 文脈依存文法 < 解析表現文法

522:デフォルトの名無しさん
08/12/15 00:24:39
ABCを含まない行にマッチさせたい場合

^(?!.*ABC)　　←OK
(?!.*ABC)　　←NG

となるのでしょうか？
上記の違いが分かりません

523:デフォルトの名無しさん
08/12/15 00:38:48
>>522
.*がABCを食うから。

524:デフォルトの名無しさん
08/12/15 00:49:37
^があるとなぜ食えないんですか？

525:デフォルトの名無しさん
08/12/15 01:52:03
/^(?!.*ABC)/の場合、まず/^/が文字列の頭にマッチする。
そこから後ろ（即ち元の文字列全体）が、/^(.*ABC)/にマッチしなければ、全体としてマッチする。

/(?!.*ABC)/の場合は、どんな文字列であっても末尾にマッチする。
なぜなら文字列の末尾から後ろ（即ち空文字列）は/^(.*ABC)/にマッチしないから。

526:デフォルトの名無しさん
08/12/15 15:17:08
>>517
あーなるほどね。1回目の%adv%では「こんにちは」、2回目の%adv%では「さようなら」にしたい、とかか。
そりゃ正規表現じゃ無理だわ。いや、限定的な状況ならいけるかもしれないけど。

527:デフォルトの名無しさん
08/12/16 12:11:49
含まない行、のような指定は、できるなら -v オプションとか
正規表現より上のレイヤでやったほうがよい。

528:デフォルトの名無しさん
08/12/16 12:32:43
それはスレ違い

529:デフォルトの名無しさん
08/12/16 19:58:47
いいんじゃない？
正規表現だけでは何もできないんだから。
perl とか、テキストエディタとか、そのた言語と組み合わせないと。

530:デフォルトの名無しさん
08/12/16 22:12:40
perlとかテキストエディタとかその他の言語のサポートまではしてられないってことだろ。よう知らんけど。

531:デフォルトの名無しさん
08/12/17 01:43:09
>>527はどこまで正規表現を使うべきかという立派な正規表現ネタに見えた。
正規表現で実現可能なことは無理してでも正規表現を使え
なんていう愚かなスレでもないだろうｗ

532:デフォルトの名無しさん
08/12/17 09:10:18
実用的な解と、パズル的な解か。

533:デフォルトの名無しさん
08/12/22 14:32:23
例えば、　ABC　と　DEF　という文字列があったとき、

ABCの場合
ABC (123)

DEFの場合
DEF (345)

という形に置き換えるのは可能でしょうか？
また、可能ならどのように書いたらいいでしょうか

534:デフォルトの名無しさん
08/12/22 14:53:58
>>533
できる。正規表現は
/ABC/
/DEF/

意地悪はさておき、ABCやDEFを検出するのは正規表現だけど
置換をするのはそれぞれの「実装言語や処理系ソフトウェア」だから
>>5のテンプレ埋めてくれないと答えられない。

535:533
08/12/22 15:54:12
すみません
訂正します

●正規表現の使用環境
Jane Style Version 3.01

●検索か置換か？
検索後に置換

●説明
文字列にマッチさせた後、マッチした文字列ごとに指定された文字列を後ろに
追加させて置換させたい

●対象データ
①　ABC
②　DEF

●希望する結果
①　ABC (123)
②　DEF (345)

536:デフォルトの名無しさん
08/12/22 16:25:00
普通の置換でよくね？

537:デフォルトの名無しさん
08/12/22 16:51:55
すみません、説明が足りませんでした

この二件だけの場合は二つ表現を書けばいいですが、
後ですぐに置換したい文字列を追加できるよう、(ABC|DEF)のように
orか何かでまとめて作りたいと思っています

それは可能でしょうか
それともやはり一つ一つ書いたほうがいいでしょうか

538:デフォルトの名無しさん
08/12/22 17:24:29
>>537
まとめようにも法則性が無いが。

539:デフォルトの名無しさん
08/12/22 17:27:44
てか、Jane Style って専ブラだよね？
どういう機能で何をしようとしてるのかがわからないとどうにもアドバイスのしようが...
（このスレは基本的には、grepやawkやPerlやPythonやJavaの正規表現のスレなので）

540:デフォルトの名無しさん
08/12/22 17:41:12
<rx2>(?<=ABC)[TAB] (123)[TAB]msg
<rx2>(?<=DEF)[TAB] (345)[TAB]msg

541:デフォルトの名無しさん
08/12/22 20:35:21
これですね。ちゃんと書いてあります。
URLﾘﾝｸ(www.monazilla.org)

542:デフォルトの名無しさん
08/12/22 21:36:27
>>538
あまり正規表現について詳しくないもので
やはりちょっと無理がありましたね・・・

>>539
すみません
少し勘違いをしていました

>>540
有難うございます！
すごくスッキリしていていいですね
参考にさせて頂きます

543:デフォルトの名無しさん
08/12/27 19:09:30
perl で

abc-def-1234-ghi-jkl
これから
abc-def
を取りたい

1234は数字が4文字です
1234の前を取るのはどうすればいいですか？

544:デフォルトの名無しさん
08/12/27 19:14:41
「取る」とは？

「抽出したい」 → 結果として abc-def が欲しい
「削除したい」 → 結果として -1234-ghi-jkl が欲しい
どっち？

できれば >>5 を参考に。

545:デフォルトの名無しさん
08/12/27 19:31:16
もっと高級言語っぽい表記で書けるといいのになぁ。

546:デフォルトの名無しさん
08/12/27 19:31:35
(ちょっと変えました)
prelで

●検索か置換か？
検索

●説明
12-34は数字が2文字ハイフン2文字です
（\d{2}-\d{2} こうかな？）

12-34の前を抽出するにはどうすればいいですか？
12-34の前の部分に数字が2文字は無いです。

●対象データ
abc3-d5ef-12-34-ghi-jkl
ho-1ge=+-e67-89+fuga++--jkl

●希望する結果
abc3-d5ef-
ho-1ge=+-e

547:デフォルトの名無しさん
08/12/27 20:59:42
>>546

12-34でもその一般化したパターンでも使ってマッチングさせてから
特殊変数 $` や@- を参照するなり他の手段で抜き出すなりすればよろしかろ?

548:デフォルトの名無しさん
08/12/27 23:26:09
>>546
カッコ ( ) をつかえばいいよ。

549:デフォルトの名無しさん
08/12/28 11:20:42
>>546
print /(.*)(?=\d{2}-\d{2})/ ? "match:[$1]\n" : "unmatch.\n" for qw(
abc3-d5ef-12-34-ghi-jkl
ho-1ge=+-e67-89+fuga++--jkl
);

550:デフォルトの名無しさん
09/01/01 12:55:59
単純にたくさんのテキストファイルから目当てのキーワードのある行を
正規表現で検索したい場合、Windows環境だとどのツールが便利・一般的なの？
秀丸かな？
Unixだとgrepコマンドがあるけど…

551:デフォルトの名無しさん
09/01/01 13:29:08
>>550
一般がどうかはしらないけど自分は秀丸やxyzzyの機能を使ってる

552:デフォルトの名無しさん
09/01/01 13:32:37
grepでいいよ

553:デフォルトの名無しさん
09/01/01 13:44:45
XP以降だと標準でfindstrコマンドがあるね
Cygwinを入れるのもいいし、各種テキストエディタに頼るのもいい

でも一番の検索ツールは、

|　何について調べますか？
| ┌──────┐
|　|　　　　　　　　　　　　　　　　　　｜
|　| 　　　　　　　　　　　　　　　　　｜
| └──────┘
|　[ オプション(O) ]　　　[ 検索(S) ]
|
｀─────┐ ┌──
　　　　　　　　　　　, '´l,　　..| ./
　　　　　　　, -─-'- 、i_　　|/
　　　＿_, '´　　　　　　　ヽ、
　　　',ー--　●　　　　　　　ヽ、
　　　｀"'ゝ、_　　　　　　　　　 ',
　　　　　　〈｀'ｰ;＝=ヽ、〈ｰ- 、 !
　　　　　　｀ｰ´　　　　ヽi｀ヽ iﾉ
　　　　　　　　　　　　　　　 ! /
　　　　　　　　　　　　　　r'´、ヽ
　　　　　　　　　　　　　　｀´ヽノ

554:デフォルトの名無しさん
09/01/01 13:51:57
|　何について調べますか？
| ┌──────┐
|　|　おまいの消し方　　　　　　　　｜
|　| 　　　　　　　　　　　　　　　　　｜
| └──────┘
|　[ オプション(O) ]　　　[ 検索(S) ]
|
｀─────┐ ┌──
　　　　　　　　　　　, '´l,　　..| ./
　　　　　　　, -─-'- 、i_　　|/
　　　＿_, '´　　　　　　　ヽ、
　　　',ー--　●　　　　　　　ヽ、
　　　｀"'ゝ、_　　　　　　　　　 ',
　　　　　　〈｀'ｰ;＝=ヽ、〈ｰ- 、 !
　　　　　　｀ｰ´　　　　ヽi｀ヽ iﾉ
　　　　　　　　　　　　　　　 ! /
　　　　　　　　　　　　　　r'´、ヽ
　　　　　　　　　　　　　　｀´ヽノ

555:550
09/01/01 14:13:35
さんくす、やっぱりそのへんかぁ。

556:551
09/01/01 14:17:19
このスレのせいで550がイルカの虜になってしまった
なんて親切なスレなんだ

557:553
09/01/01 14:17:59
名前間違えた、>>556は553

558:デフォルトの名無しさん
09/01/02 11:43:20
2007ではイルカ出なくなってるよね

559:デフォルトの名無しさん
09/01/02 11:46:47
冴子先生がいい

560:デフォルトの名無しさん
09/01/02 16:37:56
スターウォーズのジャージャービンクス
Office のイルカ

大ヒットメーカーが調子に乗りすぎて生み出してしまった
世界の２大うざキャラ。

561:デフォルトの名無しさん
09/01/02 17:31:36
なんかわかるｗ

562:デフォルトの名無しさん
09/01/08 11:11:00
perlで下のような場合にマッチさせたいのですが、どのようにすればいいのでしょうか？

<[a-z]+ lang="ja">.*?</[a-z]+>

最初の[a-z]+と最後の[a-z]+は同じタグを指定したいのですが、
このままだと、</a>やといった終了タグが先に引っかかってしまい、
いびつな形でマッチしてしまいます。

563:デフォルトの名無しさん
09/01/08 17:22:05
>>562
正規表現一発じゃキツい
スキャナを書くか、素直にHTMLパーザ使った方が

564:デフォルトの名無しさん
09/01/08 17:36:17
>>562
バックリファレンスかな
<([a-z]+) lang="ja">.*?</\1>
こんな感じで

565:デフォルトの名無しさん
09/01/08 17:36:39
単純にそういう条件だと\1使えばいいんじゃ? いろいろやるつもりなら
結局パーサ使った方が楽ってことになりそうだけどね。

$s = q{<hoge lang="ja"><a>hogehoge</a>hoge</hoge>};
print $& if $s =~ m{<([a-z]+) lang="ja">.*?</\1>};

566:デフォルトの名無しさん
09/01/08 17:54:09
>>564-565
> <([a-z]+) lang="ja">.*?</\1>
でうまくいきました。

残念ながら、XMLパーサの使い方がわからない。勉強しないとなぁ…

目的は和英中が混在しているxmlから日本語の部分だけ抽出したかったので、
今回はこれで十分です。

XMLとHTMLタグが混在した形式だったんですが、何故か、HTMLタグにlang設定が
されていて途方にくれていました。

567:デフォルトの名無しさん
09/01/08 18:39:02
たとえば <xxx lang="ja"><xxx>foobar</xxx></xxx> というときにちゃんと取り出せないねえ

本当にちゃんとやろうとしたら正規表現だと無理だな

568:デフォルトの名無しさん
09/01/10 12:59:56
XMLは文脈自由文法だからPCREの拡張とか使わないと無理

569:デフォルトの名無しさん
09/01/14 15:34:24
Perlなら再帰的なやつもイケる
ちゃんとチェックしとらんが

local our@A;
my$a="jjj<unko>an<unko>hoge</unko>gf</unko>";
local our$b=qr{(.*?(<unko>(??{$b})</unko>)(?{push@A,$2}))*.*?};

$a=~$b;

print join($/,@A),$/;

570:デフォルトの名無しさん
09/01/20 13:53:47
正規表現のライブラリを自作してるのですが参考になるサイトはないでしょうか。
容易な拡張性を確保するためにオブジェクト指向を使って実装してます。

例えば
inputstr[k] == pattern[k] ?

ではなくて
pattern.can_eat(inputstr[k])

のようなpatternをレシーバ（インスタンス）としたかんじです。
現在はグループの中にグループがあるとどうやって解決するか悩んでいます。
(ab(cd|ef)gh)

などで、一応JAVAで実験してます。

571:デフォルトの名無しさん
09/01/20 13:59:04
pattern.can_eat(inputstr[k]) ?
pattern.contains(inputstr[k]) ?

などでboolean関数です。
性能は速いかどうかではなく、コンパクト・コードサイズ小さいなど目指しています（機能拡張はオブジェクト指向と同じくプラグインしますんで）。
構文木を作るとかではなく容易にスクラッチから書ける程度のコードサイズで、かつ動的に実行時に機能追加できると言うのが条件で作っています。

572:デフォルトの名無しさん
09/01/20 14:04:39
他の言語の正規表現APIは参考にしてる？
OOならJava, Ruby, Python, .NETとあると思うけど

573:デフォルトの名無しさん
09/01/21 01:14:50
あれ？反応ないですね。
オブジェクト指向を使った実装だと構文木を使ったものよりもだいぶ簡単になる（見通しがよくなる）んですけど・・・
多少コード量（というかクラス・ファイル数）は多くなるんですけど、やっぱりインタプリタは旧来式の構文木を使った実装しかやらないんでしょうか。

574:デフォルトの名無しさん
09/01/21 01:28:45
何をしたいのかが伝わってないんだろう。
読んで、正規表現ライブラリを利用者に見せるためのAPIの話ではないの
かも、という印象は持ったが、それ以上は考えるが面倒くさいのでス
ルー。

575:デフォルトの名無しさん
09/01/21 02:07:17
もっぱら使う側が多いからじゃないのかな。特に不満もないし。。
鬼車のポジションを奪える可能性もあるからがんばって！

576:デフォルトの名無しさん
09/01/21 02:37:56
参考になるサイトもないでどうやって頑張るんだよ！
３日ぐらい悩んで大体めどがたってきたから別にいいけど。

577:デフォルトの名無しさん
09/01/21 07:29:45
要するにこういうことだろ。
いずれにしても、パターンの構文木（）笑を作る必要はあるよ

/(ab(cd|ef)gh)/.match("xabefgh")
　/ab(cd|ef)gh/.match("xabefgh")
　　/ab/.match("xabefgh")
　　/(cd|ef)gh/.match("efgh")
　　/(cd|ef)gh/.match("efgh")
　　　/(cd|ef)gh/.match("efgh")

578:デフォルトの名無しさん
09/01/21 07:29:58
途中で書き込んでしもた。めんどくせ

579:デフォルトの名無しさん
09/01/22 11:45:20
●正規表現の使用環境
prel

●検索か置換か？
置換

●説明
特定タグ間のHTMLタグを全て削除する
（<body>から</body>までのタグを全て削除）

●対象データ
<html>
<body>
テスト 
です。
</body>
</html>

●希望する結果
<html>
<body>
テスト
です。
</body>
</html>

580:デフォルトの名無しさん
09/01/22 13:41:18
>>579
$html =~ s{(?<=<body>).+(?=</body>)} {
　　(my $body = $&) =~ s/<.+?>//gs;
　　$body;
}es;

581:デフォルトの名無しさん
09/01/22 14:08:55
>>579 のおかげで prel でぐぐっても perl が検索対象になることを知った

582:581
09/01/22 14:11:05
ごめん、正確には
prel 正規表現
など prel と何か別のキーワードでぐぐったとき prel は perl とみなされるっぽい

583:デフォルトの名無しさん
09/01/22 16:40:10
ﾜﾛﾀ

584:デフォルトの名無しさん
09/01/24 10:40:12
余談になるけど、VBSの正規表現は、処理系の実務にも耐えられるくらいの機能は持ってるよ。
条件判定としての正規表現を使える事は、VBAユーザーにとってこれ以上無いほどのメリットだと思ってる。

俺もそんなに正規表現は詳しくはないけど、エクセルで使う目的を考えると、VBSの正規表現は非常に使い勝手が良い。
良くも悪くもシンプルなんだよね。

仕事で文字列操作やRDBみたいな使い方してる人ならば、絶対に覚えておいて損はないよ。
後方参照が表現できるようになって、世界が開けました。
どうでも良い話かもしれないけど、マジでお勧め。

585:デフォルトの名無しさん
09/01/24 10:40:37
誤爆しました。すいません。

586:デフォルトの名無しさん
09/01/27 23:36:14
文字列の中から名前を取り出したいのですがどうやって書けば良いでしょうか

587:デフォルトの名無しさん
09/01/28 00:08:31
「名前」の定義は？
環境も。

588:586
09/01/28 00:46:35
名前は人名です
環境はVB.NETです。

589:デフォルトの名無しさん
09/01/28 00:51:34
人名の定義は？

590:デフォルトの名無しさん
09/01/28 00:56:14
それを聞いてる

591:479
09/01/28 03:07:22
形態素解析の領分だろうね。
どこまで固有人名を解析できるかは性能と元の文章次第だけど。

592:デフォルトの名無しさん
09/01/28 03:07:56
すまん、名前消したつもりが残ってた

593:デフォルトの名無しさん
09/01/28 06:56:44
辞書も必要だな

594:デフォルトの名無しさん
09/01/28 10:19:24
形態素解析までしなくても、日本全国の苗字と名前のテーブルを作って
「苗字+名前」で引っこ抜けばいいと思う

595:デフォルトの名無しさん
09/01/28 10:37:13
「あや」と「あやの」みたいのをどう
扱うかとか考え出すとなにげに難しい

596:デフォルトの名無しさん
09/01/28 11:34:07
英語と違って日本語は「わかち書き」をしないから難しいやろね。

597:デフォルトの名無しさん
09/01/28 18:51:36
(鈴木|佐藤|山田| ... )\s*(太郎|花子| ... )

598:デフォルトの名無しさん
09/01/28 19:16:08
>>586よ、別に煽って遊んでる訳じゃないぞ。
コンピュータにとって、言うは易いが行うは難しい要求なんだ。

599:586
09/01/29 01:12:20
レスありがとう
では郵便番号か都｜道｜府｜県｜市｜区｜町｜村のある行から
５行以内にある行で、末尾に。や、のない７文字以内の行で
その行の中には、も。もない文字列
これを抜き取ったら名前の可能性が高そうなのですが
どうやって書けば良いでしょうか

600:デフォルトの名無しさん
09/01/29 01:52:27
>>599
それは非常に喜ばしいけれど、名前じゃないものが抽出されたり、名前が抽出されなかった時に
どうするか考えてるの？
そのデータをどうやって作ってるのかよくわからんが、ごちゃごちゃしたテキストしか存在しないの？

601:デフォルトの名無しさん
09/01/29 01:57:10
人名で7文字制限つけていいのかなぁ。外国人名なんか来た日にゃえらいことになりそうだが。

602:デフォルトの名無しさん
09/01/29 09:57:27
>>599
正規表現ってのは、
人間が生活しながら身に付ける区別みたいに複雑な物じゃなく、
字面だけで機械的に振り分けする物。
それが可能なデータでないなら、正規表現での抽出は諦めた方がいい。
既存のデータなら仕方ないけど、何等かの方法で生成してる物なら、
その上流で手を打たないと難しい。

603:586
09/01/29 22:51:11
レスどうもです
たくさんのデータを一気に処理をするという感じではないので
失敗したら手動で訂正するので大丈夫です。
ちょっと補助的に便利になればという感じで
１００件やったら半分でも正常に抽出できればそれでもＯＫです。
今↓のように書いてみましたがこれだと

123-0001
東京都＊＊区＊＊町10-10
日本太郎
03-0000-0000

東京都＊＊区＊＊町10-10
03-0000-0000
日本太郎
123-0001

上の２つは大丈夫なのですが、

日本太郎
123-0001
東京都＊＊区＊＊町10-10
03-0000-0000

だと抽出できなかったのですが、どこを訂正したらいいでしょうか？

r = New Regex("((\d\d\d\-?\d\d\d\d|都|道|府|県)+?.+\n)*?(.*\n{1,5}?)(?<1>.{4,8})$\n.+?(\d\d\d\-?\d\d\d\d|都|道|府|県)*?\n?", _
RegexOptions.Multiline Or RegexOptions.IgnoreCase)

よろしくお願いします。

604:デフォルトの名無しさん
09/01/29 23:15:33
うざいので他所言ってください

605:デフォルトの名無しさん
09/01/29 23:33:20
>>603
パターンが一定ではないので無理。

606:デフォルトの名無しさん
09/01/29 23:35:34
とりあえず、「住所は必ず数字で終わる」のなら、
^(\D+)\d
で引っ掛けられそうか。

607:デフォルトの名無しさん
09/01/29 23:36:39
>>603
人名なんて住所より短いんだから、行頭から全角6文字以内+行末文字の抽出で十分じゃない。
はい終了。

608:デフォルトの名無しさん
09/01/29 23:43:23
まあそれでも半分ぐらいは抽出できそうだわな

609:586
09/01/30 00:02:42
こんにちは
とかが頭にある場合があるので郵便番号と都道府県のチェックは外せないです。

610:デフォルトの名無しさん
09/01/30 00:07:35
ネタじゃないの？

611:デフォルトの名無しさん
09/01/30 00:10:28
データごとの固まりは空行で区切られてたり
行数が決まってたりすんの？
それだったら名前候補を抽出するプログラムも結構簡単に作れそうだが
全部正規表現でやるのは逆にむずそう

612:デフォルトの名無しさん
09/01/30 00:13:59
>>609
そのレベルになってくると、正規表現よりそれを扱うスクリプトの方でどうにかしたほうがいいのでは

そもそもどういう形式のデータかも想像できないし

613:586
09/01/30 00:16:01
ネタじゃないです

データは一つはｊ一人のデータです。
複数の人の切り分けは考慮する必要なないです。
やっぱ難しいですかね

614:デフォルトの名無しさん
09/01/30 00:25:56
>>613
いやもう本気で「日本語でおｋ」
どんなデータか説明してもらわないと、どうもこうも無いわ。

615:586
09/01/30 00:44:15
わかりにくくてすみません。
自由なフォーマットで送られてくる住所氏名電話番号を
ListViewに登録するということをやっています。
文章は

こんにちは
私の住所は
123-0001
東京都＊＊区＊＊町10-10
日本太郎
03-0000-0000
です
お返事ください。

こんな感じの文章から名前を出来るだけ高確率で取り出したいです。
段階に分けて調べた方がいいですかね
上の例だとまず郵便番号と都道府県と電話番号の位置を正規表現で探して
それらに一番近い７文字の全角句読点なしを取るという感じでどうでしょうか
「です」が怪しいですね「になります」とか書いてあったら間違うし・・・

次ページ