Pattern Modifiers

Pattern Modifiers – 规则表达式的修饰符

PHP中对于正则处理文本提供了两种方式,一种是PCRE方式(PCRE库是一个实现了与perl
5在语法和语义上略有差异(详见下文)的正则表达式模式匹配功能的函数集.
当前的实现对应于perl 5.005.);另一个是POSIX方式。

下面是当前规则表达式里可用的修饰. 括号内的名字是那些修饰符的内部 PCRE
名字.

PCRE 函数库中的函数使用的模式语法非常类似perl. 表达式必须用分隔符闭合,
比如一个正斜杠(/). 分隔符可以使任意非字母数字,
除反斜杠()和空字节之外的非空白ascii字符. 如果分隔符 在表达式中使用,
需要使用反斜线进行转义. 自php 4.0.4开始, 可以使用perl样式的(), {},
[]以及<>作为分隔符. 更详细的解释参见模式语法.

i (PCRE_CASELESS)如果设置了这个修饰符, 则表达式不区分大小写.

结束分隔符后面可以紧跟模式修饰符来影响匹配效果. 参见模式修饰符.
PCRE的模式修正符
i (PCRE_CASELESS)
如果设定此修正符,模式中的字符将同时匹配大小写字母。
s(PCRE_DOTALL) 如果设定了此修正符,模式中的圆点元字符(.)匹配所有的字符,包括换行符。没有此设定的话,则不包括换行符。这和
Perl 的 /s 修正符是等效的。排除字符类例如 [^a]
总是匹配换行符的,无论是否设定了此修正符。
m(PCRE_MULTILINE) 默认情况下,PCRE
将目标字符串作为单一的一“行”字符所组成的(甚至其中包含有换行符也是如此)。“行起始”元字符(^)仅仅匹配字符串的起始,“行结束”元字符($)仅仅匹配字符串的结束,或者最后一个字符是换行符时其前面(除非设定了
D 修正符)。这和 Perl
是一样的。当设定了此修正符,“行起始”和“行结束”除了匹配整个字符串开头和结束外,还分别匹配其中的换行符的之后和之前。这和
Perl 的 /m 修正符是等效的。如果目标字符串中没有“n”字符或者模式中没有 ^
或 $,则设定此修正符没有任何效果。
x (PCRE_EXTENDED) 如果设置了这个修饰符,
模式中的没有经过转义的或不在字符类中的空白数据字符总会被忽略,
并且位于一个未转义的字符类外部的#字符和下一个换行符之间的字符也被忽略.
这个修饰符 等同于perl中的/x修饰符, 使被编译模式中可以包含注释. 注意:
这仅用于数据字符. 空白字符 还是不能在模式的特殊字符序列中出现,
比如序列(?(引入了一个条件子组(译注: 这种语法定义的
特殊字符序列中如果出现空白字符会导致编译错误. 比如( ?(就会导致错误.).
e (PREG_REPLACE_EVAL) 如果这个修饰符设置了, preg_replace()在进行了对替换字符串的
后向引用替换之后, 将替换后的字符串作为php代码评估之行(eval函数方式),
并使用之行结果 作为实际参与替换的字符串. 单引号, 双引号,
反斜线()和NULL字符在 后向引用替换时会被用反斜线转义.
仅preg_replace()使用此修饰符, 其他PCRE函数忽略此修饰符.
A (PCRE_ANCHORED) 如果设置了这个修饰符, 模式被强制为”锚定”模式, 也就是说约束匹配使其仅从
目标字符串的开始位置搜索. 这个效果同样可以使用适当的模式构造出来, 并且
这也是perl种实现这种模式的唯一途径.
D (PCRE_DOLLAR_ENDONLY) 如果这个修饰符被设置, 模式中的元字符美元符号仅仅匹配目标字符串的末尾.
如果这个修饰符 没有设置, 当字符串以一个换行符结尾时,
美元符号还会匹配该换行符(但不会匹配之前的任何换行符). 如果设置了修饰符m,
这个修饰符被忽略. 在perl中没有与此修饰符等同的修饰符.
S 当一个模式需要多次使用的时候, 为了得到匹配速度的提升, 值得花费一些时间
对其进行一些额外的分析. 如果设置了这个修饰符, 这个额外的分析就会执行.
当前,
这种对一个模式的分析仅仅适用于非锚定模式的匹配(即没有单独的固定开始字符).
U (PCRE_UNGREEDY) 这个修饰符逆转了量词的”贪婪”模式. 使量词默认为非贪婪的,
通过量词后紧跟? 的方式可以使其成为贪婪的. 这和perl是不兼容的.
它同样可以使用 模式内修饰符设置 (?U)进行设置,
或者在量词后以问号标记其非贪婪(比如.*?).在非贪婪模式, 通常不能匹配超过
pcre.backtrack_limit 的字符.
X (PCRE_EXTRA) 这个修饰符打开了PCRE与perl不兼容的附件功能.
模式中的任意反斜线后就ingen一个 没有特殊含义的字符都会导致一个错误,
以此保留这些字符以保证向后兼容性. 默认 情况下, 在perl中,
反斜线紧跟一个没有特殊含义的字符被认为是该字符的原文.
当前没有其他特性由这个修饰符控制.
J (PCRE_INFO_JCHANGED) 内部选项设置(?J)修改本地的PCRE_DUPNAMES选项. 允许子组重名.
(译注:只能通过内部选项设置, 外部的/J设置会产生错误.)
u (PCRE8) 此修正符打开一个与perl不兼容的附加功能. 模式字符串被认为是utf-8的.
这个修饰符 从unix版php 4.1.0或更高, win32版php 4.2.3开始可用. php
4.3.5开始检查模式的utf-8合法性. This modifier turns on additional
functionality of PCRE that is incompatible with Perl. Pattern strings
are treated as UTF-8. This modifier is available from PHP 4.1.0 or
greater on Unix and from PHP 4.2.3 on win32. UTF-8 validity of the
pattern is checked since PHP 4.3.5.

m (PCRE_MULTILINE)默认的, PCRE 认为目标字符串值是单行字符串
(即使他确实包含多行). 行开始标记 (^) 只匹配字符串的开始部分,
而行结束标记 ($) 只匹配字符串的尾部,或者一个结束行(除非指定 E 修饰符).
这个和 Perl 里面一样.

如果设定了这个修饰符,
行开始和行结束结构分别匹配在目标字符串任何新行的当前位置后面的或者以前的,
和每一个开始和结束一样. 这个等于 Perl 里面的 /m 修饰符.
如果目标字符串没有 “n” 字符, 或者模式里没有 ^ 或 $ ,这个修饰符不起作用.

s (PCRE_DOTALL)如果设置这个修饰符, 模式里的一个”点”将匹配所有字符,
包括换行. 没有他, 换行将被排除在外. 这个修饰符等同于 Perl 里面的 /s
修饰符. 一个相反的类型,例如 [^a]
将总是匹配换行字符,而不管这个修饰符的限制.

x (PCRE_EXTENDED)如果设置这个修饰符,
模式里面的空格数句将会被全部忽略,除非用转义符或者一个字符的内部类型,还有所有字符类型外的未转义的
# 号之间的也被忽略. 这个等同于 Perl 里面的 /x 修饰符,
这样可以复杂的模式里面加入注释. 注意,只适用于数据字符.
空格字符将不会在指定的模式字符指定顺序中出现。

e如果设置这个修饰符, preg_replace() 将在替换值里进行正常的涉及到 /
的替换, 等同于在 PHP 代码里面一样, 然后用于替换搜索到的字符串.

只在 preg_replace() 里使用这个修饰符; 其它 PCRE 函数忽略他.

A (PCRE_ANCHORED)如果设置这个修饰符, 模式被强制为锚, 也就是说,
他将值匹配搜索字符串的开始.
这个效果可以通过恰当的模式结构自身来实现,那是在 Perl 里面的唯一途径.

D (PCRE_DOLLAR_ENDONLY)如果设置这个修饰符,则模式里的 $
修饰符将仅匹配目标字符串里的尾部. 没有这个修饰符, $ 字符也匹配新行的尾部
(但是不再新行的前面). 如果设置了 m 修饰符则忽略这个修饰符. 在 Perl
里面没有类似的.

S如果一个模式将被使用多次, 使用长些时间分析他来来提高匹配的速度.
如果使用这个修饰符,则进行额外的分析. 目前,
研究模式仅用于非锚模式,没有一个固定的开始字符.

U (PCRE_UNGREEDY)这个修饰符翻转数量的 “greediness” ,使得默认不被
greedy,但是如果你紧跟问号(?),则可以 greedy. 这个和 Perl 不兼容.
这个也可以通过在模式里面的(?U) 修饰符得到.

X (PCRE_EXTRA)这个修饰符打开额外的功能,这些和 Perl 不兼容.
任何模式里面的后面带字符但没有特殊意义的反斜杠将引起错误,
从而储备这些联合用于将来的扩充. 默认的, 在 Perl 里面,
反斜杠后面有无意义的字符被当成正常的 literal. 目前还没有其他的控制特征

发表评论

电子邮件地址不会被公开。 必填项已用*标注