正则表达式——精选推荐|江阴雨辰互联

2023年7月10日发(作者：)

正则表达式⼀、

正则表达式：

正则表达式（或称Regular Expression，简称RE）就是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的⽂字模式。

该模式描述在查找⽂字主体时待匹配的⼀个或多个字符串。

正则表达式作为⼀个模板，将某个字符模式与所搜索的字符串进⾏匹配。简单的说，正则表⽰式就是处理字符串的⽅法，它是以⾏为单位来进⾏字符串的处理⾏为，正则表⽰式通过⼀些特殊符号的辅助，可以让使⽤者轻易的达到搜寻/删除/取代某特定字符串的处理程序。vim、grep、find、awk、sed等命令都⽀持正则表达式。常⽤正则表达式：1、.代表任意单个字符,如：/l..e/与包含⼀个l，后跟两个字符，然后跟⼀个e的⾏相匹配 grep ‘l..e’ test awk ‘/l..e/’ test

cat test（查看⽂件） leeet laat lae2、^代表⾏的开始。 ^love 如：与所有love开头的⾏匹配

3、$代表⾏的结束。love$ 如：与所有love结尾的⾏匹配那么‘^$’ 就表⽰空⾏

4、[…]匹配括号中的字符之⼀[abc] 匹配单个字符a或b或c[123] 匹配单个字符1或2或3[a-z] 匹配⼩写字母a-z之⼀[a-zA-Z] 匹配任意英⽂字母之⼀[0-9a-zA-Z]匹配任意英⽂字母或数字之⼀注意：上⾯标红⾊的单个和之⼀，不管[]⾥⾯多复杂，它的结果都是⼀个字符！ grep ‘l[ae]e’ test awk ‘/l[ae]e/’ test 可以⽤^标记做[]内的前缀，表⽰除[]内的字符之外的字符。⽐如搜索oo前没有g的字符串的⾏. 应⽤ '[^g]oo' 作搜索字符串，^符号如果出现在[]的起始位置表⽰否定，但是在[]的其他位置是普通字符。[^ab^c] 匹配除了a或b或^或c的任意单个字符

5、* ⽤于修饰前导字符，表⽰前导字符出现0次或任意多次如：'a*grep'匹配所有0个或多个a后紧跟grep的⾏。“.*”表⽰任意字符串

6、?⽤于修饰前导字符，表⽰前导字符出现0或1次a? 匹配0或1个a

7、+⽤于修饰前导字符，表⽰前导字符出现1或多次a+ 匹配1或多个a

8、{n,m} ⽤于修饰前导字符，表⽰前导字符出现n⾄m次（n和m都是整数，且n

{n,m}还有其他⼏种形式：{n} 连续的n个前导字符{n,} 连续的⾄少n个前导字符9、⽤于转义紧跟其后的单个特殊字符，使该特殊字符成为普通字符

如：^.[0-9][0-9]以⼀个句点和两个数字开始

例如：a* 匹配连续的任意（也包括0）个aa? 匹配0或1个aa+ 匹配1或多个aa{3,5} 匹配3⾄5个连续的a.* 匹配0或多个连续的. .表⽰普通字符句点

sed ‘s/^ *[0-9]*//’ test1history > test1（先⽣成test1⽂件）10、｜表⽰或如：a|b|c 匹配a或b或c。如：[a-z]|[A-Z]匹配英⽂字母如：egrep ‘grep|sed’ test11、（），将部分内容合成⼀个单位组，⽐如要搜索 glad 或 good可以如下 'g(la|oo)d' 如：egrep ‘g(la|oo)d’ test12、? 匹配前⾯的字符或⼦表达式零次或⼀次。例如，"do(es)?" 可以匹配 "do" 或 "does"。综合举例1：1 Christian Scott lives here and will put ona Christmas party.2 There are around 30 to 35 people invited.3 They are:4 Tom5 Dan6 Rhonda Savage7 Nicky and Kimerly.8 Steve, Suzanne, Ginger and Larry.^[A-Z]..$搜索⾏以A⾄Z的⼀个字母开头，然后跟两个任意字母，然后跟⼀个换⾏符的⾏。将找到第5⾏。

^[A-Z][a-z]*3[0-5]搜索以⼀个⼤写字母开头，后跟0个或多个⼩写字母，再跟数字3，再跟0—5之间的⼀个数字。⽆法找到匹配⾏(改成^[A-Z][a-z]*.*3[0-5]可找到第2⾏)

^ *[A-Z][a-z][a-z]$搜索以0个或多个空格开头，跟⼀个⼤写字母，两个⼩写字母和⼀个换车符。将找到第4⾏的TOM（整⾏匹配）和第5⾏。注意，*前⾯有⼀个空格。

^[A-Za-z]*[^,][A-Za-z]*$将查找以0个或多个⼤写或⼩写字母开头，不跟逗号，然后跟0个或多个⼤写或⼩写字母，然后跟⼀个换车符。将找到第4和5⾏。

综合举例2：# ls -l /bin | grep '^...x'

# ls -l /bin | grep '^...x..x'

⼆、sed命令的⽤法sed是⼀种在线编辑器，它⼀次处理⼀⾏内容。处理时，把当前处理的⾏存储在临时缓冲区中，称为“模式空间”（patternspace），接着⽤sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下⼀⾏，这样不断重复，直到⽂件末尾。⽂件内容并没有改变，除⾮你使⽤重定向存储输出。 sed的基本命令：1．替换: s命令 1.1 基本⽤法如： sed 's/day/night/' filename> newfilename 该例⼦将⽂件 filename中的每⼀⾏第⼀次出现的 day 替换成 night, 将结果输出到⽂件 newfilename

s " 替换 " 命令

/../../ 分割符 (Delimiter) day 搜索字符串

night 替换字符串

其实 , 分割符 "/" 可以⽤别的符号代替 , ⽐如 ",", "|" 等 . 如：sed 's/usrlocalbin/commonbin/'filename > newfilename 等价于 sed 's_/usr/local/bin_/common/bin_' filename >newfilename 显然 , 此时⽤ "_" 作分割符⽐ "/" 好得多

1.2 ⽤ & 表⽰匹配的字符串有时可能会想在匹配到的字符串周围或附近加上⼀些字符 . 如： sed 's/abc/(abc)/' filename >newfilename

该例⼦在找到的 abc 前后加上括号 . 该例⼦还可以写成 sed's/abc/(&)/' filename >newfilename

下⾯是更复杂的例⼦ : sed 's/[a-z]/(&)/' filename >newfilename

sed 默认只替换搜索字符串的第⼀次出现 , 利⽤ /g 可以替换搜索字符串所有$ sed's/test/mytest/g' example-----在整⾏范围内把test替换为mytest。如果没有g标记，则只有每⾏第⼀个匹配的test被替换成mytest。$ sed's/^192.168.0.1/&localhost/' example-----&符号表⽰替换字符串中被找到的部份。所有以192.168.0.1开头的⾏都会被替换成它⾃已加 localhost，变成192.168.0.1localhost。$ sed 's#10#100#g' example-----不论什么字符，紧跟着s命令的都被认为是新的分隔符，所以，“#”在这⾥是分隔符，代替了默认的“/”分隔符。表⽰把所有10替换成100。如果需要对同⼀⽂件或⾏作多次修改，可以使⽤ "-e" 选项取得eth0⽹卡IP地址：

2．删除⾏：d命令从某⽂件中删除包含"how" 的所有⾏

将/etc/passwd的内容显⽰并找印⾏号，同时将2~5删除

附：nl命令在系统中⽤来计算⽂件中⾏号。nl可以将输出的⽂件内容⾃动的加上⾏号如果只要删除第2⾏，可以使⽤nl /etc/passwd |sed '2d' 来达成，⾄于若是要删除第 3 到最后⼀⾏，则是nl /etc/passwd | sed'3,$d'的啦。

3．增加⾏：a命令（在指定的⾏后新增）或i命令（在指定的⾏前新增）a的后⾯可以接字符串，⽽这些字符串会在新的⼀⾏出现在/etc/passwd的第⼆⾏后增加“XXXXX”字样的新⾏

在/etc/passwd的第⼆⾏前增加“XXXXX”字样的新⾏

如果要同时新增多⾏，则每⾏之间要⽤反斜杠来进⾏新⾏的添加4、取代⾏：c命令c的后⾯可以接字符串，这些字符串可以取代n1,n2之间的⾏

5、打印：p命令sed'/north/p' datafile 默认输出所有⾏，找到north的⾏重复打印

sed –n '/north/p'datafile 禁⽌默认输出，只打印找到north的⾏

nl/etc/passwd | sed -n '5,7p' 仅列出/etc/passwd⽂件中的第5～7⾏内容

注：sed的-i选项可以直接修改⽂件中的内容三、grep命令的⽤法grep （global search regular expression(RE) and print out the line,全⾯搜索正则表达式并把⾏打印出来）是⼀种强⼤的⽂本搜索⼯具，它能使⽤正则表达式搜索⽂本，并把匹配的⾏打印出来.

参数：1. -ANUM，--after-context=NUM 除了列出符合⾏之外，并且列出后NUM⾏。如: $ grep –A1 panda file (从file中搜寻有panda样式的⾏，并显⽰该⾏的后1⾏)

2. -BNUM，--before-context=NUM 与-A NUM 相对，但这此参数是显⽰除符合⾏之外并显⽰在它之前的NUM⾏。如: (从file中搜寻有panda样式的⾏，并显⽰该⾏的前1⾏)$ grep -B 1 panda file

3、 -C[NUM], -NUM, --context[=NUM] 列出符合⾏之外并列出上下各NUM⾏，默认值是2。

如: (列出file中除包含panda样式的⾏外并列出其上下2⾏)(若要改变默认值，直接改变NUM即可)$ grep -C[NUM] panda file

4、 -c, --count 不显⽰符合样式⾏，只显⽰符合的总⾏数。若再加上-v,--invert-match，参数显⽰不符合的总⾏数5、-i，--ignore-case 忽略⼤⼩写差别

6、-n，--line-number 在匹配的⾏前⾯打印⾏号

7、-v，--revert-match 反检索，只显⽰不匹配的⾏

8、精确匹配：例如在抽取字符串“ 48”，返回结果包含诸如484和483等包含“48”的其他字符串，实际上应精确抽取只包含48的各⾏。

使⽤grep抽取精确匹配的⼀种有效⽅式是在抽取字符串前加<,在抽取字符串后加>。假定现在精确抽取48，⽅法如下：#grep '<48>' filename

9、-s 不显⽰不存在或⽆匹配⽂本的错误信息如：执⾏命令grep "root" /etc/password，因为password⽂件不存在，所以在屏幕上输出错误信息，若使⽤grep命令-s开关，可屏蔽错误信息

要⽤好grep这个⼯具，其实就是要写好正则表达式，所以这⾥不对grep的所有功能进⾏实例讲解，只列⼏个例⼦，讲解⼀个正则表达式的写法。 $ ls -l | grep '^d'

通过管道过滤ls -l输出的内容，只显⽰以d开头的⾏。

$ grep 'test' d*显⽰所有以d开头的⽂件中包含test的⾏。

$ grep 'test' aa bb cc

显⽰在aa，bb，cc⽂件中匹配test的⾏。

$ grep '[a-z]{5,}' aa

显⽰所有包含每个字符串⾄少有5个连续⼩写字符的字符串的⾏。

$grep ‘t[a|e]st’ filename显⽰包含test或tast的所有⾏。

$grep '.$' filename显⽰以.为结尾的所有⾏。四、awk命令：awk也是⼀个数据处理⼯具！相较于 sed 常常作⽤于⼀整个⾏的处理， awk 则⽐较倾向于⼀⾏当中分成数个字段来处理。

.awk语⾔的最基本功能是在⽂件或字符串中基于指定规则来分解抽取信息，也可以基于指定的规则来输出数据。

1．命令格式awk [-F field-separator] 'commands' input-files其中，[-F域分隔符]是可选的，因为awk使⽤空格或tab键作为缺省的域分隔符，因此如果要浏览域间有空格的⽂本，不必指定这个选项，如果要浏览诸如passwd⽂件，此⽂件各域以冒号作为分隔符，则必须指明-F选项，如：awk -F: 'commands' input-file。注:在linux系统中⽤环境变量IFS存储分隔符,但根据实际应⽤也可以改变IFS的值.例如:脚本执⾏结果如下:mands 是真正awk命令， input-files 是待处理的⽂件。iput_files可以是多于⼀个⽂件的⽂件列表，awk将按顺序处理列表中的每个⽂件。在awk中，⽂件的每⼀⾏中，由域分隔符分开的每⼀项称为⼀个域。通常，在不指名-F域分隔符的情况下，默认的域分隔符是空格或tab键。 awk的模式和动作

任何awk语句都由模式和动作组成（awk_pattern { actions }）。在⼀个awk脚本中可能有许多语句。模式部分决定动作语句何时触发及触发事件。处理即对数据进⾏的操作。如果省略模式部分，动作将时刻保持执⾏状态。即省略时不对输⼊记录进⾏匹配⽐较就执⾏相应的actions。

模式可以是任何条件语句或正则表达式等。awk_pattern可以是以下⼏种类型:

1) 正则表达式⽤作awk_pattern:/regexp/例如:awk '/^[a-z]/' input_file2) 布尔表达式⽤作awk_pattern，表达式成⽴时，触发相应的actions执⾏。① 表达式中可以使⽤变量(如字段变量$1,$2等)和/regexp/② 布尔表达式中的操作符:

关系操作符: <> <= >= == !=匹配操作符: value ~ /regexp/ 如果value匹配/regexp/，则返回真value!~ /regexp/ 如果value不匹配/regexp/，则返回真例如: awk '$2 > 10 {print "ok"}' input_file awk '$3 ~ /^d/ {print"ok"}' input_file③ &&(与) 和 ||(或) 可以连接两个/regexp/或者布尔表达式，构成混合表达式。!(⾮) 可以⽤于布尔表达式或者/regexp/之前。

例如: awk '($1< 10 ) && ($2 > 10) {print "ok"}' input_file awk '/^d/ || /x$/ {print"ok"}' input_file模式包括两个特殊字段 BEGIN和END。使⽤BEGIN语句设置计数和打印头。BEGIN语句使⽤在任何⽂本浏览动作之前，之后⽂本浏览动作依据输⼊⽂本开始执⾏。END语句⽤来在awk完成⽂本浏览动作后打印输出⽂本总数和结尾状态标志。

实际动作在⼤括号{ }内指明。动作⼤多数⽤来打印，但是还有些更长的代码诸如i f和循环语句及循环退出结构。如果不指明采取动作，awk将打印出所有浏览出来的记录。

awk执⾏时，其浏览域标记为$1，$2...$n。这种⽅法称为域标识。使⽤这些域标识将更容易对域进⾏进⼀步处理。

使⽤$1 , $3表⽰参照第1和第3域，注意这⾥⽤逗号做域分隔。如果希望打印⼀个有5个域的记录的所有域，不必指明$1 , $2 , $3 , $4 , $5，可使⽤$0，意即所有域。为打印⼀个域或所有域，使⽤print命令。这是⼀个awk动作 awk的运⾏过程:①

如果BEGIN 区块存在，awk执⾏它指定的actions。②

awk从输⼊⽂件中读取⼀⾏，称为⼀条输⼊记录。(如果输⼊⽂件省略，将从标准输⼊读取)③

awk将读⼊的记录分割成字段，将第1个字段放⼊变量$1中，第2个字段放⼊$2，以此类推。$0表⽰整条记录。④

把当前输⼊记录依次与每⼀个awk_cmd中awk_pattern⽐较，看是否匹配，如果相匹配，就执⾏对应的actions。如果不匹配，就跳过对应的actions，直到⽐较完所有的awk_cmd。⑤

当⼀条输⼊记录⽐较了所有的awk_cmd后，awk读取输⼊的下⼀⾏，继续重复步骤③和④，这个过程⼀直持续，直到awk读取到⽂件尾。⑥

当awk读完所有的输⼊⾏后，如果存在END，就执⾏相应的actions。