Centos7 Shell编程之正则表达式、文本处理工具详解

智清發表於 2022-8-4 16:32:01

Centos7 Shell编程之正则表达式、文本处理工具详解

<div id="navCategory"><h5 class="catalogue">目录</h5><ul class="first_class_ul"><li><a href="#_label0">1. 正则表达式</a></li><ul class="second_class_ul"><li><a href="#_lab2_0_0">1.1 常规匹配</a></li><li><a href="#_lab2_0_1">1.2 常用特殊字符</a></li></ul><li><a href="#_label1">2. 文本处理工具</a></li><ul class="second_class_ul"><li><a href="#_lab2_1_2">2.1 cut</a></li><li><a href="#_lab2_1_3">2.2 awk</a></li></ul></ul></div><p class="maodian"><a name="_label0"></a></p><h2>1. 正则表达式</h2>
<p>正则表达式可以很灵活的提供各种模糊匹配的筛选规则。常被用来检索、替换那些符合某个模式的文本。grep、sed、awk等文本处理工具都支持通过正则表达式进行模式匹配</p>
<p class="maodian"><a name="_lab2_0_0"></a></p><h3>1.1 常规匹配</h3>
<p>一串不包含特殊字符的正则表达式，匹配包含它自己的字符，例如：</p>
<div class="jb51code"><pre class="brush:bash;"># cat /etc/passwd | grep root
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
#
</pre></div>
<p class="maodian"><a name="_lab2_0_1"></a></p><h3>1.2 常用特殊字符</h3>
<p><strong>特殊字符：^</strong>：匹配一行的开头，例如：</p>
<div class="jb51code"><pre class="brush:bash;"># cat /etc/passwd | grep ^root
root:x:0:0:root:/root:/bin/bash
#
</pre></div>
<p><strong>特殊字符：$</strong>：匹配一行的结束，例如：</p>
<div class="jb51code"><pre class="brush:bash;"># cat /etc/passwd | grep bash$
root:x:0:0:root:/root:/bin/bash
#
</pre></div>
<p><code>特殊字符：.</code>：匹配一个任意的字符，例如：</p>
<div class="jb51code"><pre class="brush:bash;"># cat /etc/passwd | grep r..t
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
#
</pre></div>
<p><strong>特殊字符：</strong>*：不单独使用，和上一个字符连用，表示匹配上一个字符0次或多次，例如</p>
<div class="jb51code"><pre class="brush:bash;"># cat /etc/passwd | grep ro*t
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
#
</pre></div>
<p><strong>字符区间：[ ]</strong>：表示匹配某个范围内的一个字符</p>
<ul><li>：匹配6或者8</li><li>：匹配一个0-9的数字</li><li>*：匹配任意长度的数字字符串</li><li>：匹配一个a-z之间的字符</li><li>-匹配a-c或者e-f之间的任意一个字符</li></ul>
<div class="jb51code"><pre class="brush:bash;"># echo 12345 | grep "*"
12345
#
</pre></div>
<p>**特殊字符：**：表示转义，并不会单独使用。由于所有特殊字符都有其特定匹配模式，当我们想匹配某一特殊字符本身时(例如我想找出所有包含’$'的行)，就会碰到困难。此时我们就要将转义字符和特殊字符连用，来表示特殊字符本身，例如：</p>
<div class="jb51code"><pre class="brush:bash;"># echo -e 'abc$def'"\n123456" | grep '\$'
abc$def
#
</pre></div>
<p><strong>实战练习</strong>：</p>
<div class="jb51code"><pre class="brush:bash;"># echo 13667894536 | grep -E ^1{9}$
13667894536
#
</pre></div>
<p>grep默认是不支持正则特殊字符{}的，需要开启拓展正则表达式功能</p>
<p class="maodian"><a name="_label1"></a></p><h2>2. 文本处理工具</h2>
<p class="maodian"><a name="_lab2_1_2"></a></p><h3>2.1 cut</h3>
<p>cut可以将文件中内容(也可以通过管道符传输)，按照指定分隔符将每一行进行切割，然后取指定字节、字符、字段进行输出</p>
<p><strong>基本语法</strong>： cut [选项参数] filename</p>
<p>选项参数如下：</p>
<p>-d 分隔符：按照指定分隔符分割每行数据，默认是制表符\t</p>
<p>-f 列号：取第几列。可以使用<code>3,5</code>表示取第三列和第五列，<code>-3</code>、<code>3-5</code>、<code>5-</code>分布表示取前三列、第三列到第五列、第五列和后面所有列</p>
<p>-c 字符号：表示取第个字符。不能指定分隔符</p>
<p>-b 字节号：表示取第个字节。不能指定分隔符</p>
<p>示例：</p>
<div class="jb51code"><pre class="brush:bash;"># cat /etc/passwd | grep bash$ | cut -d ":" -f 1
root
bigdata
#
# cat /etc/passwd | grep bash$ | cut -d ":" -f 6-
/root:/bin/bash
/home/bigdata:/bin/bash
#
# cat /etc/passwd | grep bash$ | cut -c 1
r
g
#
</pre></div>
<p>实战示例：</p>
<div class="jb51code"><pre class="brush:bash;"># ifconfig ens33 | grep netmask | cut -d " " -f 10
192.168.8.111
#
</pre></div>
<p class="maodian"><a name="_lab2_1_3"></a></p><h3>2.2 awk</h3>
<p>awk把文件逐行的读入(文件名或通过管道符传输)，以空格为默认分隔符将每行切片，切开的部分再进行分析处理</p>
<p><strong>基本语法</strong>：awk [选项参数] ‘/pattern1/{action1} /pattern2/{action2} …’ filename</p>
<ul><li>pattern：表示awk在数据中查找的内容，就是正则表达式匹配</li><li>action：在找到匹配内容时所执行的一系列命令</li></ul>
<p><strong>选项参数说明</strong></p>
<ul><li>-F 分隔符：指定输入文件每行分隔符</li><li>-v 变量名=变量值：赋值一个用户定义变量</li></ul>
<p><strong>awk的内置变量</strong></p>
<p>FILENAME：文件名NR：数据所在的行号NF：每行切割后的列数</p>
<p>示例1：</p>
<div class="jb51code"><pre class="brush:bash;"># cat /etc/passwd | grep bash$
root:x:0:0:root:/root:/bin/bash
bigdata:x:996:1000::/home/bigdata:/bin/bash
#
# awk -F ":" -v my_var=1 'BEGIN{print "begin line"} /bash$/{print $3+my_var", "$1", 文件名: "FILENAME", 行号: "NR",列数: "NF} END{print "end line"}' /etc/passwd
begin line
1, root, 文件名: /etc/passwd, 行号: 1, 列数: 7
997, gpadmin, 文件名: /etc/passwd, 行号: 22, 列数: 7
end line
#
</pre></div>
<ul><li>BEGIN和END都是可选的，表示在所有数据行读取之前或之后执行的操作</li><li>可以不定义pattern，只定义action</li><li>print是awk内部的命令</li><li>$1表示第一列，$2表示第二列，依次类推</li></ul>
<p>示例2：</p>
<div class="jb51code"><pre class="brush:bash;"># ifconfig | awk '/netmask/{print $2}'
192.168.8.111
127.0.0.1
#
</pre></div>
<p>前面的多个空格会当作一个空格，且只统计有内容的列所在的位置</p>
<p>示例3：</p>
<div class="jb51code"><pre class="brush:bash;"># cat test.awk
#!/bin/awk -f
# 在所有数据行读取之前的操作
BEGIN {
# 定义变量
math = 0
english = 0

printf "name       math english total\n"
}

# 对每行数据进行的操作
{
math+=$2
english+=$3
printf "%-10s %6d %9d %7d\n", $1, $2, $3, $2+$3
}
# 在所有数据行读取之后的操作
END {
printf "total: %6d %9d\n", math, english
printf "average: %6.2f %9.2f\n", math/NR, english/NR
}
#
# echo -e "zhang_san 60 80\nli_si 70 90" | awk -f test.awk
name       math english total
zhang_san    60    80 140
li_si       70    90 160
total:    130    170
average: 65.00 85.00
# </pre></div>
<ul><li>printf是wak内置命令</li><li>printf中-表示左对齐，默认右对齐。数字表示宽度。s表示字符串，d表示数字，f表示浮点数(数字1.数字2：数字1表示宽度，数字2表示小数点位数)</li></ul>

頁: [1]

圆梦公社's Archiver

Centos7 Shell编程之正则表达式、文本处理工具详解