不念经的僧 發表於 2023-1-28 09:21:00

转义字符在前端开发中的详细介绍

<p>说起转义字符,大家最先想到的肯定是使用反斜杠,这也是我们最常见的,很多编程语言都支持。<br>
转义字符从字面上讲,就是能够转变字符原本的意义,得到新的字符。常用在特殊字符的显示以及特定的编码环境中。<br>
除了反斜杠以外,在前端开发中,还有其他几种转义字符,也是较常见的,本文将对这些做一个总结。</p>
<h2 id="字符串中的转义">字符串中的转义</h2>
<p>使用反斜杠来表示转义字符时,主要是在字符串中使用。这里就需要了解字符集和编码等知识,具体可见前文。</p>
<p>字符集就是字符的集合,最常见的 ASCII字符集、Unicode字符集等:<br>
ASCII的任一个字符都可以被转义,使用的就是反斜杠加上数字编码,特殊的也能使用反斜杠加上字母。<br>
Unicode,也能进行转义,使用则是反斜杠加上码点。由于Unicode包含了ASCII的所有字符,且编码一致,所以都可算编码转义,而现在前端编程所涉及到的已经都是Unicode字符。<br>
字符集和字符编码等具体知识,可见博文前端开发中需要搞懂的字符编码知识。</p>
<p>一般,反斜杠(\)在字符串中有特殊的含义,用来和后面的字符一起组合表示一些特殊字符,所以又被称为转义符。</p>
<p>反斜杠后面可以跟着的字符大致有以下几种:</p>
<ul>
<li>字母</li>
<li>三位八进制</li>
<li>x 加上 两位十六进制</li>
<li>Unicode码点</li>
</ul>
<h3 id="字母">字母</h3>
<p>转义字符中最基础的就是:使用反斜杠\加上字母,表示那些无法输入表示特殊含义的字符,常见的有以下几种:</p>
<ul>
<li>\b&nbsp;后退键</li>
<li>\f&nbsp;换页符</li>
<li>\n&nbsp;换行符</li>
<li>\r&nbsp;回车键</li>
<li>\t&nbsp;制表符</li>
<li>\v&nbsp;垂直制表符</li>
</ul>
<p>以前在字符串拼接时,就经常使用\n、\t:</p>
<pre><code class="language-js">"\n      " +
console.log('test') +
"\n    "
</code></pre>
<p>需要注意的是,这些字母是特殊的可应用于转义的字母。<br>
如果是非特殊字母,加上反斜杠,则会忽略反斜杠,很多字符也是同样忽略反斜杠:</p>
<pre><code class="language-js">'\a' // 'a'
'\"' // '"'
'\?' // '?'
</code></pre>
<h3 id="十六进制数字">十六进制数字</h3>
<p>十六进制更常用,它的转义规则:<code>\x&lt;hex&gt;</code>,<code>\x</code>后跟上2位十六进制数。<br>
因为只有两位,范围是:0x00-0xFF,所以这种方式也只能输出265种字符,其中:</p>
<ul>
<li>0x00-0x7F 和ASCII码一致</li>
<li>0x80-0x9F 表示控制字符</li>
<li>0xA0-0xFF 表示文字字符</li>
</ul>
<pre><code class="language-js">'\xA9' // '©'
'\x75' === 'u' // true
'\x67' // 'g'
</code></pre>
<h3 id="八进制数字">八进制数字</h3>
<p>反斜杠后面跟3位八进制数(),就代表一个转义字符:</p>
<pre><code class="language-js">'\251' // '©'
'\165' === 'u' // true
'\106' // 'F'
</code></pre>
<p>取值范围:000-377,总共也是有256种字符,其中就包含了所有的ASCII码。</p>
<p>八进制和十六进制能转义的字符是一样的,进行进制转换即可,见前文。<br>
在JS中,用这两种方式的转义字符是相等的:</p>
<pre><code class="language-js">'\xA9' === '\251' // true
'\200' === '\x80' // true
</code></pre>
<h3 id="unicode码点">Unicode码点</h3>
<p>提到Unicode,首先需明确的一点,JS中的字符串是基于Unicode的UTF-16编码方式。<br>
Unicode字符规定了码点和字符平面。</p>
<p>码点使用从U+0000到U+10FFFF的方位来表示所有的字符。<br>
如果直接使用码点来转义所有的Unicode字符,则使用规则:<code>\u{&lt;hex&gt;}</code>,<code>\u</code>后跟上1-6位的十六进制:</p>
<pre><code class="language-js">'\u{A9}' // '©'
'\u{597d}' // '好'
'\u{1f604}' // '😄'
</code></pre>
<p>字符平面又分为基本平面和非基本平面<br>
其中对于基本平面(65536个字符)的字符,转义规则:<code>\u&lt;hex&gt;</code>,<code>\u</code>后跟上4位十六进制数:</p>
<pre><code class="language-js">'\u00A9' // "©"
'\u0075' === 'u' // true
'\u597d' // '好'
</code></pre>
<p>对于非基本平面的字符,则要使用UTF-16的码元规则,一般是两个码元:<code>\u&lt;hex&gt;\u&lt;hex&gt;</code>,<code>\u</code>后各4位十六进制:</p>
<pre><code class="language-js">'\uD83D\uDE04' // '😄'
'\uD83C\uDF34' // '🌴'
</code></pre>
<p>只要获取到字符的Unicode编号码点,即可以通过这种方式转义所有的字符。</p>
<h2 id="正则表达式中的转义">正则表达式中的转义</h2>
<p>在正则表达式中有许多特殊的符号,起着不同的作用,但如果要匹配这些特殊符号本身,就需要用到转义了。<br>
这里的转义字符也是使用反斜杠,后面跟上需要匹配的符号,即可,如:<code>\+</code> 匹配加号。</p>
<p>在正则表达式中,需要反斜杠转义匹配的字符,一共是12个:<code>^ . [ $ ( ) | * + ? { \</code>,这些字符都是正则的特殊字符。</p>
<pre><code class="language-js">/5$/.test('5$') // false
/5\$/.test('5$') // true
</code></pre>
<p>上面代码,$符号加了转义才能匹配成功,否则不匹配。</p>
<p>当使用RegExp方法时,正则参数是字符串,反斜杠<code>\</code>需要2个,因为字符串内会先转义一次:</p>
<pre><code class="language-js">(new RegExp('5$')).test('5$') // false
(new RegExp('5\$')).test('5$') // false
(new RegExp('5\\$')).test('5$') // true
</code></pre>
<p>上面代码中,只有第三行因为使用了两个反斜杠,才能转义成功,得到正确的值。</p>
<h2 id="html中的转义">HTML中的转义</h2>
<p>HTML中转义字符也是较常见的,主要有三种形式的转义。</p>
<p>最常见的是基于<strong>实体名称</strong>:</p>
<ul>
<li><code>&amp;</code> 后加上实体名称 再加上分号 <code>;</code>:</li>
</ul>
<pre><code class="language-html">空格&amp;nbsp;
大于号 &gt; &amp;gt;
</code></pre>
<p>实体名称转义以前是为了处理html中的特殊的字符显示问题,比如<code>小于号 &lt;</code>在THML中是作为元素标签的一部分使用的,作为特殊字符,直接输入会出错。</p>
<blockquote>
<p>但目前在现代浏览器上,已经能正常显示大于小于号这些符号,可以不使用转义字符。</p>
</blockquote>
<p>另两种是基于<strong>Unicode码点</strong>:</p>
<ul>
<li><code>&amp;#x</code> 后加十六进制码点 再加上分号 <code>;</code>:</li>
</ul>
<pre><code class="language-html">&amp;#x1f604; =&gt; 😄
&amp;#x597d; =&gt; 好
&amp;#x26; =&gt; &amp;
</code></pre>
<ul>
<li><code>&amp;#</code> 后加十进制的码点 再加上分号 <code>;</code>:</li>
</ul>
<pre><code class="language-html">&amp;#128516; =&gt; 😄
&amp;#22909; =&gt; 好
&amp;#38; =&gt; &amp;
</code></pre>
<p>基于实体名称转义的字符,也是被包含在Unicode字符集中的,所以也可以使用码点来进行转义。<br>
在HTML中最常用到的转义字符,可见下面整理的表格:</p>
<table>
<thead>
<tr>
<th>字符</th>
<th>名称</th>
<th>名称转义</th>
<th>码点转义</th>
</tr>
</thead>
<tbody>
<tr>
<td>"</td>
<td>双引号</td>
<td>&amp;quot;</td>
<td>&amp;#34;</td>
</tr>
<tr>
<td>&amp;</td>
<td>和号</td>
<td>&amp;amp;</td>
<td>&amp;#38;</td>
</tr>
<tr>
<td>&lt;</td>
<td>小于号</td>
<td>&amp;lt;</td>
<td>&amp;#60;</td>
</tr>
</tbody>
</table>
<blockquote>
<p>|大于号|&amp;gt;|&amp;#62;<br>
'|单引号|&amp;apos;|&amp;#39;<br>
空格|空格|&amp;nbsp;|&amp;#160;<br>
©|版权号|&amp;copy;|&amp;#169;<br>
¢|分|&amp;cent;|&amp;#162;<br>
£|镑|&amp;pound;|&amp;#163;<br>
¥|人名币|&amp;yen;|&amp;#165;<br>
$|美元|&amp;dollar;|&amp;#36;<br>
©|版权|&amp;copy;|&amp;#169;<br>
®|注册商标|&amp;reg;|&amp;#174;<br>
×|乘号|&amp;times;|&amp;#215;<br>
÷|除号|&amp;divide;|&amp;#247;</p>
</blockquote>
<h2 id="url转义字符">URL转义字符</h2>
<p>另外,在web开发中,URL链接也是有编码转义的,特别是针对URL元字符和中文等特殊字符:<br>
<code>http://baidu.com/中国</code> 编码转义为 <code>http%3A%2F%2Fbaidu.com%2F%E4%B8%AD%E5%9B%BD</code></p>
<blockquote>
<p>可以使用encodeURIComponent 和 decodeURIComponent 对URL链接进行编解码处理。</p>
</blockquote>
<p>URL中的转义规则:根据系统的默认编码(一般是UTF-8),是使用百分号<code>(%)</code>加上两位的十六进制数。</p>
<p>实际的转义,就是基于Unicode字符的码点,不过与字符串不太一样,这里使用的一般是UTF-8编码方式。</p>
<p>URL部分元字符的转义:</p>
<table>
<thead>
<tr>
<th>元字符</th>
<th>名称</th>
<th>转义符</th>
</tr>
</thead>
<tbody>
<tr>
<td>+</td>
<td>加号</td>
<td>%2B</td>
</tr>
<tr>
<td>空格</td>
<td>空格</td>
<td>%20</td>
</tr>
<tr>
<td>/</td>
<td>斜杠</td>
<td>%2F</td>
</tr>
<tr>
<td>?</td>
<td>问号</td>
<td>%3F</td>
</tr>
<tr>
<td>#</td>
<td>井号</td>
<td>%23</td>
</tr>
<tr>
<td>&amp;</td>
<td>和号</td>
<td>%26</td>
</tr>
<tr>
<td>=</td>
<td>等号</td>
<td>%3D</td>
</tr>
<tr>
<td>:</td>
<td>冒号</td>
<td>%3A</td>
</tr>
<tr>
<td>@</td>
<td>at符</td>
<td>%40</td>
</tr>
<tr>
<td>,</td>
<td>逗号</td>
<td>%2C</td>
</tr>
<tr>
<td>;</td>
<td>分号</td>
<td>%3B</td>
</tr>
</tbody>
</table>
<p>中文等特殊字符则被转义成多个组合:</p>
<pre><code class="language-js">encodeURIComponent('http://baidu.com/中国😄') // 'http%3A%2F%2Fbaidu.com%2F%E4%B8%AD%E5%9B%BD%F0%9F%98%84'
</code></pre>
<p>上面代码中,<br>
就有元字符的转义:':' =&gt; <code>%3A</code>、'/' =&gt; <code>%2F</code>,<br>
而中文则转义成:中 =&gt; <code>%E4%B8%AD</code>、国 =&gt; <code>%E5%9B%BD</code>,<br>
表情符号转义成:😄 =&gt; <code>%F0%9F%98%84</code>。</p><br><br>
来源:https://www.cnblogs.com/jimojianghu/p/17054789.html
頁: [1]
查看完整版本: 转义字符在前端开发中的详细介绍