晓烨 發表於 2023-5-29 00:00:00

Vim中文件编码处理与重新打开乱码文件详解

<p>
        <span><strong>前言</strong></span></p>
<p>
        vim 中有两个与编码有关的变量,如果理解了基本就不会再为编码问题头疼了。</p>
<ul>
<li>
                encoding  :vim 内部编码,例如 buffer、寄存器、文本等。这个值一般用户不要设置,另外打开 vim 之后再设置这个值也是没有意义的。大家可以将这个值看作是 vim 程序自己的变量,如果在工作中遇到文件的编码问题,和 encoding  这个变量是万万没有关系的。</li>
        <li>
                fileencoding  :顾名思义了,就是文件的编码。</li>
</ul>
<p>
        此外还有一个值,叫 fileencodings 是个复数。一般我们将这个值在 vimrc 中设置,vim 打开一个文件的时候回根据 fileencodings 里面设置的顺序来猜测文件的编码。比如这样设置:</p>
<div class="jb51code">
        <div>
                <div class="syntaxhighlighterbash" id="highlighter_840165">
                        <div class="toolbar">
                                <span>?</span>
</div>
                        <table border="0" cellpadding="0" cellspacing="0"><tbody><tr>
<td class="gutter">
                                                        <div class="line number1 index0 alt2">
                                                                1</div>
                                                </td>
                                                <td class="code">
                                                        <div class="container">
                                                                <div class="line number1 index0 alt2">
                                                                        <code class="bash functions">set</code> <code class="bash plain">fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1</code>
</div>
                                                        </div>
                                                </td>
                                        </tr></tbody></table>
</div>
        </div>
</div>
<p>
        那么有时候 vim 猜错了,打开的文件显示乱码怎么办呢?(ps:通常 vim 打开文件的时候乱码是因为你的 fileencodings 里面没有写某个编码,所以 vim 没有猜对。例如从上面的设置中删掉 gb18030 ,那么打开这种编码的文件的时候你会发现 fileencoding 的值是 latin1 ,而文件的显示是乱码)</p>
<p>
        这时候你可能想到设置 fileencoding 的值,但是此时我们的文件已经打开了,你设置后会发现 vim buffer 的状态变成了 edited 。而文件依然显示乱码,没有变化。具体的原因后文会详细解释。</p>
<p>
        正确的做法是 以特定编码重新打开文件 ,例如在 vim 中使用重新打开命令 :e ++enc=gb2312 ,其中 ++enc 是一个选项,可以指定使用的编码。打开后你会发现 vim 按照你指定的形式打开了文件,但是文件变成了 readonly 状态,如果要修改,设置 :set noreadonly 就好。</p>
<p>
        其实原理有点像 python 里面有人提出的 三明治模型 :</p>
<p>
        <img title="Vim中文件编码处理与重新打开乱码文件详解" alt="Vim中文件编码处理与重新打开乱码文件详解" src="https://zhuji.jb51.net/uploads/img/202305/2cdfb39b99b5c208e7779b50f5e513a9.jpg"></p>
<p>
        python 在从流(例如网络, 文件 i/o 的时候),拿到的是 bytes ,通过 decode() 变成 str 而 vim 在读入一个文件的时候,根据 fileencoding (用户设置的或者通过 fileencodings 猜测,将其转换成内部  encoding 的编码方式。</p>
<p>
        python 在写入文件的时候,用 encode() 变成 bytes 再写。而 vim 从 buffer 写到文件的时候,也是将数据从内部的 encoding 转换成 fileencoding 再写入。</p>
<p>
        这也就解释了为什么乱码的时候在 vim 中修改 fileencoding 没什么卵用。</p>
<p>
        因为在打开文件之后设置 fileencoding 的值不会改变已经载入到 vim buffer 中的数据,此时的数据已经是转换完成了的,这个设置只会改变写入的时候使用目前的 fileencoding 来写入,所以总结起来就是“打开文件使用了一个编码,写入文件的时候使用了另一个编码”。</p>
<p>
        而对乱码正确的需求应该是:我想要以特定的编码形式打开这个文件。</p>
<p>
        <span><strong>总结</strong></span></p>
<p>
        以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对的支持。</p>
<p>
        参考:</p>
<ul>
<li>
                help :edit</li>
        <li>
                help fileencoding</li>
        <li>
                help ++enc</li>
        <li>
                vim 文件编码识别与乱码处理
</li>
</ul>
<p>
        原文链接:https://www.kawabangga.com/posts/2851</p>
頁: [1]
查看完整版本: Vim中文件编码处理与重新打开乱码文件详解