Vim中文件编码处理与重新打开乱码文件详解

程序员文章站 2022-06-29 16:38:50

前言 vim 中有两个与编码有关的变量，如果理解了基本就不会再为编码问题头疼了。 encoding ：vim 内部编码，例如 buffer、寄存器、...

前言

vim 中有两个与编码有关的变量，如果理解了基本就不会再为编码问题头疼了。

encoding ：vim 内部编码，例如 buffer、寄存器、文本等。这个值一般用户不要设置，另外打开 vim 之后再设置这个值也是没有意义的。大家可以将这个值看作是 vim 程序自己的变量，如果在工作中遇到文件的编码问题，和 encoding 这个变量是万万没有关系的。
fileencoding ：顾名思义了，就是文件的编码。

此外还有一个值，叫 fileencodings 是个复数。一般我们将这个值在 vimrc 中设置，vim 打开一个文件的时候回根据 fileencodings 里面设置的顺序来猜测文件的编码。比如这样设置：

set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1

那么有时候 vim 猜错了，打开的文件显示乱码怎么办呢？（ps：通常 vim 打开文件的时候乱码是因为你的 fileencodings 里面没有写某个编码，所以 vim 没有猜对。例如从上面的设置中删掉 gb18030 ，那么打开这种编码的文件的时候你会发现 fileencoding 的值是 latin1 ，而文件的显示是乱码）

这时候你可能想到设置 fileencoding 的值，但是此时我们的文件已经打开了，你设置后会发现 vim buffer 的状态变成了 edited 。而文件依然显示乱码，没有变化。具体的原因后文会详细解释。

正确的做法是以特定编码重新打开文件，例如在 vim 中使用重新打开命令 :e ++enc=gb2312 ，其中 ++enc 是一个选项，可以指定使用的编码。打开后你会发现 vim 按照你指定的形式打开了文件，但是文件变成了 readonly 状态，如果要修改，设置 :set noreadonly 就好。

其实原理有点像 python 里面有人提出的：

Vim中文件编码处理与重新打开乱码文件详解

python 在从流（例如网络，文件 i/o 的时候），拿到的是 bytes ，通过 decode() 变成 str 而 vim 在读入一个文件的时候，根据 fileencoding （用户设置的或者通过 fileencodings 猜测，将其转换成内部 encoding 的编码方式。

python 在写入文件的时候，用 encode() 变成 bytes 再写。而 vim 从 buffer 写到文件的时候，也是将数据从内部的 encoding 转换成 fileencoding 再写入。

这也就解释了为什么乱码的时候在 vim 中修改 fileencoding 没什么卵用。

因为在打开文件之后设置 fileencoding 的值不会改变已经载入到 vim buffer 中的数据，此时的数据已经是转换完成了的，这个设置只会改变写入的时候使用目前的 fileencoding 来写入，所以总结起来就是“打开文件使用了一个编码，写入文件的时候使用了另一个编码”。

而对乱码正确的需求应该是：我想要以特定的编码形式打开这个文件。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对的支持。

参考：

help :edit
help fileencoding
help ++enc
vim 文件编码识别与乱码处理

上一篇： Windows 10 v1809正式版恢复推送：稳定用户检查更新即可收到

下一篇： ubuntu 16.04系统完美解决pip不能升级的问题