欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

谈 utf8 文本中的BOM

程序员文章站 2022-05-25 22:56:29
...
众所周知, Linux 下默认的字符集是utf8, 如果要把这个文件发给用户看, 一般要用iconv命令转码, 但是笔者最近发现如果我装的是英文操作系统, 那看到的可不是一般的蛋疼, 全成乱码了, utf8 是因统一全世界各国编码而生的, 但是在windows 系统中却起不到作用, 其原因是windows中看到 BOM 才会认为这个文本文件是utf8编码的, 那问题就是如何在linux中输出bom呢? 就是三个不可见的字符 EF BB BF, 好, 下面讨论一下这三个字符.

首先, 可能有人会先生成一个 只有这三个字符的空文件, 然后在需要的时候文件连接一下, 这个确实能解决问题, 在项目中使用也没有风险, 但是这样就使程序显得不够优雅, 中国人的聪明才智也无法发挥. 所以引入以下几个命令:

1. 查看文件中的bom.
od -N 10 -t x1 


2. 用echo.
echo -en '\357\273\277'


3. 已经生成好的流, 用sed

sed '1s/^/'$(echo -en '\357\273\277')'/g'