谈汉字转换类型及解决方案
程序员文章站
2022-05-02 13:35:13
...
●简繁转换有四种情况
汉字转换,分为内码转换和简繁转换。
内码转换属于简繁转换,但是他主要是在GB码和BIG5码之间转换。
另外一种简繁转换是在GB码内部的转换。GB码扩展集包含两万多个汉字,自然也存在简繁转化问题。例如,大陆网友从BIG5码繁体字网页用“复制--粘贴”的方法虽然得到的是繁体字文件,但他已经不是BIG5码的字体了。尽管页面的内码是BIG5码,但是经过复制--粘贴,已经变成了GB内码的繁体字,粘贴到“笔记本”时不是乱码,要知道,大陆简体windows系统的笔记本,是不能识别BIG5码的。若要把这繁体字变为简体字,用一般的方法可就不行了。
所以,不要以为繁体字就都是BIG5码。因此,汉字转换分为四种情况:
1。GB转BIG5
2。BIG5转GB
3。简体字转繁体字(在GBK大陆内码中转换)
4。繁体字转简体字(同上)
●网页“另存为”的转换特点。利用网页“另存为”转换汉字内码。
当我们把某个BIG5的网页用“另存为”的方式保存时,你注意看,“保存WEB页”窗口最下方有个“编码”栏,里面至少有三种选择:Unicode(UTF-8),繁体中文(BIG5),简体中文(GB2312)。
本网页的内码是Unicode(UTF-8),所以能够同时显示GB码和 BIG5码汉字。你选择不同的内码保存,就已经进行了内码转换。利用这个特点,我们可以用网页“另存为”转换汉字内码。
●网上在线汉字转换,大多是内码转换。若想把复制下来的GB码繁体字转换为同内码的简体字,或者相反,网上的转换功能显然不足。
●《金山快译》包含两个文件:KConvert.exe和Cjktab32.dll,总共大小才484K,压缩成RAR文件後仅仅235K。可以直接提取出来单独使用。他可以进行上述四种汉字的任意转换。
我已将金山快译的这两个文件上传,要用的网友可以下载。
金山快译的内码转换(解压可用,无须安装)
■http://202.202.4.200/upload/upfile/gb-big5.rar■
●手工修改个别字
不过,绝大多数汉字转换软件有个小问题,简体到繁体自动转换时,个别字转换有毛病(一对多的毛病),姓范的范,会转换成模
汉字转换,分为内码转换和简繁转换。
内码转换属于简繁转换,但是他主要是在GB码和BIG5码之间转换。
另外一种简繁转换是在GB码内部的转换。GB码扩展集包含两万多个汉字,自然也存在简繁转化问题。例如,大陆网友从BIG5码繁体字网页用“复制--粘贴”的方法虽然得到的是繁体字文件,但他已经不是BIG5码的字体了。尽管页面的内码是BIG5码,但是经过复制--粘贴,已经变成了GB内码的繁体字,粘贴到“笔记本”时不是乱码,要知道,大陆简体windows系统的笔记本,是不能识别BIG5码的。若要把这繁体字变为简体字,用一般的方法可就不行了。
所以,不要以为繁体字就都是BIG5码。因此,汉字转换分为四种情况:
1。GB转BIG5
2。BIG5转GB
3。简体字转繁体字(在GBK大陆内码中转换)
4。繁体字转简体字(同上)
●网页“另存为”的转换特点。利用网页“另存为”转换汉字内码。
当我们把某个BIG5的网页用“另存为”的方式保存时,你注意看,“保存WEB页”窗口最下方有个“编码”栏,里面至少有三种选择:Unicode(UTF-8),繁体中文(BIG5),简体中文(GB2312)。
本网页的内码是Unicode(UTF-8),所以能够同时显示GB码和 BIG5码汉字。你选择不同的内码保存,就已经进行了内码转换。利用这个特点,我们可以用网页“另存为”转换汉字内码。
●网上在线汉字转换,大多是内码转换。若想把复制下来的GB码繁体字转换为同内码的简体字,或者相反,网上的转换功能显然不足。
●《金山快译》包含两个文件:KConvert.exe和Cjktab32.dll,总共大小才484K,压缩成RAR文件後仅仅235K。可以直接提取出来单独使用。他可以进行上述四种汉字的任意转换。
我已将金山快译的这两个文件上传,要用的网友可以下载。
金山快译的内码转换(解压可用,无须安装)
■http://202.202.4.200/upload/upfile/gb-big5.rar■
●手工修改个别字
不过,绝大多数汉字转换软件有个小问题,简体到繁体自动转换时,个别字转换有毛病(一对多的毛病),姓范的范,会转换成模
上一篇: phpBB BBcode处理的漏洞