欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

中文在URL中的编码 Google搜索引擎百度CC++ 

程序员文章站 2022-03-17 16:13:51
...

问题来源:
    正在研究一个程序,输入一个关键字,能够把这个关键字发送到Google,yahoo等搜索引擎,进行搜索,然后打开结果网页。原理很简单。比如在Google搜索China,搜索结果页面的URL就是“http://www.google.com/search?hl=zh-CN&q=China&lr=”。只要替换红颜色的内容,就可以按照不同的关键字搜索。

但是如果关键字是中文,就会出现问题。比如在google搜索“中国”,Url是“http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD&lr=”。汉字“中国”被按照UTF-8的格式进行编码。

不仅汉字进行编码,一些特殊字符也会进行编码。比如搜索“C#”,URL是“http://www.google.com/search?hl=zh-CN&newwindow=1&q=C%23&lr=”。

一般来说,国外的网站都是按照UTF-8编码,而“百度”是按照“GB2312”进行编码的。比如搜索“中国”,URL是“http://www.baidu.com/s?wd=%D6%D0%B9%FA&cl=3”

我们对比一下:C#中国的编码

编码 结果 网站
UTF-8 C%23%E4%B8%AD%E5%9B%BD Google
GB2312 C%23%D6%D0%B9%FA BaiDu

总结:
UTF-8中,一个汉字对应三个字节,GB2312中一个汉字占用两个字节。
不论何种编码,字母数字都不编码,特殊符号编码后占用一个字节。

开始编程:

中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++         public static string UrlEncode(string str, string encode)
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++         
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ {
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
int factor;
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
if (encode == "UTF-8")
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                 factor 
= 3;
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
if (encode == "GB2312")
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                 factor 
= 2;
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
//不需要编码的字符
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
            string okChar = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.-*@";
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             System.Text.Encoder encoder 
= System.Text.Encoding.GetEncoding(encode).GetEncoder();
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
char[] c1 = str.ToCharArray();
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             System.Text.StringBuilder sb 
= new System.Text.StringBuilder();
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
//一个字符一个字符的编码
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
            for (int i = 0; i < c1.Length; i++)
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ {
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                 
//不需要编码
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
                if (okChar.IndexOf(c1[i]) > -1)
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                     sb.Append(c1[i]);
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                 
else
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                 
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ {
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                     
byte[] c2 = new byte[factor];
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                     
int charUsed, byteUsed; bool completed;
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                     encoder.Convert(c1, i, 
1, c2, 0, factor, trueout charUsed, out byteUsed, out completed);
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                     
foreach (byte b in c2)
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                     
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ {
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                         
if (b != 0)
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                             sb.AppendFormat(
"%{0:X}", b);
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                     }

中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++                 }

中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             }

中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++             
return sb.ToString().Trim();
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++         }

中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 


后来发现更简单的方法。

 

中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ //按照UTF-8进行编码
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
string tempSearchString1 = System.Web.HttpUtility.UrlEncode("C#中国");
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
//按照GB2312进行编码
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 
string tempSearchString2 = System.Web.HttpUtility.UrlEncode("C#中国",System.Text.Encoding.GetEncoding("GB2312"));
中文在URL中的编码 
            
    
    
        Google搜索引擎百度CC++ 

大家直接用第二种方法就行了。
因为第一种是自己好不容易编出来的,贴在这里留个纪念。