Java URL抓取页面内容乱码问题解决办法 博客分类: java JavaOracleITeyeYahooHTML
程序员文章站
2024-02-07 14:33:58
...
页面utf-8 乱码
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
gbk正常
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
这个是字符说明
http://download.oracle.com/javase/6/docs/api/java/nio/charset/Charset.html
如何抓取的时候正常显示呢?
一种办法是同一按字节码来抓取,写到文件中,这样要 i/o file ,增加系统负担
另一种办法就是要根据页面的编码格式适当转码了
下面是我的解决办法
弄了好几个办法,这个最简单
绝对原创,转载请注明 http://tomfish88.iteye.com/
BufferedReader in = new BufferedReader(
new InputStreamReader(
yahoo.openStream(),"utf-8"));
先查看页面的编码格式,页面是啥编码格式,上面的编码格式就用啥,一点乱码没有,搞定