求高手，模拟浏览器抓取网页

程序员文章站 2022-05-15 12:06:38

...

如抓取http://map.sogou.com/api/这个网页，我写的程序,如果不带网址后面的"/"，会抓取得不到，但是站上网（http://tool.chinaz.com/Tools/PageCode.aspx），不带最后面的"/"即可抓取到（即：http://map.sogou.com/api），他是什么原理？下面贴出我的代码，请改进

function file_get($url){	 ob_start();	 $ch = curl_init();	 	 curl_setopt($ch, CURLOPT_COOKIEJAR, "./cookie.txt");	 curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; InfoPath.1; CIBA)");	curl_setopt($ch, CURLOPT_URL, $url);	 curl_setopt($ch, CURLOPT_HEADER, FALSE);	 curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);	 curl_setopt($ch, CURLOPT_NOBODY, FALSE);	 curl_exec($ch);	 curl_close($ch);	 $content = ob_get_clean();	 	 	return $content;}

回复讨论(解决方案)

请加一句代码：

curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);

因为你抓取http://map.sogou.com/api，他返回的是301跳转。加上这句就能抓取跳转后的html了。

请加一句代码：

curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);

因为你抓取http://map.sogou.com/api，他返回的是301跳转。加上这句就能抓取跳转后的html了。
加上也不行，还是无法获取

function file_get($url){	 ob_start();	 $ch = curl_init();	 	 curl_setopt($ch, CURLOPT_COOKIEJAR, "./cookie.txt");	 curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; InfoPath.1; CIBA)");	curl_setopt($ch, CURLOPT_URL, $url);	 curl_setopt($ch, CURLOPT_HEADER, FALSE);	 curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);	 curl_setopt($ch, CURLOPT_FOLLOWLOCATION,TRUE);	 curl_setopt($ch, CURLOPT_NOBODY, FALSE);	 curl_exec($ch);	 curl_close($ch);	 $content = ob_get_clean();	 	 	return $content;}

我测试过的，加上是行的呀。

CURLOPT_FOLLOWLOCATION

相关标签：求高手，模拟浏览器抓取网页

上一篇：织梦广告平添

下一篇：哪位高手有HTTP-Tunnel v4.4.4000 Key

求高手，模拟浏览器抓取网页

回复讨论(解决方案)

经过URL抓取网页的TITLE，有些网站抓不到，方法愚笨，求指点

Selenium(python版本)如何启动浏览器模拟点击网页链接或按钮？

Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例

Python使用Selenium模块实现模拟浏览器抓取淘宝商品美食信息功能示例

谷歌浏览器怎么模拟手机浏览访问网页的效果?

使用PHP curl模拟浏览器抓取网站信息

模拟post请求抓取网页资源数据，用正则表达式获取有用数据

模拟post请求抓取网页资源数据，用正则表达式获取有用数据

apache还在运行，但是网页打不开求高手帮忙解决方案

求好手，模拟浏览器抓取网页

求高手，模拟浏览器抓取网页

回复讨论(解决方案)

经过URL抓取网页的TITLE，有些网站抓不到，方法愚笨，求指点

Selenium(python版本)如何启动浏览器模拟点击网页链接或按钮？

Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例

Python使用Selenium模块实现模拟浏览器抓取淘宝商品美食信息功能示例

谷歌浏览器怎么模拟手机浏览访问网页的效果?

使用PHP curl模拟浏览器抓取网站信息

模拟post请求抓取网页资源数据，用正则表达式获取有用数据

模拟post请求抓取网页资源数据，用正则表达式获取有用数据

apache还在运行，但是网页打不开 求高手帮忙解决方案

求好手，模拟浏览器抓取网页

apache还在运行，但是网页打不开求高手帮忙解决方案