PHP实现采集抓取淘宝网单个商品信息_PHP

程序员文章站 2022-06-11 20:22:54

...

调用淘宝的数据可以使用淘宝提供的api，如果只需调用淘宝商品图片名称等公开信息在自己网站上，使用php中的 file_get_contents 函数实现即可。

思路：

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容（源码）以字符串形式输出（一个整字符串），然后配合preg_match，preg_replace等这些正则表达式操作就可以实现获取该url特定div，img等信息了。当然前题是淘宝在单个商品页面的结构是固定的，如500图的img中id就是J_ImgBooth！

具体实现方法：（获取500图，名称，价格，属性及商品描述）

代码如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text

A.获取500图：

代码如下:

preg_match('/ PHP实现采集抓取淘宝网单个商品信息_PHP ]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img，$img[0]为该500图img标签，$img[1]为500图的图片地址；

B. 获取名称：

代码如下:

preg_match('/

([^]*)/', $text, $title); //因为正文中的商品名称标签没有特殊class或id正则不好抓取，就抓<title>标签中的内容了，一般来说title中内容就是商品名称了（实际有些出入），$title[0]整个title标签 $title[1]标签中内容； $title=iconv('GBK','UTF-8',$title); //如果你的网站是utf8编码，那么需要进行一下转码（淘宝是gbk编码） C.获取价格： 代码如下: preg_match('/]*>([^/is', $text, $price); //同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签， $price[1]为strong标签名； $price=floatval($price);//放入数据库估计还有转一下变量类型 D.获取属性： 这之前获取的内容都是在单标签中相对只需一个正则就可搞定，然而如果要获取如 代码如下: … <div id="”xxx”"> … <ul> … </ul> <div>… <div>… </div> </div> </div> … 这样特定div中有未知n个标签，获取该特定div将会非常的困难，搜了下网上，最接近的也只是”/]*>([^]|(?R))*/”这样使用递归抓取标签对，但是他不能抓特定标签，所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性，就是它的各个标签结构基本是固定的… <div>…</div>标签后面不是

相关标签： PHP 采集抓取淘宝网单个商品信

上一篇： Linux_7:LAMP再次安装遇到的问题及解决办法

下一篇： php防止网站被攻击的应急代码，php防止应急代码

PHP实现采集抓取淘宝网单个商品信息_PHP