淘宝用的是怎么的技术，防止被采集的？如何用php采集淘宝的数据呢？

程序员文章站 2022-05-19 12:53:56

...

最近做个小程序，需要采集淘宝搜索页的结果，因为API的效果不一样的，所以要采集。
但是弄了好久都没能采集下来。
有大神有空可以帮小弟试试吗？
万分感激。

链接样式： https://list.tmall.com/search_product.htm?q=%D1%A9%B7%C4%C9%C0&cli...

回复内容：

链接样式： https://list.tmall.com/search_product.htm?q=%D1%A9%B7%C4%C9%C0&cli...

没用什么,完全模拟浏览器curl即可。可能用了cookies和user-agent什么的识别。
效果图:
淘宝用的是怎么的技术，防止被采集的？如何用php采集淘宝的数据呢？

若无效自行将cookies换成新的。

搜一下selenium

谢邀。

不过这个貌似我都没研究过，没什么发言权。

平时采集东西还是用Scrapy 或者 pyspider吧

淘宝不断优化反PHP采集的技术防止采集。采集淘宝的时候必须不断优化破解反PHP采集的技术达到采集目的

利用curl模拟头信息，模拟来路和IP不断的去采集，去年采集过淘宝一年数据

淘宝很多数据都已经必须要求登录后才能采集了

由于该网站的robots.txt文件存在限制指令，系统无法提供该页面的内容描述

防君子不防小人的感觉。
模拟采集的话，curl应该没太大问题，注意频率或者换IP就好了。

很多东西（比如ajax加载的）后端的程序是无法直接采集的，即使调整程序，使用起来也比较费劲。
那么，你可以模拟浏览器去访问，只要浏览器能访问到的，你模拟的浏览器都能访问得到。
PhantomJS （casperjs 框架）看看这个吧，能简单模拟浏览器访问，要抓的数据都能抓得到。

python 下用什么工具采集taobao？