php爬数据curl实例详解

程序员文章站 2022-04-14 09:16:55

...

首先我们要知道页面数据内容有两种方式（待爬数据只有2种）：一，直接渲染出来的（基于mvc模板赋值到模板页面的）二，通过接口获取然后JS渲染出来（接口返回的）

然后你要找数据的话：

就看直接访问的地址能不能拿到有你想要的那些内容的文本（基于mvc模板赋值到模板页面的）

如果没有，就看看是通过哪些接口获取到的

关于更进一步的链接，也是如此：

如果是直接渲染的可以通过xpath或csspath等第3方列库来分离数据和标签

如果不是直接渲染的话，JS 生成的链接你就要自己去根据他，需要拼凑的参数，拼凑好链接（带上cookie）进行下一步的访问

注意1：这样如果你多次取不到值了，就应该去手工换一下cookie了

注意2：如果是接口的话，注意请求的url每天都要变，因为url上带的参数都会变，不修改的话，爬不下来的（可以这样将url入库，爬的时候查出来，拼好参数，在丢给curl）

注意3：还有就是，不知道微信的限速问题，不是时效性高的话就10秒左右爬一轮就行了

最重要的是，有些东西，不是非要先模拟登录才能爬去，登陆之后，直接找个接口在浏览器跑一下试试（如果有数据返回，那就证明只要带cookie和请求需要带的参数就可以了）就不用模拟扫码了。

PHP设计模式之数据访问对象模式（DAO）原理与用法实例分析