欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

博客爬取系统,博客爬取_PHP教程

程序员文章站 2022-05-10 18:39:37
...

博客爬取系统,博客爬取

引言

  周末没事干,无聊,使用php做了个博客抓取系统,我经常访问的是cnblogs,当然从博客园(看看我还是很喜欢博客园的)开始入手了,我的抓取比较简易,获取网页内容,然后通过正则匹配,获取到想要的东西,然后保存数据库,当然了,在实际过程中会遇到一些问题。做这个之前已经想好了,要做成可扩充的,以后要是哪天想添加csdn、51cto、新浪博客这些内容了可以很容易的扩展。

那些东西可以抓取?

  首先要说些,这个是个简易的抓取,不是所有网页中看到的东西都可以抓取,有些东西是抓取不到的,就像下面这些

博客爬取系统,博客爬取_PHP教程比如从链接a开始爬,如果depth是1,获取玩当前链接的内容就完事,如果depth是2的话,就从a链接的内容中再去按指定的规则匹配链接,对匹配到的链接也做depth为1的处理,以此类推,depth是获取链接的深度、层级。这样爬虫才可以”爬动起来“。

相关标签: 百度收录