web-magic + Xpath Java程序员

程序员文章站 2022-03-26 21:22:25

大学毕业一年收获还是满满的！手动滑稽今天呢，来记录一个爬虫项目，用的web-magic实现，不说Java和Python那个更强，只看那个代价更小，与现在我而言自然是Java喽！同时呢magic也是参考了Scrapy框架的。先把git地址掏出来：https://gitee.com/xxxx/mag ......

大学毕业一年收获还是满满的！手动滑稽

今天呢，来记录一个爬虫项目，用的web-magic实现，不说java和python那个更强，只看那个代价更小，与现在我而言自然是java喽！同时呢magic也是参考了scrapy框架的。

先把git地址掏出来：https://gitee.com/xxxx/magicfetch.git(留言给地址)

言归正传，先说爬虫需要什么：

　　1、明确要做的事情：爬虫，爬哪个网站。

　　2、从哪里开始：爬虫的入口（启停配）spider

　　3、接下来便是如何进行爬取和爬取结果的处理。

详细：

　　如何启动，如何配置，如何停止：　

　spider.create(new getxgluo())
        .thread(10) //线程，magic是支持多线程的
        .addurl(t)  //t:要爬取的网站url
        .addpipeline(new mypipeline())  //添加一个对爬取结果的处理操作类--输出到console
        .addpipeline(new myfilepipeline())  //再添加一个对爬取结果的处理操作类--输出到文件
        .run();  //爬虫诞生，去吧皮卡丘，把我想要的拿回来.

　　靓仔，你没猜错，create方法是静态的，所以可以用类名直接调用，run方法就是入口，该方法执行的时候爬虫就启动了。

　　这些是spider最常用的配置了，至于骚操作作者就……，大家可以问问度娘，或者直接从 https://github.com/code4craft/webmagic.git获取项目，直接分析代码（如果觉着作者陋，欢迎吐槽）。

　　启动了，基本配置有了，我们该设计自己的逻辑了，这个时候我们就要找自己想要爬取的内容在网页的什么位置。

　　找到网页查看源代码找到需要爬取的内容的标签如:

　　　　 web-magic + Xpath Java程序员

　　这里我们有id属性，那么我们知道在一个网页中的id属性是唯一的，因此我们可以借助这个属性，进行匹配

　　string xpathfb = "[@id=content_left]/div[2]/h3/text()";

　　我们利用html提供的xpath便可以根据上面提供的网页中的位置，找到h3标签中的内容。

　　现在位置找到了，要开始抓数据了，我们上面说到spider.run的时候爬虫已经放出去了，刚刚我们有指定了爬虫的目标，现在要开始采蜜了。

　　请你回头看看我，spider.create(new getxgluo())这里我们创建了一个对象作为参数，但这个类可是作者自己写的（当然你也可以），但是这个类可是需要实现pageprocess借口的，而且要重写process方法，而这个方法就是我们采蜜动作的设计。

　　在这里我们需要对爬的网址进行正则匹配，不然地址都错了，那还玩个球啊。地址正确就用到网页中的位置xpathfb了。

　　html.xpath(xpathfb).tostring();

　　通过xpath我们就能获取到了h3中的内容存到字符串中了，那岂不是可以为所欲为了。

　　哈哈，只剩一步了，对获取内容的保存或者输出。

　　这个时候拿出最后一把宝剑：pipeline 来进行后续的操作，比如用于输出到console中的consopipeline类和filepipeline类，当然我们也可以自己重写pipeline来创建自己的逻辑。

　　如果我们用了pipeline及其子类，我们还需要new吗？记住不需要，不需要，不需要，这里用的回调函数，你需要在实现pipeline的时候重写process方法，你写的逻辑就能被自动调用（真香）。

　　好了，现在我们三个步骤都完成了。愉快的试一下吧

上一篇： Java基础学习总结——super关键字

下一篇： ES6---axios执行原理

web-magic + Xpath Java程序员

2020年已经过去4/1：七年老兵分享Java程序员突破能力需要的那些技术点

如何成为一名比逼格更逼格的java程序员

如何成为一名比逼格更逼格的java程序员

java编程之xpath介绍

java程序员必须要学会的linux命令总结(推荐)

作为程序员必须掌握的Java虚拟机中的22个重难点（推荐0

深入XPath的详解以及Java示例代码分析

java编程之xpath介绍

专属于程序员的浪漫-Java输出动态闪图iloveyou

Java实现的程序员老黄历实例