WebMagic的应用

程序员文章站 2022-05-02 20:42:00

...

webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的核心非常简单，但是覆盖爬虫的整个
WebMagic其底层用到我上一次讲的HttpClient和jsoup
WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。

WebMagic的设计目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。

扩展部分(webmagic-extension)提供一些便捷的功能，例如注解模式编写爬虫等。同时内置了一些常用的组件，便于爬虫开发。
webmagic的主要特色：
完全模块化的设计，强大的可扩展性。
核心简单但是涵盖爬虫的全部流程，灵活而强大，也是学习爬虫入门的好材料。
提供丰富的抽取页面API。
无配置，但是可通过POJO+注解形式实现一个爬虫。
支持多线程。
支持分布式。
支持爬取js动态渲染的页面。
无框架依赖，可以灵活的嵌入到项目中去
WebMagic的四个组件
Downloader：Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。
PageProcessor：PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。
Scheduler：Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。除非项目有一些特殊的分布式需求，否则无需自己定制Scheduler。
Pipeline：Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。
WebMagic功能
1.1.实现PageProcessor
抽取元素Selectable
WebMagic里主要使用了三种抽取技术：XPath、正则表达式和CSS选择器。另外，对于JSON格式的内容，可使用JsonPath进行解析。
创建Maven工程，并加入以下依赖

<dependencies>
    <!--WebMagic-->
    <dependency>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic-core</artifactId>
        <version>0.7.3</version>
    </dependency>
    <dependency>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic-extension</artifactId>
        <version>0.7.3</version>
    </dependency>
</dependencies>

加入配置文件 WebMagic使用slf4j-log4j12作为slf4j的实现。添加log4j.properties配置文件 log4j.rootLogger=INFO,A1

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n
1.2.实现PageProcessor
抽取元素Selectable
WebMagic里主要使用了三种抽取技术：XPath、正则表达式和CSS选择器。另外，对于JSON格式的内容，可使用JsonPath进行解析
XPath
获取属性class=search_logo的a标签，里面的h1标签的内容

public class JobProcessor implements PageProcessor {
public void process(Page page) {
page.putField(“div1”,page.getHtml().xpath(“div[@class=search_logo]/a”).all());
}

private Site site = Site.me();
public Site getSite() {
    return site;
}

public static void main(String[] args) {
    Spider.create(new JobProcessor())
            //初始访问url地址
            .addUrl("https://www.jd.com/moreSubject.aspx")
            .run();
}

}
CSS选择器
CSS选择器是与XPath类似的语言。它比XPath写起来要简单一些
page.putField(“div2”, page.getHtml().css(“div.search_logo>a”).all());
抽取元素API
Selectable相关的抽取元素链式API是WebMagic的一个核心功能。使用Selectable接口，可以直接完成页面元素的链式抽取，也无需去关心抽取的细节。

在刚才的例子中可以看到，page.getHtml()返回的是一个Html对象，它实现了Selectable接口。这个接口包含的方法分为两类：抽取部分和获取结果部分。
获取结果API
无论是XPath、CSS选择器或者正则表达式，总有可能抽取到多条元素。WebMagic对这些进行了统一，可以通过不同的API获取到一个或者多个元素。
方法说明示例
get() 返回一条String类型的结果 String link= html.links().get()
toString() 同get()，返回一条String类型的结果 String link= html.links().toString()
all() 返回所有抽取结果 List links= html.links().all()

获取链接
//获取divsettleup下a标签的链接
page.addTargetRequests(page.getHtml().css(“div#settleup a”).links().all());
//获取刚才a标签下div为logo 的内容
page.putField(“url”,page.getHtml().css(“div#logo a”).all());
1.3.使用Pipeline保存结果
WebMagic用于保存结果的组件叫做Pipeline。我们现在通过“控制台输出结果”这件事也是通过一个内置的Pipeline完成的，需要将结果保存到文件，只将Pipeline的实现换成"FilePipeline"就可以了。
.addPipeline(new FilePipeline(“C:\Users\deng\Desktop\webmagic”))

WebMagic的应用

C#实现的封装CURD到SqlHelper类用法简单分析

C#调用webservice接口的最新方法教程

JSP动态输出Excel及中文乱码的解决

困扰JSP的一些问题与解决方法

关于Selenium的UI自动化测试屏幕截图功能实例代码

Java实现的可选择及拖拽图片的面板功能【基于swing组件】

Python函数的周期性执行实现方法

springboot 事件监听的实现方法

四川最难考的大学-四川最难考的4所大学

Java上传文件图片到服务器的方法