V2EX论坛客户端之帖子信息爬取(一)_html/css_WEB-ITnose

程序员文章站 2022-04-14 15:25:37

...

前言

由于逛V2EX比较多，决定用闲暇时间做一个安卓客户端,开源在这里 https://github.com/ihgoo/V2EX

工欲善其事，必先利其器，整个项目以Gradle方式构建，Androidstudio开发。

公司的项目也转向AndroidStudio了，studio有个我特别喜欢的特性，输入变量的时候记不住变量开头是怎么拼写的，能记住后面也会自动提示出来！还有就是插件多，开发向傻瓜化发展，只关注业务逻辑即可。

按照业务分模块

论坛客户端按照业务逻辑会分为以下模块

在非登录状态下的浏览模块
- 帖子列表浏览
- 帖子详情浏览
用户模块
- 登录模块
- 用户信息模块
在登录状态下的模块
- 带登录状态的回帖，帖子详情浏览
- 收藏，点赞
- 回帖提醒

依赖

依赖库会尽量考虑使用原生控件以及成熟的框架

compile 'com.jakewharton:butterknife:6.1.0'    compile 'com.squareup.retrofit:retrofit:1.9.0'compile 'com.squareup:otto:+'compile 'com.facebook.fresco:fresco:0.1.0+'compile 'com.squareup.okhttp:okhttp-urlconnection:2.0.0'compile 'com.squareup.okhttp:okhttp:2.0.0'

butterknife：jack大神写的Ioc框架，媲美dagger，在idea/studio上面有支持butterknife的插件，一键findviewbyid！

retrofit: 强大的网络请求库。

fresco: 加载图片库，在使用这个之前，都是使用Imageloader的，刚出没多久的图片库，使用它是因为在项目中会有支持gif和支持图片渐进式显示的需求。

otto：eventBus框架！解耦神器，有了它，一切都变得简单了起来。

搭建项目，整理包结构

包结构如下图：

app：关于app的application等。

client：网络请求的报文头的定义，网络请求库的配置等。

core：基础框架，相当于mvc结构中的c，当然这里的c是指Controller

model：模型层

paser：解析层。无论是json，还是html，都是由此层解析生成实体类的。

persistence：放了一些常量类，数据库字段，Intnet请求字段，app配置字段等。

ui：视图展示层。

utils：一些顺手的工具类

项目以Gradle构建，app作为一个module，其他module作为挂载的形式挂到app上，优点是其他module可快速替换，且源码可修改（aar形式导入源码不可修改）。

关于API

由于调用官方json api有调用次数限制，于是考虑采用解析html页面来做。

电脑端html太过于庞大，为了省电降低app占用资源，解析的是wap端的页面，

可以通过修改请求头里的UA字段伪装成手机浏览器，在这里我用的是

public class ApiHeaders implements RequestInterceptor {    private String sessionId;    public void setSessionId(String sessionId) {        this.sessionId = sessionId;    }    public void clearSessionId() {        sessionId = null;    }    @Override public void intercept(RequestFacade request) {        request.addHeader("User-Agent", "Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19");        request.addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");        if (sessionId != null) {        }    }}

解析html，java里可以用一个叫做jsoup的库，媲美python中的pyquery，支持类Jqery选择器方式来抓取自己想要的资源，简单方便粗暴极了。唯一的缺点就是如果页面里有些元素是ajax形式形成的，那这个就抓瞎了，可以使用httpunit，不过httpunit存在性能问题，要启动一个浏览器内核来运行这个网页，网页上的js完成后，再抓取信息。

解析帖子列表

在帖子列表中需要关注解析这几个数据

avatar 作者头像
node 节点名称
title 标题
small fade (time) 发表时间
small fade author 作者名称

count_livid 回帖数以下是用jsoup解析的代码，解析成功后塞到ForumItemBean这个实体类中，以集合形式返回给listView的adapter中

public class PaserFourmList {    public static ArrayList paser2ForumItem(String string) {        Document document = Jsoup.parse(string);        Elements elements = document.select(".cell").select(".item");        ArrayList list = new ArrayList();        for (Element element : elements) {            // avatar            // node            // title            // small fade (time)            // small fade author            // count_livid            String avatar = element.select(".avatar").first().attr("src");            String node = element.select(".node").first().html();            String username = element.select(".small > strong").first().text();            String countLivid = element.getElementsByClass("count_livid").text();            String time = element.select(".small").select(".fade").get(1).text();            String href = element.getElementsByClass("item_title").html();            if (href.length()!=0){                href = href.substring(12, href.indexOf("#"));            }            int indexOf = time.indexOf("前");            if (indexOf != -1) {                time = time.substring(0, indexOf);            }            ForumItemBean forumItemBean = new ForumItemBean();            Member member = new Member();            member.setAvatarMini(avatar);            member.setUsername(username);            forumItemBean.setId(Misc.parseInt(href, 0));            forumItemBean.setMember(member);            forumItemBean.setLastTime(time);            forumItemBean.setReplies(Misc.parseInt(countLivid, 0));            forumItemBean.setTitle(element.select(".item_title").first().select("[href]").html());            list.add(forumItemBean);        }        return list;    }}

使用Jsoup遇到的坑

在用jsoup的时候像这种class带空格的，需要使用 element.select(“.content”).select(“.type”)，才可以成功解析，使用element.select(“.content type”)是解析不出来的！

还有 # ，这种的，使用element.select(“.content-type”)也解析不出来，需要用element.getElementsByClass(“content-type”)才可以。

相关标签： V2EX论坛客户端之帖子信息爬取(一)

上一篇： HTML5 Canvas组件绘制太极图案的图文代码详情

下一篇：如何使用Gitblog和Markdown建自己的博客_PHP