WebCollector学习笔记(二)jsoup的小记
程序员文章站
2024-01-18 11:20:52
...
一、jsoup
抽取信息的时候用到了jsoup。下面简单记录下jsoup的使用心得
http://www.open-open.com/jsoup/selector-syntax.htm
1.1 jsoup选择器
标签指定id
<div class="list_left"> <div id="content"> 正文部分正文部分正文部分正文部分 </div> </div>
方法为:
Elements eContent = doucument.select("div.list_left").select("div#content"); String content = eContent.text();
抽取的class属性有空格存在
例如想抽取:
<div class="list_left"> <div class="clist sborder" > 新闻列表新闻列表新闻列表新闻列表新闻列表新闻列表 </div> </div>则可以通过将空格处拆分成两个select的方式进行,这里参考了这篇博文:http://blog.csdn.net/qew110123/article/details/52795204
具体的实现代码就变成了:
Elements pageHaveClass = page.select("div.list_left").select(".clist").select(".sborder");
上一篇: 解决MySQL中文乱码的方法归纳
推荐阅读
-
WebCollector学习笔记(二)jsoup的小记
-
输出的数据格式是如何决定的-------Asp.net WebAPI学习笔记(二)
-
学习笔记(04):Python 面试100讲(基于Python3.x)-十进制、二进制、八进制和十六进制之间的转换
-
Python学习笔记(二):if语句的使用
-
算法小抄学习笔记 — 8.二叉树的遍历
-
Android学习笔记(Android Studio) 4-2-1~2 Fragment详解(一、二)(不可不会的Activity和Fragment)
-
Python—Numpy学习笔记(二)array的用法
-
OpenGL学习笔记(二)创建可调整大小的窗口
-
SQL学习笔记二 创建表、插入数据的语句
-
PHP 面向对象程序设计(oop)学习笔记 (二) - 静态变量的属性和方法及延迟绑定