XPath备忘_html/css_WEB-ITnose

程序员文章站 2022-04-13 10:53:43

...

最近写了几个scrapy的爬虫程序，里面用到了xpath，写个日志记录一下用法。

XPath是什么

XPath是一种用于xml、html等结构化文档中寻址定位特定元素等描述性语言

下面以如下测试文档为例进行说明：

OneTwoThree

指通过精确制定的路径取得元素。例如

和unix文件系统概念一致，有如下几种定位方式：

不需要指定绝对路径或根据当前路径确定的相对路径，只需要指定某个子结构，就能查找出所有符合这个子结构的元素。如

格式：元素[@属性="xxx"]

查找某个元素中的特定属性值，如： a[@class="ex-link"]/@href能读取第三个a链的href值

node()，返回任意种类的节点。比如和内置关键字 child组合成 /html/body/contents/child::node()，可以选择所有的para节点
text()，返回节点中包含的文本。 /html/body/contents/para/a[@class="ex-link"]/text()返回Three。特别的，和模糊路径寻址配合，如 /html/body/contents//text()，能返回contents下的 One Two Three字符串