一起学爬虫——PyQuery常用用法总结
什么是pyquery
pyquery是一个类似于jquery的解析网页工具,使用lxml操作xml和html文档,它的语法和jquery很像。和xpath,beautiful soup比起来,pyquery更加灵活,提供增加节点的class信息,移除某个节点,提取文本信息等功能。
初始化pyquery对象
html文档的所有操作都需要pyquery对象来完成,初始化pyquery对象主要有三种方式,分别是通过网址、字符串和文件名创建。
方式一:通过网址初始化pyqyery对象
先看一段代码:
from pyquery import pyquery as pq s = '<html><title>pyquery用法总结<title></html>' doc = pq(s) print(doc('title'))
运行结果:
<title>pyquery用法总结</title>
首先要import pyquery类,然后将字符串传递给pyquery类,这样就生成了一个pyquery对象,通过该对象就可以访问字符串中的title节点。
pyquery还会将残缺的html文档补全。看下面的代码:
from pyquery import pyquery as pq s = '<html><title>pyquery用法总结</title>' doc = pq(s) print(doc('html'))
运行的结果:
<html><head><title>pyquery用法总结</title></head></html>
可以我们的字符串的html节点是没有闭合的,并且缺少head节点。初始化pyquery对象之后,会把html文档补全,并且自动加上head节点。
方式二:url网址初始化pyqyery对象
将要解析的url网址当做参数传递给pyquery类:
from pyquery import pyquery as pq url = 'http://www.bigdata17.com' doc = pq(url=url,encoding='utf-8') print(doc('title'))
运行结果:
<title>home - summer哥的自留地</title>
方式三:通过文件初始化pyqyery对象
这个方式也比较常用,很多时候我们会将网站爬取下来然后保存在本地磁盘:
from pyquery import pyquery as pq doc = pq(filename='test_pyquery.html',encoding='utf-8') print(doc('title'))
访问节点属性:
使用attr()方法访问节点的属性:
from pyquery import pyquery as pq li = pq('<li id="test1" class="test1"></li><li id="test2" class="test2"></li>')('li') print(li.attr("id"))
运行结果:
test1
上面的代码中有两个id不同的li节点,但是attr()方法只取第一个li节点的id属性值,而不取第二个,我们把上面的代码修改下,把第一个li节点的id属性去掉,attr方法是否只取第一个复合条件节点的属性值:
from pyquery import pyquery as pq li = pq('<li class="test1"></li><li id="test2" class="test2"></li>')('li') print(li.attr("id"))
运行结果:
none
第一个li节点没有id属性,因此返回结果为none,所以可见,attr()方法返回的是第一个节点的属性值。
那要取多个li节点的属性值,要怎么做呢?这就要结合items()方法来实现。items()方法是返回的节点的生成器generator object pyquery.items
:
from pyquery import pyquery as pq li = pq('<li id="test1" class="test1"></li><li id="test2" class="test2"></li>')('li') print(li.items()) for item in li.items(): print(item.attr("id"))
运行结果:
<generator object pyquery.items at 0x0000027f26082728> test1 test2
动态添加节点属性
pyquery有很多方法动态添加节点的属性,我们挑选几个比较常用的方法介绍个大伙。
addclass(),动态添加节点class属性:
from pyquery import pyquery as pq html = '<li id="test1" class="test1"></li>' li = pq(html)('li') li.addclass("addclass") print(li)
运行结果:<li id="test1" class="test1 addclass"/>
可见li节点的calss属性值有test1变为test1 addclass。
addclass()方法只能动态添加节点class属性的值,能不能动态添加其他属性呢?答案是当然可以,attr()方法就可以实现:
from pyquery import pyquery as pq html = '<li id="test1" class="test1"></li>' li = pq(html)('li') li.attr("name","li name") print(li) li.attr("type","li") print(li) print(li.attr("type"))
运行结果:
<li id="test1" class="test1" name="li name"/> <li id="test1" class="test1" name="li name" type="li"/> li
上面的代码一共执行了3次attr()方法,执行第一次attr()方法时,有两个参数,分别是name和li name。这是给li节点添加name属性及属性值。执行第二次attr()方法也有两个参数,分别是type和li,这是给li几点添加type属性及type属性值。执行第三次方法attr()方法只有一个type参数,根据前面介绍的attr()方法的用法可知,是获取li节点type属性的值。
小结: attr()方法只有一个参数时,是获取节点的属性值,有两个参数时,是给节点添加属性及属性值,第一个参数时属性,第二个参数时属性值。
removeclass(),动态移除节点的class属性:
from pyquery import pyquery as pq html = '<li id="test1" class="test1"></li>' li = pq(html)('li') li.removeclass("test1") print(li)
运行结果:<li id="test1" class=""/>
将class节点的属性值有test1变为“”。
动态添加/修改文本值
pyquery支持动态给节点添加文本值:
from pyquery import pyquery as pq html = '<li id="test1" class="test1"></li>' li = pq(html)('li') li.html("use html() dynamic add text") print(li) li.text("use text() dynamic add text") print(li)
运行结果:
<li id="test1" class="test1">use html() dynamic add text</li> <li id="test1" class="test1">use text() dynamic add text</li>
可见使用html()和text()方法都可以动态的给节点添加或修改节点的文本值。
获取节点文本值
pyquery提供text()和html()方法获取节点的文本属性值:
from pyquery import pyquery as pq html = '<li id = "test_id">li text value</li>' li = pq(html)('li') print(li.text()) print(li.html())
运行结果:
li text value li text value
小结: html()和text()如果没参数,则是获取属性的文本值,如果有参数,则是改变或者添加节点的属性值。
移除节点:
remove()方法可以动态移除节点:
from pyquery import pyquery as pq html = ''' <ul> hello i am ul tag <li>hello i am li tag</li> </ul> ''' ul = pq(html)('ul') print(ul.text()) print('执行remove()移除节点') ul.find('li').remove() print(ul.text())
运行结果:
hello i am ul tag hello i am li tag 执行remove()移除节点 hello i am ul tag
上述代码的ul节点中有个li节点,执行ul.text()方法会返回包括li节点的文本信息,如果我们不想返回li节点的文本信息,仅仅只需要ul节点的文本信息“hell i am ul tag”,要怎么做呢?这时候remove()方法就派上用场了,它删除掉ul节点内的li节点。
查找节点
pyquery支持使用css的.和#来查找节点:
from pyquery import pyquery as pq html = ''' <div class="div_tag"> <ul id = "ul_tag"> hello i am ul tag <li>hello i am li tag</li> <li>hello i am li tag too</li> </ul> </div> ''' doc = pq(html) print(doc('.div_tag #ul_tag li'))
运行结果:
<li>hello i am li tag</li> <li>hello i am li tag too</li>
上述代码是通过.div_tag获取class为div_tag的节点,然后通过#ul_tag获取id为ul_tag的节点,最后返回所有的li节点。
find()方法查找节点:
html = ''' <div class="div_tag"> <ul id = "ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</li> <li>hello i am li tag too</li> </ul> </div> ''' doc = pq(html) print(doc('.div_tag #ul_tag').find("li"))
运行结果:
<li>hello i am li tag<a>www.bigdata17.com</a></li> <li>hello i am li tag too</li>
可见find("li")是把所有li节点及子节点都查找出来。
还有一个children()方法,是获取当前节点的所有子节点。该方法可以传入css选择器:children('.ul_tag')。
html = ''' <div class="div_tag"> <ul id = "ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</li> <li>hello i am li tag too</li> </ul> </div> ''' doc = pq(html) print(doc('.div_tag #ul_tag').find("li"))
运行结果:
<li>hello i am li tag<a>www.bigdata17.com</a></li> <li>hello i am li tag too</li>
使用parent()方法获取当前节点的父亲节点:
html = ''' <div class="div_tag"> <ul id = "ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</li> <li>hello i am li tag too</li> </ul> </div> ''' doc = pq(html) print(doc('.div_tag #ul_tag li').parent())
运行结果:
<ul id="ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</a></li> <li>hello i am li tag too</li> </ul>
上述代码通过.div_tag #ul_tag li css选择器定位到li节点,然后调用parent()方法获取li节点的父节点ul。
parents()返回当前节点的所有祖宗节点:
html = ''' <div class="div_tag"> <ul id = "ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</li> <li>hello i am li tag too</li> </ul> </div> ''' doc = pq(html) print(doc('.div_tag #ul_tag li').parents())
运行结果:
<html><body><div class="div_tag"> <ul id="ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</a></li> <li>hello i am li tag too</li> </ul> </div> </body></html><body><div class="div_tag"> <ul id="ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</a></li> <li>hello i am li tag too</li> </ul> </div> </body><div class="div_tag"> <ul id="ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</a></li> <li>hello i am li tag too</li> </ul> </div> <ul id="ul_tag"> hello i am ul tag <li>hello i am li tag<a>www.bigdata17.com</a></li> <li>hello i am li tag too</li> </ul>
上面代码返回li节点的所有祖宗节点:html,body,div,ul。
siblings()方法返回当前节点的兄弟节点:
html = ''' <div class="div_tag"> <ul id = "ul_tag"> hello i am ul tag <li class="li_class1">hello i am li tag<a>www.bigdata17.com</li> <li class="li_class2">hello i am li tag too</li> <li class="li_class3">hello i am the third li tag</li> </ul> </div> ''' doc = pq(html) print(doc('.div_tag #ul_tag .li_class1').siblings())
运行结果:
<li class="li_class2">hello i am li tag too</li> <li class="li_class3">hello i am the third li tag</li>
使用.div_tag #ul_tag .li_class1 css节点选择器获取到class为liclassq1的li节点,就是第一个li节点,然后调用siblings()方法获取到子节点,分别是
第二和第三个li节点。
sibligs()还支持传入css选择器筛选符合条件的li节点:
print(doc('.div_tag #ul_tag .li_class1').siblings('.li_class3'))
运行结果:
<li class="li_class3">hello i am the third li tag</li>
总结:本文讲述了如何使用pyquery获取网页节点,节点的文本信息,改变节点属性,删除节点属性,增加节点属性等知识点。