欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

爬虫页面程序

程序员文章站 2022-05-04 11:30:12
...

1 模拟游览器

 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

2 获取页面资源

req = urllib2.Request(url,headers=headers)
res = urllib2.urlopen(req)

3 解决乱码问题

res.read().decode('utf-8')

4 正则筛选内容

 replace("'",'"').replace(' ','')#替换筛选
 re.findall('<lihref="\d+">', res) #常用替换
 re.findall('<.+?>', res[0]) #常用

转载于:https://my.oschina.net/u/1161959/blog/332984