爬虫页面程序

程序员文章站 2022-05-04 11:30:12

...

1 模拟游览器

 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

2 获取页面资源

req = urllib2.Request(url,headers=headers)
res = urllib2.urlopen(req)

3 解决乱码问题

res.read().decode('utf-8')

4 正则筛选内容

 replace("'",'"').replace(' ','')#替换筛选
 re.findall('<lihref="\d+">', res) #常用替换
 re.findall('<.+?>', res[0]) #常用

转载于:https://my.oschina.net/u/1161959/blog/332984

Android 在页面中显示打包日期的实现方法