爬虫页面程序
程序员文章站
2022-05-04 11:30:12
...
1 模拟游览器
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
2 获取页面资源
req = urllib2.Request(url,headers=headers)
res = urllib2.urlopen(req)
3 解决乱码问题
res.read().decode('utf-8')
4 正则筛选内容
replace("'",'"').replace(' ','')#替换筛选
re.findall('<lihref="\d+">', res) #常用替换
re.findall('<.+?>', res[0]) #常用
转载于:https://my.oschina.net/u/1161959/blog/332984
上一篇: 读Zepto源码之操作DOM
下一篇: redo log与undo log