Python网络爬虫入门(一)
程序员文章站
2022-05-08 17:41:09
...
Python爬虫
urllb库
1.urlopen函数
from urllib import request
rest=request.urlopen("url")
print(rest.read())
#rest.read(10)只读十个字符
#rest.readline()只读一行
#rest.readlines()读取多行,每行一个元素成列表
#rest.getcode()返回状态码
2.urlretrleve函数
from urllib import request
rest=request.urlretrleve("url","保存的文件名")
3.urlencode函数
把url中的中文和特殊字符转换成阿斯克码
from urllib import parse
from urllib import request
url=“ ”#不包含中文或特殊字符的url
params={"键",“特殊字符或中文”}
qs=parse.urlencode(params)#对中文或特殊字符进行编码
url=url+"?"+qs#url和qs间用?连接
rest=request.urlopen(url)
print(rest.read())
4.parse_qs函数
对已经编码的字符进行解码
from urllib import parse
from urllib import request
params={"键",“特殊字符或中文”}
qs=parse.urlencode(params)#
result=parse.parse_qs(qs)
print(result)
5.urlparse和urlsplit函数
将url进行分割
from urllib import parse
url=“ ”
result=parse.urlparse(url)
print()#打印全部参数
print(result.scheme)
print(result.netloc)
print(result.path)
print(result.params)#urlsplit函数没有这个参数其他的都一样
print(result.query)
print(result.fragment)
6.request.Request
增加请求头
from urllib import request
headers={"User-Agent":那个网页的User-Agent" , "Referer":"网页的Referer“}
ret=request.Request(url,headers=headers)
rest=request.urlopen(ret)
print(rest.read())
#print(rest.read().decode('utf-8'))进行解码
data={“ ”:“ ”}#里面写那个网站的Form data
ret=request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),method('POST')
上一篇: SpringAop方法执行顺序