Python程序设计之爬虫读取(1)
程序员文章站
2022-04-12 11:53:05
...
1.网页读取基础
Python3.x主要使用urlib库来读取网页内容!
2.网页内容读取方法
①使用简单的urlib.request来获取网页内容
import urllib
import urllib.request
def pa():
#请求打开网页
fp=urllib.request.urlopen(r'http://www.python.org')
#打印未解码的前100个字符
print(fp.read(100))
#打印解码的前一百个字符
print(fp.read(100).decode())
#关闭网页
fp.close()
②使用get方法来读取指定域名的网页内容
import urllib.parse
def pa1():
params=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
url="http://www.musi-cal.com/cgi-bin/query?%s"%params
url1="http://www.python.org?%s"%params
with urllib.request.urlopen(url1) as f:
print(f.read(100).decode('utf-8'))
③使用post方法提交参数并读取指定页面内容
def post():
data=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
data=data.encode('ascii')
with urllib.request.urlopen("http://www.python.org",data) as f:
print(f.read(100).decode('utf-8'))
3.使用调用浏览器打开网页
import webbrowser
def web():
webbrowser.open('http://www.python.org')
4.域名解析
from urllib.parse import urlparse
def jiexi():
o=urlparse('http://www.CWi.nl:80/%7Eguido/Python.html')
#端口号
print(o.port)
#域名
print(o.hostname)
上一篇: vue 配置baseurl
下一篇: 拍出大长腿 把女孩拍高拍瘦的诀窍