第六天学习python
程序员文章站
2022-04-05 22:50:53
...
爬虫学习(一)
爬虫需要发送请求,目前了解到的是 import requests,发送请求
r.status_code是返回自己输入的网址是否接受返回
r.requests.get是获取输入网址的页面
以下以代码示例
import requests
r=requests.get("http://www.baidu.com")
r.encoding=r.apparent_encoding
print(r.text)
上述代码是访问百度界面
r=requests.get(“http://www.baidu.com“)是发送请求获得百度页面
r.encoding=r.apparent_encoding是将其转码
print(r.text)最后输出
下面以实际例子学习
import requests
def chaxun():
url=input("请输入网址")
r=requests.get(url)
r.encoding=r.apparent_encoding
return r.text[0:1000]
print(chaxun())
我们可以从上面的代码了解
百度 360搜索提交
import requests
kv={'wd':'Python'}
r=requests.get("http://www.baidu.com/s",params=kv)
print(r.request.url)
print(len(r.text))
r.encoding=r.apparent_encoding
print(r.text)
import requests
kv={'q':'Python'}
r=requests.get("http://www.so.com/s",params=kv)
print(r.request.url)
print(len(r.text))
r.encoding=r.apparent_encoding
print(r.text)
下面介绍图片的爬取和保存
import requests
import os
root="E://pics//"
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
path=root+url.split("/")[-1]
r=requests.get(url)
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r=requests.get(url)
with open(path,"wb") as f:
f.write(r.content)
f.close()
print("保存成功")
else:
print("保存成功")
except:
print("保存失败")
以上就在E盘保存了一个图片
以上代码是,找到图片。然后找名为pics的目录,如果没有就创建一个,在将图片保存
下面介绍IP地址的查询
import requests
url="http://m.ip138.com/ip.asp?ip="
try:
r=requests.get(url+"202.204.80.112")
r.encoding=r.apparent_encoding
print(r.text[:1000])
except:
print("错误")
输入IP网址后,再输入相关的IP地址,进行输出即可。
以上的小代码,小编换了很多网址进行尝试,结果都很有趣,只是自己想要的和一些其他的混杂在一起,不好提取关键字。接下来,会一步一步深入学习
上一篇: 深入浅出索引&&阅读笔记