Python爬虫总结

程序员文章站 2022-04-11 21:52:11

python crawler文章目录[python crawler](https://github.com/AnDeltas/PythonCrawlerTutorial)请求数据: requests库的使用get与post反反爬cookie与session(会话跟踪技术)cookiesession用途数据解析regex[bs4 BeatifulSoup](https://www.jianshu.com/p/9254bdc467b2)XPath数据持久化数据可视化编写一个Python 爬虫主要分为以下三...

python crawler

文章目录

[python crawler](https://github.com/AnDeltas/PythonCrawlerTutorial)

请求数据: requests库的使用

get与post
反反爬
cookie与session(会话跟踪技术)

cookie
session
用途

数据解析

regex
[bs4 BeatifulSoup](https://www.jianshu.com/p/9254bdc467b2)
XPath

数据持久化
数据可视化

编写一个Python 爬虫一般分为以下三步:
1. 请求数据

2. 数据解析

3. 数据持久化
我们从这三步入手, 开始学习Python爬虫

请求数据: requests库的使用

get与post

# 假如我们现在发送一个post请求
we_got_it = requests.post(url=url, headers=header, params=param, data=data)
# we_got_it 是什么数据由所 content-type 参数决定
# 这个参数包含在响应头中, 我们可以通过抓包工具查看

# 有些时候你得到的text中会含有乱码, 这是由于requests会猜测请求的数据的编码格式
# 但是有些时候会猜错, 这是候就需要你手动设定请求数据的编码格式, 防止乱码
we_got_it.encoding = "utf-8" # 这是候就会得到正确的文本

we_got_it.text # -> 返回str

we_got_it.content # -> 返回bytes, 在对一些图片之类的二进制数据进行请求的时候要用这个attr

we_got_it.json()
# 以上三种都是常用的属性或者函数, 可以自己查阅相关文档学习

# get只是比post少了一个data参数

你需要自己去了解一下post或者get里的这些参数都是干什么用的, 这都很简单, 我就不在这里赘述了.

反反爬

robots.txt 君子协定

Python爬虫总结

python crawler

文章目录

请求数据: requests库的使用

get与post

反反爬

go格式“占位符”输入输出类似python的input

Jquery中$.get(),$.post(),$.ajax(),$.getJSON()的用法总结

浅谈ASP.NET常用数据绑定控件优劣总结

Linux中RPM文件操作的常用命令总结

浅谈linux下的一些常用函数的总结(必看篇)

linux 内存清理/释放命令总结

ubuntu下安装Python多版本的方法及注意事项

Shell中比较大小简洁总结

php开发中的页面跳转方法总结

python(十五)：Django之HttpRequest

Python爬虫总结

python crawler

文章目录

请求数据: requests库的使用

get与post

反反爬

go格式“占位符”输入输出 类似python的input

Jquery中$.get(),$.post(),$.ajax(),$.getJSON()的用法总结

浅谈ASP.NET常用数据绑定控件优劣总结

Linux中RPM文件操作的常用命令总结

浅谈linux下的一些常用函数的总结(必看篇)

linux 内存清理/释放命令总结

ubuntu下安装Python多版本的方法及注意事项

Shell中比较大小简洁总结

php开发中的页面跳转方法总结

python(十五)：Django之HttpRequest

go格式“占位符”输入输出类似python的input