Python爬虫教程-01-爬虫介绍
程序员文章站
2024-01-27 21:26:52
Spider 01 爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 爬虫准备工作 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 基础知识 url, http web前端,html,css,js ajax re ......
spider-01-爬虫介绍
python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求
爬虫准备工作
- 参考资料
- 精通python爬虫框架scrapy,人民邮电出版社
基础知识
- url, http
- web前端,html,css,js
- ajax
- re,xpath
- xml
python 爬虫简介
- 爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在foaf社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
-
两大特征
- 能按照作者要求下载数据
- 能自动在网络上流窜 -
三大步骤
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步操作 爬虫分类
- 通用爬虫:
不分类,比如百度搜索引擎,我们通过百度输入数据,获取百度爬虫从各种网站爬到的数据
- 专用爬虫(聚焦爬虫) :
就是我们介绍的,关于某一类的数据,比如说,需要爬智联招聘网站,某地区的招聘信息python网络包简介
- python2.* :urllib, urllib2, urllib3, httplib, httplib2, requests
- python3.* :urllib, urllib3, httplib2, requests
- python2:urllib, urllib2配合使用,或者requests
- python3:urllib,requests
我的爬虫笔记
- python爬虫教程-01-爬虫介绍
- python爬虫教程-02-使用urlopen
- python爬虫教程-03-使用 chardet 检测编码
- python爬虫教程-04-response简介
- python爬虫教程-05-python爬虫实现百度翻译
- python爬虫教程-06-爬虫实现百度翻译(requests)
- python爬虫教程-07-post介绍(百度翻译)(上)
- python爬虫教程-08-post介绍(百度翻译)(下)
- python爬虫教程-09-error 模块
- python爬虫教程-10-useragent和常见浏览器ua值
- python爬虫教程-11-proxy代理ip,隐藏地址(猫眼电影)
- python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)(上)
- python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)(下)
- python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网)
- python爬虫教程-15-读取cookie(人人网)和ssl(12306官网)
- python爬虫教程-16-破解js加密实例(有道在线翻译)
- python爬虫教程-17-ajax爬取实例(豆瓣电影)
- python爬虫教程-18-页面解析和数据提取
- python爬虫教程-19-数据提取-正则表达式(re)
- python爬虫教程-20-xml简介
- python爬虫教程-21-xpath
- python爬虫教程-22-lxml-etree和xpath配合使用
- python爬虫教程-23-数据提取-beautifulsoup4(一)
- python爬虫教程-24-数据提取-beautifulsoup4(二)
- python爬虫教程-25-数据提取-beautifulsoup4(三)
- python爬虫教程-26-selenium + phantomjs
- python爬虫教程-27-selenium chrome版本与chromedriver兼容版本对照表
- python爬虫教程-28-selenium 操纵 chrome
- python爬虫教程-29-验证码识别-tesseract-ocr
- python爬虫教程-30-scrapy 爬虫框架介绍
- python爬虫教程-31-创建 scrapy 爬虫框架项目
- python爬虫教程-32-scrapy 爬虫框架项目 settings.py 介绍
- python爬虫教程-33-scrapy shell 的使用
- python爬虫教程-34-分布式爬虫介绍
- 本笔记学习于图灵学院python全栈课程
- 本笔记不允许任何个人和组织转载
上一篇: C#使用List类实现动态变长数组的方法
下一篇: 跟老齐学Python之永远强大的函数