欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python爬虫教程-01-爬虫介绍

程序员文章站 2024-01-27 21:26:52
Spider 01 爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 爬虫准备工作 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 基础知识 url, http web前端,html,css,js ajax re ......

spider-01-爬虫介绍

python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求

爬虫准备工作

  • 参考资料
  • 精通python爬虫框架scrapy,人民邮电出版社

基础知识

  • url, http
  • web前端,html,css,js
  • ajax
  • re,xpath
  • xml

python 爬虫简介

  • 爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在foaf社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
  • 两大特征
    - 能按照作者要求下载数据
    - 能自动在网络上流窜
  • 三大步骤
    - 下载网页
    - 提取正确的信息
    - 根据一定规则自动跳到另外的网页上执行上两步操作
  • 爬虫分类
    - 通用爬虫:
    不分类,比如百度搜索引擎,我们通过百度输入数据,获取百度爬虫从各种网站爬到的数据
    - 专用爬虫(聚焦爬虫) :
    就是我们介绍的,关于某一类的数据,比如说,需要爬智联招聘网站,某地区的招聘信息

  • python网络包简介
    - python2.* :urllib, urllib2, urllib3, httplib, httplib2, requests
    - python3.* :urllib, urllib3, httplib2, requests
    - python2:urllib, urllib2配合使用,或者requests
    - python3:urllib,requests

我的爬虫笔记


  • 本笔记学习于图灵学院python全栈课程
  • 本笔记不允许任何个人和组织转载