一起学爬虫——如何爬取通过ajax加载数据的网站

程序员文章站 2022-04-18 17:56:57

1. AJAX 1.1 什么是AJAX AJAX即“Asynchronous JavaScript And XML”（异步JavaScript和XML）可以使网页实现异步更新，就是不重新加载整个网页的情况下，对网页的某部分进行更新（局部刷新）。传统的网页（不使用AJAX）如果需要更新内容，必须重载整 ......

1. ajax

1.1 什么是ajax

ajax即“asynchronous javascript and xml”（异步javascript和xml）可以使网页实现异步更新，就是不重新加载整个网页的情况下，对网页的某部分进行更新（局部刷新）。传统的网页（不使用ajax）如果需要更新内容，必须重载整个网页页面。

ajax = 异步javascript和xml，是一种新的思想，整合之前的多种技术，用于创建快速交互式网页应用的页面开发技术。

1.2 同步和异步

同步现象：客户端发送请求到服务器端，当服务器返回响应之前，客户端都处于等待卡死状态。

异步现象：客户端发送请求到服务器端，无论服务器是否返回响应，客户端都可以随意做其他事情，不会被卡死。

一起学爬虫——如何爬取通过ajax加载数据的网站

1.3 ajax原理分析

一起学爬虫——如何爬取通过ajax加载数据的网站

1.1使用javascript获得浏览器内置的ajax引擎(xmihttprequest对象)

1.2通过ajax引擎确定请求路径和请求参数

1.3通知ajax引擎发送请求

ajax引擎会在不刷新浏览器地址栏的情况下，发送请求

2.1服务器获得请求参数

2.2服务器处理请求参数(添加、查询等操作)

2.3服务器响应数据给浏览器

ajax引擎获得服务器响应的数据，通过执行javascript的回调函数将数据传递给浏览器页面。

3.1通过设置给ajax引擎的回调函数获得服务器响应的数据

3.2使用javascript在指定的位置，显示响应数据，从而局部修改页面的数据，达到局部刷新目。

2. 爬取ajax数据

2.1 查看ajax数据

目前很多网站都使用ajax技术动态加载数据，和常规的网站不一样，数据时动态加载的，如果我们使用常规的方法爬取网页，得到的只是一堆html代码，没有任何的数据。

import requests
from urllib.parse import urlencode

url = 'http://www.baidu.com/'
headers = {
    'user-agent':'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/67.0.3396.99 safari/537.36'
}

response = requests.get(url,headers=headers)
print(response.text)

上面的代码是爬取百度首页，并打印出get方法返回的文本内容如下图所示，只有一堆网页代码，没有任何新闻信息。

一起学爬虫——如何爬取通过ajax加载数据的网站