python爬虫入门——爬取整个网页的源码

程序员文章站 2022-05-04 11:21:42

...

一、源码

利用第三方库request爬取网页

import requests
# encoding:utf-8  #默认格式utf-8

def get_html(url): #爬取源码函数
    headers = {
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

r = get_html('https://www.baidu.com/')
print(r) #打印网页源码

二、代码分析

题外话

python语言之所以受到很大的欢迎就是因为它简单，并且有大量的第三方库。如何你有编程基础那么就可以很好的理解python语言的思想。如果没有最好去买本书学习一下，推荐《Python编程从入门到实践》，我和我室友都是买的这本书。

1、导入模块

import requests

import语句可以让我们打开request模块并在接下来的代码中使用模块中的方法，当然前提是你已经安装了request模块。request库的作者是Kenneth Reitz，附上他的 GitHub request库链接，大神的思想和代码风格可以参考一下。

2、函数

def get_html(url): #爬取源码函数
    headers = {
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

利用request库的get方法获取网页源代码。当然这里的源代码就是真正的源代码，如果想要得到你想要的信息需要经过其他的处理。

三、request库的介绍

点击 python爬虫笔记 ~持续更新中

python爬虫入门——爬取整个网页的源码

一、源码

二、代码分析

题外话

1、导入模块

2、函数

三、request库的介绍

Python实现的爬取小说爬虫功能示例

python爬虫教程之爬取百度贴吧并下载的示例

Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）

Python爬取租房数据实例，据说可以入门爬虫的小案例！

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

Python爬虫将爬取的图片写入world文档的方法

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

Python爬虫UA伪装爬取的实例讲解

Python爬虫爬取一个网页上的图片地址实例代码