欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python爬虫入门——爬取整个网页的源码

程序员文章站 2022-05-04 11:21:42
...

一、源码

利用第三方库request爬取网页

import requests
# encoding:utf-8  #默认格式utf-8

def get_html(url): #爬取源码函数
    headers = {
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

r = get_html('https://www.baidu.com/')
print(r) #打印网页源码

二、代码分析

题外话

python语言之所以受到很大的欢迎就是因为它简单,并且有大量的第三方库。如何你有编程基础那么就可以很好的理解python语言的思想。如果没有最好去买本书学习一下,推荐《Python编程从入门到实践》,我和我室友都是买的这本书。

1、导入模块

import requests

import语句可以让我们打开request模块并在接下来的代码中使用模块中的方法,当然前提是你已经安装了request模块。request库的作者是Kenneth Reitz,附上他的 GitHub request库链接,大神的思想和代码风格可以参考一下。

2、函数

def get_html(url): #爬取源码函数
    headers = {
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

利用request库的get方法获取网页源代码。当然这里的源代码就是真正的源代码,如果想要得到你想要的信息需要经过其他的处理。

三、request库的介绍

点击 python爬虫笔记 ~持续更新中