python爬虫入门——爬取整个网页的源码
程序员文章站
2022-05-04 11:21:42
...
一、源码
利用第三方库request爬取网页
import requests
# encoding:utf-8 #默认格式utf-8
def get_html(url): #爬取源码函数
headers = {
'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'
} # 模拟浏览器访问
response = requests.get(url, headers=headers) # 请求访问网站
response.encoding = response.apparent_encoding #设置字符编码格式
html = response.text # 获取网页源码
return html # 返回网页源码
r = get_html('https://www.baidu.com/')
print(r) #打印网页源码
二、代码分析
题外话
python语言之所以受到很大的欢迎就是因为它简单,并且有大量的第三方库。如何你有编程基础那么就可以很好的理解python语言的思想。如果没有最好去买本书学习一下,推荐《Python编程从入门到实践》,我和我室友都是买的这本书。
1、导入模块
import requests
import语句可以让我们打开request模块并在接下来的代码中使用模块中的方法,当然前提是你已经安装了request模块。request库的作者是Kenneth Reitz,附上他的 GitHub request库链接,大神的思想和代码风格可以参考一下。
2、函数
def get_html(url): #爬取源码函数
headers = {
'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'
} # 模拟浏览器访问
response = requests.get(url, headers=headers) # 请求访问网站
response.encoding = response.apparent_encoding #设置字符编码格式
html = response.text # 获取网页源码
return html # 返回网页源码
利用request库的get方法获取网页源代码。当然这里的源代码就是真正的源代码,如果想要得到你想要的信息需要经过其他的处理。
三、request库的介绍
点击 python爬虫笔记 ~持续更新中