数据挖掘_通过字典列表批量抓取网页数据

程序员文章站 2022-05-01 22:51:56

...

在进行网页数据抓取时我们要先安装一个模块

requests

通过终端安装如下图

数据挖掘_通过字典列表批量抓取网页数据

因为我之前安装过了，所以不会显示安装进度条，安装也非常简单，如果你配置好环境变量的话，你只需要执行以下命令

pip install requests

如果提示要升级，就按下面升级pip

pip install --upgrade pip

安装完模块后我们正式开始进行数据爬取

先说一下requests的用法，导入这个模块后，你只需要调用一下get方法，就能获取网页的内容了

例如，爬取我的博客首页，这个单网页

In [1]: import requests

In [2]: resp = requests.get("http://www.susmote.com")

In [3]: resp.encoding = "utf-8"

In [4]: type(resp.text)
Out[4]: str

In [5]: content = resp.text[0:100]

In [6]: print(content)
<!DOCTYPE html>
<html lang="zh-Hans">
<head>
	<meta http-equiv="Content-Type" content="text/html; ch

首先导入，然后调用get方法，里面接你要爬取的网页

注意：必须要加http：头，不然会报错

然后在第三步，我们更改了默认编码，这个取决于你要爬取网页的编码格式，如果不更改，极大可能会出行乱码，或是一些没有看过的字符

在第五步，我们把爬取网页内容的前50个字符赋值给了content，以便之后查看，因为网页内容太多，不能一次全部打印出来，所以我们决定切片输出一部分内容

最后一步，我们打印出刚才保存的一部分内容

前面只是提前熟悉一下爬取数据的步骤，接下来我们通过列表字典批量获取数据，然后把它保存为一个文件

首先定义一个字典，存储我们要抓取页面的网址

urls_dict = {
    '特克斯博客': 'http://www.susmote.com/',
    '百度': 'http://www.baidu.com',
    'xyz': 'www.susmote.com',
    '特克斯博客歌单区1': 'https://www.susmote.com/?cate=13',
    '特克斯博客歌单区2': 'https://www.susmote.com/?cate=13'
}

然后我们在定义一个列表，也是存储抓取页面的网址

urls_lst = [
    ('特克斯博客', 'http://www.susmote.com/'),
    ('百度', 'http://www.baidu.com'),
    ('xyz', 'www.susmote.com'),
    ('特克斯博客歌单区1', 'https://www.susmote.com/?cate=13'),
    ('特克斯博客歌单区2', 'https://www.susmote.com/?cate=13')
]

然后我们先利用字典来抓取

代码如下：

# 利用字典抓取
crawled_urls_for_dict = set()
for ind, name in enumerate(urls_dict.keys()):
    name_url = urls_dict[name]
    if name_url in crawled_urls_for_dict:
        print(ind, name, "已经抓取过了.")
    else:
        try:
            resp = requests.get(name_url)
        except Exception as e:
            print(ind, name, ":", str(e)[0:50])
            continue
        resp.encoding = "utf8"
        content = resp.text
        crawled_urls_for_dict.add(name_url)
        with open("bydict_" + name + ".html", 'w', encoding='utf8') as f:
            f.write(content)
            print("抓取完成 : {} {}, 内容长度为{}".format(ind, name, len(content)))

首先定义一个空集合，以保存我们抓取完数据的网址，以避免重复抓取

后面我们通过for循环和枚举，遍历每一个字典的键和值，把每一抓取的网址存进开始定义的集合crawled_urls_for_dict

然后我们判断要抓取的网址，是否已经保存在集合中，如果存在，就输出已经抓取过了

如果没有，再进行后面的操作，在这里我们为了防止程序出错，影响程序的整体运行，我们在这里使用了try except 语句来打印出错的异常，这样能保证程序能完整运行

然后无非和我之前说的一样，改编码格式，暂时保存内容

只是最后我们通过创建一个文件来保存爬取下来的网页文件，这个我就不详细解释了，无非就是加了个后缀

在后面我们打印抓取的网页地址

for u in crawled_urls_for_dict:
    print(u)

然后我们利用列表来抓取数据

代码如下

# 利用列表抓取
crawled_urls_for_list = set()
for ind, tup in enumerate(urls_lst):
    name = tup[0]
    name_url = tup[1]
    if name_url in crawled_urls_for_list:
        print(ind, name, "已经抓取过了.")
    else:
        try:
            resp = requests.get(name_url)
        except Exception as e:
            print(ind, name, ":", str(e)[0:50])
            continue
        resp.encoding = "utf8"
        content = resp.text
        crawled_urls_for_list.add(name_url)
        with open('bylist_' + name + ".html", "w", encoding='utf8') as f:
            f.write(content)
            print("抓取完成:{} {}, 内容长度为{}".format(ind, name, len(content)))

原理上跟前面的字典一样，我就不做过多解释了

只是要注意这是一个嵌套的列表，遍历的时候要注意一下

最后也是一样

for u in crawled_urls_for_list:
    print(u)

打印抓取过的数据

运行结果如下图

susmotedeMacBook-Air:FirstDatamining susmote$ python main.py
抓取完成 : 0 特克斯博客, 内容长度为26793
抓取完成 : 1 百度, 内容长度为2287
2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
抓取完成 : 3 特克斯博客歌单区1, 内容长度为21728
4 特克斯博客歌单区2 已经抓取过了.
http://www.susmote.com/
http://www.baidu.com
https://www.susmote.com/?cate=13
------------------------------------------------------------
抓取完成:0 特克斯博客, 内容长度为26793
抓取完成:1 百度, 内容长度为2287
2 xyz : Invalid URL 'www.susmote.com': No schema supplied.
抓取完成:3 特克斯博客歌单区1, 内容长度为21728
4 特克斯博客歌单区2 已经抓取过了.
http://www.susmote.com/
http://www.baidu.com
https://www.susmote.com/?cate=13

文件目录变化如下

数据挖掘_通过字典列表批量抓取网页数据