Python爬虫笔记——爬虫入门

程序员文章站 2022-05-18 21:25:29

...

一、爬虫

爬虫是什么
我们把互联网有价值的信息都比喻成大的蜘蛛网，而各个接地那就是存放的数据，而蜘蛛网上的蜘蛛比喻成爬虫，而爬虫是可以自动抓取互联网信息的程序，从互联网上抓取一切有价值的信息，并把站点的html和js返回的图片爬到本地，并存出起来。
爬虫用途
爬取网站信息数据，12306抢票，网络投票等。

二、BeautifulSoup使用

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.
看了一些BeautifulSoup的教程文档，还是推荐大家可以看看 BeautifulSoup中文官方文档 ，官方文档还是很好用的。
主要还是分析html的网页格式，找到想爬取内容在html对应的位置，使用beautifulsoup找到对应元素，获取标签内容。

三、爬取豆瓣电影TOP250

分析网页数据构成，获取元素位置。如图，我们可以查看元素在HTML里面对应标签位置，使用beautifulsoup库来进行解析获取想要的数据。

直接上代码

import requests
from bs4 import BeautifulSoup
import re
import json

#模拟浏览器访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}
#爬取数据结果集
result =[]

# 获取电影详情页链接
def get_deatil_url(url):
    req = requests.get(url, headers=headers)
    bs = BeautifulSoup(req.text, 'html.parser')
    urls = bs.find_all("div", attrs={"class":"info"})
    if len(urls) > 0:
        for item in urls:
            link = item.find("a").get('href')
            get_details(link)


# 获取页面详情
def get_details(url):
    req = requests.get(url, headers=headers)
    bs = BeautifulSoup(req.text, 'html.parser')
    try:
        # 电影排名(这样写要确定标签的属性或者class值是唯一的能定位到)
        rank = bs.find("span", attrs={"class": "top250-no"}).get_text()
        # 电影名称
        name = bs.find("span", attrs={"property": "v:itemreviewed"}).get_text().split(' ')[0]
        # 评分
        score = bs.find("strong", attrs={"class":"ll rating_num"}).get_text()
        data = {
            'rank' : rank,
            'name': name,
            'score': score
        }
        print(data)
        result.append(data)
    except Exception as e:
        print(e)


## 3.获取的数据保存到json文件中
def save_json(result):
    with open('movie.json','w',encoding='utf-8') as file:
        file.write(json.dumps(result,indent=2,ensure_ascii=False))
        

if __name__ == '__main__':
    ##  1.#根据列表url可以看出start后面为当前页面第一条的起始序号
    for i in range(0,10):
        url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
        ##  2.通过url获取页面详情
        get_deatil_url(url)
    ## 3.将爬取的数据集保存到json文件中。
    save_json(result)

运行爬虫结果
运行生成的json文件跟python文件会在同一目录下面。

四、总结

以上算是python爬虫的简单例子，很多入门python爬虫的都有拿豆瓣top250列表做为练手对象，如果对python有兴趣可以试试。

上一篇： Flash水坑钓鱼

下一篇： PHP有没有间隔几秒再执行的功能?该怎么处理

Python爬虫笔记——爬虫入门

一、爬虫

二、BeautifulSoup使用

三、爬取豆瓣电影TOP250

四、总结

python爬虫发送post登录请求的两种方式

python3爬虫全国地址信息

python网络爬虫和文档内容提取

Python使用Srapy框架爬虫模拟登陆并抓取知乎内容

基python实现多线程网页爬虫

利用python爬虫爬取斗鱼图片(简单详细)

Python的爬虫程序编写框架Scrapy入门学习教程

python实现爬虫下载美女图片

Python制作爬虫采集小说

selenium python虚拟点击网页爬虫翻页功能 href=javascript:void(0)怎么翻页

Python爬虫笔记——爬虫入门

一、爬虫

二、BeautifulSoup使用

三、爬取豆瓣电影TOP250

四、总结

python爬虫发送post登录请求的两种方式

python3爬虫全国地址信息

python网络爬虫和文档内容提取

Python使用Srapy框架爬虫模拟登陆并抓取知乎内容

基python实现多线程网页爬虫

利用python爬虫爬取斗鱼图片(简单详细)

Python的爬虫程序编写框架Scrapy入门学习教程

python实现爬虫下载美女图片

Python制作爬虫采集小说

selenium python虚拟点击网页 爬虫翻页功能 href=javascript:void(0)怎么翻页

selenium python虚拟点击网页爬虫翻页功能 href=javascript:void(0)怎么翻页