欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python 爬虫爬取豆瓣读书小说类前十页标签

程序员文章站 2022-05-02 22:12:17
...

呜呜呜,小白的爬虫之路……留个记录~~~~

一、导入库

import requests
from bs4 import BeautifulSoup
import sqlite3

二、获取豆瓣读书小说类1-10页网址

#获取分页的地址
root_url='https://book.douban.com/tag/小说'
headers={
        'Referer':'https://book.douban.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
    }
r=requests.get(root_url,headers=headers)
html= r.text
page_div = BeautifulSoup(html,'html.parser').select('.paginator a')
root='https://book.douban.com'
page_urls=[]
page_urls.append(root_url)

#将2-9页的URL地址加入地址列表
for item in page_div[:8]:
    page_urls.append(root+item.attrs['href'])
nine='https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=160&type=T'
rs=requests.get(nine,headers=headers)

#将第10页单独加入地址列表中
nines=rs.text
ten=BeautifulSoup(nines,'html.parser').select('.next a')
for i in ten:
    page_urls.append(root+i.attrs['href'])

三、创建数据库

#创建一个数据库,路径可自定义
conn = sqlite3.connect('C:/Users/Administrator/DB.db')

四、创建表

#创建表: id,name,author,content
sql_tables = "create table douban(id integer primary key autoincrement,name text,author text,estimate text,content text)"
conn.execute(sql_tables)
conn.commit()

五、获取图书信息并保存于列表total

#对每一页进行爬取,并将结果保存到数据库
total=[]
sum=0
for url in page_urls:
    sum+=1

    #获取每一页的源代码
    html=requests.get(url,headers=headers).text

    #获取每本书书名
    title_div = BeautifulSoup(html,'html.parser').select('.info h2')
    titles = [item.text for item in title_div]

    #获取每本书作者、出版社、出版日期、价格
    author_div = BeautifulSoup(html,'html.parser').select('.pub')
    authors = [item.text for item in author_div]

    #获取每本书评分及评分人数
    estimate_div = BeautifulSoup(html,'html.parser').select('.star.clearfix')
    es = [item.text for item in estimate_div]

    #获取每本书内容简介
    div = BeautifulSoup(html,'html.parser').select('.info p')
    divv = [item.text for item in div]

    #由于豆瓣读书小说类第四页和第八页有几本图书处于无简介状态,故用/代替
    if sum==4:
        divv.insert(4,'/')
    elif sum==8:
        divv.insert(2,'/')
        divv.insert(10,'/')
    total.append(titles+authors+es+divv)

六、将图书信息列表依次存入数据库的表中

print("开始存入数据库....")
page=total
for index,page in enumerate(total):
    print("写入第{}页的诗词".format(index+1))
    for i in range(20):        
        name=page[i]
        author=page[i+20]
        ess=page[i+40]
        content=page[i+60]
        sql="insert into douban values(null,'{}','{}','{}','{}')".format(name,author,ess,content)
        conn.execute(sql)
        conn.commit()
    print("第{}页的诗词已经爬取完毕,稍等进行下一页".format(index+1))
print("恭喜你,所有豆瓣前十页图书标签已经存储完毕...")

 

相关标签: python 爬虫