Python 爬虫爬取豆瓣读书小说类前十页标签
程序员文章站
2022-05-02 22:12:17
...
呜呜呜,小白的爬虫之路……留个记录~~~~
一、导入库
import requests
from bs4 import BeautifulSoup
import sqlite3
二、获取豆瓣读书小说类1-10页网址
#获取分页的地址
root_url='https://book.douban.com/tag/小说'
headers={
'Referer':'https://book.douban.com',
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
}
r=requests.get(root_url,headers=headers)
html= r.text
page_div = BeautifulSoup(html,'html.parser').select('.paginator a')
root='https://book.douban.com'
page_urls=[]
page_urls.append(root_url)
#将2-9页的URL地址加入地址列表
for item in page_div[:8]:
page_urls.append(root+item.attrs['href'])
nine='https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=160&type=T'
rs=requests.get(nine,headers=headers)
#将第10页单独加入地址列表中
nines=rs.text
ten=BeautifulSoup(nines,'html.parser').select('.next a')
for i in ten:
page_urls.append(root+i.attrs['href'])
三、创建数据库
#创建一个数据库,路径可自定义
conn = sqlite3.connect('C:/Users/Administrator/DB.db')
四、创建表
#创建表: id,name,author,content
sql_tables = "create table douban(id integer primary key autoincrement,name text,author text,estimate text,content text)"
conn.execute(sql_tables)
conn.commit()
五、获取图书信息并保存于列表total
#对每一页进行爬取,并将结果保存到数据库
total=[]
sum=0
for url in page_urls:
sum+=1
#获取每一页的源代码
html=requests.get(url,headers=headers).text
#获取每本书书名
title_div = BeautifulSoup(html,'html.parser').select('.info h2')
titles = [item.text for item in title_div]
#获取每本书作者、出版社、出版日期、价格
author_div = BeautifulSoup(html,'html.parser').select('.pub')
authors = [item.text for item in author_div]
#获取每本书评分及评分人数
estimate_div = BeautifulSoup(html,'html.parser').select('.star.clearfix')
es = [item.text for item in estimate_div]
#获取每本书内容简介
div = BeautifulSoup(html,'html.parser').select('.info p')
divv = [item.text for item in div]
#由于豆瓣读书小说类第四页和第八页有几本图书处于无简介状态,故用/代替
if sum==4:
divv.insert(4,'/')
elif sum==8:
divv.insert(2,'/')
divv.insert(10,'/')
total.append(titles+authors+es+divv)
六、将图书信息列表依次存入数据库的表中
print("开始存入数据库....")
page=total
for index,page in enumerate(total):
print("写入第{}页的诗词".format(index+1))
for i in range(20):
name=page[i]
author=page[i+20]
ess=page[i+40]
content=page[i+60]
sql="insert into douban values(null,'{}','{}','{}','{}')".format(name,author,ess,content)
conn.execute(sql)
conn.commit()
print("第{}页的诗词已经爬取完毕,稍等进行下一页".format(index+1))
print("恭喜你,所有豆瓣前十页图书标签已经存储完毕...")
下一篇: 证券日报网爬取实战