爬虫HelloWorld:爬取博客园某博主所有文章
程序员文章站
2024-03-20 21:40:16
...
先定一个小目标:爬取所有文章标题,其他的属性以后再操作
- 代码
import requests
from bs4 import BeautifulSoup
link = "http://www.cnblogs.com/planche/default.html"
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
'Host': 'www.cnblogs.com'
}
if __name__ == '__main__':
pos=1
while(True):
key_dict = {'page': str(pos)}
r = requests.get(link, headers=headers,params=key_dict,timeout=1)
soup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析这段代码
res=soup.find_all("a", class_="postTitle2") # bs4.element.Tag
if not len(res):exit(0) #博客园定义了几乎无限个标签。所以在这里进行退出判断
for Tag in res:
title = Tag.text.strip() # 使用strip自动删除字符串的前导空格
print(title)
pos=pos+1
- 效果
上一篇: 定期给数据库以及图片进行备份