爬虫HelloWorld：爬取博客园某博主所有文章

程序员文章站 2024-03-20 21:40:16

...

先定一个小目标：爬取所有文章标题，其他的属性以后再操作

代码

import requests
from bs4 import BeautifulSoup

link = "http://www.cnblogs.com/planche/default.html"
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
    'Host': 'www.cnblogs.com'
}

if __name__ == '__main__':
    pos=1
    while(True):
        key_dict = {'page': str(pos)}
        r = requests.get(link, headers=headers,params=key_dict,timeout=1)
        soup = BeautifulSoup(r.text, "html.parser")      #使用BeautifulSoup解析这段代码
        res=soup.find_all("a", class_="postTitle2")  # bs4.element.Tag
        if not len(res):exit(0)                #博客园定义了几乎无限个标签。所以在这里进行退出判断
        for Tag in res:
            title = Tag.text.strip()           # 使用strip自动删除字符串的前导空格
            print(title)
        pos=pos+1

效果

上一篇：定期给数据库以及图片进行备份

爬虫HelloWorld：爬取博客园某博主所有文章

爬虫HelloWorld：爬取博客园某博主所有文章

python爬取一个博主的所有文章至pdf

python爬取一个博主的所有文章至pdf