欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

爬虫HelloWorld:爬取博客园某博主所有文章

程序员文章站 2024-03-20 21:40:16
...

先定一个小目标:爬取所有文章标题,其他的属性以后再操作

  • 代码
import requests
from bs4 import BeautifulSoup

link = "http://www.cnblogs.com/planche/default.html"
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
    'Host': 'www.cnblogs.com'
}

if __name__ == '__main__':
    pos=1
    while(True):
        key_dict = {'page': str(pos)}
        r = requests.get(link, headers=headers,params=key_dict,timeout=1)
        soup = BeautifulSoup(r.text, "html.parser")      #使用BeautifulSoup解析这段代码
        res=soup.find_all("a", class_="postTitle2")  # bs4.element.Tag
        if not len(res):exit(0)                #博客园定义了几乎无限个标签。所以在这里进行退出判断
        for Tag in res:
            title = Tag.text.strip()           # 使用strip自动删除字符串的前导空格
            print(title)
        pos=pos+1
  • 效果
    爬虫HelloWorld:爬取博客园某博主所有文章