newspaper爬取新闻网站
程序员文章站
2022-05-02 22:13:11
...
newspaper爬取新闻网站
安装newspaper
pip install newspaper3k
代码
from newspaper import Article
url = '你想要爬取的网站url'
news = Article(url, language='zh')
news.download() # 先下载
news.parse() # 再解析
text = news.text # 新闻正文
title = news.title # 新闻标题
html = news.html # 未修改的原始HTML
authors = news.authors # 新闻作者
top_image = news.top_image # 本文的“最佳图像”的URL
movies = news.movies # 本文电影url
keywords = news.keywords # 新闻关键词
summary = news.summary # 从文章主体txt中生成的摘要
images = news.images # 本文中的所有图像url