欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

新闻类网站的通用爬虫--GNE

程序员文章站 2022-06-15 14:42:14
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新 ......

 

gne(generalnewsextractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 html, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。gne在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、readhub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。

使用方式非常简单:

from gne import generalnewsextractor

extractor = generalnewsextractor()
html = '网站源代码'
result = extractor.extract(html)
print(result)

  扫描公众号查看原文

新闻类网站的通用爬虫--GNE