欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

如何一个通用的方法取得大部分文章的标题及内容

程序员文章站 2024-01-20 20:02:10
...
一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从我是一个标题 - 网站名称提取我是一个标题 - 网站名称
2.然后透过搜寻

-
或div.title

包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

回复内容:

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从我是一个标题 - 网站名称提取我是一个标题 - 网站名称
2.然后透过搜寻

-
或div.title

包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

相关标签: php