急问关于新闻采集的有关问题,难道现在新浪搜狐腾讯新闻都不让采集了
程序员文章站
2024-02-07 14:55:22
...
急问关于新闻采集的问题,难道现在新浪搜狐腾讯新闻都不让采集了 ?
随便找一个新浪的页面进行采集,发现title部分能够获取,但正文部分(通过查看页面源码)不能获取,不知道为何?
function contents($preg,$con,$num=1) {
preg_match($preg,$con,$arr);
return $arr[$num];
}
$con=file_get_contents("http://mil.news.sina.com.cn/2012-12-14/1646709659.html");
$preg="#(.*) #";
echo contents($preg,$con); //获取title ok的
//但获取正文部分不能,啥也没有返回,其中是页面正文的开头
// 是页面正文结束
echo contents("#(.*) #iUs",$con);
//这里返回为空
?>
------解决方案--------------------
为什么我这边正常返回正文~~~~~
想知道如果想采集新浪当天的新闻~~应该怎么样对URL处理
美国海军最后一架F-35C试验机完成试飞
------解决方案--------------------
试验机
------解决方案--------------------
美国海军
------解决方案--------------------
弹射起飞_新浪军事
中新网12月14日电 据中国国防科技信息网报道,12月11日,编号为CF-5的美国海军F-35C“闪电Ⅱ”试验机在美国德克萨斯州福特沃斯试飞成功,该飞机是帕图森河海军航空站集成测试部队的最后一架F-35C试验机,试验机的主要作用是用来验证飞机和军舰的适配性以及进行大攻角测试。
F-35C“闪电Ⅱ”战斗机与F-35A和F-35B有很大不同,该机拥有更大的翼面和增强型着陆装置,这使得飞机能够承受在航母上弹射起飞和在甲板降落时的影响。
在正式交付舰队之前,F-35C一直在帕图森河海军航空站接受飞行测试和相关评估。(中国船舶工业综合技术经济研究院 宋磊)
随便找一个新浪的页面进行采集,发现title部分能够获取,但正文部分(通过查看页面源码)不能获取,不知道为何?
function contents($preg,$con,$num=1) {
preg_match($preg,$con,$arr);
return $arr[$num];
}
$con=file_get_contents("http://mil.news.sina.com.cn/2012-12-14/1646709659.html");
$preg="#
echo contents($preg,$con); //获取title ok的
//但获取正文部分不能,啥也没有返回,其中是页面正文的开头
// 是页面正文结束
echo contents("#(.*) #iUs",$con);
//这里返回为空
?>
------解决方案--------------------
为什么我这边正常返回正文~~~~~
想知道如果想采集新浪当天的新闻~~应该怎么样对URL处理
美国海军最后一架F-35C试验机完成试飞
------解决方案--------------------
试验机
------解决方案--------------------
美国海军
------解决方案--------------------
弹射起飞_新浪军事
中新网12月14日电 据中国国防科技信息网报道,12月11日,编号为CF-5的美国海军F-35C“闪电Ⅱ”试验机在美国德克萨斯州福特沃斯试飞成功,该飞机是帕图森河海军航空站集成测试部队的最后一架F-35C试验机,试验机的主要作用是用来验证飞机和军舰的适配性以及进行大攻角测试。
F-35C“闪电Ⅱ”战斗机与F-35A和F-35B有很大不同,该机拥有更大的翼面和增强型着陆装置,这使得飞机能够承受在航母上弹射起飞和在甲板降落时的影响。
在正式交付舰队之前,F-35C一直在帕图森河海军航空站接受飞行测试和相关评估。(中国船舶工业综合技术经济研究院 宋磊)
相关文章
相关视频