php抓取网页的若干实现模式

程序员文章站 2022-05-17 18:49:11

...

php抓取网页的若干实现方式

最近在做一个笑话平台，包含web版、安装版，由于没有笑话资源，所以就用php写了一个后台程序，每天定时从各大笑话网站抓取数据，下面整理了一些php抓取网页内容的基本方式。

一、 PHP抓取页面的主要方法：

1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式 4.curl方式 5. fsockopen()函数 socket模式 6. 使用插件。

二、PHP解析html或xml代码主要方式：

1. 正则表达式 2. PHP DOMDocument对象 3. 插件(如：PHP Simple HTML DOM Parser)

如果你对以上内容已经很了解，以下内容可以飘过……

PHP抓取页面

1. file()函数

2. file_get_contents()函数
使用file_get_contents和fopen必须空间开启allow_url_fopen。方法：编辑php.ini，设置 allow_url_fopen = On，allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

3. fopen()->fread()->fclose()模式

4. curl方式
使用curl必须空间开启curl。方法：windows下修改php.ini，将extension=php_curl.dll前面的分号去掉，而且需要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下；Linux下要安装curl扩展。

5. fsockopen()函数 socket模式
socket模式能否正确执行，也跟服务器的设置有关系，具体可以通过phpinfo查看服务器开启了哪些通信协议，比如我的本地php socket没开启http，只能使用udp测试一下了。

\n";} else {fwrite($fp, "\n");echo fread($fp, 26);fclose($fp);}?>

6. 插件
网上应该有比较多的插件，snoopy插件是在网上搜到的，有兴趣的可以研究一下。

PHP解析xml(html)

1. 正则表达式：

(.*)',$lines_string,$title);echo htmlspecialchars($title[0]);?>

2. PHP DOMDocument()对象
如果远程的html或xml存在语法错误，php在解析dom的时候会报错。

loadHTMLFile($url);$title=$html->getElementsByTagName('title');echo $title->item(0)->nodeValue;?>

3. 插件
本文以PHP Simple HTML DOM Parser为例，进行简单介绍，simple_html_dom的语法类似jQuery，它让php操作dom，就像使用jQuery操作dom一样的简单。

find('title');echo $title[0]->plaintext;?>

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

专题推荐

独孤九贱-php全栈开发教程
全栈 170W+

主讲：Peter-Zhu 轻松幽默、简短易学，非常适合PHP学习入门
玉女心经-web前端开发教程
入门 80W+

主讲：灭绝师太由浅入深、明快简洁，非常适合前端学习入门
天龙八部-实战开发教程
实战 120W+

主讲：西门大官人思路清晰、严谨规范，适合有一定web编程基础学习

上一篇： yii，CI，yaf框架+smarty模板使用方法

下一篇：关于使用Django连接MySQL进行环境配置的一些问题

php抓取网页的若干实现模式

专题推荐

php实例教程：使用php代码实现在网页上生成图片的步骤

PHP多线程抓取网页实现代码

[PHP]移动端网页如何使用JqueryMobile+PHP实现上传图片的功能

[PHP]移动端网页如何使用JqueryMobile+PHP实现上传图片的功能

PHP基于单例模式实现的mysql类_PHP

php下通过curl抓取yahoo boss 搜索结果的实现代码_PHP教程

php抓取网站图片并保存的实现方法_php技巧

PHP获取网页标题的3种实现方法代码实例

php 利用cookie实现网页记住用户名和密码的功能

linux - php的curl_multi是否是真正的多线程抓取网页数据？