php抓取网页的若干实现模式

程序员文章站 2022-05-12 08:18:35

...

php抓取网页的若干实现方式

最近在做一个笑话平台，包含web版、安装版，由于没有笑话资源，所以就用php写了一个后台程序，每天定时从各大笑话网站抓取数据，下面整理了一些php抓取网页内容的基本方式。

一、 PHP抓取页面的主要方法：

1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式 4.curl方式 5. fsockopen()函数 socket模式 6. 使用插件。

二、PHP解析html或xml代码主要方式：

1. 正则表达式 2. PHP DOMDocument对象 3. 插件(如：PHP Simple HTML DOM Parser)

如果你对以上内容已经很了解，以下内容可以飘过……

PHP抓取页面

1. file()函数

2. file_get_contents()函数
使用file_get_contents和fopen必须空间开启allow_url_fopen。方法：编辑php.ini，设置 allow_url_fopen = On，allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

3. fopen()->fread()->fclose()模式

4. curl方式
使用curl必须空间开启curl。方法：windows下修改php.ini，将extension=php_curl.dll前面的分号去掉，而且需要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下；Linux下要安装curl扩展。

5. fsockopen()函数 socket模式
socket模式能否正确执行，也跟服务器的设置有关系，具体可以通过phpinfo查看服务器开启了哪些通信协议，比如我的本地php socket没开启http，只能使用udp测试一下了。

\n";} else {fwrite($fp, "\n");echo fread($fp, 26);fclose($fp);}?>

6. 插件
网上应该有比较多的插件，snoopy插件是在网上搜到的，有兴趣的可以研究一下。

PHP解析xml(html)

1. 正则表达式：

(.*)',$lines_string,$title);echo htmlspecialchars($title[0]);?>

2. PHP DOMDocument()对象
如果远程的html或xml存在语法错误，php在解析dom的时候会报错。

loadHTMLFile($url);$title=$html->getElementsByTagName('title');echo $title->item(0)->nodeValue;?>

3. 插件
本文以PHP Simple HTML DOM Parser为例，进行简单介绍，simple_html_dom的语法类似jQuery，它让php操作dom，就像使用jQuery操作dom一样的简单。

find('title');echo $title[0]->plaintext;?>

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

专题推荐

独孤九贱-php全栈开发教程
全栈 170W+

主讲：Peter-Zhu 轻松幽默、简短易学，非常适合PHP学习入门
玉女心经-web前端开发教程
入门 80W+

主讲：灭绝师太由浅入深、明快简洁，非常适合前端学习入门
天龙八部-实战开发教程
实战 120W+

主讲：西门大官人思路清晰、严谨规范，适合有一定web编程基础学习

上一篇：从HTML入手，学习信息架构_html/css_WEB-ITnose

下一篇： php排错一则_PHP教程

php抓取网页的若干实现模式

专题推荐

C#使用WebClient登录网站并抓取登录后的网页信息实现方法

Python实现周期性抓取网页内容的方法

C#基于正则表达式实现获取网页中所有信息的网页抓取类实例

python基于BeautifulSoup实现抓取网页指定内容的方法

PHP中用Trait封装单例模式的实现

PHP中数据库单例模式的实现代码分享

PHP配合fiddler抓包抓取微信指数小程序数据的实现方法分析

PHP实现的抓取小说网站内容功能示例

PHP实现单例模式最安全的做法

JavaScript结合PHP实现网页制作中双下拉菜单的动态实现