[PHP] CURL 入门
程序员文章站
2022-03-30 15:29:32
...
前言
本文适用于有一定 PHP 基础的用户。
开发环境 WAMPSERVER 2.4 + Windows 10
个人对 CURL 的理解:
CURL 就是用来模拟浏览器行为的工具,用于数据的访问、提交和文件下载。
开启 CURL 拓展
-
手动开启 —— 修改 PHP.ini
去掉extension=php_curl.dll前面的分号。
-
自动开启 —— 在 WAMP 直接开启
CURL 的基本模式
可以理解为 打开浏览器 curl_setopt($ch, CURLOPT_URL,$url);//设置CURL参数 -> 可以理解成 调整浏览器的参数(即设置访问地址和一些其他浏览器参数)$result = curl_exec($ch);//执行CURL操作 -> 可以理解为 上面的参数设定好了,这一步才开始执行curl_close($ch);//关闭CURL -> 可以理解为 关闭浏览器 ?>
CURL 的模拟访问
我这边尝试着去模拟访问学校的教务系统。
寻找提交字段
我先用浏览器登录一遍。
通过用Fiddle抓包发现,我需要构建的提交字段有以下几个:
然后我发现 __VIEWSTATE 字段的值是动态生成的。
其他隐藏域的值要么为空,要么是固定的。
构建提交字段
因为 __VIEWSTATE 字段的值是动态生成的。
我们可以先用 CURL 抓取整个 HTML 页面,用正则匹配出 __VIEWSTATE 字段的值。
再来构建我们的提交字段。
$url = "http://jwgl.szpt.edu.cn/SzptJwBsII/Secure/login.aspx";$cookie_file = dirname(__FILE__) . '/cookie.txt'; //设置COOKIE存放目录 /** 第一步,获取 __VIEWSTATE 隐藏域的值**/ $ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url); //设置访问的URL。curl_setopt($ch, CURLOPT_HEADER, 1); //是否输出 HTTP 头部信息。 1 输出 / 0 不输出curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //是否把返回的值存储进变量。 1 存进变量 / 0 直接输出curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);//将 cookie 存在指定的目录。 $result = curl_exec($ch);curl_close($ch); preg_match('/name="__VIEWSTATE" value="(.*)"/',$result,$str); $str = $str['1']; $post = array( '__EVENTTARGET' => 'btnLogin', '__EVENTARGUMENT'=> '', '__VIEWSTATE' => $str, '__VIEWSTATEGENERATOR' => '210E3F16', 'ddlUserType' => '0', 'txtLogin' => '账号', 'txtPwd' => '密码' );
提交构建字段
查看原 HTML 页面中 form 标签的 action 属性,我们可以知道,他是提交到本页面。
代码承接第一步的内容 /** 第二步,提交构建字段,并获取cookie**/ $ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_HEADER, 1); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch,CURLOPT_POST,1); //设置是否用 POST 提交。 1 POST / 0 GETcurl_setopt($ch,CURLOPT_POSTFIELDS,$post);//设置 POST 提交的内容curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);//读取 COOKIE 并在访问时带上。curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file); //存储响应时的 COOKIE $result = curl_exec($ch);curl_close($ch);
通过打印结果(即打印 $result )可以发现,我们成功拿到了cookie。
带着cookie去登陆成功页面
/* * 第三步 ,带着cookie去登陆之后的页面 * */ $Second_url='http://jwgl.szpt.edu.cn/SzptJwBsII/default.aspx'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $Second_url); curl_setopt($ch, CURLOPT_HEADER, 1); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); $result = curl_exec($ch); curl_close($ch);
通过打印结果(即打印 $result )可以发现,我们成功进入了个人页面。
总结
代码 github 地址:https://github.com/Modokey/CURL_DEMO/blob/master/demo.php
加深了个人对浏览器数据交互的一些了解。
对 HTTP HEADER , 开始能看懂一些了。
在百度学习 CURL 过程中,也认知到了一般做模拟访问都会带上 UA & IP。
如果有什么不对的地方,欢迎各位予以斧正。