技术宅是怎样看连载的
问题背景
话说我是个火影迷,所以每到周三的时候,总会为了等火影的更新不停地刷新网页。后来我还迷上了一部连载小说,每天不定期更新,于是每天就在那里刷呀刷,F5都快烂了。F5烂了没关系,程序猿那么忙,怎么可以把宝贵的时间浪费在这种地方 >_
意淫方案
为了避免因为几个连载而日夜煎熬,作为一个能拯救世界的技术宅,当然要做点什么了 >_
实现简述
首先是简化我们的问题,上面提到的解决方案的程序里面,可以分为以下几个部分:
- 定时执行
- 读取连载目录的内容
- 检测是否有更新
- 发邮件
顺便提一下,我最近做PHP比较多,所以开发语言就以 PHP 为主咯 ╮(╯_╰)╭
下面只对技术方案做简单的说明,毕竟程序做的事情也很简单,没有什么很神奇的代码
定时执行 - crontab
前段时间刚好租过一台很矬的玩具级 Linux 服务器,所以我可以让程序在这台服务器上24小时不停地跑。在 Linux 系统里面,定时执行通常可以通过 crontab 命令新增一条定时任务。例如,我要设置每隔10分钟执行一次,那么 crontab 新增项的格式如下:
*/10 * * * * /path/task.sh
读取连载目录的内容
连载目录是在一个网页上的,要读取出目录的内容,还需要再把这个问题分解:
- 下载网页
- 分析网页内容
下载网页 - curl
网页的内容一般是是浏览器作为客户端通过 HTTP 协议从服务器获取的。在我们的方案里,我们要写的程序就需要充当 HTTP 协议通信的客户端来下载网页的数据,熟悉 Linux 的你应该会想到 curl 命令行工具,这里可以用 PHP 提供的 exec 函数来执行 curl 命令,或者使用 PHP 自带的 curl 库。
我使用的是 PHP 的 curl 库,有兴趣可以自行了解。
分析网页的内容 - 正则表达式
下载到的网页文档是 html 代码,以我看的火影忍者为例,http://www.mangapanda.com/93/naruto.html ,(PS:表示看不懂日语而且英文版的更新速度比中文版的快,所以就...)
对于我们来说,连载目录其实就是 html 文档中的这部分 href 属性值为 "/naruto/xxx" 的 元素了。
只要对下载到的 html 代码用简单的模式匹配做文本过滤,就可以得到连载目录的内容了,我觉得你也应该想得到,用正则表达式来做这件事情再适合不过了。以刚才那个网页为例,可以用下面这行正则表达式来粗略地过滤出连载目录:
|href="/naruto/[^"]*"|
因为不同的要使用的正则表达式会不一样,所以这个正则表达式应该是由用户配置的。
在 PHP 里面,可以使用 PHP PCRE Functions 中的 pregmatchall 函数。
检测是否有更新
这个相对比较简单,只有有更新,那么连载上当的内容就一定会有变化。所以只要把每次读取到连载目录和上一次读取到的连载目录的内容进行比较,只要有不同,就认定有有更新即可。
至于历史数据的储存,用一个文件就可以了。我有点小题大作地使用了 MySQL 数据库来做这个事情。
发邮件 - PHPMailer
不熟悉计算机网络的我对邮件协议了解也是一塌糊涂,经过 google 之后,找到了 PHPMailer 库,参考这个库提供的 SMTP 的例子即可。
我使用一个 QQ 邮箱来作为发件人,需要注意的问题是这个 QQ 邮件要开通 SMTP 服务。
效果演示和代码下载
考虑到对用户友好以及通用性,所以做了一个简易的配置页面,如下图所示:
收到的提醒邮件的内容也很简单,内容为空都可以,不过最好还是附上连载目录的链接。
代码可以使用 svn 检出:
svn checkout "https://svn.code.sf.net/p/roxma-proj/code/php_learn"
这里面夹杂着一些个人学习过程中积累的和主题无关的代码,我相信应该不会有人想认真看,如果真的很想看,可以从 phplearn/apps/seriesupdate_remindder/check.php 跟进去。代码真的不建议细看,我觉得最重要的内容其实还是“技术概要”那一节里面的讲到的思路,(好吧代码太难看你偷偷告诉我就行了不要声张)