测试、预发布后用python检测网页是否有日常链接

程序员文章站 2023-11-16 13:00:58

在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的，来实现测试和线上正式环境的隔离，这种情况下，就难免会碰到秀逗了把测试的链接发布到线上的情况，一般这种都...

在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的，来实现测试和线上正式环境的隔离，这种情况下，就难免会碰到秀逗了把测试的链接发布到线上的情况，一般这种都是通过一些测试的检查工具来检查链接来规避风险的。前两天跟了一个问题也是这个情况，开发疏忽把日常url发布到线上了。但是测试那边没有自动化的监控工具，导致没有及时发现，由于最近正好在看python，后来处理完回家就想用python做个简单的监控。

大略思路是：用python写一个脚本来分析网页里的所有url，看是否包含日常的链接，然后把脚本放到crontab里跑定时任务，10分钟跑一次检查。如果发现非法链接，就发告警邮件给相关人员。脚本代码100行左右，比较好理解，贴上代码。

本来想用beautifulsoup，不过考虑到安装三方库麻烦，所以还是用自带的sgmllib来，不需要关心库。发邮件函数没有实现，根据各自的smtp服务器实现以下即可。

复制代码代码如下:

 
#!/usr/bin/env python 
#coding:utf-8 

import urllib2 
from sgmllib import sgmlparser 
import smtplib 
import time 
#from email.mime.text import mimetext 
#from bs4 import beautifulsoup 
#import re 

class urlparser(sgmlparser): 
urls = [] 
def do_a(self,attrs): 
'''''parse tag a''' 
for name,value in attrs: 
if name=='href': 
self.urls.append(value) 
else: 
continue 

def do_link(self,attrs): 
'''''parse tag link''' 
for name,value in attrs: 
if name=='href': 
self.urls.append(value); 
else: 
continue 

def checkurl(checkurl, isdetail): 
'''''检查checkurl对应的网页源码是否有非法url''' 
parser = urlparser() 
page = urllib2.urlopen(checkurl) 
content = page.read() 
#content = unicode(content, "gb2312").encode("utf8") 
parser.feed(content) 
urls = parser.urls 

dailyurls = [] 
detailurl = "" 
for url in urls: 
if 'daily' in url: 
dailyurls.append(url); 
if not detailurl and not isdetail and 'www.bc5u.com' in url: 
detailurl = url 

page.close() 
parser.close() 

if isdetail: 
return dailyurls 
else: 
return dailyurls,detailurl 

def sendmail(): 
'''''发送提醒邮件''' 
pass 

def log(content): 
'''''记录执行日志''' 
logfile = 'checkdailyurl.log' 
f = open(logfile,'a') 
f.write(str(time.strftime("%y-%m-%d %x",time.localtime()))+content+'\n') 
f.flush() 
f.close() 

def main(): 
'''''入口方法''' 
#检查ju 
url = "www.bc5u.com" 

dailyurls,detailurl=checkurl(url, false) 
if dailyurls: 
#检查到daily链接，发送告警邮件 
sendmail() 
log('check: find daily url') 
else: 
#没检查到daily链接，不处理 
log('check: not find daily url') 

#检查judetail 
dailyurls=checkurl(detailurl, true) 
if dailyurls: 
#检查到daily链接，发送告警邮件 
log('check: find daily url') 
sendmail() 
else: 
#没检查到daily链接，不处理 
log('check: not find daily url') 

if __name__ == '__main__': 
main() 

上一篇： AngularJs表单验证实例代码解析

下一篇：详解Grunt插件之LiveReload实现页面自动刷新（两种方案）