解决python线程卡死的问题
1. top命令和日志方式判定卡死的位置
python代码忽然卡死,日志不输出,通过如下方式可以确定线程确实已经死掉了:
# top 命令
top命令可以看到机器上所有线程的执行情况,%cpu和%mem可以看出线程消耗的资源情况
由于机器上线程数量太多,可能要查看的线程的信息在top命令当前屏幕上显示不出来可以通过如下方式查看
在top命令下输入:u
接下来会提示输入用户名,就可以查看该用户所执行的所有线程
which user (blank for all): denglinjie
这样就可以看到degnlinjie用户的所有线程
可以看到那几个卡死线程的%cpu和%mem都为0,说明线程根本没有消耗资源,那么可以看出线程已经卡死了
接下来通过打日志的方式来确定线程究竟是卡死在哪里了,线程卡死的地方大多数都是在io或者http请求那,所以以后遇到线程卡死的情况,就通过打日志的方式来确定卡死的位置,最终定位到问题确实是一个http服务挂掉了,而且此时requests.get()我虽然设置了超时,但是竟然无效
2 . 服务进程数量不足导致的客户端进程卡死
服务端代码:
handler = similarityservice() transport = tsocket.tserversocket('10.134.113.75', 1234) factory = tbinaryprotocol.tbinaryprotocolfactory() processor = processor(handler) server = tprocesspoolserver.tprocesspoolserver(processor, transport) server.setnumworkers(10) server.serve()
客户端代码
docque = queues.queue(maxsize=1000) pcount = 15 class parsesaveesprocess(multiprocessing.process): def __init__(self, threadid): self.threadid = threadid multiprocessing.process.__init__(self) def run(self): global docque f = open('recall_match_file_all_simi.lst.%s' % self.threadid, 'w') try: transport = tsocket.tsocket('10.134.113.75', 1234) transport = ttransport.tbufferedtransport(transport) protocol = tbinaryprotocol.tbinaryprotocol(transport) client = client(protocol) transport.open() while true: line = docque.get(block=true) if not line: print 'thread%d run over' % self.threadid break p = line.split('\t') if len(p) >= 6 and p[5] == 'simi_high': simi_str = client.calculate_similarity_by_itemurl(p[0]) f.write(line + '\t' + simi_str + '\n') else: f.write(line + '\n') transport.close() except thrift.texception as e: print str(e) pass class puturlprocess(multiprocessing.process): def __init__(self): multiprocessing.process.__init__(self) def run(self): global docque for line in open('recall_match_file.lst', 'r'): baikeid = line.strip() docque.put(baikeid, block=true) for i in range(pcount): docque.put(none, block=true) if __name__ == '__main__': putprocess = puturlprocess() putprocess.start() for i in range(pcount): parseprocess = parsesaveesprocess(i) parseprocess.start()
可以看到,进程parsesaveesprocess进程总共开启了15个,每个进程会打开一个thrift连接,打开后一直发送请求,并将处理的结果写文件,全部执行完成后才关闭thrift连接。
可是,发现从启动到执行了很长时间后,只有10个文件里面有内容写入,其中5个一直没有写入:
111965 recall_match_file_all_simi.lst.0 111878 recall_match_file_all_simi.lst.1 0 recall_match_file_all_simi.lst.10 0 recall_match_file_all_simi.lst.11 0 recall_match_file_all_simi.lst.12 0 recall_match_file_all_simi.lst.13 0 recall_match_file_all_simi.lst.14 113429 recall_match_file_all_simi.lst.2 110720 recall_match_file_all_simi.lst.3 111993 recall_match_file_all_simi.lst.4 113691 recall_match_file_all_simi.lst.5 113360 recall_match_file_all_simi.lst.6 113953 recall_match_file_all_simi.lst.7 112007 recall_match_file_all_simi.lst.8 113818 recall_match_file_all_simi.lst.9
原因是因为thrift服务端只启动了10个服务进程,所以只能同时处理10个请求,而我客户端打开的thrift连接一直没有关闭,所以10个服务进程被10个客户端连接霸占了,另外5个进程获取不到连接,自然就一直卡住了。
以上这篇解决python线程卡死的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
推荐阅读
-
如何解决开机总出现press K to start backup or restore system.timeout的问题
-
如何解决XP不能安装字体的问题
-
python爬虫 下载一个网页内的图片解决分页以及图片懒加载的问题
-
如何解决FlashFXP连接FTP服务器卡顿的问题
-
如何使用驱动人生解决手机连不上wifi热点的问题
-
nf_conntrack: table full, dropping packet问题的解决思路
-
Linux硬盘问题的八种解决技巧
-
Linux下MP3的TAG乱码问题解决方法
-
实用窍门帮你轻松解决驱动更新失败的问题
-
关于Appserv无法打开localhost问题的解决方法