欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

HP-UX下Weblogic占用高cpu的解决 博客分类: 折磨(HP-UX|Weblogic|不响应) HPWeblogicJVM网络应用Oracle

程序员文章站 2024-02-20 22:29:34
...
今天应该不是貌似了,到了该终结的时候,总结一下两个多月来过程吧

环境:
HP-UX11.23 IA64 4C8G  (CPU=1300m)
Weblogic 8.1 sp3 (后升级到sp6)
HP jdk 1.4.2.10(曾经升级到20)
Oracle 10.1.0.2

现象:
每天有1到5次weblogic挂起,挂起是cpu占用100%或者200%,http访问不响应,kill -3 <pid>打不出thread dump,telnet <ip> 7001没有反应,weblogic console不相应。从console的gc回收曲线上能看出每次挂起都是在gc开始的时候(处于曲线的顶点)

排查过程:
网络上有几百个FIN_WAIT2_2连接,怀疑dos攻击,用ndd修改系统参数,设置超时时间是1s;
排查应用是否有数据库连接未释放;
使用hpjconfig工具,把建议的HP-UX的patch全部打上;
根据后台的错误,联系明宇报表的厂家,模板过大或者数据量大导致的后台错误,不影响使用;
发现在jvm heap的old未满的情况下频繁full gc,调整gc参数;
优化数据库系统,重建索引,索引表空间分离
根据HP工程师的要求,使用HPJMETER,HPJTUNE,tusc,gdb等工具调试,生成coredump,文件比较大,一般生成再startweblogic的目录下面,jvm heap+Perm+weblogic的内存

结果:
应用中一个MAP出了问题,“Need to add Synchronized access to the tables.”,这个map是一个类的私有,这个类在另外一个类中定义成了静态对象,在应用过程中需要对这个map反复插入数据,导致了这个问题。HP的专家是这么说的:
“They have a hashmap that has gone circular”
“The reason why the app hangs is this thread never comes to a safepoint and there is a GC active.”
至于为什么这么写会让hashmap“gone circular”,以及为什么此时恰巧"GC active”就会hangs,我还没有搞明白,会不会是hp jvm的bug? 没有在sun jvm,jrocket下测试过

在问题的解决过程中得到了很多朋友的帮助,在此一并感谢:
beckdim、wangchao等bea专家,一直关注,并给予weblogic的调优、调试指导;
朱远翔先生,在最无助的时候给予我很多的建议和资料
cats_tiger,最早关注本问题,并提出了自己的看法;
最后是HP的Gene、XiaYang、Lihuawei等工程师

问题代码:
public class EnumerationBean {
    private Map enums;
    public EnumerationBean(String name) {
        enums=new HashMap();
        this.name=name;
    }
    public void add(Object key, Object value) {
        this.enums.put(key,value);
    }
... ...

public class EnumerationType {
    private static EnumerationBean staenumBean = null;
    public static EnumerationBean getEnu(String type) {
	staenumBean = new EnumerationBean(type);		   
	staenumBean.add(...);
... ...