Java中，一个存在十几年的bug...

程序员文章站 2022-03-26 12:12:09

作者：海纳 https://zhuanlan.zhihu.com/p/88555159 今天，分享一个JDK中令人惊讶的BUG，这个BUG的神奇之处在于，复现它的用例太简单了，人肉眼就能回答的问题，JDK中却存在了十几年。经过测试，我们发现从JDK8到14都存在这个问题。大家可以在自己的开发平台上 ......

作者：海纳

今天，分享一个jdk中令人惊讶的bug，这个bug的神奇之处在于，复现它的用例太简单了，人肉眼就能回答的问题，jdk中却存在了十几年。经过测试，我们发现从jdk8到14都存在这个问题。

大家可以在自己的开发平台上试试这段代码：

public class hello {  
    public void test() {  
        int  i = 8;  
        while  ((i -= 3) > 0);  
        system.out.println("i = " + i);  
    }  
  
    public static void main(string[] args) {  
        hello hello = new hello();  
        for (int  i = 0; i < 50_000; i++) {  
            hello.test();  
        }  
    }  
}

再使用以下命令执行：
java hello

然后，就会看到这样的输出：

Java中，一个存在十几年的bug...

当然，在程序的开始阶段，还是能打印出正确的"i = -1"。

这个问题最终huawei jdk的两名同事解决掉了，并且回合到社区。我这里大概讲一下分析的思路。关注微信公众号：java技术栈，在后台回复：java，可以获取我整理的 n 篇最新 java 教程，都是干货。

首先，使用解释执行可以发现，结果都是正确的，这就说明，这基本上是jit编译器的问题，然后通过-xx:-tieredcompilation关闭c1编译，问题同样复现，但是使用-xx:tieredstopatlevel=3将jit编译停留在c阶段，问题就不复现，这可以确定是c2的问题了。

接下来，一名同事立即猜想到这个"/"其实是('0'-1)，刚好是字符零的ascii码减掉1。嗯，熟记ascii码表的重要性就体现出来了。接下来，就是找到c2中 int 转字符的地方。关键点，就在于这个字符'0'，当然这里要对c2有足够的了解，马上就找到c2中字符转化的方法（具体的代码，请参考openjdk社区）：

void phasestringopts::int_getchars(graphkit& kit, node* arg, node* char_array, node* start, node* end) {  
  // ......  
  // char sign = 0;  
  
  node* i = arg;  
  node* sign = __ intcon(0);  
  
  // if (i < 0) {  
  //     sign = '-';  
  //     i = -i;  
  // }  
  {  
    ifnode* iff = kit.create_and_map_if(kit.control(),  
                                        __ bool(__ cmpi(arg, __ intcon(0)), booltest::lt),  
                                        prob_fair, count_unknown);  
  
    regionnode *merge = new (c) regionnode(3);  
    kit.gvn().set_type(merge, type::control);  
    i = new (c) phinode(merge, typeint::int);  
    kit.gvn().set_type(i, typeint::int);  
    sign = new (c) phinode(merge, typeint::int);  
    kit.gvn().set_type(sign, typeint::int);  
  
    merge->init_req(1, __ iftrue(iff));  
    i->init_req(1, __ subi(__ intcon(0), arg));  
    sign->init_req(1, __ intcon('-'));  
    merge->init_req(2, __ iffalse(iff));  
    i->init_req(2, arg);  
    sign->init_req(2, __ intcon(0));  
  
    kit.set_control(merge);  
  
    c->record_for_igvn(merge);  
    c->record_for_igvn(i);  
    c->record_for_igvn(sign);  
  }  
  
  // for (;;) {  
  //     q = i / 10;  
  //     r = i - ((q << 3) + (q << 1));  // r = i-(q*10) ...  
  //     buf [--charpos] = digits [r];  
  //     i = q;  
  //     if (i == 0) break;  
  // }  
  
  {  
   // 略去和这个循环相对应的代码   
  }  
  
  // 略去很多代码   
}

可以看到，这里在中间表示阶段引入了一个“i < 0"的判断。主要就是那个cmpi结点，看起来这里的逻辑走错了，导致 i 明明小于0，结果却走到了大于0的分支，这样，直接拿字符'0'与i求和的结果，就是错的了。

那这个cmpi为什么会错呢？使用c2visualizer工具可以看到，在gvn阶段，上面循环中的cmpi和这里引入的cmpi被合并了。gvn的全称是global value numbering，名字很高大上，其实就是表达式去重。例如：

Java中，一个存在十几年的bug...