java 中HashCode重复的可能性
程序员文章站
2024-02-13 10:04:04
java 中hashcode重复的可能性
今天有同事提议用string的hashcode得到int类型作为主键。其实hashcode重复的可能性超大,下面是java的缺省...
java 中hashcode重复的可能性
今天有同事提议用string的hashcode得到int类型作为主键。其实hashcode重复的可能性超大,下面是java的缺省算法:
public int hashcode() { int h = hash; if (h == 0) { int off = offset; char val[] = value; int len = count; for (int i = 0; i < len; i++) { h = 31*h + val[off++]; } hash = h; } return h; }
但是什么情况下会重复?下面是测试代码
import java.util.hashmap; public class test { static hashmap map = new hashmap(); private static char startchar = 'a'; private static char endchar = 'z'; private static int offset = endchar - startchar + 1; private static int dup = 0; public static void main(string[] args) { int len = 3; char[] chars = new char[len]; trybit(chars, len); system.out.println((int)math.pow(offset, len) + ":" + dup); } private static void trybit(char[] chars, int i) { for (char j = startchar; j <= endchar; j++) { chars[i - 1] = j; if (i > 1) trybit(chars, i - 1); else test(chars); } } private static void test(char[] chars) { string str = new string(chars).replaceall("[^a-za-z_]", "").touppercase();// 195112:0 //string str = new string(chars).tolowercase();//195112:6612 //string str = new string(chars).replaceall("[^a-za-z_]","");//195112:122500 //string str = new string(chars);//195112:138510 int hash = str.hashcode(); if (map.containskey(hash)) { string s = (string) map.get(hash); if (!s.equals(str)) { dup++; system.out.println(s + ":" + str); } } else { map.put(hash, str); // system.out.println(str); } } }
在a-z范围内有特殊字符,从结果看,仅仅3位长度的字符串:
不处理: 138510次重复
去掉字母意外字符: 122500次重复
所有字符转小写:6612次重复(少了很多)
去掉字母意外字符,并且转小写:没有重复!4位字符串也没见重复
不难看出:
1. 缺省实现为英文字母优化
2. 字母大小写可能导致重复
可能:
长字符串可能hashcode重复
中文字符串和特殊字符可能hashcode重复
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持,如有疑问请留言或者到本站社区交流讨论,大家共同进步!