C# GroupBy使用
起因
今天在公司做一个需求的时候,写的是面条代码,一个方法直接从头写到尾,其中用到了groupby
,且groupby
的keyselector
是多个属性而不是单个属性。
但是公司最近推行clean code,要让代码有可读性。且作为一个有追求的程序员,肯定是不能写面条代码的,要对代码进行拆分。
重构前groupby
大概是这样子的:
var groups = data.groupby(m => new { m.propertya, m.propertyb})
个人对于短的linq比较习惯于用方法而不是用关键字的那种写法。
一开始这样写是没问题的,但是重构的时候问题就来了:这个groups
是什么类型?
重构以后这个groups
是要作为参数进入到别的方法中的,方法签名显然是不能用var
做类型推导,必须指定确定的类型。
我们知道groupby
出来的东西是个泛型的东西,签名是ienumerable<igrouping<tkey, tsource>>
,这个tsource
类型是没问题,我没有对source
做修改,就是data
本身的类型。
但是这个key
就有问题了。
我没有指定key
的类型,这里应该是匿名类型,于是定义了一个类型承接key
,代码变成了:
class entitykey { public int propertya { get set; } public string propertyb { get set; } } ...... var groups = data.groupby(m => new entitykey { propertya = m.propertya, propertyb = m.propertyb});
但是后来我发现这样有问题,groupby
指定的key
失效了。也就是说,groups
的分组数量与data
的长度一致,每一个group
里面只有一个对象。
分析
发现这个问题后,我仔细思考了一下,大致猜到了问题出在哪里。
groupby
这种东西,判断两个对象是不是一个分组,必然用到了相等判断。
虽然我没有看匿名类型反编译生成后的il
代码,不知道之前用的是怎么做的key相等判断,但是引用类型的肯定是直接用对象的hashcode
做判断。
这样子肯定是不行的,要解决引用类型的相等判断问题。
重现
根据猜测,我写了一个sample程序最小化的重现了这个问题:
class program { static void main(string[] args) { var list = new list<student>(); list.add(new student(1, "cat", 10, "university1")); list.add(new student(2, "dog", 10, "university1")); list.add(new student(3, "pig", 10, "university2")); list.add(new student(4, "fish", 12, "university1")); var groups = list.groupby(m => new {m.age, m.class}); foreach (var group in groups) { console.writeline("age:{0},class:{1}", group.key.age, group.key.class); foreach (var student in group) { console.writeline(student); } } } class student { public int id { get; set; } public string name { get; set; } public int age { get; set; } public string class { get; set; } public student(int id, string name, int age, string @class) { id = id; name = name; age = age; class = @class; } public override string tostring() { return $"id={id},name={name},age={age},class={class}"; } } class studentkey { public int age { get; set; } public string class { get; set; } } }
这时候输出结果是
age:10,class:university1
id=1,name=cat,age=10,class=university1
id=2,name=dog,age=10,class=university1
age:10,class:university2
id=3,name=pig,age=10,class=university2
age:12,class:university1
id=4,name=fish,age=12,class=university1
将new {m.age, m.class}
替换为new studentkey {age = m.age, class = m.class}
,结果却变成了
age:10,class:university1
id=1,name=cat,age=10,class=university1
age:10,class:university1
id=2,name=dog,age=10,class=university1
age:10,class:university2
id=3,name=pig,age=10,class=university2
age:12,class:university1
id=4,name=fish,age=12,class=university1
id=1
和id=2
变成了两组。
解决问题
解决问题方式有几种。
第一种
最简单,就是直接将studentkey
从class
变成struct
。
但是这样有个问题,class
是堆内存,struct
是栈内存。
虽然实际情况不一定会出现内存异常什么的,但是总归是改变了一些东西,存在隐患。
第二种
第一种方式被我自己否决后,于是打开了google搜了一下,在*和msdn以及查看groupby
源码之后,得到了groupby
的运行原理。
groupby
在没有传comparer
的时候,会创建一个基于当前tsource
类型的默认的comparer
。
但不管是默认的comparer
还是我们自己传的comparer
,都会调用equals
和gethashcode
两个方法,所以我们需要重载这两个方法。
第二种方法就是我们在类型上重载equals
和gethashcode
两个方法。
可以实现iequatable<tkey>
使用下面的代码,也可以不实现接口,使用重载的equals
方法。
但是不论如何,一定要重载gethashcode
。
修改后studentkey
如下
class studentkey : iequatable<studentkey> { public int age { get; set; } public string class { get; set; } public override int gethashcode() { return age.gethashcode() ^ class.gethashcode(); } // public override bool equals(object obj) // { // var model = obj as studentkey; // if (model == null) // { // return false; // } // // return model.age == age && model.class == class; // } public bool equals(studentkey other) { return age == other.age && class == other.class; } }
第三种
第三种就是传一个comparer
给groupby
参数,实现一个iequalitycomparer<tkey>
。
代码如下:
list.groupby(m => new studentkey {age = m.age, class = m.class}, new studentkeycomparer()); ...... class studentkeycomparer: iequalitycomparer<studentkey> { public bool equals(studentkey x, studentkey y) { return x.age == y.age && x.class == y.class; } public int gethashcode(studentkey obj) { return obj.age.gethashcode() ^ obj.age.gethashcode(); } }
这种相对于第二种方式,最大的区别在于不用侵入实体类添加代码,但是原理是类似的。
总结
本文是在c#开发过程中碰到的一个groupby
的分组的key
失效的问题。
了解其分组原理后,通过实现equals
和gethashcode
或者传入自定义的comparer
,解决groupby
的分组key
失效的问题。
上一篇: Java中创建线程的三种方式以及区别