欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

遍历collection是否会出现重复遍历?

程序员文章站 2023-11-09 20:03:10
在处理一次线上问题时,需要遍历一张玩家信息表,看单个account是否存在多个entity。使用aid_playerid_dict建立aid到playerid的映射,遍历过程中,发现同一个aid会出现两(多)次,没有细看playerid,以为是一个account存在多个entity。 仔细看log, ......

  在处理一次线上问题时,需要遍历一张玩家信息表,看单个account是否存在多个entity。使用aid_playerid_dict建立aid到playerid的映射,遍历过程中,发现同一个aid会出现两(多)次,没有细看playerid,以为是一个account存在多个entity。仔细看log,发现两个player_id(_id)是一样的,也就是说,db.collection.find方式遍历集合时,一个doc会被遍历两次,另外,有的doc没有被遍历到。另外,发现有的entity没有遍历到。

  两张表都采用hash _id的方式分片,遍历数据库的时候,依然后其他程序访问、修改数据。

  使用find拿到表的cursor,然后遍历活跃的(有其他进程的读写操作)collection,会出现一些document不能遍历到,或者有的document会被遍历到两次。这是因为新插入的数据,会引起分片数据分配的变化。类似一个链表,遍历链表的过程中有其他操作往中间插入新的数据。由于无条件的find遍历,是batch式的返回数据,所以会出现重复遍历的情况。而未遍历到的,则可能是发生了分片数据迁移,由于document的大小变化。