欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

分布式网站,用户注册如何查询用户名唯一,且保证分表高效?

程序员文章站 2022-05-24 11:28:37
...
网站采用分布式部署,读写分离,且写入数据库服务器有多个,登陆注册服务器目前有一个,用户表暂时有10个,每张表预计存储2千万条。

请问:
一、用户注册的时候,怎么查询用户名是否已经存在?有什么好的高效的方案?
二、如何设计方案,把用户放到把用户存储到相应的表中?
三、用户登陆的时候,怎么知道用户在哪个表中?

问题比较棘手、紧急,希望大家能够帮忙邀请各路大神解答,谢谢了。

回复内容:

这个东西说起来简单实际操作起来复杂。建议看一下eventual consistency的Wiki页面。

如果确认10个表,N年都不会变,那太简单了。把用户名当成是36进制的数字(26个字母+10个数字),直接mod 10取余决定到哪个用户表读写。

但是你要先知道这么做的坑在哪里…具体去看eventual consistency吧… 这个问题就由我来终结吧。

一般情况下,用户登录使用的是用户名或者邮箱+密码的方式来请求登陆验证。

假设我们有10个表,user_0,user_1,user_2, ... user_9。

假设我们有几个用户,用户名为username1,nameuser2123,用户名12,逆天杀神。

当用户“逆天杀神”请求登陆时,我们怎么查找用户名是否存在呢?我们先将用户名做一个int hash,和md5类似,md5是将一段数据变成32位16进制字符串,而int hash是变成一个int值。int hash 见:Hash算法 - hqd_acm的专栏

然后我们将这个int hash值求余,得到一个0-9的数字。到这里,我们就解决了以下的三个问题:

一、用户注册的时候,怎么查询用户名是否已经存在?有什么好的高效的方案?
二、如何设计方案,把用户放到把用户存储到相应的表中?
三、用户登陆的时候,怎么知道用户在哪个表中?

show me code:
function get_user_table_name($username, $prefix = 'user_', $count = 10){
    return $prefix . abs(crc32($username)) % $count;
}

var_dump(get_user_table_name('username1'));
var_dump(get_user_table_name('nameuser2123'));
var_dump(get_user_table_name('用户名12'));
var_dump(get_user_table_name('逆天杀神'));
/**
 * dump:
 * string(6) "user_2"
 * string(6) "user_8"
 * string(6) "user_5"
 * string(6) "user_9"
 */
泻药,,,
===========
MD5 + hexdec ,结合以上回答,提示的已经够多了~ 把用户名hash,再mod,就知道它该在哪个表里了。
然后判断用户名是否存在只需要查一次。
-------------------------------------------------------------------
这种二话不说就开始讽刺人的风气从哪里来的,好好回答个问题会死?
我已经把没用的答案点了反对+没有帮助 第一个问题,存储的时候用hash,这个就能快速找到。
第二个问题,建立索引解决。
第三个问题,使用索引查询,用户不需要知道访问哪个表,哪个文件系统。索引来搞定这个方面的事情。 这个量级没必要分表,memcached加个用户名的查询缓存就解决了。 如果非要分,先hash取模实现,后面顶不住再拆吧。 两亿条真的需要分表么???

仅性能角度考虑,如果用oracle,有asm,连分区都不用了吧。 哈哈,这个很简单呀!

第一个问题不说了,查重有很多办法,回答已经很多了,题主应该可以解决;

第二个问题,取每个用户名的首自母,把用户表拆分成26个(必须是十个表的话也没关系,大不了一个表存三个自母),相应的用户名放到相对应首字母的表中,这样做好处很多,在用户量很大的情况下基本保持每个用户表存储数量基本均衡,且不混乱,加快查询速度,减少冗余;

问题三:哈哈,通过问题二不是已经解决了问题三了吗?用户登陆时,找它对应的首自母表就好了。

…………………分隔线…………………………

总结:
通过用户名首字母拆分,直接解决问题二三,且对查询速度有大幅度提升,同时线性降低表冗余,而且也顺带解决了表均衡问题。
对问题一查重效率也很有帮助,直接查对应首自母的表,使总查询总量降为原来的1/26,如果再对每张表做一些优化的话,效率更会有大幅度提升。

哈哈,大概就是这样!
如果有想的不对的地方,欢迎指正,欢迎骚扰,欢迎私信…(๑•̀ㅂ•́) ✧ 别过度设计了 你什么项目 能有2亿的注册用户量???
如果你撑死也不会超过几千万,就别整这么花哨。
1.判断重复,用cache exits 就行了 用户名直接做key
2.根据(注册)时间戳等信息生成分布式的唯一ID,hash取模去分表或者直接按时间的区间分表
最简单的是直接把用户名hash了去分表,方便第三步3分表查找。
3.查某一位用户的时候怎么去找那张表?那得看你根据什么条件去查找啦。用户名,简单。分布式网站,用户注册如何查询用户名唯一,且保证分表高效?

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。

相关文章

相关视频