昨天微博看见有人出了一道题解决方法
程序员文章站
2024-02-11 12:07:22
...
昨天微博看见有人出了一道题
在100万个用户名中,尽可能找出机器自动创建的用户名。
其实就是反spam比较简单的一种。
有些人说拿每个用户名取google或baidu搜索下看看有没有上网痕迹。先不说这个靠不靠谱,出题人明显是想从算法角度去解决此问题,而非社会工程学,所以那些就算了。
我开始想了个对100万个用户名先进行分词,然后统计每个词在这100万个用户名中出现的次数,也就是统计词频。然后按照词频进行倒排序,取top n。接下来就在那100万个用户名中找出包含top n中出现的词。这些很可能就是机器创建的。
但后来想这么做并不科学,可能会误杀一大片正常用户名。因为在每个时间段都会出现一些热词,很多人喜欢用这些热词作为用户名的一部分。或者是某些经典词,可能会被大部分人使用。
因此我觉得除非可以人工参与进来找出一些热词。将热词从top n中排除。否则这个方法一点也不好。
想看看大家有什么想法,一起讨论下。注意,此命题说了只能针对用户名,而不能去对用户发言或注册日期之类的做处理。
------解决方案--------------------
1、从以往的注册经历上看,机器自动创建的用户名 多以用户提交的注册信息组合而成。也有前缀加顺号的
2、考察前缀相同的用户名是最简洁的方式
如果手边有可供利用的数据,倒是可以探究一下算法。遗憾的是没有
------解决方案--------------------
这个我也关注下哈哈,虽然初学不太懂。
------解决方案--------------------
就拿csdn的用户库来试。。。手上还有100M+的那个库。。。。
目前觉得靠谱点的就是 某些字符 + 数字,并且数字是顺着一直下去的。
------解决方案--------------------
如果我是机器,我就不用简字,英文,我用日文韩文马来文,你能有那么大的数据库辨伪?
所以防护王道还是验证码。
------解决方案--------------------
这个用算法无解...
ci169
ci1699
ci16999
ci169999
ci1699999
就像上面这几个CSDN账号哪个是机器注册能算出来嘛。
------解决方案--------------------
为什么hot的被认为机器的????
------解决方案--------------------
有意思的题目,有没有什么免费LAMP空间?上传一份,大家来攻破一下。
------解决方案--------------------
使用 贝叶斯分类 应该只正路,只是如何组织原始数据是个问题
在有众多不确定因素的前提下就贸然提及算法有点不妥
建议你先使用 weka(一个java的数据挖掘软件)做一下探测
------解决方案--------------------
人注册的用户名肯定是有一定的逻辑的,这样才方便记忆,而机器自动注册的不用;
我觉得可以用破解密码的方法,用字典做筛子筛一下先。
题目只是说尽可能找出。
其实即便是错乱字母排序出来的用户名,也无法确定就是机器注册的,
除非有用户登录行为或者注册间隔等辅助信息,,不然,我真觉得这个找法没啥意义。
在100万个用户名中,尽可能找出机器自动创建的用户名。
其实就是反spam比较简单的一种。
有些人说拿每个用户名取google或baidu搜索下看看有没有上网痕迹。先不说这个靠不靠谱,出题人明显是想从算法角度去解决此问题,而非社会工程学,所以那些就算了。
我开始想了个对100万个用户名先进行分词,然后统计每个词在这100万个用户名中出现的次数,也就是统计词频。然后按照词频进行倒排序,取top n。接下来就在那100万个用户名中找出包含top n中出现的词。这些很可能就是机器创建的。
但后来想这么做并不科学,可能会误杀一大片正常用户名。因为在每个时间段都会出现一些热词,很多人喜欢用这些热词作为用户名的一部分。或者是某些经典词,可能会被大部分人使用。
因此我觉得除非可以人工参与进来找出一些热词。将热词从top n中排除。否则这个方法一点也不好。
想看看大家有什么想法,一起讨论下。注意,此命题说了只能针对用户名,而不能去对用户发言或注册日期之类的做处理。
------解决方案--------------------
1、从以往的注册经历上看,机器自动创建的用户名 多以用户提交的注册信息组合而成。也有前缀加顺号的
2、考察前缀相同的用户名是最简洁的方式
如果手边有可供利用的数据,倒是可以探究一下算法。遗憾的是没有
------解决方案--------------------
这个我也关注下哈哈,虽然初学不太懂。
------解决方案--------------------
就拿csdn的用户库来试。。。手上还有100M+的那个库。。。。
目前觉得靠谱点的就是 某些字符 + 数字,并且数字是顺着一直下去的。
------解决方案--------------------
如果我是机器,我就不用简字,英文,我用日文韩文马来文,你能有那么大的数据库辨伪?
所以防护王道还是验证码。
------解决方案--------------------
这个用算法无解...
ci169
ci1699
ci16999
ci169999
ci1699999
就像上面这几个CSDN账号哪个是机器注册能算出来嘛。
------解决方案--------------------
为什么hot的被认为机器的????
------解决方案--------------------
有意思的题目,有没有什么免费LAMP空间?上传一份,大家来攻破一下。
'tom'.substr(str_shuffle("abcdefghijklmnopqrstuvwxyz"), 0, 4);
------解决方案--------------------
使用 贝叶斯分类 应该只正路,只是如何组织原始数据是个问题
在有众多不确定因素的前提下就贸然提及算法有点不妥
建议你先使用 weka(一个java的数据挖掘软件)做一下探测
------解决方案--------------------
人注册的用户名肯定是有一定的逻辑的,这样才方便记忆,而机器自动注册的不用;
我觉得可以用破解密码的方法,用字典做筛子筛一下先。
题目只是说尽可能找出。
其实即便是错乱字母排序出来的用户名,也无法确定就是机器注册的,
除非有用户登录行为或者注册间隔等辅助信息,,不然,我真觉得这个找法没啥意义。
相关文章
相关视频
专题推荐
-
独孤九贱-php全栈开发教程
全栈 170W+
主讲:Peter-Zhu 轻松幽默、简短易学,非常适合PHP学习入门
-
玉女心经-web前端开发教程
入门 80W+
主讲:灭绝师太 由浅入深、明快简洁,非常适合前端学习入门
-
天龙八部-实战开发教程
实战 120W+
主讲:西门大官人 思路清晰、严谨规范,适合有一定web编程基础学习
上一篇: 【MySQL案例】ERROR 1665 (HY000)_MySQL
下一篇: 抉择什么PHP框架
网友评论
文明上网理性发言,请遵守 新闻评论服务协议
我要评论