令人吐槽的字符串遍历匹配机制
我的博客咋又进入审核阶段了,我回头看了下内容,就我这水平应该也写不出啥危害SH的东西吧,而且好像也没啥敏感词汇啊,难道又是神奇的字符串遍历匹配机制在作祟?闲暇之余进行下猜测:
举个简单的例子:ABCDEFG代表一句话,其中每次字母代表一个汉字,说这句话的人的意思可能是这样AB C DE F G,其中两个字母连在一起表示一个词汇,单个字母表示代词、动词、语气助词等,但是由于敏感词汇识别可能使用的是遍历,例如查看指针从A开始,AB是否是个敏感词汇?如果不是指针从B开始,BC是否是个敏感词汇,依次向下,虽然这种机制过于繁琐,但是不失为一种全面地检测手段,毕竟计算机并不像人一样可以独立思考。
是不是觉得有些难以理解,那么举一个简单实例,王者荣耀相信大家都玩过,玩得场次多了难免会遇到一些祖安选手,值得夸赞的是,目前王者荣耀的文字交流审核还是比较完善的,但是有些情况下,自己明明是在跟队友沟通,为啥也会被视为不文明发言呢?例如下面这句话:
李白带线偷塔
这句话看起来没啥问题,通俗易懂,但是经过比较蠢的字符串遍历匹配,将第二个字与第三个字匹配,哦吼,中奖了(为了不被系统检测到,这里就不打出来了)
那么问题来了,究竟怎么做才能避免误伤平民,可以使用优先匹配原则吗?
还是上面这个例子,“李”与“白”匹配,组合成“李白”在汉语中,是一个满词法规则的词汇,没有问题,因此下一次指针就要从“白”字后面开始(考虑到优化,也可以尝试将“白”后面的字与“李白”结合,看这三个字是否符合词法郭泽)但是如果换一句话,可能就没法适用了,看下面这个例子:
武汉市长江大桥
首先原谅我想不出来不文明发言的句子,毕竟我不是名合格的祖安选手,如果“武汉”二字被锁定,那么后面的词汇是不是就被误解了?又有人说了,可以实现词汇的优先级比较嘛,确实,一些情况下是可以比较两个字的词和三个字的词的常用频率,以此来确定下一个指针从什么地方开始,但是问题又来了,“武汉”和“武汉市”到底谁的优先级更高呢?
以上均我我个人闲暇之余的思索,并不代表大厂这方面的检测机制,毕竟leader们的想法非我等凡俗俗子所能猜测的。
本文地址:https://blog.csdn.net/weixin_43353524/article/details/107343257
上一篇: 2020年学习总结及经验分享
下一篇: *父子,家庭爆笑