欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  网络运营

手动检测敏感词然后过滤的方法(优化必用)

程序员文章站 2022-05-25 08:07:32
建站的大多数都会过滤敏感词,为什么呢,因为服务器、域名、搜索引擎都不允许你出现敏感词,但是由于网站做大了,很容易无意中插入敏感词在里面,最终容易导致网......

建站的大多数都会过滤敏感词,为什么呢,因为服务器、域名、搜索引擎都不允许你出现敏感词,但是由于网站做大了,很容易无意中插入敏感词在里面,最终容易导致网站被k或者网站提示风险等,那么针对这一问题我们如何筛选出来呢?

手动检测敏感词然后过滤的方法(优化必用)

从搜索结果上来

一般情况任意一个词的搜索结果都不会是几十或者是几百,当然除非非常偏门的词,大多数有指数的都搜索量都会达到几十万甚至几百几千万的搜索结果,因此如果你看到某个词搜索结果只有那么几十或者几百,并且又有指数,那么很有可能这个词是敏感词,当然有些词会被别人掏钱刷指数刷出来,但这种情况比较少。

手动检测敏感词然后过滤的方法(优化必用)

比如说上图的词“av小次郎”,可以明显的看得出这个词的指数上千,但是搜索结果却只有39,当然这个词也没有人会掏钱去刷这个词的指数,因为毕竟不是某个品牌词,那么可以断定这个词绝对是敏感词,当然这类词汇指数百度监控比较严格的词,如果监控不是那么严格,但又属于敏感词,那么我们还需要更多的方法来检测。

从下拉框和相关搜索中看

那么最简单的方法就是从百度下拉框中和相关搜索中查看这个词是否敏感词,如果是敏感词,那么大多数的情况下是不会出现下拉框,同时也是不会出现相关搜索的,就算指数在大,搜索量再多也不会出现,因为百度手动屏蔽了这类词汇。

手动检测敏感词然后过滤的方法(优化必用)

当然也不完全是不会显示,部分长尾词还是会显示下拉框和相关搜索,但依然是敏感词,依然会被提示风险,同时也会容易被k站。

所有医疗词都是敏感词

如果你是做医疗的,我可以坦率的跟你说,你的所有词都是敏感词,当然不是说敏感词就做不上排名,但如果你不是做医疗行业的,那么最好不要涉及这一块内容,这也就是说为何很多外链论坛以前为何不发医疗内容的主要原因。

手动检测敏感词然后过滤的方法(优化必用)

我们可以搜索任意医疗词,可以明显的发现,任意医疗词都是问答排名在首页,并且都是大品牌的问答网站,为什么要给问答网站排名呢,为什么又要给大品牌问答网站排名呢,其中原因有两个。

1、问答网站基本是不是商业性质,不给企业站或者医院站点排名而给问答网站排名的主要原因是,问答才是真实帮助用户解决的,而企业或者医院站都是营销的,一个产品给你排名出问题还好,如果是一个医院给你排名出了问题,那就是人命关天的事情了,魏则西事件再次敲响了百度的警钟。

2、给大问答网站排名而不给小问答网站的排名也是为了百度自身的用户体验考虑,大型的问答平台提问和回答监控管理的非常严格,而小型的问答平台管理不严格,动不动在提问和回答中要求别人吃什么药之类的,甚至官方都会给你推荐什么药物之类的。

通过监控系统检测

那么如果你的站点实在是比较大,手动筛选过滤比较麻烦,那么最好是选择检测系统来检测,检测这类敏感词的系统通常来讲有两个,其一是我们在安装程序的时候,大多数的cms都有这样的数据库,自动筛选出敏感词然后过滤,甚至你在发布敏感词的时候会提示不允许发布,比如我在做久闻网的时候就有这样的程序可以过滤相关的医疗、***之类的词汇。

手动检测敏感词然后过滤的方法(优化必用)

在一个是服务器那边会帮你提醒或者屏蔽相关的页面,当然前提是你开启相关服务,这类服务都是免费的,当你发布有违规信息的时候,大多数都是先提醒你处理,如果你实在不处理,那么他们系统将帮你自动屏蔽,如果不想被屏蔽,那么可以关闭相关服务即可。

总结:那么最后一种办法就是,你上线后等待工信部给你打电话要求你屏蔽,如果不屏蔽强行删除,如果删除你还发,那么就只有屏蔽你域名,这也说明你域名被墙了。