Java使用DFA算法实现过滤多家公司自定义敏感字功能详解
程序员文章站
2024-02-25 22:39:39
本文实例讲述了java使用dfa算法实现过滤多家公司自定义敏感字功能。分享给大家供大家参考,具体如下:
背景
因为最近有通讯有个需求,说需要让多家客户公司可以自定义敏感...
本文实例讲述了java使用dfa算法实现过滤多家公司自定义敏感字功能。分享给大家供大家参考,具体如下:
背景
因为最近有通讯有个需求,说需要让多家客户公司可以自定义敏感词过滤掉他们自定义的规则,选择了dfa算法来做,不过和以前传统了dfa写法不太一样了
模式图
直接上代码
public class keywordfilter { // private static reentrantreadwritelock lock = new reentrantreadwritelock(); public static map<string, hashmap> currentmap = new concurrenthashmap<string, hashmap>(); public static map nowhash = null; public static object wordmap;// map子节点 // 不建立对象 private keywordfilter() { } private static string getkey(int companyid) { return "companyid" + companyid; } /* * <p>说明:清扫内容</p> * * @author:姚旭民 * * @data:2017-8-22 上午10:13:11 */ public static void clear() { try { currentmap.clear(); } catch (exception e) { e.printstacktrace(); } finally { } } /* * <p>说明:各个渠道的过滤字符</p> * * @author:姚旭民 * * @data:2017-8-20 下午2:55:06 */ public static void savekeywords(int companyid, list<string> keywords) { try { map tempallmap = currentmap; string key = getkey(companyid); int l = keywords.size(); int il; map tempmap; for (int i = 0; i < l; i++) { string key2 = keywords.get(i).trim();// 去掉空白 nowhash = currentmap; il = key2.length(); for (int j = 0; j < il; j++) { char word = key2.charat(j); tempmap = (map) nowhash.get(word); wordmap = nowhash.get(word); if (wordmap != null) {// 检查数据 if (!tempmap.containskey(key)) { nowhash.put(key, 0); } nowhash = (hashmap) wordmap; } else { hashmap<string, string> newwordhash = new hashmap<string, string>(); newwordhash.put(key, "0"); nowhash.put(word, newwordhash); nowhash = newwordhash; } if (j == il - 1) { nowhash.put(key, "1"); } } } } catch (exception e) { e.printstacktrace(); } finally { nowhash = null; wordmap = null; } } /* * <p>说明:替换掉对应的渠道规定掉敏感字</p> * * @author:姚旭民 * * @data:2017-8-20 上午11:41:47 */ public static list<string> repword(int companyid, string txt) { map tempmap = currentmap; list<string> result = new arraylist<string>(); string key = getkey(companyid); nowhash = currentmap; int l = txt.length(); char word; string keywordstr = ""; string keystatu; stringbuilder keyword = new stringbuilder();// 敏感字 for (int i = 0; i < l; i++) { word = txt.charat(i); wordmap = nowhash.get(word); if (wordmap != null) {// 找到类似敏感字的字体,开始查询 keyword.append(word); object te = nowhash = (hashmap) wordmap; // 遍历到这一步,就符合完整的关键字模板 if (nowhash.get(key) != null && nowhash.get(key).tostring().equals("1")) {// 确定是敏感字,开始替换 if (i < l - 1 && nowhash.get(txt.charat(i + 1)) != null) {// 优先过滤长敏感词,去掉就槟城了优先过滤段敏感词 continue; } txt = txt.replaceall(keyword.tostring(), "*"); nowhash = currentmap; keywordstr += keyword.tostring() + ","; i = i - keyword.length() + 1; l = txt.length();// 重新获取字符长度 keyword.delete(0, keyword.length());// 清空数据 } } else {// 这个字不是敏感字,直接排除 nowhash = currentmap; keyword.delete(0, keyword.length());// 清空数据 continue; } } // 清除内存指向 nowhash = null; wordmap = null; result.add(txt); result.add(keywordstr.length() - 1 > 0 ? keywordstr.substring(0, keywordstr.length() - 1) : keywordstr); return result; } /* * <p>说明:检查是否存在敏感字</p> * * @author:姚旭民 * * @data:2017-8-20 下午3:00:06 专门设计成私有的,如果没有理由,别改动他 */ private static int checkkeywords(string txt, int companyid, int begin) { int result = 0; string key = getkey(companyid); try { nowhash = currentmap; int l = txt.length(); char word = 0; for (int i = begin; i < l; i++) { word = txt.charat(i); wordmap = nowhash.get(word); if (wordmap != null) { result++; nowhash = (hashmap) wordmap; if (((string) nowhash.get(key)).equals("1")) { nowhash = null; wordmap = null; return result; } } else { result = 0; break; } } } catch (exception e) { e.printstacktrace(); } finally { nowhash = null; wordmap = null; return result; } } /* * <p>说明:返回检查的文本中包含的敏感字</p> * * @author:姚旭民 * * @data:2017-8-20 下午3:32:53 */ public static string gettxtkeywords(string txt, int companyid) { string result = null; stringbuilder temp = new stringbuilder(); string key; int l = txt.length(); for (int i = 0; i < l;) { int len = checkkeywords(txt, companyid, i); if (len > 0) { key = (txt.substring(i, i + len));// 挑选出来的关键字 temp.append(key + ","); txt = txt.replaceall(key, "");// 挑选出来的关键字替换成空白,加快挑选速度 l = txt.length(); } else { i++; } } if (temp.length() > 0) { result = temp.substring(0, temp.length() - 1); } return result; } /* * <p>说明:判断文中是否包含渠道规定的敏感字</p> * * @author:姚旭民 * * @data:2017-8-20 下午3:33:19 */ public boolean iskeywords(string txt, int companyid) { for (int i = 0; i < txt.length(); i++) { int len = checkkeywords(txt, companyid, i); if (len > 0) { return true; } } return false; } public static void main(string[] arg) { list<string> keywords = new arraylist<string>(); keywords.add("傻×"); keywords.add("汉奸"); keywords.add("草"); keywords.add("*"); keywordfilter.savekeywords(1, keywords); string txt = "是傻×汉奸傻a傻b傻c傻d汉奸傻×*"; list<string> list = repword(1, txt); system.out.println("文中包含的敏感字为:" + list.get(1)); system.out.println("原文:" + txt); system.out.println("敏感字过滤后:" + list.get(0)); } }
更多关于java算法相关内容感兴趣的读者可查看本站专题:《java数据结构与算法教程》、《java字符与字符串操作技巧总结》、《java操作dom节点技巧总结》、《java文件与目录操作技巧汇总》和《java缓存操作技巧汇总》
希望本文所述对大家java程序设计有所帮助。