Java HashSet对txt文本内容去重（统计小说用过的字或字数）

程序员文章站 2022-06-19 22:00:49

Java HashSet对txt文本内容去重（统计小说用过的字或字数）基本思路： 1、字节流读需要去重的txt文本。（展示demo为当前workspace下名为utf 8.txt的文本） 2、对读取到的单个字节判断（1）如果为字母或特殊字符。操作（2）（2）添加到HashSet中，如果 Has ......

java hashset对txt文本内容去重（统计小说用过的字或字数）

基本思路：

1、字节流读需要去重的txt文本。（展示demo为当前workspace下名为utf-8.txt的文本）

2、对读取到的单个字节判断
（1）如果为字母或特殊字符。操作（2）
（2）添加到hashset中，如果hashset.add()返回true代表该字符添加到hashset失败，即字符未出现过，故对其做写操作。（展示demo写到的是当前workspace下的u.txt）
（3）如果为中文字符，根据txt文本编码取对应字节数（如：utf-8编码三个字节，gbk编码两个字节,展示demo为utf-8编码的txt文本），操作（2）
尤其注意文本编码格式

3、关闭流

如需统计字数即两个hashset的长度相加即可，本文未写出。

展示demo

        fileinputstream fileinputstream = new fileinputstream("utf8.txt");
        fileoutputstream fileoutputstream=new fileoutputstream("u.txt");
        int len = 0;
        hashset<integer> c = new hashset<>();
        hashset<string> z = new hashset<>();
        while ((len = fileinputstream.read()) != -1) {
            if (1 <= len && len <= 127) {//ascii码值判断是否为字母或特殊字符
                if (c.add(len)){
                    //system.out.printf(string.valueof((char) len));
                    fileoutputstream.write(len);
                }
            } else {
                int first = len;
                int second = fileinputstream.read();
                int third = fileinputstream.read();
                //一个字符对应三个字节
                byte[] bytes = {(byte) first, (byte) second, (byte) third};
                if ( z.add(bytes)){
                    //system.out.print(new string(bytes));
                    fileoutputstream.write(bytes);
                }
            }
        }

仅提供思路，写法不一定是最好的。
有问题请私聊我。

上一篇： redis 漏洞造成服务器被入侵-CPU飙升

下一篇： Camtasia 9怎么在视频课件添加注释?