Java提取文本文档中的所有网址(小案例介绍正则基础知识)
程序员文章站
2023-08-12 10:18:01
正则表达式基础以及Java中使用正则查找 定义: 正则表达式是一些用来匹配和处理文本的字符串 正则的基础(先大致了解下) 1. 正则表达式的作用 1. 查找特定的信息(搜索) 2. 替换一些文本(替换) 2. 正则基础知识 1. 元字符 . 匹配除换行符(\n)以外的任何单个字符 w 匹配字母、数字 ......
正则表达式基础以及java中使用正则查找
定义: 正则表达式是一些用来匹配和处理文本的字符串
正则的基础(先大致了解下)
1. 正则表达式的作用
查找特定的信息(搜索)
替换一些文本(替换)
2. 正则基础知识
1. 元字符
- . 匹配除换行符(\n)以外的任何单个字符
- w 匹配字母、数字、下划线、汉字
- s 匹配任意空白字符(包括空格、制表符、换页符等)
- d 匹配数字,匹配单词的开始或结束
- ^ 匹配字符串的开始
- $ 匹配字符串的结束
例子:
#匹配abc开头的字符串 ^abd #匹配8位数字的qq号 ^dddddddd$ #匹配以153开头的11位数字手机号 ^153dddddddd$
2. 重复限定符
- * 重复0次或更多次
- + 重复1次或更多次
- ? 重复0次或1次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
#匹配8位数字qq号 ^d{8}$ #匹配153开头11位手机号 ^(153)d{8}$ #匹配身份证号第7到14位(出生日期) ^d{7,14}$ #匹配以a开头的,0个或者多个以b结尾的字符串 ^ab*$
3. 分组
#匹配字符串中包含0到多个ab开头 ^(ab)*$
4. 条件或
正则用【|】表示或,当满足分支里任何一种条件时,就会匹配成功
#匹配手机号中联通的手机(联通号段130/131/132等) ^(130|131|132)d{8}$
5. 区间
正则提供‘[]’表示区间条件
- [0-9] 限定0到9
- [a-z] 限定a-z
- [165] 限定某些数字
java中使用正则表达式
这里会说一个例子:在一段txt文档中找出所有的网址
java与正则
1. 这里有一段100000000(自己数,我也不知道几个0)行的文本,如图
2. 高手写好的匹配url的正则(https?|ftp|file)://[-a-za-z0-9+&@#/%?=~_|!:,.;]+[-a-za-z0-9+&@#/%=~_|]
当然还有n多种方式
3. java代码献上
正则表达式匹配使用方式
/** * 参数1 regex:我们的正则字符串 * 参数2 就是一大段文本,这里用data表示 */ private string filterspecialstr(string regex, string data) { //sb存放正则匹配的结果 stringbuffer sb = new stringbuffer(); //编译正则字符串 pattern p = pattern.compile(regex); //利用正则去匹配 matcher matcher = p.matcher(data); //如果找到了我们正则里要的东西 while (matcher.find()) { //保存到sb中,"\r\n"表示找到一个放一行,就是换行 sb.append(matcher.group() + "\r\n"); } return sb.tostring(); }
4. 这里增加两个文件的读写
java读取文本文件
private string readfile(string pathname) { //读取到的文件内容放到这个sb里 stringbuffer sb = new stringbuffer(); //the java 7 try-with-resources syntax (automatic resource management) is nice (这种写法是java7的一种语法,自动管理资源,不理解自行百度) try (bufferedreader br = new bufferedreader(new filereader(pathname))) { string line; while ((line = br.readline()) != null) { sb.append(line + "\r\n"); } system.out.println("读取文件完成"); } catch (ioexception e) { e.printstacktrace(); } return sb.tostring(); }
java写入文本文件
private void writefile(string pathname, string data) { try { //文件不存在的话新建,存在覆盖 file file = new file(pathname); file.createnewfile(); //the java 7 try-with-resources syntax (automatic resource management) is nice try (bufferedwriter bw = new bufferedwriter(new filewriter(file))) { bw.write(data); bw.flush(); system.out.println("文件写入完成"); } catch (ioexception e) { e.printstacktrace(); } } catch (ioexception e) { e.printstacktrace(); } }
5. 执行结果
测试代码
把文档.txt读取到java中,然后处理完,最后写到我指定的文件中
public static void main(string[] args) { //0. 准备好正则 string regex = "(https?|ftp|file)://[-a-za-z0-9+&@#/%?=~_|!:,.;]+[-a-za-z0-9+&@#/%=~_|]"; //1. 读取文档 string data = readfile("f:\\test\\文档.txt"); //2. 正则查找 string needdata = filterspecialstr(regex, data); //3. 写到某个文件中 writefile("f:\\test\\needdata.txt", needdata); }
结果