java抓取网页或文件中的邮箱号码
程序员文章站
2024-03-02 17:57:58
本文实例为大家分享了java抓取邮箱号码的具体代码,供大家参考,具体内容如下
java抓取文件中邮箱号码的具体代码
package reg;
impo...
本文实例为大家分享了java抓取邮箱号码的具体代码,供大家参考,具体内容如下
java抓取文件中邮箱号码的具体代码
package reg; import java.io.bufferedreader; import java.io.filenotfoundexception; import java.io.filereader; import java.io.ioexception; import java.util.arraylist; import java.util.list; import java.util.regex.matcher; import java.util.regex.pattern; public class testemail { public static void main(string[] args) { // todo auto-generated method stub bufferedreader br=null; try { br=new bufferedreader(new filereader("d:/1.htm")); string str=null; stringbuilder sb=new stringbuilder(); while((str=br.readline())!=null){ sb.append(str); } list es=getemail(sb.tostring()); for(string e:es){ system.out.println(e); } } catch (filenotfoundexception e) { // todo: handle exception e.printstacktrace(); }catch (ioexception e) { // todo: handle exception e.printstacktrace(); }finally { try { if(br!=null) br.close(); } catch (ioexception e) { // todo: handle exception e.printstacktrace(); } } } public static list getemail(string str){ list es=new arraylist(); pattern p=pattern.compile("[\\w\\.-]*\\w+@[\\w\\.-]*\\w+\\.\\w{2,5}"); // pattern p=pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+"); matcher m=p.matcher(str); while(m.find()){ es.add(m.group()); } return es; } }
java抓取网页中邮箱号码的具体代码
package reg; import java.io.bufferedreader; import java.io.inputstreamreader; import java.util.regex.matcher; import java.util.regex.pattern; public class testemail01 { public static string getwebcon(string domain) { system.out.println("开始抓取邮件地址..("+domain+")"); stringbuffer sb=new stringbuffer(); try { java.net.url url=new java.net.url(domain); bufferedreader in=new bufferedreader(new inputstreamreader(url.openstream())); string line; while((line=in.readline())!=null) { parse(line); } in.close(); } catch(exception e) { sb.append(e.tostring()); system.err.println(e); } return sb.tostring(); } public static void main(string[] args) { string s=testemail01.getwebcon("http://tieba.baidu.com/p/2366935784"); } private static void parse(string line) { pattern p=pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");//邮箱的正则表达式 matcher m=p.matcher(line); while(m.find()) { system.out.println(m.group()); } } }
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。