欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

java抓取网页或文件中的邮箱号码

程序员文章站 2024-03-02 17:57:58
本文实例为大家分享了java抓取邮箱号码的具体代码,供大家参考,具体内容如下 java抓取文件中邮箱号码的具体代码 package reg; impo...

本文实例为大家分享了java抓取邮箱号码的具体代码,供大家参考,具体内容如下

java抓取文件中邮箱号码的具体代码

package reg;


import java.io.bufferedreader;
import java.io.filenotfoundexception;
import java.io.filereader;
import java.io.ioexception;
import java.util.arraylist;
import java.util.list;
import java.util.regex.matcher;
import java.util.regex.pattern;


public class testemail {

public static void main(string[] args) {
// todo auto-generated method stub
 bufferedreader br=null;
 try {
br=new bufferedreader(new filereader("d:/1.htm"));
string str=null;
stringbuilder sb=new stringbuilder();
while((str=br.readline())!=null){
sb.append(str);
}
list es=getemail(sb.tostring());
for(string e:es){
system.out.println(e);
}
} catch (filenotfoundexception e) {
// todo: handle exception
e.printstacktrace();
}catch (ioexception e) {
// todo: handle exception
e.printstacktrace();
}finally {
try {
if(br!=null) br.close();
} catch (ioexception e) {
// todo: handle exception
e.printstacktrace();
}
}
}
 public static list getemail(string str){
 list es=new arraylist();
pattern p=pattern.compile("[\\w\\.-]*\\w+@[\\w\\.-]*\\w+\\.\\w{2,5}");
// pattern p=pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");
 matcher m=p.matcher(str);
 while(m.find()){
 es.add(m.group());
 }
 return es;
 }
}

java抓取网页或文件中的邮箱号码

java抓取网页中邮箱号码的具体代码

package reg;

import java.io.bufferedreader; 
import java.io.inputstreamreader; 
import java.util.regex.matcher; 
import java.util.regex.pattern; 
 
public class testemail01 
{ 
 public static string getwebcon(string domain) 
 { 
 system.out.println("开始抓取邮件地址..("+domain+")"); 
 stringbuffer sb=new stringbuffer(); 
 try 
 { 
 java.net.url url=new java.net.url(domain); 
 bufferedreader in=new bufferedreader(new inputstreamreader(url.openstream())); 
 string line; 
 while((line=in.readline())!=null) 
 { 
 parse(line); 
 } 
 in.close(); 
 } 
 catch(exception e) 
 { 
 sb.append(e.tostring()); 
 system.err.println(e); 
 
 } 
 return sb.tostring(); 
 } 
 public static void main(string[] args) 
 { 
 string s=testemail01.getwebcon("http://tieba.baidu.com/p/2366935784"); 
 } 
 private static void parse(string line) 
 { 
 pattern p=pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");//邮箱的正则表达式 
 matcher m=p.matcher(line); 
 while(m.find()) 
 { 
 system.out.println(m.group()); 
 } 
 } 
}

java抓取网页或文件中的邮箱号码

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。