java 爬虫详解及简单实例
程序员文章站
2024-02-21 08:10:46
java爬虫
一、代码
爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
打开网页:
url url = new url(http:...
java爬虫
一、代码
爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
打开网页:
url url = new url(http://www.cnblogs.com/renyi-fan/p/6896901.html);
读取网页内容:
bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream()));
正则表达式进行匹配:
tring mail_regex = "\\w+@\\w+(\\.\\w+)+";
储存结果:
list<string> list = new arraylist<string>();
/*
* 获取
* 将正则规则进行对象的封装。
* pattern p = pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象matcher .
* matcher m = p.matcher("aaaaab");
* //通过matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/
import java.io.bufferedreader; import java.io.filenotfoundexception; import java.io.filereader; import java.io.ioexception; import java.io.inputstreamreader; import java.net.url; import java.util.arraylist; import java.util.list; import java.util.regex.matcher; import java.util.regex.pattern; public class spider { public static void main(string[] args) throws ioexception { // list<string> list = getmails(); // for(string mail : list){ // system.out.println(mail); // } list<string> list = getmailsbyweb(); for(string mail : list){ system.out.println(mail); } } public static list<string> getmailsbyweb() throws ioexception{ //1,读取源文件。 //url url = new url("http://192.168.1.100:8080/myweb/mail.html"); //url url = new url("http://localhost:8080/secondweb/index.jsp"); url url = new url("http://www.cnblogs.com/renyi-fan/p/6896901.html"); bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream())); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. string mail_regex = "\\w+@\\w+(\\.\\w+)+"; list<string> list = new arraylist<string>(); pattern p = pattern.compile(mail_regex); string line = null; while((line=bufr.readline())!=null){ matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static list<string> getmails() throws ioexception{ //1,读取源文件。 bufferedreader bufr = new bufferedreader(new filereader("c:\\mail.html")); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. string mail_regex = "\\w+@\\w+(\\.\\w+)+"; list<string> list = new arraylist<string>(); pattern p = pattern.compile(mail_regex); string line = null; while((line=bufr.readline())!=null){ matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } }
二、运行结果
abc1@sina.com.cn 1@1.1
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
上一篇: 未知大小图片在容器的垂直和水平居中问题