欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

java 爬虫详解及简单实例

程序员文章站 2024-02-13 23:34:28
java爬虫 一、代码 爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。 打开网页: url url = new url(http:...

java爬虫

一、代码

爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。

打开网页:

url url = new url(http://www.cnblogs.com/renyi-fan/p/6896901.html);

读取网页内容:

bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream()));

正则表达式进行匹配:

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

储存结果:

list<string> list = new arraylist<string>();

/*
* 获取
* 将正则规则进行对象的封装。
* pattern p = pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象matcher .
* matcher m = p.matcher("aaaaab");
* //通过matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/

import java.io.bufferedreader;
import java.io.filenotfoundexception;
import java.io.filereader;
import java.io.ioexception;
import java.io.inputstreamreader;
import java.net.url;
import java.util.arraylist;
import java.util.list;
import java.util.regex.matcher;
import java.util.regex.pattern;

public class spider {

  public static void main(string[] args) throws ioexception {
//    list<string> list = getmails();
//    for(string mail : list){
//      system.out.println(mail);
//    }
  
    list<string> list = getmailsbyweb();
    for(string mail : list){
      system.out.println(mail);
    }
  }

  public static list<string> getmailsbyweb() throws ioexception{
    //1,读取源文件。
    //url url = new url("http://192.168.1.100:8080/myweb/mail.html");
    //url url = new url("http://localhost:8080/secondweb/index.jsp");
    url url = new url("http://www.cnblogs.com/renyi-fan/p/6896901.html");

    bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream()));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    string mail_regex = "\\w+@\\w+(\\.\\w+)+";

    list<string> list = new arraylist<string>();

    pattern p = pattern.compile(mail_regex);
    string line = null;

    while((line=bufr.readline())!=null){

      matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }

  public static list<string> getmails() throws ioexception{
    //1,读取源文件。
    bufferedreader bufr = new bufferedreader(new filereader("c:\\mail.html"));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    string mail_regex = "\\w+@\\w+(\\.\\w+)+";

    list<string> list = new arraylist<string>();

    pattern p = pattern.compile(mail_regex);
    string line = null;

    while((line=bufr.readline())!=null){

      matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }
}

二、运行结果

abc1@sina.com.cn
1@1.1

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!