java 爬虫详解及简单实例

程序员文章站 2024-02-21 08:10:46

java爬虫一、代码爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。打开网页： url url = new url(http:...

java爬虫

一、代码

爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。

打开网页：

url url = new url(http://www.cnblogs.com/renyi-fan/p/6896901.html);

读取网页内容：

bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream()));

正则表达式进行匹配：

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

储存结果：

list<string> list = new arraylist<string>();

/*
* 获取
* 将正则规则进行对象的封装。
* pattern p = pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象matcher .
* matcher m = p.matcher("aaaaab");
* //通过matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/

import java.io.bufferedreader;
import java.io.filenotfoundexception;
import java.io.filereader;
import java.io.ioexception;
import java.io.inputstreamreader;
import java.net.url;
import java.util.arraylist;
import java.util.list;
import java.util.regex.matcher;
import java.util.regex.pattern;

public class spider {

  public static void main(string[] args) throws ioexception {
//    list<string> list = getmails();
//    for(string mail : list){
//      system.out.println(mail);
//    }
  
    list<string> list = getmailsbyweb();
    for(string mail : list){
      system.out.println(mail);
    }
  }

  public static list<string> getmailsbyweb() throws ioexception{
    //1,读取源文件。
    //url url = new url("http://192.168.1.100:8080/myweb/mail.html");
    //url url = new url("http://localhost:8080/secondweb/index.jsp");
    url url = new url("http://www.cnblogs.com/renyi-fan/p/6896901.html");

    bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream()));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    string mail_regex = "\\w+@\\w+(\\.\\w+)+";

    list<string> list = new arraylist<string>();

    pattern p = pattern.compile(mail_regex);
    string line = null;

    while((line=bufr.readline())!=null){

      matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }

  public static list<string> getmails() throws ioexception{
    //1,读取源文件。
    bufferedreader bufr = new bufferedreader(new filereader("c:\\mail.html"));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    string mail_regex = "\\w+@\\w+(\\.\\w+)+";

    list<string> list = new arraylist<string>();

    pattern p = pattern.compile(mail_regex);
    string line = null;

    while((line=bufr.readline())!=null){

      matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }
}

二、运行结果

abc1@sina.com.cn
1@1.1

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

上一篇：未知大小图片在容器的垂直和水平居中问题

java 爬虫详解及简单实例

python getopt详解及简单实例

sql format()函数的用法及简单实例

FasfDFS整合Java实现文件上传下载功能实例详解

Java 生成随机字符串数组的实例详解

java list 比较详解及实例

JCrontab简单入门实例详解

Java 中IO流字符流详解及实例

Java多线程实战之单例模式与多线程的实例详解

java 中自定义OutputFormat的实例详解

Java中IO流字节流实例详解

java 爬虫详解及简单实例

python getopt详解及简单实例

sql format()函数的用法及简单实例

FasfDFS整合Java实现文件上传下载功能实例详解

Java 生成随机字符串数组的实例详解

java list 比较详解及实例

JCrontab简单入门实例详解

Java 中IO流字符流详解及实例

Java多线程实战之单例模式与多线程的实例详解

java 中自定义OutputFormat的实例详解

Java中IO流 字节流实例详解

Java中IO流字节流实例详解