java 爬虫详解及简单实例

程序员文章站 2024-02-13 23:34:28

java爬虫一、代码爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。打开网页： url url = new url(http:...

java爬虫

一、代码

爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。

打开网页：

url url = new url(http://www.cnblogs.com/renyi-fan/p/6896901.html);

读取网页内容：

bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream()));

正则表达式进行匹配：

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

储存结果：

list<string> list = new arraylist<string>();

/*
* 获取
* 将正则规则进行对象的封装。
* pattern p = pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象matcher .
* matcher m = p.matcher("aaaaab");
* //通过matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/

import java.io.bufferedreader;
import java.io.filenotfoundexception;
import java.io.filereader;
import java.io.ioexception;
import java.io.inputstreamreader;
import java.net.url;
import java.util.arraylist;
import java.util.list;
import java.util.regex.matcher;
import java.util.regex.pattern;

public class spider {

  public static void main(string[] args) throws ioexception {
//    list<string> list = getmails();
//    for(string mail : list){
//      system.out.println(mail);
//    }
  
    list<string> list = getmailsbyweb();
    for(string mail : list){
      system.out.println(mail);
    }
  }

  public static list<string> getmailsbyweb() throws ioexception{
    //1,读取源文件。
    //url url = new url("http://192.168.1.100:8080/myweb/mail.html");
    //url url = new url("http://localhost:8080/secondweb/index.jsp");
    url url = new url("http://www.cnblogs.com/renyi-fan/p/6896901.html");

    bufferedreader bufr = new bufferedreader(new inputstreamreader(url.openstream()));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    string mail_regex = "\\w+@\\w+(\\.\\w+)+";

    list<string> list = new arraylist<string>();

    pattern p = pattern.compile(mail_regex);
    string line = null;

    while((line=bufr.readline())!=null){

      matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }

  public static list<string> getmails() throws ioexception{
    //1,读取源文件。
    bufferedreader bufr = new bufferedreader(new filereader("c:\\mail.html"));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    string mail_regex = "\\w+@\\w+(\\.\\w+)+";

    list<string> list = new arraylist<string>();

    pattern p = pattern.compile(mail_regex);
    string line = null;

    while((line=bufr.readline())!=null){

      matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }
}

二、运行结果

abc1@sina.com.cn
1@1.1

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

上一篇： iOS 键盘输入限制(只能输入字母,数字,禁止输入特殊符号)

下一篇：二维码生成Java实现代码

java 爬虫详解及简单实例

Objective-C基础自定义对象归档详解及简单实例

IOS 文件读写操作详解及简单实例

java 爬虫详解及简单实例

Android 自定义阴影效果详解及实例

Android wifi 调试详解及简单实例

Java使用异或运算实现简单的加密解密算法实例代码

Java中final关键字详解及实例

java算法之二分查找法的实例详解

Java异或技操作给任意的文件加密原理及使用详解

java @interface 注解详解及实例

java 爬虫详解及简单实例

Objective-C基础 自定义对象归档详解及简单实例

IOS 文件读写操作详解及简单实例

java 爬虫详解及简单实例

Android 自定义阴影效果详解及实例

Android wifi 调试详解及简单实例

Java使用异或运算实现简单的加密解密算法实例代码

Java中final关键字详解及实例

java算法之二分查找法的实例详解

Java异或技操作给任意的文件加密原理及使用详解

java @interface 注解详解及实例

Objective-C基础自定义对象归档详解及简单实例