java简单网页抓取的实现方法

程序员文章站 2024-03-02 15:47:16

本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下：背景介绍一 tcp简介　　1 tcp 实现网络中点对点的传输　　2 传输是...

本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下：

背景介绍

一 tcp简介

　　1 tcp 实现网络中点对点的传输

　　2 传输是通过ports和sockets

　　ports提供了不同类型的传输（例如 http的port是80）

　　　　1）sockets可以绑定在特定端口上，并且提供传输功能

　　　　2）一个port可以连接多个socket

二 url简介

url 是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。

互联网上的每个文件都有一个唯一的url，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

综上，我们要抓取网页的内容实质上就是通过url来抓取网页内容。

java提供了两种方法：

一种是直接从url读取网页

一种是通过 urlconnection来读取网页

其中的urlconnection是以http为核心的类，提供了很多关于连接http的函数

本文将给出基于urlconnection的实例代码。

在此之前我们先来看下关于url的异常。不了解java异常机制的请参看上一篇博文。

构造url的异常malformedurlexception产生条件：url的字符串为空或者是不能辨认的协议

建立 urlconnection的异常 ioexception产生条件: openconnection失败，注意openconnection时代码还未连接远程，只是为连接远程做准备

综上所述,最终代码如下：

复制代码代码如下:

import java.io.bufferedreader;
import java.io.ioexception;
import java.io.inputstreamreader;
import java.net.httpurlconnection;
import java.net.malformedurlexception;
import java.net.url;
import java.net.urlconnection;

public class simplenetspider {

public static void main(string[] args) {

        try{
            url u = new url("http://docs.oracle.com/javase/tutorial/networking/urls/");
            urlconnection connection = u.openconnection();
            httpurlconnection htcon = (httpurlconnection) connection;
            int code = htcon.getresponsecode();
            if (code == httpurlconnection.http_ok)
            {
                system.out.println("find the website");
                bufferedreader in=new bufferedreader(new inputstreamreader(htcon.getinputstream()));
                string inputline;
                while ((inputline = in.readline()) != null)
                        system.out.println(inputline);
                    in.close();
            }
            else
            {
                system.out.println("can not access the website");
            }
        }
        catch(malformedurlexception e )
        {
            system.out.println("wrong url");
        }
        catch(ioexception e)
        {
            system.out.println("can not connect");
        }
    }
}

希望本文所述对大家的java程序设计有所帮助。

上一篇： Java工具jsch.jar实现上传下载

下一篇： php封装的表单验证类完整实例

java简单网页抓取的实现方法

java简单网页抓取的实现方法

java通过控制鼠标实现屏幕广播的方法

Java实现CORS跨域请求的实现方法

Java实现数组反转翻转的方法实例

简单实现SQLServer转MYSQL的方法

Java实现后台发送及接收json数据的方法示例

利用PHP绘图函数实现简单验证码功能的方法

java实现oracle插入当前时间的方法

java实现电脑定时关机的方法

java在网页上面抓取邮件地址的方法