20.5网络编程--爬虫原理

程序员文章站 2022-06-05 19:57:24

...

网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分
实现过程主要分为以下几部分:

有一个URl(理论上只要对方同意,可以下载任意网络资源)
下载数据
数据分析(会通过正则表达式)
数据抽取
数据清除
数据存储

package study;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

public class Exercise {

	public static void main(String[] args) throws Exception {
//爬虫获取网络资源的基本步骤
		URL u=new URL("https://www.jd.com");
		//https可以看出http的升级版,更安全,现在大部分用这个
		InputStream i=u.openStream();
		BufferedReader b=new BufferedReader(new InputStreamReader(i, "UTF-8"));//下载资源也是通过数据流
		String s=null;
		while(null!=(s=b.readLine())) {
			System.out.println(s);//可写到文件中去
		}

	}

}

上一篇：独家：GWT 2.0即将发布，特性预览

下一篇： PHP 计算器解决办法

20.5网络编程--爬虫原理

浅谈Scrapy网络爬虫框架的工作原理和数据采集

网络爬虫(网页追逐者)是什么网络爬虫原理详情介绍

python网络爬虫-cookie的原理、保存与加载

浅谈Scrapy网络爬虫框架的工作原理和数据采集

Java网络编程之UDP实现原理解析

Java网络编程——TCP通信原理（这个是真简单哦！！！点进来看看就知道了）

网络编程概念、UDP通信程序和TCP通信程序的通信原理及实现程序

Java网络编程之爬虫--计算机网络、应用层协议的综合应用

python网络爬虫进阶之HTTP原理，爬虫的基本原理，Cookies和代理介绍

网络编程原理TCP/IP和TCP、UDP

20.5网络编程--爬虫原理

浅谈Scrapy网络爬虫框架的工作原理和数据采集

网络爬虫(网页追逐者)是什么 网络爬虫原理详情介绍

python网络爬虫-cookie的原理、保存与加载

浅谈Scrapy网络爬虫框架的工作原理和数据采集

Java网络编程之UDP实现原理解析

Java网络编程——TCP通信原理（这个是真简单哦！！！点进来看看就知道了）

网络编程概念、UDP通信程序和TCP通信程序的通信原理及实现程序

Java网络编程之爬虫--计算机网络、应用层协议的综合应用

python网络爬虫进阶之HTTP原理，爬虫的基本原理，Cookies和代理介绍

网络编程原理TCP/IP和TCP、UDP

网络爬虫(网页追逐者)是什么网络爬虫原理详情介绍