股票数据抓取

程序员文章站 2022-06-03 17:53:02

...

在这个星期数据抓取项目中，由于是第一次接触，了解的东西东西也不多，而且也尚无经验可言，所以进度也比较慢。对于数据的抓取，最重要的是要找出欲要取出的数据，而这就涉及到正则表达式的理解与运用。前几天一直都在查找正则表达式的相关资料，有些资料也确实比较实用，正则表达式相当于一门语言，学好它并不是那么容易，但由于有些资料上罗列的知识点清楚明了，并且举例也比较多（相关资料存于学习日志），这让我能在较短的时间内就能理解较为简单的正则表达式例子以及运用；而后，对于数据的抓取，将取出来的数据存入文档也很重要，这就涉及到了java io的运用，对于Java中文件的读入与输出也是很大的一块知识，而且其中的类和方法也颇多，虽然程序中有一部分的io运用，但我还不是很清楚其正确的用法以及输出的格式规则，所以现在程序中很大一个问题就是数据文档输出时的格式，数据没有对应的左对齐，而且在股票的条目中也存在一定问题，其间的空格还不匀称；最后，也就是数据的网页来源了，而这也涉及到了Java中net类的运用，通过对大量的资料以及jdk的帮助文档的学习，对于URL的相关方法也有了一定的了解。
刚开始的雏形代码如下：

import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Text0924 {

	public static void main(String[] args) throws IOException {

		String s;
		int i = 0;
		URL url = new URL(" http://money.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/600004.phtml");
		BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));
		FileOutputStream fos = new FileOutputStream("E:\\GuPiao.txt");
		OutputStreamWriter ows = new OutputStreamWriter(fos);
		Pattern q = Pattern.compile("((?<=g>)(\\w*?)).*?(?=(</strong>))");
		Pattern p = Pattern.compile("((?<=date=)(\\w*?)).*?(?=('>))|((?<=center\">)(\\d{1,7}?)).*?(?=(</div>))");
		String str = null;
		while ((str = br.readLine()) != null) {
			Matcher n = q.matcher(str);
			Matcher m = p.matcher(str);
			while (n.find()) {
				s = String.valueOf(n.group());
				ows.write(s + "		 ");
				System.out.printf("%-44s", n.group());

			}
			while (m.find()){
				if (i == 0) {
					System.out.println();
					ows.write("\r\n");
				}
				i++;
				s = String.valueOf(m.group());
				ows.write(s + "	   ");
				System.out.printf("%-22s", m.group());
				if (i % 7 == 0) {
					System.out.println();
					ows.write("\r\n");
				}
			}
		}
		ows.close();
		fos.close();
		br.close();
		br.close();

	}

}

但是对于这种格式，既给人一种杂乱的感觉，也不利于对其他人的阅读，而后我也对程序做了相对的改进，也加上很多注释，现程序如下：

/* import java.io.BufferedReader;
 * import java.io.File;
 * import java.io.FileReader;
 * import java.io.IOException;
 * import java.util.regex.Matcher;
 * import java.util.regex.Pattern;
 */
import java.io.*;
import java.net.*;
import java.util.regex.*;

public class GuPiaoShuJu {

	private static String getDocumnetAt(String urlString) {
		StringBuffer html_text = new StringBuffer();

		try {
			// 创建指向股票网址的链接
			URL url = new URL(urlString);
			// 创建链接
			URLConnection uc = url.openConnection();
			// 创建输入流
			BufferedReader reader = new BufferedReader(new InputStreamReader(uc.getInputStream()));
			// 将网页内容放到缓冲区
			String line = null;
			while ((line = reader.readLine()) != null) {
				html_text.append(line + " ");
			}
			// 关闭输入流
			reader.close();
		} catch (MalformedURLException e) {
			System.out.print("invalid url:" + urlString);
		} catch (IOException e) {
			e.printStackTrace();
		}
		return html_text.toString();
	}

	public void extractor(String urlString) throws IOException {
		// 文件输出流
		FileOutputStream fos = new FileOutputStream("E:\\GuPiao.txt");
		OutputStreamWriter ows = new OutputStreamWriter(fos);
		try {
			// 获得网页文本内容
			String str = GuPiaoShuJu.getDocumnetAt(urlString);
			// 创建提取股票数据来源的正则表达式
			Pattern gp_source = Pattern.compile("(?<=<th colspan=\"7\">|\"blue\">|</FONT>).*?(?=<|FONT|</th>)");
			Matcher mc = gp_source.matcher(str);
			String s1;
			while (mc.find()) {
				// 提取股票数据来源
				s1 = String.valueOf(mc.group());
				ows.write(s1);
				System.out.printf("%s", mc.group());
			}
			System.out.println();
			ows.write("\r\n");

			// 输出股票数据条目
			String s2;
			Pattern gp_item = Pattern
					.compile("(?<=<strong>).*?(?=(</strong>))");
			Matcher n = gp_item.matcher(str);
			while (n.find()) {
				s2 = String.valueOf(n.group());
				ows.write(s2 + "          ");
				System.out.printf("%-40s", n.group());
			}

			// 提取股票数据详细情况
			Pattern gp_data = Pattern.compile("((?<=date=)(\\w*?)).*?(?=('>))|((?<=center\">)(\\d{1,7}?)).*?(?=(</div>))");
			Matcher m = gp_data.matcher(str);
			String s3;
			int i = 0;
			while (m.find()) {
				if (i == 0)
					System.out.println();
				i++;
				s3 = String.valueOf(m.group());
				ows.write(s3 + "          ");

				System.out.printf("%-20s", m.group());
				if (i % 7 == 0) {
					System.out.println();
					ows.write("\r\n");
				}
			}
		} catch (IOException e) {
			e.printStackTrace();
		} catch (PatternSyntaxException e) {
			System.out.println("Regular expression syntax error");
		} catch (IllegalStateException e) {
			System.out.println("Do not find the pattern");
		} finally {
			if (ows != null) {
				ows.close();
				fos.close();
			}
		}
	}

	public static void main(String[] args) {
		GuPiaoShuJu test = new GuPiaoShuJu();
		try {
			test.extractor("http://money.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/600004.phtml");
		} catch (IOException e) {
			e.printStackTrace();
		}

	}

}

虽然对于程序中所涉及到的类与方法不一定全都非常熟悉，但这毕竟还是接触到的第一个比较复杂的程序，相对于自己看书来说，写一个程序能有目的性的去学习一些东西，而且自己更能体会这些东西。写完这个程序让我有了些许成就感，而且让我更有信心，相信以后还能学到更多的知识！

上一篇： CDR将一个字分割成两半的两种方法

下一篇：股票数据下载

股票数据抓取

SQL Server数据库的存储机制讲解

JQuery中使用ajax传输超大数据的解决方法教程

php 从数据库提取二进制图片的处理代码

封装一个PDO数据库操作类代码

第4章数据处理-php数组的处理-郑阿奇

IIS下PHP连接数据库提示mysql undefined function mysql_connect()

php数组对百万数据进行排除重复数据的实现代码

Python基础一：计算机基础，Python相关介绍，变量，常量，注释，基础数据类型（int，str，bool），用户交互input，流程控制语句if

第4章数据处理-php正则表达式-郑阿奇(续)

从Web查询数据库之PHP与MySQL篇

股票数据抓取

SQL Server数据库的存储机制讲解

JQuery中使用ajax传输超大数据的解决方法教程

php 从数据库提取二进制图片的处理代码

封装一个PDO数据库操作类代码

第4章 数据处理-php数组的处理-郑阿奇

IIS下PHP连接数据库提示mysql undefined function mysql_connect()

php数组对百万数据进行排除重复数据的实现代码

Python基础一： 计算机基础，Python相关介绍，变量，常量，注释，基础数据类型（int，str，bool），用户交互input，流程控制语句if

第4章 数据处理-php正则表达式-郑阿奇(续)

从Web查询数据库之PHP与MySQL篇

第4章数据处理-php数组的处理-郑阿奇

Python基础一：计算机基础，Python相关介绍，变量，常量，注释，基础数据类型（int，str，bool），用户交互input，流程控制语句if

第4章数据处理-php正则表达式-郑阿奇(续)