以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码。当然,nutch对于爬虫考虑的是十分全面和细致的。每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候,总感觉这很黑科技。正好这次借助梳理spring mvc的机会,想自己弄个小爬虫,简单没关系,有些小bug也无所谓,我需要的只是一个能针对某个种子网站能爬取我想要的信息就可以了。有exception就去解决,可能是一些api使用不当,也可能是遇到了http请求状态异常,又或是数据库读写有问题,就是在这个报exception和解决exception的过程中,jewelcrawler(儿子的小名)已经可以能够独立的爬取数据,并且还有一项基于word2vec算法做个情感分析的小技能。



开发工具:intellij idea 14

数据库: mysql 5.5 + 数据库管理工具navicat(可用来连接查询数据库)












  •     constants包是存放常量类
  •     crawl包存放爬虫入口程序
  •     entity包映射数据库表的实体类
  •     test包存放测试类
  •     utils包存放工具类


  •     beans.xml:spring上下文的配置文件
  •     seed.properties:种子文件
  •     stopwords.dic:停用词库
  •     comment12031715.txt:爬取的短评数据
  •     tokenizerresult.txt:使用ikanalyzer分词后的结果文件
  •     vector.mod:基于word2vec算法训练的模型数据



1. 添加依赖的包



























2. 声明数据源bean


 <context:property-placeholder location="classpath*:*.properties"/>

<bean id="datasource" class="org.apache.commons.dbcp.basicdatasource" destroy-method="close">

  <property name="driverclassname" value="${jdbc.driver}"/>

  <property name="url" value="${jdbc.url}"/>

  <property name="username" value="${jdbc.username}"/>

  <property name="password" value="${jdbc.password}"/>


注意: 这里是绑定了外部配置文件jdbc.properties,具体数据源的参数从该文件读取。

如果遇到问题“sql [insert into user(id) values(?)]; field 'name' doesn't  have a default value;”解决方法是设置表的相应字段为自增长字段。























   <name>aliyun maven</name>









  public void testfile(){

    file seedfile = new file(this.getclass().getresource("/seed.properties").getpath());

    system.out.print("===========" + seedfile.length() + "===========" );





原因是这样的:这里如果不先调用find方法,直接调用group,可以发现group方法调用group(int group),该方法的方法体中有if first<0,显然这里这个条件是成立的,因为first的初始值就是-1,所以这里会抛异常。但是如果调用find方法,可以发现,最终会调用search(nextsearchindex),注意这里的nextsearchindex已被last赋值,而last的值为0,再跳转到search方法中

boolean search(int from) {

  this.hitend = false;

  this.requireend = false;

  from    = from < 0 ? 0 : from;

  this.first = from;

  this.oldlast = oldlast < 0 ? from : oldlast;

  for (int i = 0; i < groups.length; i++)

    groups[i] = -1;

  acceptmode = noanchor;

  boolean result = parentpattern.root.match(this, from, text);

  if (!result)

    this.first = -1;

  this.oldlast = this.last;

  return result;














