nutch 1.4成功在windows的配置和使用
资料准备:setup.exe 这个是在windows上模拟liunx用的一个终端,下载地址:http://www.cygwin.com/(安装后注意设置环境变量CYGWIN_HOME,然后把它的bin加到path目录)
nutch 1.4 下载地址:http://www.apache.org/dyn/closer.cgi/lucene/nutch/
ant 1.8 下载地址:http://ant.apache.org/
下载好nutch 后,将它存在E:/根目录下,其它目录也可以的,然后执行setup.exe安装cygwin,具体安装流程,就不多说了,那个网上挺多的。
下来,cmd->到nutch的根目录,执行ant,对整个工程进行编译,大概需要20分钟时间,去喝杯茶,放松一下吧。
编译完以后,要开eclipse,新建java project,使用nutch作为工程内容,然后next-> add libary 选择add class folder选中conf文件,完成就OK。
你在网上会发现很多解答提到crawl-urlfilter.txt,而在1.4是没有这个文件的,不过多了regex-urlfilter.txt,在这个里面加入+^http://([a-z0-9]*\.)*163\.com 这个代表只抓取www.163.com的内容,然后在nutch-site.xml
<property>
<name>http.agent.name</name>
<value>haininghacker</value>
</property>
<property>
<name>http.agent.url</name>
<value>www.163.com</value>
</property>
加入下面这段,现在还差最后一步,打开Run configurations.. 打开arguments选择,在program arguments里面输入urls -dir crawl -depth 5 -threads 4 -topN 10 然后在VM arguments输入-Xms64m -Xmx512m OK了,来享受抓取网页的成就感吧,running......
遇到问题:
nutch eclipse 下跑出现 IOException: Cannot run program "chmod": CreateProcess error=2, ?t?问题 :
问题原因:没有安装cygwin 或 没有配置环境变量
解决办法:安装并配置环境变量 bin到 path下 重启 eclipse 问题解决
来源:http://hi.baidu.com/haininghacker/blog/item/dd91173c08e882d89f3d6285.html
推荐阅读
-
nutch 1.4成功在windows的配置和使用
-
nutch 1.4成功在windows的配置和使用
-
在Windows的Apache服务器上配置对PHP和CGI的支持
-
Jira7.10.1在Windows环境下的安装和配置教程图解
-
pip在Linux和windows下的安装和使用
-
Apache+php在windows下的安装和配置
-
在windows下Oracle12c instant client和PL/SQL的安装和使用讲解
-
NoSQL和Redis简介及Redis在Windows下的安装和使用教程
-
CVSNT在Windows下的安装和使用
-
NoSQL和Redis简介及Redis在Windows下的安装和使用教程