Nutch 0.9笔记博客分类： Java luceneXSLApacheXMLJVM

程序员文章站 2024-02-21 08:27:46

...

      一直留意Lucene,Nutch的进展，最近这两个项目都发展得非常快，Lucne已发展到 2.1,Nutch已发展到 0.9，改进了很多，令人欣喜。
      今天小试了一下Nutch-0.9,笔记如下：

1、解压Nutch包，在Nutch根目录下建目录urls,里面建一些包含URL的文本如urlt.txt，一行一个URL,内容如：http://www.blogjava.net
http://www.iteye.com/

2、修改conf目录下的crawl-urlfilter.txt,片断如下：
# accept hosts in MY.DOMAIN.NAME
# +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://www.blogjava.net/
+^http://www.iteye.com/
+^http://lucene.apache.org/

3、修改conf目录下的nutch-site.xml，内容如下：

<?xml version="1.0"?>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<configuration>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<name>http.agent.name</name>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<value>Nutch</value>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<description>HTTP 'User-Agent' request header. MUST NOT be empty -
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

please set this to a single word uniquely related to your organization.
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

NOTE: You should also check other related properties:
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

http.robots.agents
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

http.agent.description
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

http.agent.url
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

http.agent.email
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

http.agent.version
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

and set their values appropriately.
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</description>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<name>http.robots.agents</name>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<value>Nutch,*</value>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<description>The agent strings we'll look for in robots.txt files,
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

comma-separated, in decreasing order of precedence. You should
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

put the value of http.agent.name as the first agent name, and keep the
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

default * at the end of the list. E.g.: BlurflDev,Blurfl,*
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</description>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<name>http.agent.description</name>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<value>Nutch Search Engineer</value>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<description>Further description of our bot- this text is used in
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

the User-Agent header. It appears in parenthesis after the agent name.
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</description>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<name>http.agent.url</name>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<value>http://lucene.apache.org/nutch/bot.html</value>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<description>A URL to advertise in the User-Agent header. This will
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

appear in parenthesis after the agent name. Custom dictates that this
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

should be a URL of a page explaining the purpose and behavior of this
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

crawler.

</description>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<name>http.agent.email</name>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<value>nutch-agent@lucene.apache.org</value>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<description>An email address to advertise in the HTTP 'From' request
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

header and User-Agent header. A good practice is to mangle this
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

address (e.g. 'info at example dot com') to avoid spamming.
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</description>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</property>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</configuration>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

注意：在nutch-0.9.jar里面已包含nutch-site.xml， conf目录下的文件都复制过到classpath根下，如果是在WEB环境下运行classpath下的nutch-site.xml会优先加载，如果在在Application环境运行，应把如上nutch-site.xml打入到nutch-0.9.jar包里，否则，上面的一些属性为空不能运行。

4、在Windows下运行Nutch，很简单，只要你能执行Crawl这个类就行，写一个Ant脚本放在Nuthc的根目录下执行它就OK，内容如下：

<project name="nutch-crawl" default="crawl" basedir=".">
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<property name="lib.dir" location="lib"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<property name="conf.dir" location="conf"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<path id="project.classpath">
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<fileset dir="." includes="nutch-*.jar"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<fileset dir="lib" />
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<pathelement path="."/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<pathelement path="${conf.dir}"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</path>

<target name="crawl" >
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<echo>crwaling starting Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</echo>

<property name="JVM.extra.args" value="-Xmx512m" />
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<jvmarg line="${JVM.extra.args}"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<arg value="C:/dev-tools/nutch-0.9/urls"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<arg value="-dir"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<arg value="C:/dev-tools/nutch-0.9/crawl"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<arg value="-depth"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<arg value="3"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<arg value="-threads"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

<arg value="15"/>
Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</java>

<echo>crwaling finished Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

</echo>

</target>

</project>

至此，如无意外，Nutch已经欢快地运行起来，最后在crawl目录下你会发现你想要的东西，Enjoy it! Nutch 0.9笔记

博客分类： Java luceneXSLApacheXMLJVM

小鱼 2007-04-27 11:09 发表评论

上一篇： JA-SIG（CAS）学习笔记博客分类： javaEE

下一篇： JSON 博客分类： xml及相关 jsonJavaScriptIBMXMLIDEA

Nutch 0.9笔记博客分类： Java luceneXSLApacheXMLJVM