欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Nutch 0.9笔记 博客分类: Java luceneXSLApacheXMLJVM 

程序员文章站 2024-02-21 08:27:34
...
      一直留意Lucene,Nutch的进展,最近这两个项目都发展得非常快,Lucne已发展到 2.1,Nutch已发展到 0.9,改进了很多,令人欣喜。
      今天小试了一下Nutch-0.9,笔记如下:
      
1、解压Nutch包,在Nutch根目录下建目录urls,里面建一些包含URL的文本如urlt.txt,一行一个URL,内容如:http://www.blogjava.net
http://www.iteye.com/


2、修改conf目录下的crawl-urlfilter.txt,片断如下:
# accept hosts in MY.DOMAIN.NAME
# +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://www.blogjava.net/
+^http://www.iteye.com/
+^http://lucene.apache.org/

3、修改conf目录下的nutch-site.xml,内容如下:
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM <?xml version="1.0"?>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
<!-- Put site-specific property overrides in this file. -->
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
<configuration>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<name>http.agent.name</name>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<value>Nutch</value>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<description>HTTP 'User-Agent' request header. MUST NOT be empty - 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       please set this to a single word uniquely related to your organization.
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       NOTE: You should also check other related properties:
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         http.robots.agents
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         http.agent.description
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         http.agent.url
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         http.agent.email
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         http.agent.version
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       and set their values appropriately.
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
</description>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
</property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<name>http.robots.agents</name>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<value>Nutch,*</value>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<description>The agent strings we'll look for in robots.txt files,
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       comma-separated, in decreasing order of precedence. You should
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       put the value of http.agent.name as the first agent name, and keep the
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       default * at the end of the list. E.g.: BlurflDev,Blurfl,*
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
</description>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
</property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<name>http.agent.description</name>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<value>Nutch Search Engineer</value>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<description>Further description of our bot- this text is used in
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       the User-Agent header.  It appears in parenthesis after the agent name.
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
</description>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
</property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<name>http.agent.url</name>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<value>http://lucene.apache.org/nutch/bot.html</value>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<description>A URL to advertise in the User-Agent header.  This will 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM        appear in parenthesis after the agent name. Custom dictates that this
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM        should be a URL of a page explaining the purpose and behavior of this
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM        crawler.
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
</description>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
</property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<name>http.agent.email</name>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<value>nutch-agent@lucene.apache.org</value>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
<description>An email address to advertise in the HTTP 'From' request
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM        header and User-Agent header. A good practice is to mangle this
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM        address (e.g. 'info at example dot com') to avoid spamming.
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM       
</description>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
</property>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
</configuration>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 

注意:在nutch-0.9.jar里面已包含nutch-site.xml,  conf目录下的文件都复制过到classpath根下,如果是在WEB环境下运行classpath下的nutch-site.xml会优先加载,如果在在Application环境运行,应把如上nutch-site.xml打入到nutch-0.9.jar包里,否则,上面的一些属性为空不能运行。


4、在Windows下运行Nutch,很简单,只要你能执行Crawl这个类就行,写一个Ant脚本放在Nuthc的根目录下执行它就OK,内容如下:
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM <project name="nutch-crawl" default="crawl" basedir=".">
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<property name="lib.dir"  location="lib"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<property name="conf.dir"  location="conf"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<path id="project.classpath">
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<fileset dir="." includes="nutch-*.jar"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<fileset dir="lib" />
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<pathelement path="."/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<pathelement path="${conf.dir}"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
</path>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
<target name="crawl" >
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<echo>crwaling startingNutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM </echo>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<property name="JVM.extra.args" value="-Xmx512m" />
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<jvmarg line="${JVM.extra.args}"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<arg value="C:/dev-tools/nutch-0.9/urls"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<arg value="-dir"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<arg value="C:/dev-tools/nutch-0.9/crawl"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<arg value="-depth"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<arg value="3"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<arg value="-threads"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM             
<arg value="15"/>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
</java>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM         
<echo>crwaling finishedNutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM </echo>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
</target>
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM     
Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 
</project>

至此,如无意外,Nutch已经欢快地运行起来,最后在crawl目录下你会发现你想要的东西,Enjoy it! Nutch 0.9笔记
            
    
    博客分类: Java luceneXSLApacheXMLJVM 

小鱼 2007-04-27 11:09 发表评论