Hadoop-Nutch学习整理(持续更新)
Nutch学习整理第一部分 单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类资料,不再赘述。Nutch的配置文件主要有两个: domain-urlfilter.txt 是用来配置所爬取网站的范
Nutch学习整理 第一部分 单机尝试 1、安装部署 Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。 Nutch的配置文件主要有两个:- domain-urlfilter.txt
是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
- nutch-site.xml
这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。
2、单机主要爬取命令 简单命令格式,不赘述。 bin/nutch crawl[-dir d] [-threads n] [-depth i] [-topN]
3、爬取结果解析 nutch爬取下来的网页信息,保存路径格式如下:主要爬取信息保存在路径segments下:
喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vcD4KPHVsPgo8bGk+Q3Jhd2xkYsrHy/nT0NDo0qrXpcihtcSzrMGsvdPQxc+iKLTmt8XPwtTYtcRVUkyjrLywz8LU2LXEyNXG2qOs08PAtNKzw+a4/NDCvOyy6cqxvOSjrNK7sOPU2sXAyKHE2sjdveLO9sq9sru74dPDtb2jqTxsaT5MaW5rZGLW0LTmt8W1xMrHy/nT0LOsway907ywxuTDv7j2way907XEwazI67XY1re6zcOqzsSxvqGjPGxpPlNlZ21lbnRztOa3xdelyKG1xNKzw+ajrNPryc/D5sG0vdPJ7rbIIGRlcHRoIM/gudijrGRlcHRoyejOqry41PLU2iBzZWdtZW50c8/Cyfqzyby4uPbS1MqxvOTD/MP7tcTX087EvP680KGjz8LA/b3YzbzKxwogLWRlcHRoPTMKCjxpbWcgc3JjPQ=="http://www.2cto.com/uploadfile/Collfiles/20141127/2014112709151123.jpg" alt="\">
Segments下的文件夹含义:- crawl_generate :names a set of urls to be fetched
- crawl_fetch : contains the status of fetching each url
- crawl_parse : contains the outlink urls, used to update the crawldb
- content : contains the content of each url
- parse_text : contains the parsed text of each url
- parse_data : contains
outlinks and metadata parsed from each url
- nutch-site.xml
这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。