Nutch源代码给我的收获
程序员文章站
2024-01-21 14:24:58
...
1)构建搜索引擎的一般模式。虽然,原来在读网络机器人这本书的时候就大致了解了构建一个搜索引擎所需要的几个组成部分,但只有真正接触Nutch这样真实,全面,可行的解决方案后,才真正能对搜索引擎的一般模式有所了解
2)并行编程和算法。以前就知道搜索引擎里的算法都是并行,但如何构建这样的程序完全没有谱。但Nutch给出了例子和答案。
3)map reduce模型。以前读过google lib里面关于map reduce的一篇论文,大致知道google是基于map reduce模型来构建并行程序的,但只停留在概念上,如何基于这样的模型写程序就不得而知了。Nutch基于hadoop架构。而hadoop架构就是基于map reduce模型。整个Nutch从crawl到fetch,从index到search都是基于map reduce模型,所以能够在Nutch里找到如何使用map reduce的方案
4)Plugin编程模型。以前就觉得Eclipse插件式模式很好,扩展性,管理性好,但如何在自己程序中构建这样的架构就不知道了。Nutch也是基于Eclipse Plugin的模式,它的源代码能告诉你该如何构建Plugin编程模型
5)对于各种文档的解析。Nutch自带有对各种文档解析的Plugin。读读这些Plugin的源代码后就知道该如何解析诸如Html,pdf,excel,word等格式的文档
其他收获待续......
2)并行编程和算法。以前就知道搜索引擎里的算法都是并行,但如何构建这样的程序完全没有谱。但Nutch给出了例子和答案。
3)map reduce模型。以前读过google lib里面关于map reduce的一篇论文,大致知道google是基于map reduce模型来构建并行程序的,但只停留在概念上,如何基于这样的模型写程序就不得而知了。Nutch基于hadoop架构。而hadoop架构就是基于map reduce模型。整个Nutch从crawl到fetch,从index到search都是基于map reduce模型,所以能够在Nutch里找到如何使用map reduce的方案
4)Plugin编程模型。以前就觉得Eclipse插件式模式很好,扩展性,管理性好,但如何在自己程序中构建这样的架构就不知道了。Nutch也是基于Eclipse Plugin的模式,它的源代码能告诉你该如何构建Plugin编程模型
5)对于各种文档的解析。Nutch自带有对各种文档解析的Plugin。读读这些Plugin的源代码后就知道该如何解析诸如Html,pdf,excel,word等格式的文档
其他收获待续......
上一篇: 铁矿检验迈向人工智能化
下一篇: thinkphp中怎么办上传文件
推荐阅读