Nutch:从搜索引擎到网络爬虫——开源力量公开课第31期
程序员文章站
2022-03-08 16:26:51
...
开源力量公开课第31期课程题目——Nutch:从搜索引擎到网络爬虫
开课时间:2013年9月17日 19:00 - 21:30
现场或线上参课:
报名:
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。
课程大纲:
杨尚川,系统架构设计师,系统分析师,2013年度优秀开源项目APDPlat发起人,资深Nutch搜索引擎专家。多年专业的软件研发经验,从事过管理信息系统(MIS)开发、移动智能终端(Win CE、Android、Java ME)开发、搜索引擎(nutch、lucene、solr、elasticsearch)开发、大数据分析处理(Hadoop、Hbase、Pig、Hive)等工作。目前为独立咨询顾问,专注于大数据、搜索引擎等相关技术,为客户提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解决方案、技术支持、技术咨询以及培训等服务。
时间安排:
更多信息:http://www.osforce.cn
开课时间:2013年9月17日 19:00 - 21:30
现场或线上参课:
- 现场参加(免费):北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面) (上海的同学注意了!:本期公开课在北京举行,不在上海,上海的同学需要通过线上参与)
- 线上直播(免费):邮件报名后将即时提供线上参课网址
报名:
- 发邮件到 osf@osforce.cn ,邮件标题:开源力量公开课第30期, 邮件正文:在线或现场+姓名+公司+职位+联系电话
- 邮件报名后,我们将即时回复线上参课网址
- 若未收到不要前往现场的邮件,默认表示通过
- 不接受未报名空降,拒绝放鸽子
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。
课程大纲:
- Nutch是什么?
- Nutch的设计初衷?
- 为什么要学习Nutch?
- Nutch的设计目标
- Nutch的发展历程
- Nutch的整体架构
- Nutch 3大分支版本
- Nutch的应用领域
- Nutch的使用
杨尚川,系统架构设计师,系统分析师,2013年度优秀开源项目APDPlat发起人,资深Nutch搜索引擎专家。多年专业的软件研发经验,从事过管理信息系统(MIS)开发、移动智能终端(Win CE、Android、Java ME)开发、搜索引擎(nutch、lucene、solr、elasticsearch)开发、大数据分析处理(Hadoop、Hbase、Pig、Hive)等工作。目前为独立咨询顾问,专注于大数据、搜索引擎等相关技术,为客户提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解决方案、技术支持、技术咨询以及培训等服务。
时间安排:
- 18:30 - 19:00:自我介绍
- 19:00 - 21:00:讲课
- 21:00 - 21:30:*交流
更多信息:http://www.osforce.cn
下一篇: JDK自带格式化方法之四舍五入