毕业设计4－－－爬虫的研究博客分类：毕业设计搜索引擎Web算法Linux数据挖掘

程序员文章站 2024-03-23 11:27:46

...

昨天研究的NUTCH，是个完整的项目，虽然功能很强，但据说自定义性并不是很出色（自己还没有时间去时间一下），所以现在有必要研究一下单纯的Crawl，这里有JSPIDER（java）, LARBIN（c++, 好像一定要在LINUX环境下，不知道有没有WINDOWS版的）, websphinx(java)。（另外carrot2 聚类搜索也挺有意思，LARBIN的相关资料http://www.matrix.org.cn/thread.shtml?topicId=22644&forumId=32）。

根据毕业设计的题目要求：

－－－－－－－－－－－－－－－－－－－－－－－－－－－－

对Web搜索引擎返回的页面进行自动的分类。Web搜索引擎返回的页面是动态的，其文档分类的类别是未知的、不固定的。根据页面内容自身的差异，使用文档聚类的方法对页面进行自动归类。本系统包含以下几个子功能：<o:p></o:p>

1.从搜索引擎获得Web页面<o:p></o:p>

2.Web网页文档的预处理<o:p></o:p>

3.文档聚类算法<o:p></o:p>

4.Web文档聚类结果的可视化展现<o:p></o:p>

要求：<o:p></o:p>

Java/C++编程；<o:p></o:p>

数据挖掘算法；

－－－－－－－－－－－－－－－－－－－－－－

发现论文题目的意思可能并不是要自己实现爬虫从网上抓取网页，可能直接从其他web搜索引擎得到网页（很郁闷，到现在导师还不开会，确定我们的论题，害得我们这么早跑到学校又不知所错，还有是要做成自动归类还是自动聚类也没搞清楚）。所以下午研究了下GOOGLE API，也看了一下元搜索引擎，还没仔细看，先记录到这里了。