[原]基于体裁的中文网页自动分类的研究与实现
程序员文章站
2022-05-26 15:23:12
...
版权说明:本论文为原创性文章,已经公开发表在 中国科技论文在线 (http://www.paper.edu.cn)。未经许可不可剽窃、抄袭、转载,违者责任自负。引用者请注明出处如下:
赵文, 唐建雄. 基于体裁的中文网页自动分类的研究与实现[EB/OL]. 中国科技论文在线(http://www.paper.edu.cn), 2008,4.
论文下载地址:http://www.paper.edu.cn/paper.php?serial_number=200804-268&task=comment
论文摘要:
基于体裁的中文网页自动分类的研究与实现
E-mail:zw_79@163.com
摘 要:为了优化互联网信息检索系统,使其能更准确的从结果集中区分出满足用户需要的页面,本文提出了一种对网页按体裁分类的方法。该方法以网页的标签、形态、内容、词性作为体裁特征,并以特征项的频率、集中度和分散度三者结合为衡量标准,利用自动特征选取技术,从中选取出有价值的特征项;然后采用基于相似度加权的KNN分类算法对网页按体裁进行自动分类;最后设计和实现了分类系统,并进行了实验测试与结果分析。结果表明:分类器开放测试的平均精度达到80%。
关键词:网页分类;体裁;特征提取;K近邻算法
中图分类号:TP391 文献标识码:A
上一篇: php中的ini配置原理详解_PHP
下一篇: php基础知识:类与对象(1)