信息检索
程序员文章站
2024-03-23 17:25:28
...
1. 信息检索(Information retrieval)基本原理:
提问标识(检索式)与 文献标识的对比.
2. 信息检索常用方法:
(一)布尔逻辑:
逻辑或(+,OR):
逻辑与(*,AND):
逻辑非(-,NOT):
(二)向量空间模型:
(三)概率模型:
3. 截词搜索: 又称干搜索,模糊检索.
-检索系统不同,截词符也不同,常用的截词符有: #,?,*
-氛围有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符).
-按截断的位置来分,截词可分为后截断,前截断,中截断三种类型。
后截断: comput*
前截断: *computer
中截断: *comput*
4. 限制检索: (即搜索条件).
5. 信息检索最重要的两个指标:
" 检全率 "与 " 检准率 "
6. 布尔检索的优缺点:
优点:
(1).简单,速度快
(2).查询表达式易于掌握.
缺点:
(1). 不够精确,不能反映不同 "项目" 对一个文档的重要程度的差异.
(2). 检索结果地位平等,无法排序.