lucene/solr中查询结果的分组/字段的压缩
程序员文章站
2022-07-09 10:25:47
...
原文链接:[url]http://blog.jteam.nl/2011/05/19/search-result-grouping-field-collapsing-in-lucene-solr/#more-3424[/url]
在搜索的项目中,我们经常有对搜索结果进行分组或对字段进行压缩的需求。[url=http://blog.jteam.nl/2009/10/20/result-grouping-field-collapsing-with-solr/]之前的文章[/url]提到这个功能已经添加到solr中并成为用户一个非常需要的特性。最近结果分组被作为一个扩展包加入到lucene3.1中,而在4.0中将直接作为一个模块。添加这个功能到lucene中使用起来将会更灵活。目前正在努力将结果分组放入到solr的3.X版本分支中。具体参考[url=https://issues.apache.org/jira/browse/SOLR-2524]SOLR-2524[/url]这意味着在solr3.2中我们将可以使用这个功能了!
[b][size=large]历史[/size][/b]
这个功能起于4年前,分支[url=https://issues.apache.org/jira/browse/SOLR-236]SOLR-236[/url]被创建的时候。那时结果分组关注于在结果集中对拥有相同字段值的文档进行压缩。随着时间的推移,越来越多的人开始使用这个补丁。很多人提交了一些新的特性、调优。而字段的压缩在Jira上作为一个补丁起始于3年前,用户需要对solr打补丁并运行在这个构建的版本上。这种明显是一种错误的方式,以至于在这方面的问题发给了Solr的邮件组。另外,在Jira上有很多关于字段分组的补丁,这让用户很迷惑 :shock:
去年9月结果分组在4.0-dev版中变的可用。字段压缩功能也被重写[url=https://issues.apache.org/jira/browse/SOLR-1682](SOLR-1682)[/url],并且性能也得到提升。另外,结果分组也被加入,所以这个特性有些小的改变。
最近,正尝试着放入[url=https://issues.apache.org/jira/browse/LUCENE-1421]LUCENE-1421[/url]。这个Jira创建的目的是暴露结果分组的功能给lucene。在Solr主干中,分组的代码将会被重写,并将分组模块放入到lucene中。在3.x版本中,它已经被作为一个扩展包了。目前还不能支持按方法(function)或查询(query)进行分组。[url=https://issues.apache.org/jira/browse/LUCENE-3099]LUCENE-3099[/url]已经被创建,不久lucene就可以使用这些功能了。
[b][size=large]Lucene的结果分组[/size][/b]
Lucene中的分组很容易使用,参考下面的例子。类[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/FirstPassGroupingCollector.java?view=markup]FirstPassGroupingCollector[/url]用来收集每组中有多少个文档;[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/SecondPassGroupingCollector.java?view=markup]SecondPassGroupingCollector[/url]收集有多少个分组。
如果search的性能耗费大,则可以考虑使用[url=http://svn.apache.org/viewvc/lucene/dev/trunk/lucene/src/java/org/apache/lucene/search/CachingCollector.java?view=markup]CachingCollector[/url]。这个cache可以缓存第一次search时的文档Id和评分,并提供给之后的查询使用。使用方法请参考[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/package.html?view=markup]grouping documentation[/url]。
有另一个收集器叫[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/AllGroupsCollector.java?view=markup]AllGroupsCollector[/url],它可以收集查询结果的所有组。下面的例子为得到各个分组收集的总数量:
通过[color=gray]MultiCollector[/color],[color=gray]AllGroupsCollector[/color]能很好的封装[color=gray]SecondPassGroupingCollector [/color]。[color=gray]AllGroupsCollector [/color]也能独立的在其他的收集器中使用。
[b][size=large]结果分组在solr中的使用[/size][/b]
现在Solr主干上还没有使用lucene 分组模块;它使用它自己的分组模块。Solr还没有使用lucene的分组模块的原因,是它还没有对function和query的支持。然而Solr3.1还没有实现分组的支持,用户仍需要自己下分支然后编译。更坏的是,很多用户还在使用过时的补丁SOLR-236,这是我为什么创建[url=https://issues.apache.org/jira/browse/SOLR-2524]SOLR-2524[/url]的原因.
SOLR-2524 分支涉及到集成lucene的扩展包到solr3.x分支中。这个版本也为集成分组模块的主干版本到Solr4.0中作为参考。Solr3.x的主干分组将支持相同的响应格式和请求参数,具体描述请参见[url=http://wiki.apache.org/solr/FieldCollapsing]Solr FieldCollapse wiki page[/url];它还不支持的功能还是function和query。
如果运行良好,这个分支将会提交到Solr3.2版本中,Solr的用户就可以直接使用啦 :D
篇外话:其实这个功能在3.2里没发布,改到3.3了。。。
在搜索的项目中,我们经常有对搜索结果进行分组或对字段进行压缩的需求。[url=http://blog.jteam.nl/2009/10/20/result-grouping-field-collapsing-with-solr/]之前的文章[/url]提到这个功能已经添加到solr中并成为用户一个非常需要的特性。最近结果分组被作为一个扩展包加入到lucene3.1中,而在4.0中将直接作为一个模块。添加这个功能到lucene中使用起来将会更灵活。目前正在努力将结果分组放入到solr的3.X版本分支中。具体参考[url=https://issues.apache.org/jira/browse/SOLR-2524]SOLR-2524[/url]这意味着在solr3.2中我们将可以使用这个功能了!
[b][size=large]历史[/size][/b]
这个功能起于4年前,分支[url=https://issues.apache.org/jira/browse/SOLR-236]SOLR-236[/url]被创建的时候。那时结果分组关注于在结果集中对拥有相同字段值的文档进行压缩。随着时间的推移,越来越多的人开始使用这个补丁。很多人提交了一些新的特性、调优。而字段的压缩在Jira上作为一个补丁起始于3年前,用户需要对solr打补丁并运行在这个构建的版本上。这种明显是一种错误的方式,以至于在这方面的问题发给了Solr的邮件组。另外,在Jira上有很多关于字段分组的补丁,这让用户很迷惑 :shock:
去年9月结果分组在4.0-dev版中变的可用。字段压缩功能也被重写[url=https://issues.apache.org/jira/browse/SOLR-1682](SOLR-1682)[/url],并且性能也得到提升。另外,结果分组也被加入,所以这个特性有些小的改变。
最近,正尝试着放入[url=https://issues.apache.org/jira/browse/LUCENE-1421]LUCENE-1421[/url]。这个Jira创建的目的是暴露结果分组的功能给lucene。在Solr主干中,分组的代码将会被重写,并将分组模块放入到lucene中。在3.x版本中,它已经被作为一个扩展包了。目前还不能支持按方法(function)或查询(query)进行分组。[url=https://issues.apache.org/jira/browse/LUCENE-3099]LUCENE-3099[/url]已经被创建,不久lucene就可以使用这些功能了。
[b][size=large]Lucene的结果分组[/size][/b]
Lucene中的分组很容易使用,参考下面的例子。类[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/FirstPassGroupingCollector.java?view=markup]FirstPassGroupingCollector[/url]用来收集每组中有多少个文档;[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/SecondPassGroupingCollector.java?view=markup]SecondPassGroupingCollector[/url]收集有多少个分组。
FirstPassGroupingCollector c1 = new FirstPassGroupingCollector("author", groupSort, groupOffset + topNGroups);
indexSearcher.search(new TermQuery(new Term("content", searchTerm)), c1);
Collection<SearchGroup> topGroups = c1.getTopGroups(groupOffset, fillFields);
if (topGroups == null) {
// No groups matched
return;
}
boolean getScores = true;
boolean getMaxScores = true;
boolean fillFields = true;
SecondPassGroupingCollector c2 = new SecondPassGroupingCollector("author", topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields);
indexSearcher.search(new TermQuery(new Term("content", searchTerm)), c2);
TopGroups groupsResult = c2.getTopGroups(docOffset);
如果search的性能耗费大,则可以考虑使用[url=http://svn.apache.org/viewvc/lucene/dev/trunk/lucene/src/java/org/apache/lucene/search/CachingCollector.java?view=markup]CachingCollector[/url]。这个cache可以缓存第一次search时的文档Id和评分,并提供给之后的查询使用。使用方法请参考[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/package.html?view=markup]grouping documentation[/url]。
有另一个收集器叫[url=http://svn.apache.org/viewvc/lucene/dev/trunk/modules/grouping/src/java/org/apache/lucene/search/grouping/AllGroupsCollector.java?view=markup]AllGroupsCollector[/url],它可以收集查询结果的所有组。下面的例子为得到各个分组收集的总数量:
// First pass search has been executed
boolean getScores = true;
boolean getMaxScores = true;
boolean fillFields = true;
AllGroupsCollector c3 = new AllGroupsCollector("author");
SecondPassGroupingCollector c2 = new SecondPassGroupingCollector("author", topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields);
indexSearcher.search(new TermQuery(new Term("content", searchTerm)), MultiCollector.wrap(c2, c3));
TopGroups groupsResult = c2.getTopGroups(docOffset);
groupsResult = new TopGroups(groupsResult, c3.getGroupCount());
通过[color=gray]MultiCollector[/color],[color=gray]AllGroupsCollector[/color]能很好的封装[color=gray]SecondPassGroupingCollector [/color]。[color=gray]AllGroupsCollector [/color]也能独立的在其他的收集器中使用。
[b][size=large]结果分组在solr中的使用[/size][/b]
现在Solr主干上还没有使用lucene 分组模块;它使用它自己的分组模块。Solr还没有使用lucene的分组模块的原因,是它还没有对function和query的支持。然而Solr3.1还没有实现分组的支持,用户仍需要自己下分支然后编译。更坏的是,很多用户还在使用过时的补丁SOLR-236,这是我为什么创建[url=https://issues.apache.org/jira/browse/SOLR-2524]SOLR-2524[/url]的原因.
SOLR-2524 分支涉及到集成lucene的扩展包到solr3.x分支中。这个版本也为集成分组模块的主干版本到Solr4.0中作为参考。Solr3.x的主干分组将支持相同的响应格式和请求参数,具体描述请参见[url=http://wiki.apache.org/solr/FieldCollapsing]Solr FieldCollapse wiki page[/url];它还不支持的功能还是function和query。
如果运行良好,这个分支将会提交到Solr3.2版本中,Solr的用户就可以直接使用啦 :D
篇外话:其实这个功能在3.2里没发布,改到3.3了。。。
上一篇: lucene实现精确查询本地文件中的ID
下一篇: 基于模板的web开发框架分析
推荐阅读
-
如何实现在分组的情况下,以另一个时间字段查询出结果?
-
lucene/solr中查询结果的分组/字段的压缩
-
DM数据库表中的CLOB字段,使用ajax查询并显示结果时无法获取该字段值
-
mysql 查询 两个表中不同字段的 和,并通过两个表的时间来分组
-
请问个mysql有关问题.关于获取查询结果中某一个字段的最大值.(按照其他字段排序)
-
如何实现在分组的情况下,以另一个时间字段查询出结果?
-
MySQL中给自定义的字段查询结果添加排名的方法_MySQL
-
oracle通过表中2个字段分组查询取数量最大的所有记录,有条件的去重
-
mysql 查询 两个表中不同字段的 和,并通过两个表的时间来分组
-
DM数据库表中的CLOB字段,使用ajax查询并显示结果时无法获取该字段值