欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Elasticsearch KeyWord和Text

程序员文章站 2022-07-14 22:32:41
...

今天写代码的时候遇到一个问题

Elasticsearch KeyWord和Text

我们可以看到我们的gender有两个属性F、M
但是我们下面这样写代码并查不到数据
Elasticsearch KeyWord和Text

看别人这样写,又能查到数据
Elasticsearch KeyWord和Text

出于对求知的欲望,研究了一下为什么有了以下结论。

Elasticsearch两大数据类型

ES有两个数据类型,keywordtext。keyword表示不会被自动分词,而text会自动分词分词后的字母会全部转为小写。

而我数据正好是通过自动导入的,于是系统自动给我写的Mapping是下面这样样子:

Elasticsearch KeyWord和Text
可以看到我们的gender属性,其类型是text,并且它的fields里面有一个keyword的属性,其类型又是keyword的。

第一个疑问:我们知道text类型的gender会被分词,那么分词完毕后它是怎么样的呢?
Elasticsearch KeyWord和Text

竟然变成了小写?难怪我们termQuery("gender", "F"))查不到信息,原来内部变成了小写。知道为什么查不出来了,但是还不够,这里又多了几个新问题。

**第二个疑问 **:fields有什么用,为什么termQuery("gender.keyword", "F"))就能查出对应的内容了?

其实这里有个猜测,这个fields是不是相当于对gender的一个备份,只是其类型是keyword类型(名字叫gender.keyword,类型是keyword…挺绕的)。由于keyword类型不会自动分词所以其内部存储的还是“F”,元素原封不动的样子。

带着疑惑,做了下面的测试,由于默认的分词器有点不好用,于是用了以下ik分词器

# 看新建了个索引
curl -XPUT http://hadoop100:9200/test

# 再创建了一个type,并手动指定了以下mapping信息
curl -XPOST http://hadoop100:9200/test/field/_mapping?pretty -H 'Content-Type:application/json' -d '{
        "properties": {
            "name": {
                "type": "text",
                "analyzer": "ik_max_word",
                "search_analyzer": "ik_max_word",
                "fields":{
                  "keyword":{
                    "ignore_above": 256,
                    "type": "keyword"
                  }
                }
            }
        }
}'

随便造了点数据
Elasticsearch KeyWord和Text

且ik分词器有如下效果

Elasticsearch KeyWord和Text

@Test
public void fieldLearning(){
    SearchResponse response = client.prepareSearch("test")
        .setTypes("field")
        //只查zzy相关的
        .setQuery(QueryBuilders.termQuery("name", "zzy"))
        .get();
    for(SearchHit res:response.getHits()){
        System.out.println(res.getSourceAsString());
    }
}
发现都能查出来了
{"name":"zzy3"}
{"name":"zzy1"}
{"name":"zzy7"}
{"name":"zzy5"}
{"name":"zzy8"}
{"name":"zzy9"}
{"name":"zzy2"}
{"name":"zzy4"}
{"name":"zzy6"}

@Test
public void addIndex2(){
    SearchResponse response = client.prepareSearch("test")
        .setTypes("field")
        //换成keyword,可以想象我们数据里面没有name完全等于zzy的,所以根本查不到数据
        .setQuery(QueryBuilders.termQuery("name.keyword", "zzy"))
        .get();
    for(SearchHit res:response.getHits()){
        System.out.println(res.getSourceAsString());
    }
}
确实也没查到数据
相关标签: ES