欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Elasticsearch(二) Elasticsearch中的Mapping映射, 更新mapping和添加mapping

程序员文章站 2024-03-25 11:19:28
...

一. 核心简单字段类型

Elasticsearch 支持如下简单域类型:

  • 字符串: string
  • 整数 : byteshortintegerlong
  • 浮点数: floatdouble
  • 布尔型: boolean
  • 日期: date

二. 复杂类型:

多值字段

很有可能,我们希望 tag 域包含多个标签。我们可以以数组(List)的形式索引标签:

{ "tag": [ "search", "nosql" ]}

Java表示

 List<String> tags;

对于数组,没有特殊的映射需求。就像普通字段一样分析得到多个词条。

这暗示 数组中所有的值必须是相同数据类型 。你不能将日期和字符串混在一起

多层级对象

我们讨论的最后一个 JSON 原生数据类是 对象 , 或者理解成HashMap。

内部对象 经常用于嵌入一个实体或对象到其它对象中。例如,与其在 tweet 文档中包含 user_name 和 user_id 域,我们也可以这样写:

{
    "tweet":            "Elasticsearch is very flexible",
    "user": {
        "id":           "@johnsmith",
        "gender":       "male",
        "age":          26,
        "name": {
            "full":     "John Smith",
            "first":    "John",
            "last":     "Smith"
        }
    }
}

ES会将这种多层级对象进行扁平化处理

Lucene 不理解内部对象。 Lucene 文档是由一组键值对列表组成的。为了能让 Elasticsearch 有效地索引内部类,它把我们的文档转化成这样:

{
    "tweet":            [elasticsearch, flexible, very],
    "user.id":          [@johnsmith],
    "user.gender":      [male],
    "user.age":         [26],
    "user.name.full":   [john, smith],
    "user.name.first":  [john],
    "user.name.last":   [smith]
}

内部字段可以通过名称引用(例如, first )。为了区分同名的两个字段,我们可以使用全 路径 (例如, user.name.first ) 或 type 名加路径( tweet.user.name.first )。

在前面简单扁平的文档中,没有 user 和 user.name 字段。Lucene 索引只有标量和简单值,没有复杂数据结构。

 

三. 特殊字段: 地理坐标

字段声明成"geo_point",  我们就可以索引包含了经纬度信息的文档了。经纬度信息的形式可以是字符串、数组或者对象:

{
  "name":     "Chipotle Mexican Grill",
  "location": "40.715, -74.011" 
}

PUT /attractions/restaurant/2
{
  "name":     "Pala Pizza",
  "location": { 
    "lat":     40.722,
    "lon":    -73.989
  }
}

PUT /attractions/restaurant/3
{
  "name":     "Mini Munchies Pizza",
  "location": [ -73.983, 40.719 ] 
}

Java中主需要带上注解 @GeoPointField 或  @GeoPoint注解即可(根据你的版本定), 对象可以选择字符串, 经纬度逗号分隔,

注意:

可能所有人都至少一次踩过这个坑:地理坐标点用字符串形式表示时是纬度在前,经度在后( "latitude,longitude" ),而数组形式表示时是经度在前,纬度在后( [longitude,latitude] )—顺序刚好相反。

其实,在 Elasticesearch 内部,不管字符串形式还是数组形式,都是经度在前,纬度在后。不过早期为了适配 GeoJSON 的格式规范,调整了数组形式的表示方式。

因此,在使用地理位置的路上就出现了这么一个“捕熊器”,专坑那些不了解这个陷阱的使用者。

所以我建议使用官方推荐的对象:  GeoPoint

@GeoPointField
private GeoPoint location;

 

四. 更新mapping和添加mapping

当你首次创建一个索引的时候,可以指定类型的映射。你也可以使用 /_mapping 为新类型(或者为存在的类型更新映射)增加映射。

尽管你可以 增加 一个存在的映射,你不能修改 存在的域映射。如果一个域的映射已经存在,那么该域的数据可能已经被索引。如果你意图修改这个域的映射,索引的数据可能会出错,不能被正常的搜索。

我们可以更新一个映射来添加一个新域,但不能将一个存在的域从 analyzed 改为 not_analyzed 。

为了描述指定映射的两种方式,我们先删除 gd 索引: