关于 ECharts4 新增的数据集（dataset）

ECharts 4 开始有了 `数据集`（`dataset`）组件来单独声明数据，大概长这个样子：

option = {
    dataset: {
        // 提供一份数据。
        source: [
            ['product', '2015', '2016', '2017'],
            ['Matcha Latte', 43.3, 85.8, 93.7],
            ['Milk Tea', 83.1, 73.4, 55.1],
            ['Cheese Cocoa', 86.4, 65.2, 82.5],
            ['Walnut Brownie', 72.4, 53.9, 39.1]
        ] 
    },
    legend: {},
    tooltip: {},
    // 声明一个 X 轴，类目轴（category）。默认情况下，类目轴对应到 dataset 第一列。
    xAxis: {type: 'category'},
    // 声明一个 Y 轴，数值轴。
    yAxis: {},
    // 声明多个 bar 系列，默认情况下，每个系列会自动对应到 dataset 的每一列。
    series: [
        {type: 'bar'},
        {type: 'bar'},
        {type: 'bar'}
    ]
} 
复制代码

这个最简单的例子，得到的效果是这样的：

数据集带来的好处是：

有了 `dataset` 后，能够贴近这样的数据可视化常见思维方式：基于数据（`dataset` 组件来提供数据），指定数据到视觉的映射（由 `encode` 属性来指定映射），形成图表。
数据和其他配置可以被分离开来，使用者相对便于进行单独管理，也省去了一些数据处理的步骤。
数据可以被多个系列或者组件复用，对于大数据，不必为每个系列创建一份。
支持更多的数据的常用格式，例如二维数组、对象数组等，一定程度上避免使用者为了数据格式而进行转换。

数据到图形的映射

本篇里，我们制作数据可视化图表的逻辑是这样的：基于数据，在配置项中指定如何映射到图形。

概略而言，可以进行这些映射：

指定 dataset 的列（column）还是行（row）映射为图形系列（series）。这件事可以使用 `series.seriesLayoutBy` 属性来配置。
指定 dataset 的哪些列（column）或行（row）对应到坐标轴（如 X、Y 轴）、提示框（tooltip）、标签（label）、图形元素大小颜色等（visualMap）。这件事可以使用 `series.encode` 属性来配置。如果有需要映射颜色大小等视觉维度，可以使用 visualMap 组件。

按行还是按列做映射

有了数据表之后，使用者可以灵活得配置：数据如何对应到轴和图形系列。上面的例子中，没有给出这种映射配置，那么ECharts 就按最常见的理解进行默认映射：

X 坐标轴声明为类目轴，默认情况下会自动对应到 dataset.source 中的第一列；
三个柱图系列，一一对应到 dataset.source 中后面每一列。

用户可以使用 `seriesLayoutBy` 配置项，改变图表对于行列的理解。`seriesLayoutBy` 可取值：

'column': 默认值。系列被安放到 `dataset` 的列上面。
'row': 系列被安放到 `dataset` 的行上面。

option = {
    legend: {},
    tooltip: {},
    dataset: {
        source: [
            ['product', '2012', '2013', '2014', '2015'],
            ['Matcha Latte', 41.1, 30.4, 65.1, 53.3],
            ['Milk Tea', 86.5, 92.1, 85.7, 83.1],
            ['Cheese Cocoa', 24.1, 67.2, 79.5, 86.4]
        ]
    },
    xAxis: [
        {type: 'category', gridIndex: 0},
        {type: 'category', gridIndex: 1}
    ],
    yAxis: [
        {gridIndex: 0},
        {gridIndex: 1}
    ],
    grid: [
        {bottom: '55%'},
        {top: '55%'}
    ],
    series: [
        // 这几个系列会在第一个直角坐标系中，每个系列对应到 dataset 的每一行。
        {type: 'bar', seriesLayoutBy: 'row'},
        {type: 'bar', seriesLayoutBy: 'row'},
        {type: 'bar', seriesLayoutBy: 'row'},
        // 这几个系列会在第二个直角坐标系中，每个系列对应到 dataset 的每一列。
        {type: 'bar', xAxisIndex: 1, yAxisIndex: 1},
        {type: 'bar', xAxisIndex: 1, yAxisIndex: 1},
        {type: 'bar', xAxisIndex: 1, yAxisIndex: 1},
        {type: 'bar', xAxisIndex: 1, yAxisIndex: 1}
    ]
}
复制代码

效果是这样的：

更重要的是，我们可以使用 `encode` 配置项来更细节得指定数据如何映射到图形。总体是这样的感觉：

维度（dimension）

介绍 `encode` 之前，首先要介绍“维度（dimension）”的概念。

常用图表所描述的数据大部分是“二维表”结构，上述的例子中，我们都使用二维数组来容纳二维表。现在，当我们把系列（series）对应到“列”的时候，那么每一列就称为一个“维度（dimension）”，而每一行称为数据项（item）。反之，如果我们把系列（series）对应到表行，那么每一行就是“维度（dimension）”，每一列就是数据项（item）。

维度可以有单独的名字，便于在图表中显示。维度名（dimension name）可以在定义在 dataset 的第一行（或者第一列）。例如上面的例子中，'score'、'amount'、'product' 就是维度名。从第二行开始，才是正式的数据。`dataset.source` 中第一行（列）到底包含不包含维度名，ECharts 默认会自动探测。当然也可以设置 `dataset.sourceHeader: true` 显示声明第一行（列）就是维度，或者 `dataset.sourceHeader: false` 表明第一行（列）开始就直接是数据。

维度的定义，也可以使用单独的 `dataset.dimensions` 或者 `series.dimensions` 来定义，这样可以同时指定维度名，和维度的类型（dimension type）：

var option1 = {
    dataset: {
        dimensions: [
            {name: 'score'},
            // 可以简写为 string，表示维度名。
            'amount',
            // 可以在 type 中指定维度类型。
            {name: 'product', type: 'ordinal'}
        ],
        source: [...]
    },
    ...
};

var option2 = {
    dataset: {
        source: [...]
    },
    series: {
        type: 'line',
        // 在系列中设置的 dimensions 会更优先采纳。
        dimensions: [
            null, // 可以设置为 null 表示不想设置维度名
            'amount',
            {name: 'product', type: 'ordinal'}
        ]
    },
    ...
};
复制代码

大多数情况下，我们并不需要去设置维度类型，因为会自动判断。但是如果因为数据为空之类原因导致判断不足够准确时，可以手动设置维度类型。

维度类型（dimension type）可以取这些值：

'number': 默认，表示普通数据。
'ordinal': 对于类目、文本这些 string 类型的数据，如果需要能在数轴上使用，须是 'ordinal' 类型。ECharts 默认会自动判断这个类型。但是自动判断也是不可能很完备的，所以使用者也可以手动强制指定。
'time': 表示时间数据。设置成 'time' 则能支持自动解析数据成时间戳（timestamp），比如该维度的数据是 '2017-05-10'，会自动被解析。时间类型的支持参见 [data](option.html#series.data)。
'float': 如果设置成 `float`，在存储时候会使用 `TypedArray`，对性能优化有好处。
'int': 如果设置成 `float`，在存储时候会使用 `TypedArray`，对性能优化有好处。

数据到图形的映射（encode）

了解了维度的概念后，我们就可以使用 `encode` 来做映射。`encode` 声明的基本结构如下，其中冒号左边是坐标系、标签等特定名称，如 `'x'`, `'y'`, `'tooltip'` 等，冒号右边是数据中的维度名（string 格式）或者维度的序号（number 格式，从 0 开始计数），可以指定一个或多个维度（使用数组）。通常情况下，下面各种信息不需要所有的都写，按需写即可。

var option = {
    dataset: {
        source: [
            ['score', 'amount', 'product'],
            [89.3, 58212, 'Matcha Latte'],
            [57.1, 78254, 'Milk Tea'],
            [74.4, 41032, 'Cheese Cocoa'],
            [50.1, 12755, 'Cheese Brownie'],
            [89.7, 20145, 'Matcha Cocoa'],
            [68.1, 79146, 'Tea'],
            [19.6, 91852, 'Orange Juice'],
            [10.6, 101852, 'Lemon Juice'],
            [32.7, 20112, 'Walnut Brownie']
        ]
    },
    xAxis: {},
    yAxis: {type: 'category'},
    series: [
        {
            type: 'bar',
            encode: {
                // 将 "amount" 列映射到 X 轴。
                x: 'amount',
                // 将 "product" 列映射到 Y 轴。
                y: 'product'
            }
        }
    ]
};
复制代码

效果如下：

下面给出个更丰富的 `encode` 的示例。

视觉通道（颜色、尺寸等）的映射

我们可以使用 `visualMap` 组件进行视觉通道的映射。这是一个示例：

var option = {
    dataset: {
        source: [
            ['score', 'amount', 'product'],
            [89.3, 58212, 'Matcha Latte'],
            [57.1, 78254, 'Milk Tea'],
            [74.4, 41032, 'Cheese Cocoa'],
            [50.1, 12755, 'Cheese Brownie'],
            [89.7, 20145, 'Matcha Cocoa'],
            [68.1, 79146, 'Tea'],
            [19.6, 91852, 'Orange Juice'],
            [10.6, 101852, 'Lemon Juice'],
            [32.7, 20112, 'Walnut Brownie']
        ]
    },
    grid: {containLabel: true},
    xAxis: {name: 'amount'},
    yAxis: {type: 'category'},
    visualMap: {
        orient: 'horizontal',
        left: 'center',
        min: 10,
        max: 100,
        text: ['High Score', 'Low Score'],
        // Map the score column to color
        dimension: 0,
        inRange: {
            color: ['#D7DA8B', '#E15457']
        }
    },
    series: [
        {
            type: 'bar',
            encode: {
                // Map the "amount" column to X axis.
                x: 'amount',
                // Map the "product" column to Y axis
                y: 'product'
            }
        }
    ]
};
复制代码

几个常见的映射设置方式

问：如何把第三列设置为 X 轴，第五列设置为 Y 轴？

答：

series: {
    encode: {x: 3, y: 5},
    ...
}
复制代码

问：如何把第三行设置为 X 轴，第五行设置为 Y 轴？

答：

series: {
    encode: {x: 3, y: 5},
    seriesLayoutBy: 'row',
    ...
}
复制代码

问：如何把第二列设置为标签？

答：

关于标签的显示（`label.formatter`），现在支持使用这样的语法：

'aaa{@product}bbb{@score}ccc{@[4]}ddd' 来引用某个具体的维度值。其中 '{@score}' 表示因为 “名为 score” 的维度里的值，'{@[4]}' 表示引用序号为 4 的维度里的值。

series: [{
    label: {
        show: true,
        // 标签中引用第二列。
        formatter: 'The value at column 2 is: {@[2]}.'
    },
    ...
}, {
    label: {
        show: true,
        // 标签中引用维度名为 product 的列。
        formatter: 'The product name is: {@product}.'
    },
    ...
}]
复制代码

问：如何让第 2 列和第 3 列显示在提示框（tooltip）中？

答：

series: {
    encode: {
        tooltip: [2, 3]
        ...
    },
    ...
}
复制代码

问：数据里没有维度名，那么怎么给出维度名？

答：

dataset: {
    dimensions: ['score', 'amount'],
    source: [
        [89.3, 3371],
        [92.1, 8123],
        [94.4, 1954],
        [85.4, 829]
    ]
}
复制代码

问：如何把第四列映射为气泡图的点的大小？

答：

var option = {
    dataset: {
        source: [
            [12, 323, 11.2],
            [23, 167, 8.3],
            [81, 284, 12],
            [91, 413, 4.1],
            [13, 287, 13.5]
        ]
    },
    visualMap: {
        show: false,
        dimension: 2, // 指向第三列（列序号从 0 开始记，所以设置为 2）。
        min: 2, // 需要给出数值范围，最小数值。
        max: 15, // 需要给出数值范围，最大数值。
        inRange: {
            // 气泡尺寸：5 像素到 60 像素。
            symbolSize: [5, 60]
        }
    },
    xAxis: {},
    yAxis: {},
    series: {
        type: 'scatter'
    }
};
复制代码

问：encode 里指定了映射，但是不管用？

答：可以查查有没有拼错，比如，维度名是：'Life Expectancy'，encode 中拼成了 'Life Expectency'。

数据的各种格式

多数常见图表中，数据适于用二维表的形式描述。广为使用的数据表格软件（如 MS Excel、Numbers）或者关系数据数据库都是二维表。他们的数据可以导出成 JSON 格式，输入到 `dataset.source` 中，在不少情况下可以免去一些数据处理的步骤。

假如数据导出成 csv 文件，那么可以使用一些 csv 工具如 [dsv](github.com/d3/d3-dsv) 或者 [PapaParse](github.com/mholt/PapaP…) 将 csv 转成 JSON。

在 JavaScript 常用的数据传输格式中，二维数组可以比较直观的存储二维表。前面的示例都是使用二维数组表示。

除了二维数组以外，dataset 也支持例如下面 key-value 方式的数据格式，这类格式也非常常见。但是这类格式中，目前并不支持 `seriesLayoutBy` 参数。

dataset: [{
    // 按行的 key-value 形式，这是个比较常见的格式。
    source: [
        {product: 'Matcha Latte', count: 823, score: 95.8},
        {product: 'Milk Tea', count: 235, score: 81.4},
        {product: 'Cheese Cocoa', count: 1042, score: 91.2},
        {product: 'Walnut Brownie', count: 988, score: 76.9}
    ]
}, {
    // 按列的 key-value 形式。
    source: {
        'product': ['Matcha Latte', 'Milk Tea', 'Cheese Cocoa', 'Walnut Brownie'],
        'count': [823, 235, 1042, 988],
        'score': [95.8, 81.4, 91.2, 76.9]
    }
}]
复制代码

此外，ECharts 4 之前一直以来的数据声明方式仍然被正常支持，如果系列已经声明了 `series.data`，那么就会使用 `series.data` 而非 `dataset`。

最后，给出一个示例，多个图表共享一个 `dataset`，并带有联动交互。

更详细的信息，可以参见这个教程。

关于 ECharts4 新增的数据集（dataset）

数据到图形的映射

按行还是按列做映射

维度（dimension）

数据到图形的映射（encode）

视觉通道（颜色、尺寸等）的映射

几个常见的映射设置方式

数据的各种格式

关于 ECharts4 新增的数据集（dataset）

关于释放数据库结果集的有关问题

关于怎样获取DevExpress GridView过滤后或排序后的数据集问题(转)

tensorflow keras 关于CIFAR10数据集 CGAN的研究经验总结

关于TUM rgbd数据集的associate问题