一张图，带你读懂 IBM 云上真实洞察数据那些事

程序员文章站 2022-04-22 16:43:06

...

在传统的交易数据库系统中，伴随着客户的交易行为发生，在业务系统中产生了相应的交易数据，并保存在关系型数据库系统，从而形成了业务的交易记录，各类业务应用系统都是围绕着关系型数据库打交道。

一张图，带你读懂 IBM 云上真实洞察数据那些事

博客分类：大数据平台大数据应用大数据处理大数据数据分析数据可视化大数据处理

当今，大家都已看到的现实状况是：

随着越来越多面向移动（mobile-oriented）的应用被大量企业/机构所使用，很多交易数据以 JSON 文档形式产生，并保存在 NoSQL 数据库系统中。

很多企业/机构建立了数据中心，并以数据仓库为主要技术去进行数据分析。数据从交易系统数据库抽取出来，经过转换处理，加载到数据仓库，才能让数据得以进行分析，这个就是众所周知的 ETL 处理流程。然而，这种分析是只能适合对“指定”业务问题进行分析和回答，其表现形式是让用户去查询信息，和用预先设计和建立好的模型来回答在指定范围内的业务问题，以及产生报表。最大的限制和不便就是要“指定”，如果要回答新的业务问题，将无法满足使用这些数据和信息人员的需求。

在最近 5年里，随着 Hadoop 平台系统和 DataLake 技术普及应用，出现了很多面向 Hadoop 开源厂商。他们把大量数据，各种不同种类的数据存放在 Hadoop中，并进行 ETL 处理，将其处理结果保存在 Hadoop。利用开源技术软件和廉价硬件，“充分”地去克服传统数据仓库技术所存在的限制，以良好扩充性，有条件地让存放的数据历史可以更长，目标只有一个，就是希望能回答更多的“新问题”。

能回答那么多“新问题”的分析系统必须是要面向企业级和跨部门，需具备较高级别的安全性和信息管治能力。恰恰 Hadoop 平台系统在这两方面都较弱；其次是，缺乏良好询问与回答问题的交互方式；再加上，Hadoop 很难与市场上大部分的分析工具软件配合使用，需要较复杂的开发技能，所有这些，都很大地制约了用户能在 Hadoop 平台系统上执行分析任务的空间。

但是，如果目前IT技术还停留在传统关系型数据和 SQL 技术，是难以解决数据分析已碰到问题。例如，物联网（IoT）设备产生的大量源数据都需要用新的方法去分析这些数据，在云上产生的数据也越来越多，非结构化数据隐藏着巨大的商业价值。

为了面对这些挑战和走出困境，IBM 公司给你提供一条灵活和强大分析能力的策略，并提供解决方案。它就是基于 IBM Bluemix 平台的 DataWorks 云技术和服务，超越了批处理方式并以流数据处理技术，从众多的数据区域中把所需要的数据抽过来，附加上有“内涵”的信息内容，加工成“内部数据”来帮助用户找到所需要的答案。我们用下面的例子来说明下，它就是通过 IBM’s Bluemix 平台对天气数据进行处理和分析。

1、数据采集：IBM DataWorks 能采集各种数据，支持范围广泛，手段有：ETL 批处理或是流式数据（streaming）；一个实时流式数据分析引擎，和一个基于IoT-based 数据模式（Weather Company 提供标准）的采集引擎，具有高速和采集很大数据量的能力。

2、数据存放：一旦数据被采集进来后，IBM DataWorks 提供多种存放方式。对数据库而言，包括各种 NoSQL 数据存放格式（document, key-value, graph, columnar）到关系型（SQL-based）存放格式。也支持对象存储，例如 Swift on Bluemix， Amazon’s S3 service 云端存储。

3、执行分析：IBM DataWorks 提供分析工具为不同级别的用户对每一类型数据进行分析，例如：针对业务分析人员提供了报表和仪表盘；应用开发平台提供给程序猿；数据管道、模型和信息统计工具提供给数据科学家使用等。

4、推广应用：一旦用户开发和使用分析工具软件，还能满意地找到了所关心问题的答案，

IBM DataWorks 提供了较简单的部署和推广应用方式。IBM Bluemix 平台为开发人员在整个应用开发阶段中提供支持，包括生命周期管理、与 Web 应用服务器和 Github 功能集成等； Cognos 和 Watson Analytics 支持企业级的报表系统部署。另外，DataWorks 还提供了包括信息治理模型和部署架构。 IBM DataWorks 秉承以云为第一，用户本地中心第二的宗旨，为用户提供服务与支持，这种强大的混合云模式给用户在云端上执行分析任务提供了广阔天地。IBM DataWorks 不但让用户以自助方式去完成分析任务，还提供了数据治理能力，体现在：

1．提供不同安全级别的用户权限控制，在符合法规条件下保护敏感数据；

2. 建立数据血缘关系（Data lineage）信息，让你更清楚数据跨越千山万水，从开始处理到最终分析的处理流程；

3. 业务术语/指标定义，建立业务术语/指标与技术描述定义的映射关系，填补了Hadoop data lakes 层面上元数据治理功能的缺失。

IBM DataWorks 采用 Apache SparkS 作为底层处理引擎技术，它提供了快速、灵活和可扩展的数据处理能力，IBM 对开源技术支持和突出贡献，让整个业界都看到了 IBM 正开创了一个“新 IBM”时代。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>