详解阿里云数据中台,一篇文章全面了解大数据“网红”
程序员文章站
2022-05-29 23:33:24
...
<div class="iteye-blog-content-contain" style="font-size: 14px"><p>作者:谭虎、陈晓勇 [ 更多内容详见数据中台官网 https://dp.alibaba.com ]<br />一直想写一篇关于数据中台正面文章,现在有闲时做些总结,想充分诠释一下DT内部人如何看待数据中台。<br />数据中台的概念是最早由阿里巴巴首次提出,是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的,它既要满足业务部门日常性的多个业务前台的数据需求,又要满足像双十一,六一八这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂活动场景业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革。<br />数据中台的定义<br />阿里巴巴数据中台是阿里云上实现数据智能的最佳实践,它是由数据中台方法论+组织+工具所组成,数据中台方法论采用实现企业数据的全局规划设计,通过前期的设计形成统一的数据标准、计算口径,统一保障数据质量,面向数据分析场景构建数据模型,让通用计算和数据能沉淀并能复用,提升计算效能;数据中台的建设实施必须有能与之配合的组织,不仅仅相应岗位的人员要配备齐全,而且组织架构建设也需要对应,有一个数据技术部门统筹企业的数字化转型,数据赋能业务中形成业务模式,在推进数字化转型中实现价值;数据中台由一系列的工具和产品组成,阿里云数据中台以智能数据构建与管理Dataphin产品、商业智能QuickBI工具和企业参谋产品为主体等一系列工具组成。<br /><br /><br />阿里云在过去几年中经过数十个实际项目沉淀形成实施标准化流程和方法论。阿里云OneData数据中台解决方案基于大数据存储和计算平台为载体,以OneModel统一数据构建及管理方法论为主干,OneID核心商业要素资产化为核心,实现全域链接、标签萃取、立体画像,以数据资产管理为皮,数据应用服务为枝叶的松耦性整体解决方案。其数据服务理念根植于心,强调业务模式,在推进数字化转型中实现价值。<br />数据中台的概念来自于阿里巴巴“大中台,小前台”业务战略下的数据化实践,它是关于“数据价值化和数据资产化”的一整套解决方案,内容包括数据中台方法论,组织,数据产品三个方面。<br />数据中台建设成果主要体现在两方面:一个是数据的技术能力,另一个是数据的资产。今天阿里的各个业务都在共享同一套数据技术和资产。阿里内部为这个统一化的数据体系命名为“OneData”。Onedata体系包括OneModel,OneID,OneService3个方面,在OneData体系之下,不断扩大的业务版图内的各种业务数据,都将按统一的方式接入中台系统,之后通过统一化的数据服务反哺业务。<br />如下图所示:<br /><br /><br />数据中台顶层设计<br />数据中台定位于计算后台和业务前台之间,其关键职能与核心价值是大数据以业务视角而非纯技术视角出发,智能化构建数据、管理数据资产与提供数据调用、数据监控、数据分析与数据展现等多种服务。承技术启业务,是建设智能数据和催生数据智能的引擎;而以数据中台内核价值为中段的数据中台业务模式不是纯数据、不是纯技术、也不是纯业务,它同时关注着与大数据能力相关的上下游,以大数据为中轴线,基于技术而又深入业务,它以数据产品+数据技术+方法论+场景实现的综合性输出,同时为智能化数据、技术极致提升和数据智能化业务负责。<br />一方面专注于从业务视角,建设标准统一、融会贯通、资产化、服务化、闭环自优化的数据中台智能数据体系,同时极致化追求技术上的降本提效。另一方面,致力于智能数据与业务场景深度融合的业务数据化与数据业务化中的各类智能化价值创新。<br />数据中台与传统数据仓库差异<br />数据仓库已经经历了40多年的发展,广泛应用于大型商业企业,帮助业务人员和高层人员做分析和决策,它起源于决策支持系统(decision support system),其展现形式更多以报表方式实现。因此数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合。<br />传统的企业级数仓还是以TD,Oracle,IBM/DB2等传统数据库为主, 由于受限于数据的处理能力,很少有EDW的数据容量超过1TB,因此不能对基础数据进行跨域的处理(原因是RMDBS对大数据量的关联join处理耗时非常长),因此要对新的指标分析的时候需要从基础数据重新生成汇总表,耗时耗力,使用方法上无法实现跨数据集或数据域的处理。新一代的数据仓库采用分布式架构,一般基于MPP数据库或大数据平台实现数据分析,因此传统的数据仓库具有以下几个特点:<br /><br /><br /><br /><br /><br /><br /></p>
<ol>
<ol>
<ol>
<ol>
<ol>
<p> </p></div>
<ol>
- 业务主题性:传统的数仓要求解决服务问题,比如对一个生产型企业来说公司的主题域是产品、订单、销售商、材料等,要解决应用问题可能是库存、销售、销售商等。其有业务是面向主题的。</ol>
<p><br />
<ol>
- 系统集成性:在传统数据仓库中,集成是最重要的,由于计算和存储的成本原因,其数据需要从不同的数据源抽取过来并集中,其数据的冗余度需要尽可能的降低,因此数据进入数据仓库中需要进行转化、格式化、重新排列和汇总等操作,其所有数据具有单一物理特性,都是结构化方式存在。在系统架构方面,也是以集中式存储和计算方式存在,新一代的数仓采用分布式计算,但软件产品采用集中部署方式存在。</ol>
<p><br />
<ol>
- 非易失性:数仓系统会记录所有记录,与业务系统相比,它不会对记录进行变化操作(update和delete),它会保留所有记录的变化,但受限于成本和计算能力考虑,数仓不会记录全量明细数据,特别是日志数据,因此大部分数仓平台的数据容量在TB级别。</ol>
<p><br />
<ol>
- 时间变化性:数据仓库中每个数据单元只是在某一时间是准确的,因此数据单元的准确性与时间相关,数据仓库中的数据时间范围5-10年。</ol>
<p><br />
<ol>
- 系统一体化: 传统数仓以系统整体设计为特性,软件平台围绕着数据库或计算平台以整套服务为主,结合度缜密,对外服务也较单一。</ol>
<p><br />
<p> </p></div>
上一篇: 让你出冷汗的爆笑小笑话