商业智能(BI)的实现
1 概述
商业智能实质上是数据转化为信息的过程,这一过程也可称为信息供应链,其目的是把初始的操作型数据变成决策所使用的商务信息。在这一过程中,数据仓库技术为商业智能系统的应用提供基础数据;联机分析处理(OLAP)和数据挖掘技术结合商业处理规则为决策者提供决策辅助信息。任何好的商务决策都需要事实和数字支持。一个决策的正确程度取决于所使用的事实和数字的正确程度。随着竞争的增加,需要在较短的时间内做出决策。
因此,在该时间段内,能够尽可能多地获得相关信息就变得越来越关键。同时,为了使决策具有较好的正确度,需要跨越的决策分支也变得越来越大。为了跨越较大的决策分支,需要有更长的时间。因此,需要有自动数据分析工具,以帮助减少精确分析大量数据所需的时间,联机分析处理(OLAP)和数据挖掘就是非常有用的技术。
下面通过一个案例来简单阐述商业智能的实施过程。
2 案例分析
案例中涉及一家国际户外运动商品公司,该公司在7个国家和地区设有销售办事处,分别在7个国家多个城市销售山地车,头盔,皮划艇,气瓶,野营炉,风镜等户外运动商品,公司总部在北京。
2.1 数据仓库及数据分析
数据分析在本案例中分成报表查询、联机分析处理(OLAP)和数据挖掘3个阶段,数据分析的3个阶段如图1所示。
图1 数据分析的三个阶段
公司不同的销售地点己建立管理其单个地域内销售信息的解决方案。为了增加销售,公司总经理决定通过奖励来促销,奖励销售额最多的地区和产品销售最多的单位。这位总经理要求销售经理写出这样2份报告。对销售经理来说,这看起来很简单,但在生成这些报告之前有许多工作要做。以下问题特别需要在短时间内解决:销售数据存储在不同地区的不同类型的数据库中、数据在不同的地区格式不一样以及营业额用各所在国的货币单位。
首先,所有的数据都必须集中到总部。把所有数据放到一个地方,在本地数据集上执行查询要容易一些。对所有的相关信息而言,这一地点被称作数据仓库。如果相同的概念运用到公司中的单个部门,这些部门的信息库就被称作数据集市。若不使用数据仓库工具,销售经理可能会花上数月的时间才能完成上述任务。相反,若使用像IBM Visual Warehouse V3.1这样的数据仓库工具,这些任务可以很快定时地自动完成。
在Visual Warehouse中,如何访问、抽取、处理和丰富数据都是用Business Views开发完成的。Business Views就像模板一样,一旦定义完毕,便可用来自动统一地重复上述步骤。因此,商务视图“按地区的销售额”定义的是,从何处抽取数据,使用何种货币兑换表来转换货币,预先计算何种合计数据。“按产品的销售额”视图也是同样定义的,案例中如图1所示。
一旦建立了数据仓库,任何前端工具,如Lotus Approach或Microsoft Access,都可用来查看实际的报告。
图2 不同城市销售数据
图3 产品销售数据
2.2 联机分析处理(OLAP)
由前述图2、图3数据可知美国的西雅图是销售额最高的地区,山地车是最畅销的产品。总经理决定通过建立数据仓库是否能给他提供更多的信息来帮助他提高销售额。
在总经理与销售经理谈到此事时,销售经理建议进行专门分析,用不同的方法查看数据,以显示以前不知道的信息。这也被称为联机分析处理(OLAP)或多维分析(MDA)。在本方案中,使用2种主要的多维分析技术。第1种叫插放(Drill Down),第2种叫份额方块(S1ice/Dice)。销售经理帮助总经理用Lotus Approach前端MDA工具柬查询数据仓库的数据。
下面的多维数据分析涉及5个方面,即产品、销售、数量、地区和时间。所有查看的数据都是1月份的。
总经理提出以下问题:
1、1月份,头盔在什么地区销售最好?
2、1月份,哪个国家的头盔销售在该畅销地区处于领先地位?
3、在领先的国家中,哪个城市的头盔收入最高?
要回答这些问题,销售经理必须要用Lotus Approach深入到地区维(Location)中,用插放方法查看某一具体数据维中的更细节的数据。通过Lotus Approach,销售经理用交叉标记功能建立了一个矩阵,Y轴是地区栏,X轴是销售栏。
由给出的分析图4,图5表明头盔在欧洲销售最好;1月份,德国是欧洲头盔最畅销的地区;在德国汉诺威是头盔最畅销的地区。
现在总经理已经从报告得知,山地车是西雅图最畅销的产品。因此,他想把西雅图和汉诺威2个城市山地车和头盔的销售做一比较,但按销售会额(DOLLARS栏)比较是错误的,因为2种产品的价格不同。因此,他想比较山地车和头盔的销售数量。
根据图6、图7分析,这位总经理发现,尽管山地车在西雅图销售最多,但头盔的销售却不尽人意。头盔与山地车的比例大致是1:5(360:1804)。但他还注意到,在汉诺威该比例却几乎是1:1(445:436)。这时他记起来,在西雅图的商店里山地车和头盔放置得不像在汉诺威那样近。他决定在西雅图把这2种产品摆放在一起,并每天查看头盔和山地车的销售状况。
上述查看不同栏目数据的技术就是多维分析。执行的分析类型是联机分析处理。用于联机分析处理的数据可存储在多维数据库(MDD)或关系型数据库(RDBMS)中。当对存储在多维数据库中的数据进行联机分析处理时,就称为多维联机分析处理;当对存储在关系型数据库中的数据进行联机分析处理时,就称为关系型联机分析处理;当对存储在2种数据库的数据进行联机分析处理时,就称为混合联机分析处理。在本案例中,使用了5个数据维,它们是时间,营业额、数量、产品和地区。
2.3 数据挖掘
在前面,我们能够用不同的方法处理和分析数据。我们可以找到具体问题的答案,但仅此而已。在用特别的方法查看数据时,我们能发现头盔和山地车的数量销售不相互关联。数据仓库中的确存在关联,但没有插放和份额分块技术,我们就发现不了它。这样做消耗很多时间。
数据挖掘会系统地解决这些问题。它不仅能够允许用户确定假设,而且还允许用户不用做相应的手工劳动就能发现新的信息,如上面提及的关联。IBM的Intelligent Miner for data和Intelligent Miner for text是一种数据挖掘工具。前者用来对数据进行搜寻,如公司中的交易数据;后者则用于对文本数据的搜寻,如在图书馆中进行检索。在本案例中,使用的是Intelligent Miner for data。
Intelligent Miner中包含6种主要算法,即关联、顺序模型、预测模式、分类、集群和偏差识别。公司的决策者现在担心他们是否能提出正确的问题。这位总经理正巧碰到这样的事实,山地车和头盔的销售不是1:1。还存在什么其他类似的问题?公司决策者们可能想到的2个这类问题如下。
图4 按地区划分的头盔销售数据
图5 按地区和国家划分的头盔销售数据
1、对购买山地车的客户来说,什么是最可能会同时购买的商品?
2、购买气瓶的顾客1年内回来充气多少次?
Intelligent Miner for data对第1个问题做出如下答案:头盔,可能性为92%:手套,可能性为62%:新款铃铛,可能性为23%;速度计,可能性为13%。
Intelligent Miner for data可能会使用关联算法得出这样的答案。关联算法发现了产品之间的联系。根据上面的答案,它会给销售人员一个目录,列出在销售某一具体产品时所建议的前3名关联产品。例如,如果销售山地车,销售人员可建议购买头盔、手套和新款铃铛。
根据上面的答案,另外还可以采取以下行动:在骑车者安全问题上对销售伙伴进行教育(这可提高反光罩、灯和后视镜等产品的销售);促销其他相关产品,如饮料瓶、速度计、个人音响;捆绑销售活动;开发跨部门的促销活动(如与山地车和手套一起使用的休闲用品和服装);在山地车展厅里设一个手套展台;对最好的附件产品销售记录进行奖励以及每月刊登最有趣的附件产品销售的成功经历。
上一篇: EMC打造大数据时代的数据众包人才市场