数据挖掘——保险业的新蓝海
出差途中,晓红想为自己买一份意外保险,掏出手机,网络界面上,晓红简单的输入所在的城市、年龄、性别、职业、收入等信息,系统自动挑选了几只不同公司为其“定身量制”的产品,不到10分钟,晓红完成了整个购买过程。这不是某部虚幻电影里的情节,保险企业通过深层次数据挖掘的应用,不久的将来,这样的场景你我生活中随处可见。
作为中国金融业的三驾马车之一——保险业,经过数年的发展,市场竞争早已进入白热化。如何保持核心竞争力,如何增强产品的差异化,使企业立于不败之地,是保险企业时刻需要面对的问题。而保险行业,产品创新之难,早已成为行业公认的事实。无疑,信息技术成为企业提高自身竞争力的必然选择。保险行业信息化经过多年的发展,基础建设已经完善,而积累大量保单信息、客户信息、交易信息、财务信息等数据,却未得到充分的利用。近些年,越来越多的保险企业把眼光锁定数据挖掘,希望通过对数据深层次的分析及挖掘,为保险行业的趟出一条新路。
现状
数据挖掘(DM),又称数据库中的知识发现(KDD),是指从存放在数据库、数据仓库或其他信息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知识的过程。从CRM的角度来说,数据挖掘应用就是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未来发生行为作出结果预测,为企业经营决策、市场策划提供依据。
Gartner Group在最近的技术调查中,将数据挖掘和人工智能列为“未来三到五年内对行业产生深远影响的五大关键技术”之首,并且将数据挖掘和并行处理体系列为“未来五年内投资十大新兴技术”的前两位。数据挖掘的前途虽然很光明,但是,目前在保险行业的应用却不那么乐观。
新华保险信息技术部副总经理周建军表示,目前,保险行业对于数据挖掘,大部分企业尚处于浅层次的应用,应用板块包括,营销、客户分析、业务拓展、风险防御、高层决策等方面。
民生人寿保险有限公司信息技术部副总经理刘东城也表示,目前,数据挖掘在保险行业进展比较缓慢。早期的数据挖掘主要应用于保险企业的统计报表中。而统计分析的数据主要应用于企业业务发展和经营管理两方面。一方面,各个渠道的业绩如何?排名如何?这些数据都可以进行浅层次的分析,为各个销售渠道提供参考。另一方面,各种保险产品的经营情况如何?盈亏情况如何?不同产品如何分布?而这些数据的挖掘也可以为公司的管理层决策提供参考。数据大集中之后,数据挖掘的应用对于业务、产品、客户等方面都带来了很大的便利。通过大量的数据分析,可以进一步看出不同的产品更适合哪类人群的需求,不同年龄、民族、地域的客户共同的需求有哪些,针对这些差异定制不同的产品。
目前数据挖掘在英大泰和的贡献有两方面,一方面是业务上的支撑,另一方面是决策上的支撑。英大泰和人寿保险公司项目经理王国林说,业务上的支撑主要通过对客户的分析、保单的分析来实现,主要体现形式就是日常的业务报表。决策支撑,主要是给决策层的数据参考,其中包括,新产品如何开发,如何留住老客户等数据信息。英大泰和统计分析涉及面比较大,主要涉及13个保险业务应用部门,主要是营销和业务方面的应用,比如,个险、团险、银保、电子、客户、人力、财务、投资等方面。
除了业务、客户、渠道、决策等方面的应用,数据挖掘还被应用于保险业“反保险欺诈”中,阳光财产保险公司信息技术部总经理石运福认为。在数据分析过程,一些数据对象可能因与一般行为模型不一致,而视为异常而丢弃,但是,在保险欺诈、信用卡欺诈等异常行为识别上,专门针对异常数据的挖掘具有更为重要的价值,因为保险欺诈行为作为一种非正常行为,它的数据特征、模型正是隐含在这些异常数据中的。于此相比,传统数据分析就只能发现一些“保险欺诈”浅层次的特征,如重复投保、高额投保、频繁投保等,影响欺诈概率、欺诈金额等,数据挖掘在这方面正好弥补了传统数据分析的缺憾。
1989年,KDD(数据库中的知识发现),这一概念在第十一届国际联合人工智能学术会议上第一次被提出。时至今日,为何数据挖掘在保险行业的应用还停留在报表分析等浅层次的应用?保险行业的CIO对于数据挖掘的又有哪些无奈?
瓶颈
近些年,各家保险企业逐渐认识到商务智能、数据挖掘的重要性,BI也纷纷提到项目建设的日程上。但是,对于数据挖掘更深层次的应用,很多保险行业的信息主管们也表示,目前保险行业的一些现状已经成为制约数据挖掘深层次应用的瓶颈。
中国人民健康保险公司副总经理杨建表示,数据数量是制约保险行业数据深入挖掘的根本原因。商务智能、数据挖掘的基础就是数据。数据如果没有一定量的积累,数据挖掘也很难达到有效的应用。另一方面,保险公司的系统非常的繁杂,除了负责日常承保、理赔等核心业务的系统之外,往往还有专门的客服系统、CRM、网站、电子商务、财务系统、精算系统、准备金系统等等。如果要使用数据挖掘就需要先建立数据仓库,抽取个系统的数据,但是,往往很多公司各系统之间相对独立,这就出现了数据孤岛的现象,而数据也很难整合、统一到一起。除此以外,投入产出比也是保险公司建设数据挖掘的重要考量,目前,很多外企数据挖掘的配套方案都会包括咨询和实施,因此应用的方案一般都比较贵,而数据挖掘的建设回报并没有立竿见影的效果,所以,这一点也是很多保险企业的顾虑。
王国林补充道,数据挖掘最大的瓶颈在于数据的质量。保单信息、客户信息往往无法保障百分之百的真实、有效。数据分析,对于数据的要求非常高,包括客户的年龄、收入、婚姻状况、职业等属性,而数据的准确度直接影响着数据挖掘的准确度。虽然保险公司已经采取回访等措施去解决这一问题,但是面对巨大的数据量,还是需要更彻底的解决方式。
对于保险行业数据的质量问题,Informatica公司中国区高级技术顾问姜炜也提出了自己的看法,数据挖掘建立在数据真实性和完备性的基础之上。如果数据不能真实准确的反映实际发生的业务,或者数据是不完备的,这就意味着数据分析和数据挖掘的来源不可靠,分析的结果也必然不可靠。因此从顺序角度来说,数据质量管理要在数据挖掘之前做。决定数据质量的原因有很多,直接因素有:信息因素、技术因素。间接因素有:流程因素和管理因素。大多数造成数据质量问题的原因,背后通常都与管理缺失因素有关。因此数据质量管理,除了针对数据本身的检查、修改和监控,也包含对流程上的管理和改善。数据质量管理,不仅需要通过数据质量检查(清洗)工具和一定的检查规则(Rule),发现数据问题并且改正数据,还需要通过访谈获得管理上的缺陷,以制定预防措施,这些都需要依靠专家的经验。
质量检验是数据挖掘过程中的重要环节,是数据预处理工作的基础。长期以来,国内IT系统在运行过程中对于数据质量缺乏关注。数据质量较低。很多项目由于开始未经过周密的数据质量检验,导致通过数据挖掘建立的模型有偏差,甚至结果完全错误。数据质量问题已严重影响到数据挖掘技术的应用,成为数据挖掘项目成败的关键因素。一、数据质量的定义目前对数据质量还没有统一的定义,针对数据挖掘工作,一般是指合适数据挖掘使用的程度。数据挖掘的模型很多,针对不同的模型,对数据质量的要求也各不相同。二、数据质量问题产生的原因在信息创造、生产、整合的全部过程中,任何环节出现疏漏、错误,都将导致数据质量问题,影响数据挖掘的结果。
刘东城对于数据挖掘的瓶颈也做了自己的补充,除了数据量、数据质量等条件的制约。技术上,一方面,数据挖掘缺乏统一的指标,目前,对于不同的保险企业,数据挖掘基本都是在基础指标上做了扩充。另一方面,更丰富的数据模型的建立,数据仓库需要把数据进行归类,按照不同主题建立不同的数据模型,比如:被保险人的信息、投保人的信息、受益人的信息等等,每一类主题也可以在进行细化,以便数据仓库的使用,便于产品优化、决策支撑、客户分析等应用。
杨建也同意刘东城的的建议,并表示,数据挖掘标准的制定以及数据模型的开发,需要各种保险企业与服务厂商一起进行商讨,需求和供给达到最大化的平衡,另一方面,与一些专门研究数据挖掘模型、算法的高校,保险企业也可以实践与理论相融合。
对于数据挖掘在保险行业未来的发展,保险企业的信息主管都持有乐观的看法。
未来
新的技术总会给行业带来无线的希望及商机,世界已经进入数据爆炸的时代,那些能在数据之间发现联系并将其转化为商业机会的公司,不仅能给用户带来便利,还将赚得盆满钵满。
对于未来数据挖掘的发展方向,刘东城认为,未来,保险行业将进行客户归并,逐渐形成一个统一的数据平台。现在北京、上海有些行业协会已经在慢慢提倡这一想法。数据统一之后就可以作为行业的数据平台与医院、社保进行对接,于此相关的各种措施也会逐一进行,比如、用户信息的保密、数据安全等。也许以后我们在购买产品就像我们现在在网上购买飞机票、火车票一样简单,数据挖掘的深入应用,也会为客户量身定制保险产品。
王国林认为,未来数据挖掘真正的意义在于如何留住老客户,保险行业有一句非常著名的理论,“留住一个老客户,比挖掘一个新客户更加重要”,对于一个保险起来来说新单量大说明业务拓展的好,但是,老客户续保多则反映很多因素,比如产品、服务、宣传、企业决策等方方面面。利用数据挖掘,在技术上可以研究出不同年龄、职业、城市甚至是民族、性别的客户有哪些共性,续保的客户又有哪些共同的行为特征。未来,客户精细化分析,业务追踪、产品配套分析都将是数据挖掘的最大主题。
用友软件助理总裁、金融事业部总经理郑海伟认为,未来数据挖掘对于保险行业而言,带来的机遇是不可想象的,也许会带来无穷的价值。将使业务运营从处理发展为管理。而未来的数据挖掘的发展方向是“全面的数据管理;丰富、易配置、可组合的分析模型;越来越方便的结果展现”
未来的数据挖掘一定是智能的,随需而动,就像中国航空技术国际控股有限公司前CIO,北京殷赛信息技术有限公司执行董事朱东所提出的“有思想的BI”的理论一样,很多企业的BI系统建设都是从各个部门获取数据后,将数据拼起来,再堆在系统屏幕上。在朱东看来管理信息系统是要由一整套管理体系和管理逻辑支撑起来,系统中的任何一个指标和曲线的变化都对应对着一种预设的管理情形的出现,都意味着需要采取相应的管理措施。
对保险公司来说,数据挖掘确实一件能提升业绩、降低成本的事情。但是不能把数据挖掘过于IT化、程序化,在实施的过程中要和精算、市场、IT等部门密切配合才能保证数据挖掘的成功。
是的,数据挖掘离保险行业很近,数据挖掘离保险行业又很远,很近是因为大部分企业已经在进行浅层次的应用,而很远是因为大部分企业还未找到数据挖掘真正的宝藏。就像零售业非常著名的“啤酒和尿布”的理论一样,数据挖掘真正能为保险行业带来什么?数据挖掘真正的价值对于保险行业何时不再是海市蜃楼,看来数据挖掘之路,保险行业还要走的更远。