欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

互联网征信:如何处理数据问题是关键

程序员文章站 2022-04-26 11:13:09
导读互联网征信业务有很多雷区,比如不能采集敏感的个人信息,数据的安全与透明度,不同机构间数据的交换难题等。此外,腾讯征信、芝麻信用等公司虽具备大量的用户行为数据,但这些数据与个人的借贷行为关系并不大,...

导读

互联网征信业务有很多雷区,比如不能采集敏感的个人信息,数据的安全与透明度,不同机构间数据的交换难题等。此外,腾讯征信、芝麻信用等公司虽具备大量的用户行为数据,但这些数据与个人的借贷行为关系并不大,因而其建立的模型不一定准确,很难被主流的金融机构引用。

千呼万唤之后,个人征信业务市场终于放开。1月5日,央行发布了《关于做好个人征信业务准备工作的通知》,要求八家机构做好个人征信业务的准备工作,准备时间为六个月。

这八家机构中,最受关注的入局者是蚂蚁金服旗下的“芝麻信用”,以及腾讯旗下的“腾讯征信”。 蚂蚁金服和腾讯也表示,将通过海量的在线数据分析,建立模型来判断用户的信用程度。

事实上,随着互联网金融业务的高速发展,个人征信体系的建设显得极为迫切。但需要指出的是,尽管互联网征信将极大地丰富传统征信数据,又具有实时性,但该系统的建立仍面临诸多困境。

有业内人士称,互联网征信业务有很多雷区,比如不能采集敏感的个人信息,数据的安全与透明度,不同机构间数据的交换难题等。此外,腾讯征信、芝麻信用等公司虽具备大量的用户行为数据,但这些数据与个人的借贷行为关系并不大,因而其建立的模型不一定准确,很难被主流的金融机构引用。

眼下,这些征信机构尚没有完整的产品推出,而6个月的准备时间也难有实质性操作。“没有三五年的数据积累和产品开发,互联网征信很难有成熟的产品推出。”一位互联网金融人士告诉21世纪经济报道记者。

海量数据的烦恼

蚂蚁金服方面称,芝麻信用有着非常广泛的信用数据来源,日数据处理量在30PB以上,相当于5000个国家图书馆的数据总量,其中包含了用户网购、还款、转账以及个人信息等方方面面的数据。通过分析大量的电商交易及行为数据,芝麻信用可以对用户进行信用评估,判断用户的还款意愿及还款能力,继而为用户提供快速授信及现金分期服务。

作为蚂蚁金服的子品牌,芝麻信用体系将包括芝麻分、芝麻认证、风险名单库、芝麻信用报告、芝麻评级等一系列信用产品。

而腾讯的财付通团队早在2年前就开始推进征信业务的探索,帮助用户建立个人信用。据悉,腾讯征信将基于腾讯现有的QQ、微信活跃用户,以及在SNS、门户、娱乐等众多领域的群众基础,通过海量数据挖掘和分析技术来预测其风险表现和信用价值。

但是,数据量大并不一定是一件好事,因为数据的筛选和清洗是一个非常枯燥复杂的过程。况且,数据量越大,审核维度越多,由此带来的“数据噪音”也越多,模型越失真。

在P2P平台“点融网”共同创始人、联合CEO郭宇航看来,海量的网络数据意味着互联网征信机构一是得找到技术非常强的牛人,二是要不断地试错。

“美国征信公司FICO针对个人采集了100多个数据维度,但真正纳入征信模型的只有十几个维度。这其中也是经历了大量的分析运算。”郭宇航称。

此外,在信息采集的过程中,这些民间征信机构又会面临诸多限制。

出于对信息安全的保护,2013年1月出台的《征信管理条例》,对个人信息的采集做了明确的限制:比如禁止征信机构采集个人的宗教信仰、基因、指纹、血型、疾病和病史信息以及法律、行政法规规定禁止采集的其他个人信息。那么,如何在法律许可的范围内,尽量掌握每个用户完善、丰富的数据信息,又不侵犯用户隐私,就变得非常重要。

在郭宇航眼里,法律禁止采集的数据恰恰是能反映个人信用的比较关键的数据,这意味着,腾讯征信、芝麻信用等公司必须在大量的“边缘化”数据的基础上,通过反复比对和计算,找出一定的规律。

而在隐私保护层面,蚂蚁金服相关人士向记者称,公司在处理用户数据时会先进行“脱敏”处理,即将数据清洗、加工后再使用。“我们在搜集用户数据前会先得到用户的授权,并且对于那些电话、地址等敏感信息,也绝对不会透露出去。”此外,在数据存储中,蚂蚁金服也会对数据进行加密处理,并根据数据的重要程度采取不同的存储方式。

实际上,民营征信机构眼下在用户隐私问题上,面临的压力还不大。郭宇航坦言,在中国,针对隐私的保护很弱,在互联网金融领域更是对隐私缺乏实质性的管理。另一厢,一些90后的年轻人本身对隐私的泄露也不是很在意,一些年轻人为了一些优惠券,就能轻易地把自己的手机号、身份证号泄露出去。郭宇航甚至听说有的用户会将信用卡号和密码提供给一个小型APP,只是为了让这个软件为其做账单的整合。

“当用户自己都不介意隐私的时候,又谈何隐私保护呢?”他反问道。

数据的短板

值得一提的是,民营企业开展的个人征信业务能否顺利对接央行信用报告的核心数据(如工资收入、社保记录、信用卡记录、贷款记录等),还存在很多不确定性。此前,许多P2P平台就是由于无法对接央行信用数据,而不得不亲力亲为地做征信。眼下,腾讯等企业在一定程度上与银行有竞争关系,要将核心数据共享给竞争对手,对银行来说并不容易。

假使腾讯征信、芝麻信用等企业拿不到央行的核心数据,那么其信用报告便不太可能被主流的金融机构所引用。由于缺乏金融数据,腾讯等民营机构必须不断地试错,再用自己体系内的数据慢慢替代传统的金融数据。而这一过程,通常需要三五年之久。

以P2P为例,一个信贷周期通常需要1.5-3年,换言之,要摸清用户的还款情况,民营征信机构必须等上一年半以上。这一结果还需要反复验证。

况且,央行本身的数据也不完整。目前,我国提供个人征信服务的“正规军”只有央行征信中心及其下属的上海资信公司。截至2014年10月底,征信系统收录1963万户企业及其他组织和8.5亿自然人信用信息。值得一提的是,有征信记录的个人大多是与银行有业务往来的优质客户,而腾讯等公司的用户中,有相当多是在央行征信范围之外的,即“草根”用户。换言之,央行的征信系统也无法覆盖主流用户之外的个人的信用情况,腾讯等公司仍需要亲自摸索。

郭宇航指出,腾讯掌握的用户信息,在网络营销推广方面会比较有效,但这些数据对金融信用的验证则不那么有用。事实上,利用社交数据来验证金融信用,在美国也只是刚刚起步。郭宇航在与一些美国同行交流的时候,对方称社交数据对于验证欺诈有一定的作用,但在信用评级方面的作用还十分有限。

一个明显例子是,美国最大的P2P平台Lending club,曾尝试通过用户在Facebook上的表现来确定其信用度,结果遭遇惨痛的滑铁卢。之后,Lending club转而向美国征信局这一传统机构获得数据,平台上的坏账率随之下降了许多。

“阿里掌握大量的交易信息,对个人信用还有一定价值。而那些浏览行为、在线时长、活跃度等,一定是非主流的数据。”郭宇航称。正因为此,点融网目前的风控人员大多是传统银行业出身,用的也是传统的风险检验标准。

这种情况下,互联网企业出具的信用报告,很多时候对商业机构只能起到较小的辅助作用。拍拍贷CEO张俊此前向记者称,芝麻信用曾来洽谈征信方面的合作事宜,但拍拍贷在验证芝麻信用的模型后,发现其准确度并不高。

张俊解释说,数据里缺乏用户的违约数据,即没有用户真实的贷款记录,因此其模型的精准度大约只有拍拍贷的70%左右。在拍拍贷的风控模型里,用户的社交数据大约只占8%到9%的权重,消费数据的权重也不到10%。相比之下,用户的还款记录、还款行为占到50%到60%的权重。

抵押类P2P企业速贷邦总经理万剑钧告诉记者,作为信用报告的需求方,他最看重的信息是用户之前在民间借贷行为中的不良率和违约率。这一信息是央行征信报告中所不具备的。

“对我们来说,互联网企业出具的征信报告可以作为传统征信报告的一种补充,提供过去涉及不到的信息。”万剑钧称,“但互联网征信报告必须有自己独特的竞争力,有实打实的评估,而不是去粉饰一些内容。”

他指出,像蚂蚁金服试运行的消费信贷产品“花呗”,以及“京东白条”等产品可以捕捉到一些用户的违约情况,但前期用户不足,运行时间也较短。一段时间后,它们或许能提供有价值的个人信用信息。相比之下,那些和社交、娱乐相关的数据与金融就不大相关。“我以后会试着用一下互联网公司出具的报告,再决定是全用,还是部分用,还是增加哪部分数据的比重。”万剑钧表示。

合作的困境

除了缺乏金融数据外,纯线上采集数据同样有着无法回避的劣势。试想一下,如果没有实地探访,没有线下的审核机制把关,单凭身份证和第三方机构出具的报告,哪个银行或金融机构敢放几百上千万的贷款呢?

众所周知,2014年初,阿里和腾讯都曾计划与中信银行合作发行网络信用卡,但之后被央行叫停。其中,支付宝计划的授信额度是200起步,没有上限;而腾讯打算推出的“微信信用卡”,额度分为三个档次:50元、200元和1000-5000元。

不难发现,网络信用卡的信用额度非常低,原因之一,就是机构无法在授信前对用户的风险系数进行详细、完整、全面的追踪和评估。换言之,仅仅拥有网上数据远远不够。

对此,蚂蚁金服相关负责人告诉记者,芝麻信用可以与外部机构合作,获取线下数据,或由用户主动提供线下数据,以此丰富数据的种类。

在此基础上,芝麻信用的数据偏交易,而腾讯的数据偏社交,其他的6家机构也各有特点。而要让不同企业之间互相合作,打通数据,似乎又很难做到。

“事实上,美国的三大征信机构都是独立的第三方机构,且互相之间有合作。但在中国,数据的共享和交换并不现实。”郭宇航指出,“这是因为,考虑到腾讯和阿里的背景,你很难把它们的征信机构当做一个独立的公允的平台。”

进一步说,腾讯和阿里“什么都做”,在征信之外有其庞大的主体业务。一旦其他的业务与征信业务产生冲突,外部合作就变得十分艰难。举例来说,新浪微博虽已式微,但仍拥有大量的用户行为数据。然而,考虑到阿里第二大股东的身份,新浪微博或许很难和其他征信机构合作。

另一种情况是,假使芝麻信用和腾讯征信与外部的商业机构合作,但外部商业机构与阿里、腾讯旗下的其他业务正好是竞争对手的关系,那么阿里、腾讯又如何平衡好内部的关系呢?外部第三方机构,又如何愿意将核心数据提供给芝麻信用与腾讯征信呢?

而阿里和腾讯本身,对另一方出具的数据报告也可能难以认可。此前,淘宝屏蔽了微信链接,微信又屏蔽了快的红包,之后新浪微博又禁推微信公众号。如此简单粗暴的竞争,不断地上演着。尽管各家企业都高呼“平台性思维”,但可以预见的是,未来在互联网征信领域的商战又会再次上演。

而腾讯征信、芝麻信用出具的征信报告,短期内也很难在更多外部的应用场景中占到主流地位,往往只能在腾讯、阿里各自的体系内发挥效应。