爱吧机器人网 » 技术 > 大数据 > 正文

互联网征信:如何处理数据问题是关键

导读

互联网 征信业务有很多雷区,比如不能采集敏感的个人信息,数据的 安全 与透明度,不同机构间数据的交换难题等。此外,腾讯征信、芝麻信用等公司虽具备大量的用户行为数据,但这些数据与个人的借贷行为关系并不大,因而其建立的模型不一定准确,很难被主流的金融机构引用。

千呼万唤之后,个人征信业务市场终于放开。1月5日,央行发布了《关于做好个人征信业务准备工作的通知》,要求八家机构做好个人征信业务的准备工作,准备时间为六个月。

这八家机构中,最受关注的入局者是蚂蚁金服旗下的“芝麻信用”,以及腾讯旗下的“腾讯征信”。 蚂蚁金服和腾讯也表示,将通过海量的在线 数据分析 ,建立模型来判断用户的信用程度。

事实上,随着 互联网 金融业务的高速发展,个人征信体系的建设显得极为迫切。但需要指出的是,尽管 互联网 征信将极大地丰富传统征信数据,又具有实时性,但该系统的建立仍面临诸多困境。

有业内人士称, 互联网 征信业务有很多雷区,比如不能采集敏感的个人信息,数据的 安全 与透明度,不同机构间数据的交换难题等。此外,腾讯征信、芝麻信用等公司虽具备大量的用户行为数据,但这些数据与个人的借贷行为关系并不大,因而其建立的模型不一定准确,很难被主流的金融机构引用。

眼下,这些征信机构尚没有完整的产品推出,而6个月的准备时间也难有实质性操作。“没有三五年的数据积累和产品开发, 互联网 征信很难有成熟的产品推出。”一位 互联网 金融人士告诉21世纪经济报道记者。

海量数据的烦恼

蚂蚁金服方面称,芝麻信用有着非常广泛的信用数据来源,日数据处理量在30PB以上,相当于5000个国家图书馆的数据总量,其中包含了用户网购、还款、转账以及个人信息等方方面面的数据。通过分析大量的电商交易及行为数据,芝麻信用可以对用户进行信用评估,判断用户的还款意愿及还款能力,继而为用户提供快速授信及现金分期服务。

作为蚂蚁金服的子品牌,芝麻信用体系将包括芝麻分、芝麻认证、风险名单库、芝麻信用报告、芝麻评级等一系列信用产品。

而腾讯的财付通团队早在2年前就开始推进征信业务的探索,帮助用户建立个人信用。据悉,腾讯征信将基于腾讯现有的QQ、微信活跃用户,以及在SNS、门户、娱乐等众多领域的群众基础,通过海量 数据挖掘 和分析技术来预测其风险表现和信用价值。

但是,数据量大并不一定是一件好事,因为数据的筛选和清洗是一个非常枯燥复杂的过程。况且,数据量越大,审核维度越多,由此带来的“数据噪音”也越多,模型越失真。

在P2P平台“点融网”共同创始人、联合CEO郭宇航看来,海量的网络数据意味着 互联网 征信机构一是得找到技术非常强的牛人,二是要不断地试错。

“美国征信公司FICO针对个人采集了100多个数据维度,但真正纳入征信模型的只有十几个维度。这其中也是经历了大量的分析运算。”郭宇航称。

此外,在信息采集的过程中,这些民间征信机构又会面临诸多限制。

出于对信息 安全 的保护,2013年1月出台的《征信管理条例》,对个人信息的采集做了明确的限制:比如禁止征信机构采集个人的宗教信仰、基因、指纹、血型、疾病和病史信息以及法律、行政法规规定禁止采集的其他个人信息。那么,如何在法律许可的范围内,尽量掌握每个用户完善、丰富的数据信息,又不侵犯用户隐私,就变得非常重要。

在郭宇航眼里,法律禁止采集的数据恰恰是能反映个人信用的比较关键的数据,这意味着,腾讯征信、芝麻信用等公司必须在大量的“边缘化”数据的基础上,通过反复比对和计算,找出一定的规律。

而在隐私保护层面,蚂蚁金服相关人士向记者称,公司在处理用户数据时会先进行“脱敏”处理,即将数据清洗、加工后再使用。“我们在搜集用户数据前会先得到用户的授权,并且对于那些电话、地址等敏感信息,也绝对不会透露出去。”此外,在数据存储中,蚂蚁金服也会对数据进行加密处理,并根据数据的重要程度采取不同的存储方式。

实际上,民营征信机构眼下在用户隐私问题上,面临的压力还不大。郭宇航坦言,在中国,针对隐私的保护很弱,在 互联网 金融领域更是对隐私缺乏实质性的管理。另一厢,一些90后的年轻人本身对隐私的泄露也不是很在意,一些年轻人为了一些优惠券,就能轻易地把自己的手机号、身份证号泄露出去。郭宇航甚至听说有的用户会将信用卡号和密码提供给一个小型APP,只是为了让这个软件为其做账单的整合。

“当用户自己都不介意隐私的时候,又谈何隐私保护呢?”他反问道。

数据的短板

值得一提的是,民营企业开展的个人征信业务能否顺利对接央行信用报告的核心数据(如工资收入、社保记录、信用卡记录、贷款记录等),还存在很多不确定性。此前,许多P2P平台就是由于无法对接央行信用数据,而不得不亲力亲为地做征信。眼下,腾讯等企业在一定程度上与银行有竞争关系,要将核心数据共享给竞争对手,对银行来说并不容易。

假使腾讯征信、芝麻信用等企业拿不到央行的核心数据,那么其信用报告便不太可能被主流的金融机构所引用。由于缺乏金融数据,腾讯等民营机构必须不断地试错,再用自己体系内的数据慢慢替代传统的金融数据。而这一过程,通常需要三五年之久。

以P2P为例,一个信贷周期通常需要1.5-3年,换言之,要摸清用户的还款情况,民营征信机构必须等上一年半以上。这一结果还需要反复验证。

况且,央行本身的数据也不完整。目前,我国提供个人征信服务的“正规军”只有央行征信中心及其下属的上海资信公司。截至2014年10月底,征信系统收录1963万户企业及其他组织和8.5亿自然人信用信息。值得一提的是,有征信记录的个人大多是与银行有业务往来的优质客户,而腾讯等公司的用户中,有相当多是在央行征信范围之外的,即“草根”用户。换言之,央行的征信系统也无法覆盖主流用户之外的个人的信用情况,腾讯等公司仍需要亲自摸索。

上一页12下一页

上一篇:埃博拉病毒——大数据时代的疫情防控
下一篇:大数据的未来之路
精选推荐
受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)
亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)

[2017-03-21]  近日,亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想,他控制了一个巨大的机甲机器人。据国外媒体Verge报道,前天(3月19日),贝 ...

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站
搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09]  12月5日,搭载人工智能的太空机器人西蒙2号(CIMON 2)乘坐SpaceX火箭Dragon货运舱,从佛罗里达州卡纳维拉尔角空军基地升空,前往国际空间 ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

本周栏目热点

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

[1970-01-01]   今天Fivethirtyeight(以数据为主的时政分析博客)的博主,美国著名政治评论家、 大数据 领域的超人Nate ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...