从语音识别到人脸识别、从AlphaGo到无人驾驶汽车,人工智能技术越来越引起社会各界的关注。其中一个重要背景就是大数据时代的到来,推动发展了以数据搜集、统计、分析为基础算法的机器深度学习。而人工智能的核心正在于三大技术的汇流:一是以深度学习为核心的算法的演进;二是计算机处理能力和运算速度的提高;三是互联网技术的发展产生了广泛、海量的数据。
对以数据为核心资产的征信业来说,人工智能给行业发展带来的增长是不可限量的。前者会在两个方面对征信产生无远弗届的影响:一是在模式识别方面,主要解决交易场景中的身份识别问题,且已取得了巨大成功;二是在信用分析及预测方面,主要解决客户信用的风险评估问题,目前尚在研发阶段,预期未来发展潜力巨大。
互联网经济要求新的个人信用使用方式
对个人身份进行有效识别是征信机构提供信用信息服务的前提条件。人工智能在生物识别方面的应用近年取得的较大进展,主要来自基于大数据的
机器学习,并在基于人工神经网络的深度学习上实现了突破。以往,机器学习已成功应用于垃圾邮件过滤、手写字符识别等在线下时代必须通过人力帮助判断的领域,也有效解决了线上时代在机器翻译、欺诈检测、产品推荐等方面难以针对有效需求精准完成的难题。但过去十年中,基于算法的演进、
大数据技术和计算机运算能力的提高,特别是深度学习方式的开发,使得“机器”的智能显著提高。
所谓“深度学习”,是机器学习中一种利用空间相对关系对数据进行表征学习的新型机器学习模式,通过构建深层人造神经网络,组合多层硬件和软件在层级间移动大量数据,每层都要根据学习内容提供自己的数据表示方法,再将学习结果传递到下一层。当前,人工智能=深度学习+大数据,是一个最具时代精神、也最被普遍接受的认识。
人工神经网络受1943年首创的人类神经网络计算模型的影响而开发,并在1957年面世的感知器(Perceptron)系统中得到第一次软件体现——一种基于双层网络的模式识别算法。但因计算能力有限而被弃,近年由于互联网和大数据技术的出现而再度引起关注。
互联网经济时代,金融服务会更多体现在场景模式的
应用中。机器深度学习通过在大数据中寻找“模式”,在这些模式的基础上运用一定算法再次统计分析,在毋须过多人工介入和人为干涉的情况下,利用分析所得预测事件结果。通过分析持续产生的越来越多的数据,构建并不断完善预测消费者行为的各种数学模型,在此基础上进一步生成“深度”计算模型,如此不断深化及复杂化学习结果,从而使预测结果越来越趋近现实情况的演变。
在传统商业模式中,征信机构主要通过采集消费者的证件号码和姓名对消费者身份进行识别,如美国征信机构采用社会保障号对消费者身份进行识别,我国人民银行征信系统采用包括证件类型、证件号码、姓名在内的三项标示,并在征信报告查询时引入其他问题对消费者身份进行识别。但以上方式方法更适合在线下、低频的交易模式中使用。对数据应用强度、频度、广度均位居各行业前列的金融业来说,互联网时代线上交易大量、频繁、小额的特征,强烈要求出现与之相适应的新的个人信用使用方式,以保证消费者信息在进行验证时的安全性和有效性均能够受到保证。
生物特征识别是互联网金融时代的“刚需”
相比通过身份证号码进行识别,使用消费者个人生物特征进行验证,过程更加可靠和安全。加上互联网金融对风控的强制要求和反欺诈中对身份识别的“刚需”,生物识别技术在一些新型金融机构的业务应用中已取得较好的进展。其中,人脸识别技术最为吸引眼球,配合传统的密码、短信等安全验证手段,自带活体检测效果可有效避免以往因用户个人信息泄漏造成的金融诈骗事件,为金融业的风控手段增添了强有力的武器。
如图1所示,在基于人体生物特征的模式识别(生物识别,Biometrics)中,对声纹、人脸、指纹、虹膜和DNA五种识别技术进行比较的结果,DNA识别的准确率最高,但难以采集,声纹识别的准确率最低,却最容易采集。其中,虹膜识别在稳定性和准确率上的表现均居中档,是权衡成本应用后在目前最具性价比的生物识别技术之一。2017年9月,支付宝和菜鸟在上海举办的物流开放大会上宣布面向中小物流企业开放从基础的支付到中高的营销、信用、金融等能力。其在自提柜上即可实现的“刷脸取件”,采用的就是蚂蚁金服基于Face++研发的人脸识别技术。在现场演示中中,自提柜只用5秒就完成了对取件人的身份验证过程。
不过,对消费者信用进行评分作为涉及消费者切身权益的半公共产品,不仅要有足够的预测准确率,还要具有可解释性。人工智能技术虽然能提高信用评估的准确性,但其学习过程非常复杂,甚至程序员也不能完全了解机器是怎样学习的以及是如何通过学习得到结果的。这种“黑盒子”式的特点导致深度学习并不适于在个人信用评分方面的应用,而使其在征信领域的普及受到挑战。
相比之下,国外征信机构和风险评估机构对人工智能等先进信息技术一直保持着高度关注,多年来投入大量人力、物力进行研发,并申请了相关专利。随着人工智能技术的进步,这些机构也开始尝试引进其他技术与人工智能合作,以在保持其预测准确性的同时具有可解释性,从而加快推进人工智能技术在征信领域的商业化应用。
一是在开发信用卡流失模型时,数据专家通过机器学习发现信用卡使用的新进度和频率之间的强大交互,将这种相互作用作为非线性特征以可解释的方式纳入评分卡后,即获得“提升度(Lift)”指标的显著提升(约10%左右);通过机器学习应用事件特定的与新进度和频率相关的一组组合,可以获得另外15%的性能提升。这些预测性改进应用到现实中,就可以转化为投资组合的实质利润增长,通过机器学习继续获得更准确的目标客户保留策略。
二是在一个数据有限的房屋股权投资项目中,数据样本中缺乏足够的“坏账”(不良贷款)导致出现了一些问题。通过建立具有优化超参数的基于机器学习的信用评分,确定是传统评分卡技术导致丢失了大量信号。通过将机器学习技术与评分卡技术相结合而创建的解决方案,其性能(KS)相比传统评分卡(见图2)提高了约20%。
需尽快备战征信领域的商业化应用
以往,Google、亚马逊、Netflix等数据驱动型公司,利用大数据技术和机器学习将蕴含在互联网中的巨量商业财富发掘出来,最终建成了今天的互联网商业财富帝国。今天,以全球第二大个人征信机构Equifax、美国个人消费信用评估公司FICO和智能分析软件公司SAS为例,都在利用人工智能技术改善数据分析的有效性和建模过程的自动化,针对“利用人工智能和机器学习对信用评分的建模缺乏解释性”这一挑战进行深入研究,力图在提高评分模型的准确程度的同时实现其可解释性,推进人工智能技术尽快实现大规模商业化应用。
Equifax:开发深度学习工具,申请相关专利
成立于1899年的全球第二大征信机构Equifax,收集和分析了全球超过8.2亿消费者和9100万家企业的数据,以开发能够提高信用评分的深度学习工具。Equifax开发了一个基于神经网络的信用评分系统,剥离了“黑盒子”,能够提供算法的完全解释,每个输入都可以映射到神经网络的隐藏层,并为此特地增加了针对进入模型的数据提供相关意义解释的标准。新的神经网络模型将预测能力提升了15%,而且所分析数据集的规模越大,分析的算法越复杂,结果的改进就越大。原因在于,虽然“信用属性”是影响个人信用评分的重要因素,如个人支票账户余额及过去6个月的使用情况等,但人工智能算法基于“数据驱动”的学习而创建,这些数据并非从数据专家的假设或根据经验产生的,而是在深入学习的过程中,基于更多历史或“趋势性”数据而创建的。这决定了人工智能将根据建模的目的来确定什么样的算法是最有预测性的。
SAS:开发深度学习的应用接口
SAS成立于1976年,是一家对数据进行分析、开发和销售的数据管理软件公司。SAS创建的由可视化数据挖掘和机器学习工具生成的神经网络(见图3)不仅为其数据挖掘工具增加了新的深度学习功能,还提高了深度学习的应用接口,由数据来定义深度学习的下一步做什么。
FICO:将人工智能与传统风险评估方法相结合
在提供信贷决策服务方面具有全球垄断地位的FICO很早就开始了对人工智能及其研发的布局。FICO将人工智能技术与成熟的信用评分技术相结合,建立在经过时间考验的分析模型和评分卡上,通过人工智能技术驱动实现更好的模型细分和特征生成,从而提高模型的性能。目前FICO正在研究开发如何在保证评分模型可解释性的前提下,利用人工智能技术进行信贷特征选择,并已取得了长足的进步。
发展智能征信的蓝海和短板
人工智能技术除了能够帮助征信机构在对客户身份进行识别时可以提供新的更安全、有效的服务方式,还可以通过开发替代数据挖掘客户信用,促进信贷市场发展,从而在风险可控的前提下实现普惠金融落地。
比如,目前在全球征信行业中普遍存在的一个问题是,很多新兴市场国家在传统征信记录方面非常薄弱或呈缺失状态。据世界银行统计,这与当地33亿消费者中的约20亿人口既没有得到过银行服务,也没有与银行发生过任何关系有直接关系。此外,全球还有超过13亿人口虽然与银行有过一些联系,但同样没有任何信贷记录,这些消费者主要集中在非洲和亚洲的新兴市场国家。人工智能并不能直接为这些缺乏足够信贷数据的消费者提供信用服务或评估其个人信用价值,但人工智能技术可以帮助那些信用档案中记录有其他活跃信息的消费者,通过对其他非传统信贷数据如电信、公用事业账单等支付历史对消费者进行信用分析,检测这些新数据源中潜在的最重要模式,并允许其他信贷机构在针对该消费者构建风险评估方法时能够通过网络捕获这些模式。
谷歌公司旗下的网站数据统计服务ID Analytics在利用人工智能技术作欺诈预防和信用风险评估时,也发现人工智能可以帮助那些仅拥有部分信用记录的消费者得出相对良好的信用评分结果。因为人工智能技术在针对消费者信用档案中的负面信息深入挖掘以寻找其他替代数据的过程中,发现不少消费者其实具有很强的还款意愿,从而顺利得出对这部分消费者较为有利的信用评估结果。
值得注意的是,基于人工智能的身份验证技术目前仍在走向成熟的过程中,于项目的单独应用上还存在不少挑战,比如,2017年央视3·15晚会上,人脸识别技术就被五种方法分别实现了破解。对此,一种可行的解决办法是采用多模识别模式,即针对不同金融交易场景各自的特点采用多因子认证模式进行身份验证。再如,由于生物特征识别技术会抓取一部分涉及消费者个人信息的数据,出于法律上对个人隐私的保护,生物特征识别技术虽然已在全球范围的征信机构中得到或多或少的使用,但应用于国家层面的目前仅在一些新兴市场国家得到了实现。其中,总部位于南非的征信机构康普斯坦(Compuscan)在乌干达建立的以指纹识别为基础的身份识别系统,通过在征信系统中建立公民指纹数据库,有效降低了个人身份被盗用的欺诈风险。
总之,征信业处在信息技术与金融服务的交叉领域,每一次技术的进步和金融服务的改进都促使征信系统完成又一次飞跃。随着人工智能技术的深入应用,互联网经济时代的征信服务将会更加方便、安全和可靠;对征信大数据的深入挖掘,则不仅有利实现信用评估的自动化发展,还能够促进发放更多可靠的贷款,通过人工智能普惠更多消费者。
注:本文来源浙大校友求是驿站长春站。数据观微信公众号(ID:cbdioreview) ,欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。