在利用深度学习进行算法训练时,数据在算法模型迭代的过程中并不会产生理想化的“网络效应”,要避免数据、计算等资源成为成本中心,自动化的算法生成和数据标注可能是最高效的解决办法。作为中国人工智能领军企业,旷视似乎已经在深度学习等底层技术上找到问题最优解,这对其他人工智能企业有着重要的借鉴意义。
图:旷视以Brain++深度学习框架解决数据网络效应失效带来的成本问题
通俗来讲,“网络效应”就是当一个产品使用的人越多,它的价值便越大,例如社交软件。放到AI的场景中,数据的“网络效应”体现在当数据量越多时,训练出来的AI算法质量将越高,识别效果越好或准确率越高,最后投入到实际应用中产生的商业价值就越大。那么当越来越多场景使用高质量算法的时候,数据集的获取成本分摊下来就会越来越低。
但数据网络效应放在AI场景的实际效果并非如此。相关资料显示,尽管大部分条件下数据的确具有网络效应,通过数据训练生产算法能够将准确率提高到50%甚至更高,但再向上提升则十分困难。因此,当AI公司刚进入新场景时需要至少得到一套最小价值数据源(minimum viable corpus)进行训练,找到满足基本场景的算法组合,然后再收集尽可能多的极端案例进行持续迭代。
但是如此一来就会造成两个问题:数据获取成本将随着算法升级而越来越高,且数据很可能会过时,老旧的数据需要及时被剔除或重新标注。同时,由于越往后算法迭代的耗时越长,服务器成本与人工干预输出处理成本将有所增长。那么,要如何解决“数据网络效应”在AI中逐渐失效并随之引发的各类成本问题呢?对此,旷视给出的答案是人工智能算法平台Brain++和人工智能数据管理平台Data++。
Brain++是旷视自研的一套端到端的AI算法平台,采用了AutoML技术,使旷视构建出一条不断自我改进、不断变得更加自动化的半自动的算法开发生产线。基于Brain++,旷视就能够针对不同垂直领域的碎片化需求定制丰富且不断增长的算法组合,包括很多长尾需求,并且能以更少的人力和更短的时间开发出各种新算法,能够有效避免数据网络效应失效引发的各类成本问题。
旷视Data++则能够有效管理并安全储存旷视用作算法训练的数据,允许多个研究人员同时访问同一套数据进行训练,并支持半自动数据处理及标注。在算法训练中,Data++也从根本上降低了带宽及人工标注成本。也因此,旷视在2019年成功发布了全球最大物体检测数据集Objects365。从数据质量、体量上来看,都远远超过现有的ImageNet、COCO数据集。要知道内生的数据集覆盖范围越全、质量越高,企业外购的需求才会越少,成本也才更可控。
人工智能从上个世纪60年代就开始起步,但最近几年才真正迎来发展高潮。我国2019年人工智能产业规模达到105.5亿美元,预计到2022年产业规模将接近300亿美元。但是具体来看,人工智能近年来突飞猛进主要有两方面因素。一个是因为积累了大量的数据。另外一个是由于这些算法的进步,使得这些算法可以在这些数据里学习到越来越多的知识,所以实际上总结起来就是深度学习技术把人工智能推向了一个新的高潮。因此,旷视自研人工智能算法平台Brain++,并计划将于今年3月底对其核心深度学习框架 MegEngine进行开源,进一步解决行业成本控制问题,加速人工智能落地,推动我国经济高质量发展。