我们来探索一下数据的坚实基础如何实现更少人工参与而更智能的人工智能。
在当前的技术领域,没有什么能像人工智能(AI)那样使人好奇和兴奋。我们才渐渐看到企业内人工智能应用程序的潜在好处。
然而,因为数据科学家往往无法获得建立高效人工智能模型所需的相关数据,企业中人工智能的发展受到了阻碍。这些数据专家往往只能依赖一些已知的来源,如现有的数据仓库,而不能利用他们所需的所有实时的,真实的数据。此外,很多公司费了九牛二虎之力才能高效且经济地左右海量数据的业务环境和质量。有鉴于这些困难,人们不难理解人工智能的加速和采用所面临的一些历史障碍。
数据最终仅对人工智能有用——或在其它情况下有用——只有当你理解它时才成立。具体而言,这意味着你要了解它的背景和重要性。只有这样,你才能放心大胆地用它来训练人工智能模型。实现这一目标的唯一方法具备“智能数据”的根基。
多年来,我们所做的不仅仅是数据的收集和聚合,目的是推动特定的业务应用程序(数据1.0),由于数据的数量、种类和速度继续暴涨(数据2.0),组织已经能够创建明确的流程,让所有人都能使用数据。但这还远远不够。我们现在已经到了这样的程度——人们需要智能数据才能真正为企业范围的转型提供动力(数据3.0)。
例如,试想一下一家公司重新定义其与客户群的传统关系所面临的难题。假设你是一家生产剃须刀片的公司,其目标是通过订阅而非柜台直接交易的方式销售刀片。指导这种颠覆性变革需要来自数据源(数据库,数据仓库,应用程序,大数据系统,物联网,社交媒体等)的输入,需要各种数据类型(结构化的、半结构化的和非结构化的)和不同位置(本地的、云端的,混合的和大数据)。又或者,如果你是一家重型设备制造公司,该公司要确保你可以实时处理车间和机器人的所有数据,以预测所有的停机时间,同时保持定期维护,以避免可能耗费数百万美元的运营停机时间。
数据湖泊正在成为这样的变革性事业所需的大量不同数据的首选存储库。但没有智能数据,这些湖泊则无甚价值。Gartner估计,到2018年,竟有90%的数据湖泊变得毫无用处,因为它们充斥着鲜有人能够使用的原始数据。(“元数据能在数据湖泊中获得目标数据。”)
相比之下,有了智能数据,数据科学家就可以对“客户”这样的词进行类似谷歌一样的搜索,并立即发现相关数据的所有可能来源。智能数据可以节省大量宝贵的时间,不然数据科学家可能不得不花费大量时间来收集、组装和改进模型所需的数据。智能数据还能实现最可靠的成果。
那么你如何确保数据真正实现智能化?方法就是构建端到端的数据管理平台,该平台本身就使用
机器学习和人工智能功能,由广泛的元数据驱动,以提高平台的整体生产力。元数据是挖掘数据价值的关键。
如果你想确保自己能提供全面、重要且准确的数据来实施人工智能,那么你需要考察四种不同的元数据类别:
1. 技术元数据:包括数据库表和列信息以及有关数据质量的统计信息。
2. 业务元数据:定义数据的业务情境以及它参与的业务流程。
3. 操作元数据:有关软件系统和流程执行的信息,例如,它们会指示数据新鲜度(data freshness)。
4. 使用元数据:有关用户活动的信息,包括人们所访问的数据集,评级和评论。
应用于此类元数据的
人工智能和机器学习不仅有助于发现和推荐正确的数据。这样的数据也会自动得到处理而无需人工干预,使其适用于企业人工智能项目。
数字化转型迫使组织以不同的方式审视数据,问题是组织想变成“老鹰还是小鸡”。如今,人们可以随时使用实时的、始终可用的数据和工具,使快速分析成为可能。这推动了人工智能和机器学习的发展,使过渡到数据优先的方法成为现实。由于数字化、数据爆炸以及人工智能对企业的革命性影响,人工智能的复兴正在蓬勃发展。
显然,有无数的数据输入可能影响人工智能应用程序的决策,因此组织需要对相关且有影响力的内容进行分类,以及什么是噪声。在你的组织采用人工智能驱动的数据管理方法之前,请考虑以下问题:
• 你希望通过人工智能技术实现什么样的目标?
• 你是否有合适的数据策略来助力人工智能驱动的决策?
• 你具备合适的技能了吗?