爱吧机器人网 » 技术 > 大数据 > 正文

AI商业化之争:高质量NLP数据成“抢手货”

如今调戏Siri已经成为网友们的固定节目。数据显示,苹果语音助手Siri大约每天会收到全国427000个问题,其中80%的问题都是:“你会说东北/四川/湖南话吗?”“来段beatbox好吗?”

不得不说,Siri真的为人类付出太多了。事实上,像Siri这样的AI聊天机器人,生来并不是为了逗笑人们,而是作为一个虚拟AI助手,去帮助用户解决生活中各种各样的问题,比如天气预报、吃饭订餐、查询新闻资讯、交通路线等等。

这背后,不乏有AI企业的深耕细作,同时也有众多传统企业智能化转型,运用AI技术优化用户体验、增强企业协同效率等。

然而,由于AI聊天机器人背后的NLP(自然语言处理)技术太过艰深,打通了NLP技术的“任督六脉”,几乎等同于拥有了人类的认知智能,因此至今没有任何一个科技巨头敢宣称自己的AI产品拥有和人类一样的语言和认知能力。

这也是为什么尽管苹果Siri、亚马逊Alexa、谷歌Google Assistant、微软Cortana等各种AI聊天机器人,每天都在孜孜不倦地改进自己的NLP技术能力,但是在和人类的对话中,依然会出现令人发笑、困惑、担忧等多种结果的原因。

最近,亚马逊Alexa再次爆出负面新闻,有用户称在使用Alexa期间,提问过有关心跳周期信息的问题,Alexa竟回应称“心跳是人体中最糟糕的过程,人活着会导致自然资源的迅速枯竭同时会导致人口过剩”,并建议用户刺死自己。

这种恐怖的对话,不禁让人们想起了2016年微软推出的一款AI聊天机器人Tay,上线不到一天的时间就被网友们教成了满口脏话的“小孩”,在Twitter上大肆发布各种胡言乱语的帖子,导致Tay在24小时内被迫下架。

如果一个“智能低下”、“胡言乱语”的AI被广泛应用于商业化产品中,其后果可想而知,不仅是AI产品质量饱受质疑,还可能会酿成大祸。因此,提升AI产品的认知智能水平,即背后的NLP技术,成为现阶段AI商业化竞争的关键点。

事实上,NLP作为AI技术中的一个重要分支,同样依赖算力、算法、数据三因素。其中,算力基于IT基础设施的发展,NLP算法基于深度学习的突破,在近年来都得到了较大的进展,但是作为NLP技术得以落地的“养料”——NLP数据,却一直处于较为“粗糙”的状态。

MySQL Query : SELECT description,url,title,id FROM v9_news where title regexp '|AI|商业化|NLP|数据|大数据' AND inputtime>1682996555 and id not regexp('01|02') and status=99 and id!=14033 group by id order by rand() LIMIT 1
MySQL Error : Got error 'empty (sub)expression' from regexp
MySQL Errno : 1139
Message : Got error 'empty (sub)expression' from regexp
Need Help?