爱吧机器人网 » 技术 > 大数据 > 正文

一个优秀数据科学家的主要构成特点

根据三位作者的咨询和研究经验,以及与许多 大数据 和分析主题的公司合作,了解一个良好的数据科学家具有哪些主要特征。

大数据 分析已经满天都是,IBM项目,每天产生2.5兆字节的数据。这意味着90%的数据在过去的两年里被创造出来。Gartner projects预测,到2015年,85%的500强的企业将无法利用 大数据 的竞争优势,并且大约有440万个工作岗位将围绕 大数据 创建起来。

虽然这些预测不能够在绝对意义上进行解释,但是他们代表无所不在的 大数据 ,以及需要分析的能力和资源的强有力的指示。因为随着数据堆积,管理和分析这些数据资源的最佳方式,已经成为创造竞争优势和战略杠杆的关键成功因素。为了应对这些挑战,公司正在招聘数据科学家,然而在业内,对于什么是优秀的数据科学家却存在着很大的误解和分歧。以下是一个优秀的数据科学家的主要构成特点:

数据科学家应该是一个优秀的程序员

根据定义,数据科学家与数据打交道。这涉及到大量的活动,如采样和处理的数据,模型估计和后期处理(如敏感性分析,模型部署,回归测试,模型验证)。虽然在当今的市场上,很多用户易于掌握的软件工具是自动化的,但是每一个分析都需要用量身定制的步骤来解决特殊的业务问题。为了成功执行这些步骤,就需要编程来解决了。

一个数据科学家应该有扎实的定量技能

一个数据科学家应该有统计, 机器学习 以及 数据挖掘 的背景。不同学科之间的区别越来越模糊,但是实际上并不是相关的。他们都提供了一套定量的技术来分析数据,并且在特定的背景下(如风险管理,欺诈检测,营销分析……),找到业务相关的模式。数据科学家应该知道哪些技术可以怎样利用并知道应该何时应用。他/她不应该把焦点放在基础数学(例如优化)的细节上,而是对分析问题的解决方法有一个很好的理解,以及如何解释它的结果。这里,培训一个计算机科学及商业/工业工程的工程师,目标应该是一个综合的,多科学观点,随着最近这两种技术的使用梯度形成的,以及能够根据必要的商业触觉带来新的努力成果。

在这样的背景下,同样重要的是,花足够多的时间来验证分析结果,从而避免经常被提及到的数据信息及数据曲解,这些数据是(有意的)歪曲并且过于集中精力讨论虚假的相关性,当选择最佳的定量技术时,数据科学家应该考虑到业务问题的特殊性。

典型的分析模型的要求是:

行动能力(多大程度解决分析模型的业务问题?)

性能(分析模型的统计性能是什么?)

解释能力(是否可以很容易地为决策者解决分析模型?)

运作效率(需要多少努力来建立,评估和监测分析模型?)

法规遵从(是否符合规定的模型)以及经济成本(简历,运行和维护的成本是什么?)。

根据这些要求的组合,数据科学家应该能够选择最佳的分析技术来解决业务问题。

一个数据科学家应该善于沟通与可视化的技能

不管你喜欢不喜欢,分析是一种技术性的锻炼。在这个时候,分析模型和商业用户之间有一个巨大的差距。为了弥补这个差距,沟通和定量技能的可视化设施是关键!

因此,数据科学家应该知道如何提出分析模型和他们的附随统计以及易于用户使用方式的报告。例如,交通灯的方法,联机分析处理设施,”如果-然后”业务规则,……他/她应该能够在不迷失复杂的细节(如统计)的情况下传达适当的信息量,这些细节将会阻碍一个成功模型的部署。这样做,企业用户将会更好地了解他们的特点和在他们行为下的 大数据 ,这将提高他们的态度并接受分析模型的结果。

教育机构必须学会平衡,因为它已经有很多的学术学位,以及因为过度分析或过度练习实践知识的学生而知名了。

一个数据科学家应该有一个坚实的商业认识

了解业务是必须的。我们见证了许多数据科学项目失败了,因为各自的分析师不理解手上的业务问题。通过”业务”,我们指的是,例如如果各自的数据被分析,那么在一个真实的商业,或天文学,或医学的环境下进行客户流失预测或信用评分。

数据科学家应该是具有创造性的

一个具有创意的科学家至少需要两个层次的创造力。首先,在技术层面上,在特征选择,数据转换和清洗数据方面具有创造性是非常重要的。标准知识发现过程的步骤必须适用于每一个特定的应用程序,通常”正确的猜测”可能会产生很大的差异。其次, 大数据 分析是一个快速发展的领域!新的问题,新的技术和相应的挑战都出现在正在进行的基础上。一个数据科学家需要不断创新以适应这些新技术是非常重要的,并有足够的创造力去了解他们如何创造新的商机。

结论:

我们提供了一个简短的特点概述去寻找一个优秀的科学家。总之,由于 大数据 分析的多学科性质,数据科学家应该拥有一个混合的技能:编程,定量建模,沟通和可视化,业务理解能力以及创造力!下图显示了如何表达这些的文件。

图:数据科学家简介

上一页12下一页

上一篇:大数据与人工智能结合将实现更大商业价值
下一篇:餐饮行业怎么才能玩转大数据?
精选推荐
2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

农业将为高科技行业 农业机器人的应用领域
农业将为高科技行业 农业机器人的应用领域

[2017-12-17]  农业正在迅速成为一个令人兴奋的高科技产业,吸引了新专业人士,新公司和新投资者。技术发展迅速,不仅提高了农民的生产能力,而且促进了我们所知道的机器人和自动化技术的发展。...

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

Waymo:人性和行为心理学才是无人驾驶最大的挑战
Waymo:人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03]  自动驾驶汽车作为AI领域内最大的挑战之一,谷歌致力于其研发已有十余载,现在他们逐渐意识到,最困难的是如何让人们享受驾驶的乐趣。这是一 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...