在 大数据 商品化之前, 利用 大数据 分析工具和技术来取得竞争优势已不再是秘密。2015年, 如果你还在职场上寻找 大数据 的相关工作, 那么, 这里介绍的9种技能,将帮助你得到一个工作机会。
Apache Hadoop
Hadoop现在已经进入第二个10年发展期了, 但不可否认的是, Hadoop在2014年出现了井喷式发展, 由于Hadoop从测试集群向生产和软件供应商方向不断转移, 其越来越接近于分布式存储和处理机架构, 因此, 这一势头在2015年会更加猛烈。由于 大数据 平台的强大, Hadoop可能是一个挑剔的怪兽, 它需要熟悉的技术人员细心的照顾和喂养。掌握Hadoop最核心技术 (例如, HDFS, MapReduce, Flume, Oozie, Hive, Pig, HBase, and YARN) 的技术人员在职场上的需求将越来越大。
Apache Spark
如果说Hadoop在 大数据 世界中已广为人知, 那么Spark就是一匹黑马, 它所蕴含的原始潜力使Hadoop黯然失色。无论是否是Hadoop架构, 快速崛起的内存计算技术被认为是MapReduce风格分析框架更快和更简洁的替代方案。Spark最佳的定位应当是 大数据 技术族中重要的一个成员。Spark仍然需要专业技术进行编程和运行, 这为知晓该技术的工程师提供了不错的工作机会。
NoSQL
在 大数据 的操作层面, 诸如 MongoDB 和 Couchbase 等分布式、可扩展的 NoSQL 数据库正在接管市场份额极为庞大的的 SQL 数据库, 例如 Oracle 和 IBM DB2。在 WEB 和移动 app层面, NoSQL数据库常常被做为Hadoop分析的数据源。在 大数据 领域, Hadoop 和 NoSQL 分别成为良性循环的两个端点。
Machine Learning and Data Mining( 机器学习 和 数据挖掘 )
人们习惯于对收集的数据进行挖掘,但是, 在当今 大数据 的世界里, 数据挖掘 已经达到了一个全新的高度。 机器学习 成为去年 大数据 技术最热门的领域之一, 2015年顺理成章地成为它的突破之年。 大数据 将会使那些能够利用 机器学习 技术去构建和训练像分类、推荐和个性化系统等预测分析应用程序的人成为职场宠儿, 取得就业市 场上的顶级薪金。
Statistical and Quantitative Analysis(统计和定量分析)
这就是 大数据 。如果你有定量推理背景和数学或统计学等方面的学位,那么你就成功了一半。此外,再加上一些使用统计工具经验,例如 R, SAS, Matlab, SPSS, 或者是 Stata, 你就能够锁定这些工作岗位啦。在过去,许多量化工程师都会选择在华尔街工作, 但由于 大数据 的快速发展, 现在各行各样都需要大量的具有定量分析背景的 极客。
SQL
以数据为中心的语言已有超过40年的历史了, 但是这种祖父级的语言在当前的 大数据 时代仍然具有生命力。尽管它难以应对 大数据 的挑战 (见上文NoSQL部分), 但是, 简化了的结构化语言使其在许多方面变得十分容易。同时应该感谢来自于Cloudera所发布的Impala等开源项目, SQL获得了新生, 成为下一代Hadoop规模的数据仓库的通用语言。
Data Visualization(数据可视化)
大数据 可能不是那么容易理解, 但在某些情况下, 通过鲜活的数据吸引眼球仍然是不可替代的方法。你可以一直用多元或逻辑回归分析方法解析数据, 但是, 有时候使用类似 Tableau 或Qlikview 这样的可视化工具探索数据样本能够直观的告诉你所拥有的数据的形态, 甚至是发现那些能够改变你处理数据方法的一些隐蔽细节。当然,如果你长大后想成为数据艺术家, 那么, 精通一个甚至是更多的可视化工具就是必不可少的了。
General Purpose Programming Languages
在类似 Java, C, Python, 或 Scala 等通用语言中拥有编程应用经验能够使你相对于那些局限于分析技术的人更具有优势。根据 Wanted Analytics的统计, 招聘具有 数据分析 背景的“计算机编程”职位的数量增长了 337%。具有传统应用程序开发和新兴 数据分析 能力的人将会有极大的就业选择空间, 能够自由的在终端用户企业和 大数据 创业公司之间进行流动。
Creativity and Problem Solving(创造力和问题解决能力)
无论你在高级分析工具和技术方面有多大优势,自主思考能力仍然是无可替代 的。 大数据 处理工具会不可避免的进行演化发展,新技术会不断涌现并替代这里所列 出的技术。但是,如果你能出于本能的渴求新的知识,并且能够像猎犬一样发现问题 的解决方案,就会有大量的工作机会在等着你。