对精通数据的工程师的需求将会迅速增长。现如今情况就是这样,无论您的公司做什么,为了在当今激烈竞争环境中取得成功,您需要一个强大的基础架构来存储和访问您公司的数据,而您从一开始就需要它。
然而,数据工程师到底是做什么的呢?如何成为数据工程师?在本文中,我们将讨论这个有趣的领域,以及如何成为数据工程师。
◆ ◆ ◆ ◆ ◆
数据工程师是做什么的?
数据工程师负责创建和维护分析基础架构,该基础架构几乎可以支持数据领域中的所有其他功能。他们负责体系结构的开发、构建、维护和测试,如数据库和大型处理系统。作为其中的一部分,数据工程师还负责创建用于建模、挖掘、采集和验证的数据集过程。
为此,工程师需要掌握通用脚本语言和工具,通过利用和改进数据分析系统来不断提高数据质量和数量。
数据工程师与
数据科学家的区别
虽然在技能和责任方面存在一定程度的重叠,但这两个职位正日益被划分为不同的角色。
数据科学家更关注与数据基础设施的交互,而不是数据基础设施的构建和维护。他们通常负责进行高水平的市场和业务运营研究,以确定趋势和关系,作为其中的一部分,他们使用各种复杂的机器和方法与数据交互并根据数据采取相应的行动。
数据科学家通常精通机器学习和高级统计建模,因为他们希望借助高级数学模型和算法将原始数据转化为可操作、可理解的内容。这些信息通常被用作向决策者说明“大局”的分析来源。
那么,是什么使数据科学家不同于数据工程师呢?一般来说,主要的区别是注重的方向不同。数据工程师更专注于为数据生成构建基础设施和架构;数据科学家更专注于对生成的数据进行高等数学和统计分析。
数据工程师的关键技能
以下是数据工程师需要的一些关键技能。
数据架构的工具和组
由于数据工程师更关心分析基础架构,因此他们所需的大部分技能都是以架构为中心的。
深入了解SQL和其他数据库解决方案
数据工程师需要了解数据库管理,因此,深入了解SQL非常有价值。同样,其他数据库解决方案,如Cassandra或Bigtable,很好的知道您是否打算从事自由职业或雇佣工程,因为并非每个数据库都将建立在可识别的标准中。
数据仓库和ETL工具
数据仓库和ETL经验对这个职位至关重要。Redshift或Panoply等数据仓库解决方案以及熟悉ETL工具(如StitchData或Segment)非常有价值。同样,数据存储和检索的经验也同样重要,因为处理的数据量只是天文数字。
基于Hadoop的分析(HBase、Hive、MapReduce等)
对基于Apache Hadoop的分析有很强的理解是这个领域的一个非常常见的需求,了解HBase、Hive和MapReduce通常被认为是一个需求。
编码
说到解决方案,编码知识在这里是一个明确的优势(也可能是对许多位置的要求)。熟悉Python,C/C++,Java,Perl,Golang,或其他这样的语言是非常有价值的。
机器学习
虽然主要是数据科学家的关注点,但对于数据工程师来说,在某种程度上理解如何处理这些数据也是非常宝贵的。因此,统计分析和基础数据建模的一些知识非常有价值。
虽然机器学习在技术上属于数据科学家,但这方面的知识有助于构建可供您的团队使用的解决方案。这些知识还有一个额外的好处,那就是让你在这个领域非常有价值,因为在这种情况下,能够“双管齐下”会使你成为一个强大的工具。
各种操作系统
最后,对 UNIX, Linux和Solaris的深入了解是非常有用的,许多数学工具将基于这些系统,因为它们对超级微软Windows和Mac的硬件和操作系统功能的root访问权的独特需求。
如何成为一名数据工程师
与其他更传统的职业相比,数据工程通常需要更复杂的学习方法。数据工程师通常拥有计算机科学或信息技术学位,然后进一步使用市场认可的特定的认证计划和培训材料。
因此,尽管你的学位很重要,但它只是一部分;获得适当的证书是非常有价值的。有一些数据工程的认证:
Google的认证专家 - 数据工程。该认证表明学生熟悉数据工程原理,可以作为该领域的助理或专业人员。
IBM认证数据工程师 - 大数据。此认证更侧重于数据工程技能集的大数据特定应用,而不是一般技能,但被许多人视为黄金标准。
来自Cloudera的CCP数据工程师:具体针对Cloudera的解决方案,该认证表明学生具有ETL工具和分析方面的经验。
二级认证,例如MCSE(微软认证解决方案专家),涵盖了广泛的主题,但具有特定的子认证,如MCSE:数据管理和分析。
当然,也有一些在线课程旨在提供这一领域的重要培训。Udemy提供了大量的数据工程和数据科学课程,其他网站,如EdX和Memrise也提供了类似的课程。一些网站,如DataCamp,专注于数据科学和工程,而其他网站,如Galvanize,则更为广泛。
虽然这些方法可以帮助你很多,它们对一般的学习非常有用,但也并不代表有了证书就是证明实际能力很高。
希望这篇文章能够说明数据工程师的特殊才能、技能和要求。虽然该领域正在迅速发展,但却充满了重重阻碍。因此,获得最好的数据工程教育,同时用适当的认证填补技能方面的空白是关键。
长按订阅更多精彩▼
