这51个大数据术语，你懂的有几个？

Big Data 术语 | 你了解多少？

我从最近的大数据指南中做出了一个列表，其中列出了您需要了解的最重要的相关术语和定义。

▼▼▼

Algorithm：为人工智能、神经网络或其他机器提供的一组规则，用来帮助它自己学习；分类、聚类、推荐和回归是最流行的四种类型。

Apache Flink：一个开源流数据处理框架。它是用Java和Scala编写的，用作分布式流数据流引擎。

Apache Hadoop：一种开源工具，使用MapReduce跨机器处理和存储大型分布式数据集。

Apache Kafka：一种分布式流媒体平台，通过提高吞吐量，内置分区，复制，延迟和可靠性来改进传统的消息代理。

Apache NiFi：一种开源Java服务器，可以以可扩展，可插拔，开放的方式实现系统之间数据流的自动化。NiFi由美国国家安全局开源。

Apache Spark：一种开源大数据处理引擎，运行在Apache Hadoop，Mesos或云之上。

Artificial intelligence：机器做出决定和执行模拟人类智能和行为的任务的能力。

Big data: 大量数据的常用术语。要获得大数据的资格，数据必须以高速、大变化或大容量进入系统。

Blob storage: 一种在云中以Blob或对象的形式存储非结构化数据的Azure服务。

Business intelligence: 可视化和分析商业数据的过程，目的是做出可操作和知情的决策。

Cluster: 共享特定特征的数据子集。也可以参考几个协同工作来解决单个问题的机器。

COAP: 约束应用程序协议是用于有限资源设备的Internet应用程序协议，可根据需要转换为HTTP。

Data engineering: 数据的收集，存储和处理，以便数据科学家可以查询。

Data flow management: 在管理数千个生产者和消费者的流量的同时，摄取原始设备数据的专门过程。然后执行基本数据丰富，流分析，聚合，拆分，模式转换，格式转换以及其他初始步骤，以准备数据以进行进一步的业务处理。

Data governance: 管理数据湖中数据的可用性，可用性，完整性和安全性的过程。

Data integration: 组合来自不同来源的数据并为用户提供统一视图的过程。

Data lake: 一个存储库，以原始格式保存原始数据。

Data mining: 通过检查和分析大型数据库的过程生成新信息的实践。

Data operationalization: 将变量严格定义为可测量因素的过程。

Data preparation: 将数据收集，清理和合并到一个文件或数据表中的过程，主要用于分析。

Data processing: 机器检索，转换，分析或分类信息的过程。

Data science: 探索可重复过程和方法的领域，从数据中获取洞察力。

Data swamp: 如果没有适当的治理，数据湖会变成什么样。

Data validation: 检查数据集以确保所有数据在处理之前是干净，正确和有用的行为。

Data warehouse: 来自各种来源的大量数据，用于帮助公司做出明智的决策。

Device layer: 传输与环境和性能特征相对应的数据流的整个传感器，执行器，智能手机，网关和工业设备。

GPU-accelerated databases: 摄取流数据所需的数据库。

Graph analytics: 一种组织和可视化集合中不同数据点之间关系的方法。

Hadoop: 用于处理和存储大数据的编程框架，尤其是在分布式计算环境中。

Ingestion: 从任意数量的不同来源获取流数据。

MapReduce: 一种数据处理模型，用于对Map阶段中的数据进行过滤和排序，然后对该数据执行函数并在Reduce阶段返回输出。

Munging: 将数据从一种原始形式手动转换或映射到另一种格式以便于消费的过程。

Normal distribution: 表示大量随机变量概率的通用图，其中随着数据集的大小增加，这些变量接近常态。也称为高斯分布或钟形曲线。

Normalizing: 将数据组织到表中的过程，以便使用数据库的结果始终是明确的和预期的。

Parse: 将数据（如字符串）划分为较小的部分进行分析

Persistent storage: 一种不变的位置，例如磁盘，在创建数据的过程结束后保存数据。

Python: 一种通用编程语言，强调代码可读性，以便程序员可以使用更少的代码行来表达他们的概念。

R: 一种主要用于数据可视化和预测分析的开源语言。

Real-time stream processing: 通过并行使用机器来分析数据序列的模型，但功能较少。

Relational database management system (RDBMS): 管理，捕获和分析基于称为关系的共享属性分组的数据的系统。

Resilient distributed dataset: Apache Spark抽象数据的主要方式，数据以容错方式存储在多台计算机上。

Shard: 数据库的单个分区。

Smart data: 格式化的数字信息，以便在发送到下游分析平台进行进一步的数据整合和分析之前，可以在收集点对其进行操作。

Stream processing: 数据的实时处理。数据连续，同时和逐个记录地处理。

Structured data: 具有高度组织性的信息。

Taxonomy: 根据预先确定的系统对数据进行分类，其结果目录用于提供易于访问和检索的概念框架。

Telemetry: 远程获取有关物体的信息（例如，来自汽车，智能手机，医疗设备或物联网设备）。

Transformation: 将数据从一种格式转换为另一种格式。

Unstructured data: 不具有预定义数据模型或未以预定义方式组织的数据。

Visualization: 分析数据并以可读的图形格式（如图表或图形）表达数据的过程。

Zones: 数据湖中的不同区域，用于特定的，明确定义的目的。

希望我的文章对你有所帮助，喜欢的话就关注我吧。

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发，帮我点个在看，谢谢↓

分享到社交平台