基于Flink SQL构建流批一体实时数仓

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代,其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。本文主要分享基于FinkSQL构建实时数仓的基本架构以及相关的技术点,

希望本文对你有所帮助,以下是全文:
  • 两个前置知识

  • 五个基本概念

  • 两个具体实现

  • 两种架构对比

  • 一个综合实操

流处理VS批处理







五个基本概念



















维表JOIN与双流JOIN












两种架构对比









传统数仓

  • 问题

1.两条计算链路、造成重复工作、计算资源浪费
2.两套数据模型,一致性难以保障

实时数仓

  • 统一了基础公共数据

  • 保障了流批结果的一致性

  • 提升了离线数仓的时效性

  • 减少了组件和链路的维护成本




一个综合实操