实时数据仓库项目

本文讲解如何基于阿里云搭建一个实时数据仓库,整个业务流程涉及数据采集、存储、计算、输出、展示等步骤。
先决条件
1)掌握SQL语法
2)对Hadoop大数据体系有一定的了解

项目需求分析

1)实时采集埋点日志数据
2)实时采集业务数据库中数据
3)对数据进行清洗和处理
4)保存数据到分析型数据库
5)对结果进行可视化展示

技术选型

产品功能 阿里云框架 开源框架
数据采集传输 DataHub、DTS Flume、Kafka、Canal、MaxWell
数据存储 RDS、ADS MySql、Hbase
数据计算 实时计算 Spark、Flink
数据可视化 DataV、QuckBI Tableau、ECharts、Kibana

系统架构设计

image.png

业务流程架构

image.png

ECS(弹性服务器)

就是服务器

DTS(数据传输服务)

数据传输服务(Data Transmission Service)DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。可以使用DTS轻松构建安全、可扩展、高可用的数据架构。

1)由于数据都是DTS推送过来的,推送过来的字段都在原来的字段前面加上了一个dts_前缀
2)dts_utc_timestamp、dts_operation_flag(U-修改,I-插入,D-删除)、dts_after_flag 是 DataHub 框架提供的系统字段

DataHub

数据总线,就是一个数据的分发枢纽。类似传统大数据解决方案中Kafka的角色,基于数据的订阅和发布的工作模式,提供了一个数据队列,也达到了数据缓冲的目的。
ods层:
dwd层:

MaxCompute(ODPS)

大数据计算框架。以前叫odps,用C语言重写后改名发布,类比Hadoop+Hive+调度器

实时计算(Realtime Compute)

类比 Spark、Flink,它是基于 apache flink 构建的企业级大数据计算平台,在PB级的数据集上可以做到亚秒级别的处理延时。底层是 Blink,Blink 是 Flink 的一个分支,针对内部用例对 Flink 进行改进,目前 apache link 已经拼合 blink 分支。商业层面上阿里巴巴收购了Flink 与其母公司 Data Artisans(阿里为什么要拿下Flink?)。

ADS

分析型数据库(AnalyDB),是阿里巴巴自主研发的海量数据实时高并发在线分析云计算服务,有 Mysql、HBase 等版本的数据库
image.png

RDS

关系型数据库,类比MySql

DataV

类比 Tableau、ECharts、Kibana,以数据可视化大屏的方式来分析并展示庞杂数据的产品,和QuckBI的区别,DataV更加侧重单一屏幕的丰富展示效果,更加酷炫。QuckBI是基于离线数据仓的,侧重于给专业的运营、数据分析,比较灵活,有更多的交互,适用于分析人员利用电脑进行浏览

DataWorks(Stream Studio)

可视化 StreamCompute(MaxCompute\实时计算)的开发管理平台,超级香
image.png


数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

CU

1个CU=1个CPU+4个内存

维度表 & 事实表**

维度表(Dimension Table):表格里存放了具有独立属性和层次结构的数据,一般由维度编码和对应的维度说明(标签)组成。。维度表有时也称维表、查找表(Lookup Table)。
搞清了“维度表”,那“事实表”也就不难理解了
事实表(Fact Table):表格里存储了能体现实际数据或详细数值,一般由维度编码和事实数据组成。事实表的存储有事实记录的表,记录在不断地动态增长,所以它的体积通常远大于其他表。事实表作为数据仓库建模的核心,需要根据业务过程来设计,包含了引用的维度和业务过程有关的度量。


从数据库表设计角度来说,常见的维度表有:日期表、行政区划表等,常见的事实表有系统日志、销售记录等
从数据仓库建设过程来说,维度表可以直接拿来用,而事实表通常需要加工,比如join操作
image.png


转载请注明来源。 欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。 可以在下面评论区评论,也可以邮件至 sharlot2050@foxmail.com。

文章标题:实时数据仓库项目

字数:1.1k

本文作者:夏来风

发布时间:2021-05-29, 23:14:36

原始链接:http://www.demo1024.com/blog/bigdata-datawarehouse-realtime/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。