在数据仓库开发中,增量全量标志主要用于区分数据存储模式与处理逻辑。以下是其核心要点总结:
一、定义与用途
-
全量标志
- 表示数据表存储完整的最新数据,每次更新会覆盖历史数据,不保留变更记录
- 典型场景:数据初始加载、业务报表生成、数据完整性验证
- 标志特征:无时间分区,表名可能包含
full
后缀(如ods_table_full
)
-
增量标志
- 仅记录新增或变更数据,通过时间戳、增量状态字段(如
U/D/I/K
)或操作日志标识变更 - 典型场景:高频数据更新、ETL过程优化、减少存储冗余
- 标志特征:有时间分区(如按天分区),表名可能包含
inc
后缀(如ods_table_inc
)
- 仅记录新增或变更数据,通过时间戳、增量状态字段(如
二、技术实现方式
-
字段设计
- 增量表需包含
update_time
(数据更新时间)、status
(变更状态)等字段 - 全量表通常无额外标志字段,仅保留最新全量快照
- 增量表需包含
-
分区策略
- 全量表一般无分区,直接覆盖旧数据;增量表按时间分区存储每日变更数据
- 快照表作为全量表的衍生,通过时间分区保留历史全量数据(如
dt=20240323
)
-
数据加载规则
- 增量表首次加载需依赖全量数据,后续按增量更新
- 多表关联时,增量表必须与至少一个全量表关联以获取完整数据上下文
三、选择依据
- 全量适用场景:数据量较小、更新频率低、需完整数据快照
- 增量适用场景:数据量庞大、更新频繁、需降低存储与计算成本
通过以上标志区分,可优化数据存储效率与查询性能,同时支持历史追溯与实时分析需求。