阿里云实时数仓Hologres_实时数据仓库引擎_交互式分析MaxCompute-云巴巴 -云巴巴

阿里云实时数仓Hologres

实时数仓Hologres是阿里巴巴自主研发的一站式实时数仓引擎，支持海量数据实时写入、实时更新、实时分析，支持标准SQL，支持PB级数据多维分析与即席分析，支持高并发低延迟的在线数据服务，与MaxCompute、Flink、DataWorks深度融合，提供企业级离在线一体化全栈数仓解决方案。

立即咨询

业务在线化、运营精细化依赖数据驱动 icon

大数据数仓体系的“纷繁芜杂” icon

架构复杂、数据同步难、数据割裂、开发成本高、不敏捷、人才培养难

阿里云云原生一体化数仓 icon

云原生一体化数仓是集阿里云大数据产品MaxCompute、Hologres、Flink、DataWorks多种产品能力于一体的一站式大数据处理平台，实现成本更低，速度更快，性能更好，运维更简单。

实时离线一体化数仓：Hologres + MaxCompute icon

向量引擎直读 30%性能提升

Hologres原生向量引擎直读MaxCompute，30%-80%性能提升，更少RPC，更少序列化。复用Block Cache，避免存储IO开销，支持表达式下推。异步ORC Reader，异步Prefetch，支持LazyRead，Lazy Decoding。

数据原生读写每秒百万同步

支持百万行/秒MaxCompute与Hologres之间同步数据，简化数据发布、回刷场景。支持跨集群加速访问MaxCompute，支持就近访问。支持MaxCompute TransactionTable。

元数据自动可见

支持MaxCompute元数据批量导入，支持MaxCompute元数据变更自动发现与刷新，支持更多数据类型：Array等，共享集群（MaxCompute BI加速版）。

Hologres一站式实时数仓能力 icon

实时数仓 OLAP分析

百万RPS实时写入与更新，写入即可查，高性能实时整行更新和局部更新，OLAP复杂分析：TPC-H 30TB性能世界第一，列存，支持多种索引（聚簇、位图、字典）。

在线服务（Serving)

百万 QPS KV 点查，行存、行列共存，达摩院 Proxima 向量检索，全SQL表达，读写分离，可用于各种KV点查类应用：线上服务、Flink维表关联…

湖仓数据交互式分析

对 MaxCompute、OSS数据湖中的表进行亚秒级、分钟级交互式查询，无需数据搬迁，百万行每秒极速数据同步，元数据自动发现，内外表联邦分析。

Hologres与Flink深度集成 icon

数据湖加速，支持实时数据湖 icon

➢ 产品功能：

• 加速查询Hudi、Delta 格式外表

• 读写CSV、Parquet、ORC格式外表

• 支持DLF数据目录来做元数据隔离

• 支持OSS-HDFS，与Hadoop生态无缝集成

• 支持共享集群Serverless模式，按用量付费

➢ 产品优势：

• 高性能：利用向量引擎加速OSS/DLF

• 低成本：无需数据移动，存储成本更低

• 开放性：方便导入导出数据，获得性能和成本的平衡

• 性价比：独享实例湖仓资源复用，无需额外计算成本，共享集群Serverless模式按用量付费

TPCH@30000GB以2789万分勇夺世界第一 icon

Hologres首次参加TPCH打榜，在30,000GB标准测试结果中，以QphH超2786万分的性能结果斩获全球冠军，领先第二名23%。

Hologres 技术特点 icon

云原生存储计算分离架构

计算存储资源弹性扩展，按需使用，低成本、高可用、高可靠，与 MaxCompute底层打通，透明加速，实时离线一体。

流批统一的存储

行列共存，列存对分析友好，行存对点查快速。高效数据分片、分段、压缩、索引。LSM-like写友好数据结构，高吞吐数据写入，支持更新，写入即可见。

C++ Native执行引擎+优化器

向量化、全异步等执行引擎优化，轻量级用户态线程调度，同时支持多种查询负载（高并发、复杂统计），公平调度算法（CFS），高并发充分利用计算资源。

计算存储分离架构，资源隔离，高可用，无限弹性 icon

资源隔离：支持共享存储多实例（物理级别隔离）高可用模式。多实例同Region部署共享存储，实时高可用，多Region部署数据自动复制，秒级灾备。计算资源物理隔离，实例之间故障隔离，主实例最多4个子实例，支持系统高可用部署。

新一代Warehouse，更高的弹性与更极致的隔离 icon

在主从实例的基础上，升级为弹性计算实例（Virtual Warehouse，简称Warehouse），实现资源更极致的隔离，包括写写隔离、读写分离等，同时也支持计算组的弹性，满足对资源的高效利用。

• 一个实例拆分成不同的计算组，对外应用只提供一个endpoint，减少应用维护麻烦

• 可以随时设置默认资源组，通过用户账号进行计算组自动路由

• 计算组之间的资源完全隔离，可以实现写写隔离、读写隔离、读读隔自动切流离等多种隔离方式

• 后续可以通过单独对计算组的扩缩容，实现资源的弹性利用，支持计算组的热扩缩容，降低对服务的影响

服务（Serving）能力 icon

分析服务混合负载
行列共存，Shard级多副本，高QPS、吞吐线性扩展，高QPS非主键点查（行列共存+多副本+引擎优化）

企业级在线服务
支持热升级（停写不停读），硬件故障10X恢复速度（FE物理备份+SE lazyopen）

统一资源管理
计算资源隔离，简化部署容器模板，提高POD资源利用率

一份数据多实例共享
读写分离，分析服务互不影响，已在大促场景得到验证

Fixed Plan场景拓展，提升写入性能 icon

Fixed Plan是Hologres独有的执行引擎优化方式，传统的SQL执行要经过优化器、协调器、查询引擎、存储引擎等多个组件，而Fixed Plan选择了短路径（Short-Cut）优化执行SQL，绕过了优化器、协调器、部分查询引擎的开销。通过Fixed Front End直接对接Fixed Query Engine，实现SQL执行效率的成倍提升，是支持高吞吐实时写入，高并发查询的关键优化方法。 ✓ 单行写入 ✓ 多行写入 ✓ 整行更新 ✓ 局部更新 ✓ 写入支持增加过滤条件 ✓ 写入分区父表

冷热分层，成本优化

热数据：访问频次较高的数据，存储在SSD存储介质中，满足高性能访问的需求。1元/GiB。冷数据：访问频次较低的数据，存储在HDD存储介质中，满足高性价比的存储需求。0.144/GiB。冷热数据分层存储提供了支持按照时间将历史分区子表数据归档到HDD存储介质中，满足高性价比的存储需求。

动态分区管理，支持自动删除、创建分区、自动冷热转存 icon

Hologres 从1.3版本开始支持动态分区管理，通过建表时设置指定的规则，提前创建分区子表/删除过期分区子表，减少用户管理分区生命周期的负担。

Shard级Replica，提升OLAP吞吐和点查高可用 icon

支持单实例上的shard级replica，通过shard副本的机制，提升OLAP查询的吞吐以及点查的吞吐。Shard之间正交，每个Worker Node分配部分Shard的所有权，每个Shard独立负责部分数据的读写操作。请求有可能出现热点，集中部分Worker Node和Shard。支持Shard级多副本，Leader负责读写，Replica只读。读请求均衡由多个Worker Node（Shard）响应，更高并发。建议增加Replica时，同时减少Shard，保持Shard*Replica均衡，最有效利用Worker Node资源。

备份与恢复

设置备份周期，自动备份。实例级别全量数据备份，公测中暂不收取备份费用。有一定的资源使用，建议低峰期备份。如果数据被误删除或更新，根据备份快照恢复出一个全新的实例。

查看表日志信息，精细化管理表 icon

从1.3版本开始提供表日志信息hologres.hg_table_info，查看表的占用存储变化趋势、表访问趋势、文件大小等，提升对表的进一步精细化管理。最佳实践：查看占用存储较大的表近一个月的访问趋势—治理大表，降存储空间。查看近一周存储较少的表的访问趋势—治理小表，减少内存占用。查看存储较大且查询时间较长的query—治理大表的bad query。