袋鼠云离线开发BatchWorks_云原生离线数据开发平台_企业离线数仓建设方案-云巴巴 -云巴巴

袋鼠云离线开发BatchWorks

袋鼠云离线开发BatchWorks，云原生一站式离线数据开发平台，具备灵活的多集群、多引鼙对接能力，覆盖数据采集、数据开发、周期调度、监控告警等全链路功能，上线5年已服务300+客户，专注于提供数仓升级解决方案，帮助企业快速完成数据中台离线数仓建设，加速释放数据价值。

立即咨询

当前背景环境

传统数仓建设困难

• 投入高：自建数据仓库前期需投入较多固定成本

• 周期长：自建数据仓库项目周期长
• 运维工作量大：运维难度高，专业运维人员成本

• 弹性不足：扩容需要较长部署周期，资源利用率较低，需要自行实现可扩展性架构，容易形成单点故障

传统数仓能力不足

•存储管理能力不足:无法支撑海量多源异构数据的灵活高效存储
•综合搜索能力不足:无法实现PB级半/非结构化数据的组合及数据搜索的快速返回
•分析挖掘能力不足:计算任务井喷式增长，无法支撑数据的快速分析和深度挖掘

数仓转型所面临的挑战 icon

数据生产效率低

• 工具多、杂且难以有效协同
• 存在重复开发

• 需求响应时间长

计算存储成本高

• 数据量增长对计算存储的消耗
• 资源利用不合理

• 数据难以治理

数据质量问题频发

• 数据模型设计不合理

• 数据开发人员水平参差不齐
• 质量问题难以及时暴露和溯源

数据安全难以保障

• 数据管理粒度粗、灵活度低
• 权限管理生命周期不完整

• 数据权限安全存在漏洞

数仓转型目标

提升数据生产效率

• 数据开发工具契合生产需求

• 业务快速响应

提升数据质量

• 建立数据开发规范

• 全流程质量校验与监控

降低计算存储成本

• 根据业务需要动态规划专有与共享的计算和存储资源

保障数据安全

• 完整权限管理生命周期
• 灵活细化管理粒度

构建离线数仓的方法论拆解 icon

业务调研

梳理业务过程，抽象需求。

数仓域划分

按业务领域划分数仓主题域。

逻辑建模

指标体系梳理、实体关系调研、维度梳理、数仓分层。

物理建模

ETL工具选型及代码开发。

业务调研

业务调研目标：对于核心业务流程，梳理参与角色、主要环节、关键动作及结果，明确每个业务节点参与角色的关注重点和数据来源。

数仓主题域与主题划分 icon

逻辑建模

物理建模

数据开发简介：通过业务需求分析进行数据模型设计-开发-测试-上线，涉及多角色跨团队协作。

离线开发如何参与构建该体系 icon

稳定数据同步

与开发环节无缝集成，调度打通，支持20+种数据源，充分满足各类需求,且分布式架构，单点故障不影响整体服务稳定性。

一站式数据开发

一站式完成SQL开发、临时查询、调度配置、任务运维等工作，全链路覆盖数据开发的各项环节。

数据管理

元数据采集、生命周期管理、血缘解析、访问权限控制均在平台内完成。

产品定位

离线开发 BatchWorks

云原生一站式离线数据开发平台，具备灵活的多集群、多引整对接能力，覆盖数据采集、数据开发、周期调度、监控告警等全链路功能。

上线5年已服务300+客户，专注于提供数仓升级解决方案帮助企业快速完成数据中台离线数仓建设，加速释放数据价值。

产品架构

产品特点

一站式可视化智能数据开发

• 一个平台覆盖完整数据开发流程，减少组件运维成本与流程衔接操作，让用户专注于业务本身。
• 全流程可视化操作附带语法提示，智能调度与监控等多种辅助功能，减少上手成本，让更多用户参与数据使用。

多集群多引擎弹性兼容

• 支持输出自研Hadoop集群，同时可对接CDH、HDP、TDH等多集群及Oracle、TiDB等多引擎。
• 节点资源可根据计算存储需求快速弹性伸缩，业务需求稳定响应。

全流程多维安全保障

• 多租户多项目组织结构实现数据权限隔离的同时支持灵活的申请授权。

• 多角色内置权限点实现功能隔离。

• 数据权限全流程校验，关键操作细粒度审计，最大限度减少生产安全事故。

利用离线开发BatchWorks进行数据开发 icon

集群与项目配置

创建集群配置计算存储组件，创建项目对接集群资源。

数据集成

将外部数据抽取至离线开发数据存储引擎。

数据开发

通过SQL、Python等任务进行数据清洗与计算，并配置调度属性。

任务发布

对测试环境的任务代码调试无误后将其打包发布至生产环境。

运维监控

对生产环境的任务进行运行情况监控与运维操作。

第一步集群与项目配置 icon

第二步数据集成(采用自研同步工具ChunJun) icon

第二步数据集成(功能特点) icon

ELT方案与可视化配置

基于最新的ELT设计理念，将数据转换环节后置，支持向导/脚本双模式配置数据同步。

断点续传

系统记录当前同步的点位，当异常中断时，自动重启并从之前点位继续同步，数据不重不丢，保障大数据量抽取可靠性。

整库迁移

快速、批量配置大量数据抽取任务，支持分批抽取，批量命名等配置，减少重复配置工作量。

开放操作

支持编写jar包进行同步过程字段处理(例如加密)，对部分数据源(例如FTP)支持自定义解析与文件切分方式。

性能调控

支持多通道并发抽取，提高数据抽取速度
支持同步速度上限控制
支持同步过程的读写数据总量与速度等性能统计

脏数据监控

记录同步任务异常数据，可追溯源头数据质量问题自动统计脏数据产生趋势及数量，及时发现异常任务。

第三步数据开发

• 支持20多种周期/手动任务和临时查询，满足大多数数据开发场景，插件化设计模式，可按需求灵活拓展。
• 全Web化开发平台，团队协同高效流畅。

第三步数据开发(功能特点) icon

SQL Editor

·关键字高亮、表名、字段名、函数等提示
·表结构/语法参考面板
·代码调试日志打印

运行参数

·内置多种系统运行参数
·支持自定义运行参数，基于业务日期、计划时间灵活取值，支持多种时间格式

本地文件上传

·直接将本地数据文件(TEXT/CSV/log格式)上传至数据表，支持GBK、UTF-8等多种文件格式，满足临时分析场景

函数与资源管理

·支持Spark、Hive、Greenplum等引擎的系统函数和自定义函数查询及管理
·支持查询系统函数，无需单独查询

组件管理

·支持将固定业务逻辑封装为SQL组件，使用组件进行任务创建实现批量任务快速生成及调整

任务版本管理

·记录每次提交发布的任务代码及任务配置信息便于详细对比修改点，定位代码问题

·支持快速版本回滚

第四步调度配置

Taier：袋鼠云数栈自研大数据分布式可视化的DAG任务调度系统

稳定性与兼容性

分布式架构，支持百万级并发任务调度；

支持维护不同引擎的提交队列，对20类任务按引擎分别处理。

任务依赖

可视化手动及自动配置不同任务之间的依赖及同一任务不同周期的自依赖；

DAG可视化展示任务依赖关系。

周期调度

支持天、周、月、小时、分钟、Cron表达式、自定义调度日期上传的方式配置调度周期；

支持配置调度资源组。

第五步任务发布

第六步任务运维

产品价值

兼容多引擎和数据源

■ 兼容EMR、Hadoop、星环、FusionInsight、LibrA.
Greenplum引擎。
■ 兼容RDBMS、MaxCompute、FTP、Hbase、MongoDB、ElasticSearch、日志、埋点、爬虫、API等多数据源之间的读写。

自研核心组件

■ 自研高性能分布式调度引擎Taier，支持百万级任务并发。
■ 自研基于Flink框架的分布式插件化批流一体数据同步引擎ChunJun，支持全量/增量/实时数据抽取能力。

数据安全坚不可催

■ 多租户生产/开发项目隔离，角色权限隔离。

■ 支持LDAP账号体系、开启Kerberos认证、集成Sentry、Ranger权限。

使用便捷

■ 一站式数据开发体验

■ 基于Web IDE在线可视化开发运维

某银行客户

某大型国有集团客户

某高校客户

某军工客户

产品推荐

中服云物联网平台V4.0

中服云物联网平台V4.0，网络延迟小，更加稳定可靠，可深度定制系统功能，投入成本高。提供实时数据、实时报警、历史数据、元数据等接口，用于第三方应用或者组件使用。图形化界面编排物联数据流处理业务，快速完成数据处理需求。

免费试用

查看详情

i人事智慧报表分析平台

i人事智慧报表分析平台，HR事务助手据决策专家，1个平台覆盖选用育留全流程，人才数据全面收集，慧报表轻松呈现。

免费试用

查看详情

喔趣科技智能薪酬绩效管理系统

喔趣科技智能薪酬绩效管理系统，覆盖客户业务需求场景，快速高效精准地完成大中型企业薪资计算与发放的全流程管理。规范的薪酬体系便于集团化管理，灵活的算薪公式满足各种业务需求。薪资计算发放流程线上化处理，多维度可视化人力成本看板。

免费试用

查看详情

腾讯市域社会治理现代化解决方案

市域社会治理现代化解决方案全面融合腾讯优势，围绕市域社会治理现代化试点建设内容，充分借助微信触达能力实现政企民的无缝连接，探索“互联网 + 社会治理”创新模式，助力打造共建共治共享的标杆，实现面向“中国之治” 的未来智慧社会目标。

免费试用

查看详情

数字化社区

视频

文章

咖啡店、奶茶店开店一站式营销工具来啦，有赞助力创业者实现小梦想大收益！

2023-11-08

腾讯仿真云一站式仿真高性能计算服务

2022-04-11

快速集成，高效部署：TUIRoomKit一站解决音视频会议难题！

2025-01-06