icon当前背景环境icon
传统数仓建设困难
• 投入高:自建数据仓库前期需投入较多固定成本
• 周期长:自建数据仓库项目周期长
• 运维工作量大:运维难度高,专业运维人员成本
• 弹性不足:扩容需要较长部署周期,资源利用率较低,需要自行实现可扩展性架构,容易形成单点故障
传统数仓能力不足
•存储管理能力不足:无法支撑海量多源异构数据的灵活高效存储
•综合搜索能力不足:无法实现PB级半/非结构化数据的组合及数据搜索的快速返回
•分析挖掘能力不足:计算任务井喷式增长,无法支撑数据的快速分析和深度挖掘
icon数仓转型所面临的挑战icon

 

数据生产效率低
• 工具多、杂且难以有效协同
• 存在重复开发
• 需求响应时间长
计算存储成本高
• 数据量增长对计算存储的消耗
• 资源利用不合理
• 数据难以治理
数据质量问题频发
• 数据模型设计不合理
• 数据开发人员水平参差不齐
• 质量问题难以及时暴露和溯源
数据安全难以保障
• 数据管理粒度粗、灵活度低
• 权限管理生命周期不完整
• 数据权限安全存在漏洞
icon数仓转型目标icon

 

提升数据生产效率
• 数据开发工具契合生产需求
• 业务快速响应
提升数据质量
• 建立数据开发规范
• 全流程质量校验与监控
降低计算存储成本
• 根据业务需要动态规划专有与共享的计算和存储资源
保障数据安全
• 完整权限管理生命周期
• 灵活细化管理粒度
icon构建离线数仓的方法论拆解icon

 

 

业务调研
梳理业务过程,抽象需求。
数仓域划分
按业务领域划分数仓主题域。
逻辑建模
指标体系梳理、实体关系调研、维度梳理、数仓分层。
物理建模
ETL工具选型及代码开发。
icon业务调研icon

业务调研目标:对于核心业务流程,梳理参与角色、主要环节、关键动作及结果,明确每个业务节点参与角色的关注重点和数据来源。

 

icon数仓主题域与主题划分icon

 

icon逻辑建模icon

 

icon物理建模icon

数据开发简介:通过业务需求分析进行数据模型设计-开发-测试-上线,涉及多角色跨团队协作。

 

icon离线开发如何参与构建该体系icon

 

稳定数据同步
与开发环节无缝集成,调度打通,支持20+种数据源,充分满足各类需求,且分布式架构,单点故障不影响整体服务稳定性。
一站式数据开发
一站式完成SQL开发、临时查询、调度配置、任务运维等工作,全链路覆盖数据开发的各项环节。
数据管理
元数据采集、生命周期管理、血缘解析、访问权限控制均在平台内完成。
icon产品定位icon
离线开发 BatchWorks
云原生一站式离线数据开发平台,具备灵活的多集群、多引整对接能力,覆盖数据采集、数据开发、周期调度、监控告警等全链路功能。
 
上线5年已服务300+客户,专注于提供数仓升级解决方案帮助企业快速完成数据中台离线数仓建设,加速释放数据价值。
icon产品架构icon

 

icon产品特点icon

 

一站式可视化智能数据开发

• 一个平台覆盖完整数据开发流程,减少组件运维成本与流程衔接操作,让用户专注于业务本身。
• 全流程可视化操作附带语法提示,智能调度与监控等多种辅助功能,减少上手成本,让更多用户参与数据使用。

多集群多引擎弹性兼容

• 支持输出自研Hadoop集群,同时可对接CDH、HDP、TDH等多集群及Oracle、TiDB等多引擎。
• 节点资源可根据计算存储需求快速弹性伸缩,业务需求稳定响应。

全流程多维安全保障

• 多租户多项目组织结构实现数据权限隔离的同时支持灵活的申请授权。

• 多角色内置权限点实现功能隔离。

• 数据权限全流程校验,关键操作细粒度审计,最大限度减少生产安全事故。

icon利用离线开发BatchWorks进行数据开发icon

 

集群与项目配置
创建集群配置计算存储组件,创建项目对接集群资源。
数据集成
将外部数据抽取至离线开发数据存储引擎。
数据开发
通过SQL、Python等任务进行数据清洗与计算,并配置调度属性。
任务发布
对测试环境的任务代码调试无误后将其打包发布至生产环境。
运维监控
对生产环境的任务进行运行情况监控与运维操作。
icon第一步 集群与项目配置icon

 

icon第二步 数据集成(采用自研同步工具ChunJun)icon

 

icon第二步 数据集成(功能特点)icon

 

ELT方案与可视化配置
基于最新的ELT设计理念,将数据转换环节后置,支持向导/脚本双模式配置数据同步。
断点续传
系统记录当前同步的点位,当异常中断时,自动重启并从之前点位继续同步,数据不重不丢,保障大数据量抽取可靠性。
整库迁移
快速、批量配置大量数据抽取任务,支持分批抽取,批量命名等配置,减少重复配置工作量。

 

开放操作
支持编写jar包进行同步过程字段处理(例如加密),对部分数据源(例如FTP)支持自定义解析与文件切分方式。
性能调控
支持多通道并发抽取,提高数据抽取速度
支持同步速度上限控制
支持同步过程的读写数据总量与速度等性能统计
脏数据监控
记录同步任务异常数据,可追溯源头数据质量问题自动统计脏数据产生趋势及数量,及时发现异常任务。
icon第三步 数据开发icon

• 支持20多种周期/手动任务和临时查询,满足大多数数据开发场景,插件化设计模式,可按需求灵活拓展。
• 全Web化开发平台,团队协同高效流畅。

 

icon第三步 数据开发(功能特点)icon

 

SQL Editor
·关键字高亮、表名、字段名、函数等提示
·表结构/语法参考面板
·代码调试日志打印
运行参数
·内置多种系统运行参数
·支持自定义运行参数,基于业务日期、计划时间灵活取值,支持多种时间格式
本地文件上传
·直接将本地数据文件(TEXT/CSV/log格式)上传至数据表,支持GBK、UTF-8等多种文件格式,满足临时分析场景

 

函数与资源管理
·支持Spark、Hive、Greenplum等引擎的系统函数和自定义函数查询及管理
·支持查询系统函数,无需单独查询
组件管理
·支持将固定业务逻辑封装为SQL组件,使用组件进行任务创建实现批量任务快速生成及调整
任务版本管理
·记录每次提交发布的任务代码及任务配置信息便于详细对比修改点,定位代码问题
·支持快速版本回滚
icon第四步 调度配置icon

Taier:袋鼠云数栈自研大数据分布式可视化的DAG任务调度系统

 

稳定性与兼容性
分布式架构,支持百万级并发任务调度;
支持维护不同引擎的提交队列,对20类任务按引擎分别处理。
任务依赖
可视化手动及自动配置不同任务之间的依赖及同一任务不同周期的自依赖;
DAG可视化展示任务依赖关系。
周期调度
支持天、周、月、小时、分钟、Cron表达式、自定义调度日期上传的方式配置调度周期;
支持配置调度资源组。

 

icon第五步 任务发布icon

 

icon第六步 任务运维icon

 

icon产品价值icon

 

兼容多引擎和数据源
■ 兼容EMR、Hadoop、星环、FusionInsight、LibrA.
Greenplum引擎。
■ 兼容RDBMS、MaxCompute、FTP、Hbase、MongoDB、ElasticSearch、日志、埋点、爬虫、API等多数据源之间的读写。
自研核心组件
■ 自研高性能分布式调度引擎Taier,支持百万级任务并发。
■ 自研基于Flink框架的分布式插件化批流一体数据同步引擎ChunJun,支持全量/增量/实时数据抽取能力。
 
 
数据安全坚不可催
■ 多租户生产/开发项目隔离,角色权限隔离。
■ 支持LDAP账号体系、开启Kerberos认证、集成Sentry、Ranger权限。
 
 
使用便捷
■ 一站式数据开发体验
■ 基于Web IDE在线可视化开发运维
icon某银行客户icon

 

icon某大型国有集团客户icon

 

icon某高校客户icon

 

icon某军工客户icon

 

 
产品推荐 查看更多>>
    Quick Creator跨境电商页面优化解决方案

    我们的AI算法会根据您提供的基本描述信息和关键词,⾃动⽣成⾼度吸引⼈的⻚⾯内容。同时,我们的⻚⾯设计具有⾼转化设计元素,如清晰的CTA按钮、订阅按钮等,⿎励访客进⾏转化⾏为。您还可以⾃由编辑⽂案和图⽚,增加⾃定义模块,确保您的⻚⾯完全符合您的品牌形象和业务⽬标。

    内容优化

    数据分析

    智能生成

    —键发布

    华为智慧机场解决方案

    华为智慧机场解决方案围绕“安全+高效+服务”从候机楼安全,基于机场数字平台,打造机场第e跑道。机坪作业到旅客体验进行机场业务全场景设计,贯穿机场航班流、旅客流的各个环节,打造高出行体验。

    高效、智能、共享的智慧机场

    依托云化、平台化、智能化实现信息共享

    打造机场第e跑道,打造丰富场景化方案

    数据展示更全面,应用上线更快捷

    信必优交付能力

    信必优与全球领先的移动运营商、平台和手机厂商都有过密切合作。包括:中国移动,Google,微软,三星,爱立信, PayPal等。具有丰富的设计、开发、测试经验及能力以应对日益增长的电子产品市场及其多终端的应用。

    共创创新

    融合最前沿技术

    全球交付优势

    全面服务能力