icon数据开发治理平台 EasyDataicon

EasyData是网易数帆基于数据生产力方法论打造的一站式数据开发治理平台,在业内首先提出并实现开发治理一体化。强调可持续集成、可持续交付、可持续部署的DataOps数据开发能力,提供数据集成、数据开发、任务运维等产品。结合包括元数据管理、数据标准、指标系统、数据建模等在内的DataFusion数据治理能力,聚焦企业数字化转型,深挖数据价值,提升企业数据生产力。

架构图:

 

icon八大核心亮点icon
基于DataOps的数据开发底座
数据开发基于DataOps打造的开发流水线,将数据开发划分成编码、编排、测试、代码审查、发布审核、部署上线六个阶段,通过不断的持续集成、持续交付、持续部署,满足敏捷交付的情况下,确保数据的高质量的产出。
逻辑数据湖,打破数据孤岛
构建“物理分散,逻辑统一”的数据中台体系,解决企业数据孤岛问题,将企业散落在各个子数据系统中的数据统一管控起来。
面向数据中台的数据建模,
解决烟囱式数据开发
构建业界首个面向数据中台的模型设计度量标准,让企业更好地了解自身中台的搭建情况,避免烟肉式地开发模式,提升需求交付效率、减少数据查询时间。
开发与治理一体化,
数据可持续治理
将数据开发和数据治理相结合,通过数据标准对整体开发流程中多个子产品模块进行把控,在关键卡点设置审批流程,保障在开发过程中对数据进行可持续化的治理。
元数据管理,打造规范的
数据体系
元数据管理系统可对业务元数据、技术元数据、管理元数据进行统一的采集、注册和发布。同时,将元数据和标准、质量、安全、模型等子产品进行打通,丰富元数据内容的同时,方便数据资产消费者更好的了解数据。
基于ROI模型的数据价值分析,沉淀企业资产
通过对存储和计算资源的深入盘点,帮助企业了解当前资产的利用情况以及资源成本;通过数据资产的360从6个维度了解资产的健康程度,关注资产每日的健康变化。基于ROI的数据资产实践,能够帮助企业发现有价值的数据,将数据真正转化为企业的资产。
一站式自助数据服务,解决数据服务的开发、共享问题
一站式自助数据服务功能,通过可视化配置方式生成API,降低使用人员门槛;通过权限、熔断、限流等技术保障数据安全的同时,能够使不同应用可以共享API,解决了API开发效率低、交付周期长、复用性差等问题。
与有数BI全链路协同,数据中台业务价值最大化变现
指标/模型“端到端”统一,开箱即用,消除数据二义性,提高看数用数、数据辅助决策的效率和质量;通过数据中台实现BI产品的数据智能缓存,高峰期秒级看报表;全链智能运维,自动检测下游报表影响范围,帮助数据审批提质增效。

 

icon数据传输(离线)icon

用于多种异构数据源之间的数据交换,可实现各部门业务数据在应用层面的互联互通和信息共享。数据传输采用分布式的架构,可以从容应对大数据量的数据传输需求。

架构图:

 

icon功能亮点icon
插件化扩展机制,支持丰富的
异构数据源
数据传输使用插件化扩展机制,对新的数据源具备强大的扩展能力,目前已支持涵盖关系型数据库、大数据存储、半结构化存储、NoSQL、消息队列类型的20+种数据源的读写任意组合。
产品化解决方案,支持多种数据传输经典场景
针对增量抽取、分库分表、整库同步、数据脱敏等经典场景均提供了解决方案,通过简单的界面配置即可
完成复杂的数据传输过程。
权限管控,支持多重安全
管控策略
用户使用数据、配置相关的传输任务都需要获取相应的权限后才能操作。开发与生产环境隔离,用户对开发环境任务的变更不影响线上任务的正常运行。
高性能,最大化提高传输效率
数据传输底层采用Spark计算框架,可以充分利用集群资源横向扩展并行度,轻松面对海量数据场景。
icon产品效果icon
使用前
兼容性差,配置复杂
基于Sqoop的离线同步任务,存在开发新数据源难度高、任务配置需要添加的参数多、难以封装等问题,无法高效响应企业需求。
相同参数,重复配置
分库分表批量抽取场景:企业各地分公司的业务数据会按照公司的统一格式存储在各自独立的业务系统,并定期导入总公司指定的数据库用于后续经营分析。各分公司的业务数据库的数据特征为:数据源类型相同、ip不同、库表名称符合特定规律、表结构一致。在此场景下,如果需要抽取各分公司表结构相同的业务表时,需要重复创建几百个仅数据源名称不同的传输任务,极大影响了开发人员的开发效率。
使用后
性能提升,可扩展性强
基于spark的数据同步任务相较于Sqoop资源消耗更少,运行同样数量的任务,只需要耗时一半的时间,性能提升50%。此外,离线传输使用spark作为底层计算引擎提供插件式数据源接入,具有良好的扩展性。
模板任务,一次搞定
针对此类场景抽象出了模板任务的产品化解决方案,使用参数表示实体信息,构建模板任务,只需配置一次即可满足业务需求,避免开发人员重复工作和高维护成本。

 

icon数据传输(实时)icon

作为Easy Data的基础模块,提供高效稳定的数据实时同步能力。基于Flink CDC插件二次开发,能够实时捕获数据变更,并将复杂的配置逻辑封装为简单直白的向导式操作界面,降低开发成本,支持单表对单表、多表对单表、多表对多表的实时同步应用场景。

架构图:

 

icon功能亮点icon
基于FlinkCDC插件二次开发,支持丰富数据源的实时同步
实时数据传输基于FlinkCDC插件二次开发,使用插件化扩展机制,对新的数据源具备强大的扩展能力,目前已支持涵盖关系型数据库、消息队列等多种数据源的读写任意组合。
位点灵活,自定义启停时间
深度集成多种Offset策略,通过参数配置可实现基于时间或文件选择不同位点进行采集,灵活多变。
自动匹配,一键数据全入湖
源端实现采集、解析源表DDL,自动与目标Kafka 的逻辑表自动进行字段映射与匹配,省去手动配置的繁琐步骤,实现一键数据入湖。
支持全量初始化采集方式,无需额外配置任务采集历史全量数据
持全量初始化采集方式,先采集历史全量数据之后自动开始采集增量数据,无需额外配置全量采集任务。
icon产品效果icon
使用前
采集工具缺少系统性,难运维管理
大量原始数据堆积在业务系统底层,不同数据库类型采集插件配置自成体系,缺少统一运维、管理的手段。
重复配置,效率低
同样的CRM、ERP系统数据分布在不同数据中心,同样的采集任务需要反复配置,手动操作工作量大。
无数据过滤索引的大表全量采集耗时长,数据库抽取压力大
部分业务表每天都会产生大量新数据和历史变更数据,每天需要同步更新后数据,且表不存在数据过滤索引。如果每天使用离线传输全量同步存在两个问题:1.耗时长,2.对源库性能压力大。
使用后
统一插件框架,图形化界面,易运维管理
采用Flink CDC插件在整个Flink引擎下实现对主流数据库的采集,统一插件设计框架,参数配置简单易懂。平台封装图形化界面,降低上手门槛,实现统一运维管理。
配置自动化,提升作业开发效率
功能层面支持多对一、多对多采集配置,一键选表,自动完成字段映射,大大节省采集任务开发配置的工作量。
实时捕获数据变更,采集更高效,数据库压力有效降低
实时传输基于FlinkCDC插件进行二次开发,能够实时捕获新增、删除和更新的数据,在保障数据端到端一致性的基础上,既提升了传输效率,也降低了对源库的压力。

 

icon离线开发icon

作为EasyData的基础模块,离线开发提供大规模数据存储与计算能力,可选择搭载其它产品完成数据集成、数据研发、数据治理、数据服务等功能,灵活满足客户的各类场景。

架构图:

 

icon功能亮点icon
丰富的节点类型,逻辑节点无缝连接
支持多种数据源类型的SQL,可通过Mysql、GP、Orade、Vertica等逻辑数据湖节点为逻辑入湖数据提供开发和调度,同时支持spark、hive、script、数据传输等多种任务类型。
强大的调度功能,支持多种调度模式
支持多模型的调度设置,支持周期、crontab、以及自定义交易日历的调度模式;支持任务、节点之间的跨流依赖,支持任务串行、并行、自依赖等调度实例并发逻辑,适配不同数据产出迭代逻辑。
完善的发布管控,对关键节点设置审批流程
结合DataOps方法论打造大数据场景的CI/CD DevOps,提供数据测试、配置检查、自助分析、影响审批策略、任务发布等功能,保障数据质量的同时提高了数据开发的效率。

 

icon产品效果icon
使用前
参数配置繁琐,使用效率低
在数据开发过程中,节点参数、任务参数、运行参数都需要进行参数配置,如果对每个任务进行单独的参数配置,尤其当这些参数是公共参数时,一旦修改参数,则需要重复修改每个任务上的参数,大大影响了开发效率,且无法统一管理参数。
依赖关系手动维护,易缺失
任务开发过程中,需要梳理任务上下游的关系,并对存在依赖关系的任务进行依赖配置。实际开发中,任务数量规模较大,依赖关系错综复杂,一旦任务依赖配置缺失,会导致任务空跑,下游数据出错,影响客户正常业务。
数据迁移成本大,安全无法保障
随着企业规模的增大,异构数据不断增多,急需一种企业数据架构平台去支持海量的、多来源的、多种类的数据存储,同时还需支持对数据进行快速加工和分析。数据湖是一种很好的选择,但是结合实际情况,考虑成本和安全等原因(例如历史数据迁移成本较高),这样的做法并不可行。
调度模板固定无法满足特定行业
一般来说,用户的业务活动每天都会产生大量的业务数据,在离线开发过程中通过按天调度就能满足该类常见。但是在某些特定的行业领域,例如金融、券商的交易数据只会在交易日产生,在这种情况下使用传统的按天调度模式,需要对非交易日下的加工逻辑进行特殊处理,造成大量的计算资源浪费。
使用后
参数组统一管理,减少重复配置,提升开发效率
离线开发平台提供了参数组解决这一问题,用户在使用参数前可前往参数组管理页面新建并添加参数配置,进而便可在任务开发、调度设置过程中引用这些参数。此外,参数组还支持数据传输、质量中心等其它产品模块,大大的提升了平台使用人员配置任务的效率。
依赖关系智能推荐,高效准确
任务依赖智能推荐功能,基于SQL解析以及任务血缘识别任务间的依赖关系并在配置依赖过程中自动推荐给用户,避免了任务依赖漏配或者错配,提升了开发人员开发效率,保障了任务的开发质量。
物理分散,逻辑集中,无需数据迁移即可统一管理
离线开发提供了逻辑数据湖的技术,采用Connect模式,在逻辑层面将数据加以整合,但物理层面分散在原有系统之中,实现在一个平台进行数据开发。适用于企业内部业务及数据系统架构复杂、技术栈不统一、历史数据迁移成本较高的场景,最大限度保障客户历史数据资产,减少数据迁移带来的损耗。
调度日历灵活选择调度日期,适配金融券商调度场景
离线开发引入调度日历的设计,用户可根据自身业务情况设置调度日,系统预置沪深交易日、港股通交易日、沪股通交易日、深港股通交易日和深股通交易日等模板,满足大部分的金融券商场景。

 

icon实时开发icon

实时开发是一款由元数据驱动的湖仓一体产品,最低支持亚秒级数据延迟,在保留开源Flink灵活拓展能力的基础上,实现一体化、平台化,显著降低用户使用与日常运维的门槛和成本,实现业务技术完成闭环,还原真实业务诉求,赋能场景提供价值。。

架构图:

 

icon功能亮点icon
贴合研发习惯,开发高度自由
提供语法自动补全、语法高亮、代码格式化等基础开发辅助和智能语法检查。同时具备本地调试、代码一键回滚、文件/函数引用、自定义运行配置等亮点功能。
元数据驱动贯穿,平台能力逐级提升
通过手动注册流表与数据库获取两种渠道获取元数据,接入统一元数据中心,并提供权限管控、开发引用、血缘分析等能力,实现实时数仓数据关系可视化,管理智能化。
架构保持开放,多内核版本支持
保留Flink开源框架的拓展能力,支持自定义插件拓展,用户可依据框架标准开发Jar包,直接上传至平台进行引用,拓宽使用场景;多引擎内核可选,支持Flink1.10,1.12,1.14等多个主流版本。
100%真实数据模拟,逻辑验证不再复杂
支持基于不同offset策略对数据源端采集线上数据作为数据样本,支持用户对样本数据进行二次编辑以满足更丰富的调试场景;支持通过在线采集、本地上传、选择样本集三种方式获取调试数据,通过对SQL的调试用户可以在不影响实际数据的情况下进行业务逻辑验证,提升开发质量。
以业务为价值导向,摆脱“伪监控”
除了提供基础运维指标外,为避免输入输出QPS等参数看似正常运行,但是实际业务出错的“伪监控”尴尬局面。通过基于Grafana自定义业务指标和丰富告警渠道支持,以实际业务场景为核心打造真正具有业务价值的监控体系。
告警规则丰富,第一时间感知风险
围绕实时业务的真实场景需求,支持QPS输入输出、数据反压、自定义业务指标等告警规则配置,通过多连续周期与自定义周期长度提升告警精准度,还可设置告警间隔与告警时间,避免告警信息带来的骚扰。

 

icon产品效果icon
使用前
开发运维成本高,难上手
采用Java开发上手门槛高,参数配置复杂看不懂,任务迟迟跑不起来;转移至SQL开发后,历史Java任务迁移成本高,引擎版本不兼容,但是已经上线的业务不能停摆,最终任务还是两处运行,维护成了难题。
无血缘,任务故障排查效率低,恢复困难
上游数据表结构发生变化,无法快速确认会影响到哪些任务,只能逐个任务排查,效率低下,往往出现大量任务报错,任务恢复困难。
使用后
图形化操作,降低开发运维难度
对SQL任务进行图形化封装,提供语法校验、数据调试功能辅助研发进行任务开发过程;多引擎版本内核更新快速,可支持多主流引擎版本;历史Jar任务可直接选择对应引擎内核托管至平台,既能维持业务运行也能统一运维管控。
支持查看血缘关系,通过CP/SP进行任务恢复
通过逻辑数仓表实现元数据驱动,通过血缘分析与数据资产地图可清晰明确的了解表与表、表与任务之间关系,并针对性采用CP/SP进行任务状态恢复。

 

icon任务运维中心icon

离线任务的运维平台,致力于提供高效、智能、功能强大的运维能力,辅助运维人员快速完成任务的运维工作。

架构图:

 

icon功能亮点icon
基线运维提前感知异常任务,避免生产事故
采用基线方式批量监控任务实例,能够快速定位当前基线上任务延迟时间最长的问题,将基线上异常实例的信息报警给基线所属值班组的值班人员,提醒其进行处理。
加速任务处理,保证核心任务按时产出
当任务实例出现大规模延迟产出时,为了保障核心任务优先运行,可将任务加入到加速任务池当中,将资源优先分配给这类高优任务,优先保障核心任务的产出。
任务血缘理清任务依赖关系,提高运维效率
支持通过任务血缘进行任务异常定位、影响分析、价值评估,帮助运维人员快速理清任务依赖关系,提高运维效率。
冻结池一键解决脏数据扩散问题
当源头数据出现异常时,例如源头数据丢失、计算逻辑错误、依赖缺失导致提前执行等,为了防止脏数据向下游扩散,可通过冻结池将异常任务及其下游进行冻结。冻结期间可对异常数据进行修复,修复完成后进行解冻操作即可恢复整个链路的正常运作。
智能诊断提升运维人员排障效率
支持对任务运行失败的原因进行分析,包括代码错误、参数配置错误、资源不足、权限问题、数据质量校验不通过等,提供报错日志分析、错误原因归类、诊断建议、诊断效果反馈、知识库管理等功能,快速提升运维人员的自排查能力,提升了问题定位的效率。

 

icon产品效果icon
使用前
复杂场景需要一套体系化、智能化的运维管理机制
对于业务场景复杂、业务链路长、数据需求多的情况,如何高效可靠地进行任务运维管理,同时保障成干上万的调度任务能够每日正常按时产出,还能在出现异常数据时提前预警处理,就需要一套体系化、智能化的运维管理机制。
异常数据下游节点手动干预,无法有效阻止脏数据扩散
上游数据表结构发生变化,无法快速确认会影响到哪些任务,只能逐个任务排查,效率低下,往往出现大量任务报错,任务恢复困难。
使用后
基线运维提前感知异常任务,降低故障率,提升运维效率
任务运维中心提出基线运维,根据任务特点将任务挂载到不同的基线上进行任务的分类管理。通过基线的预警能力,前期感知任务调度异常,降低故障率。通过关键路径及报警功能快速定位延迟或出错任务,提升运维效率。此外,结合冻结池功能,很好地解决了源头任务异常恢复慢等问题,重大事故解决时长缩短到0.5天。
自动识别下游相关节点统一冻结,故障排除依次解冻,自动化功能提升运维人员工作效率
冻结池功能可对产生异常数据的源头节点进行冻结,并将其相关的下游所有节点自动加入到冻结池中一同冻结。当产生异常数据的问题修复后,可对冻结池中的节点进行依次解冻确认产生正常实例。通过冻结池能够有效地防止脏数据的扩散,提高运维人员的工作效率。

 

icon数据治理icon

数据治理是数据生产力方法论中紧扣业务价值的环节,EasyData对数据开发的内容结果进行持续化运营动作,并结合产品层面数据标准建立、业务指标定义、元数据模型设计、数据质量校验稽核、安全中心权限管理等能力,使底层数据可无缝服务上层企业业务需求,实现围绕业务场景的数据价值持续释放。

 

 

icon数据标准icon

在数据治理中作为“标杆”进行衡量,通过导入行业标准与挖掘企业已有数据标准,实现标准的管理、执行、反馈、优化全环节管控,帮助企业在数据使用的过程中建立一套贴合业务场景诉求的数据标准,并通过与数据质量、模型设计、元数据等模块打通深度结合至开发过程,将标准的业务价值落在实际开发过程中。

架构图:

 

 

icon功能亮点icon
自定义注册模版,紧密贴合业务诉求
除默认配置外,支持用户基于系统现有属性对数据标准定义过程中的数据元选项进行配置;同时支持自定义为数据元附加属性,灵活贴合业务场景诉求。
数据标准与数据质量稽核规则相关联
确保质量规则的统一性和准确性:数据标准是数据质量稽核规则的主要参考依据,一方面可以实现字段级的数据质量校验,另一方面也可以直接构建较为通用的数据质量稽核规则体系,确保规则的统一性和准确性。
基于数据标准的规范化建模,保证模型建设的标准和统一
数据标准构建统一表名规范、字段命名规范、格式、类型、值域等规范,构建模型时引用统一标准,确保模型建设的标准性、统一性。
数据标准与数据开发相结合,统一开发规范
根据数据元挂载情况自动生成字段映射关系,根据原始字典及标准字典映射关系,生成对应脚本,根据关联的稽核规则生成质量检测任务。

 

icon产品效果icon
使用前
标准与建模未打通,标准难落地
数据标准与模型设计未打通。在企业中虽然有一套对数据标准的定义,但是很多时候都只落于文档层面,在实际开发过程中无法保证所有开发人员都能够按照规定进行开发,最后导致一个相同字段,存在多种命名方式。
无统一质量稽核标准规则,导致数据开发质量差
当数据标准和质量稽核规则未打通时,企业核心表的稽核规则覆盖率往往只有10%。其次,开发人员对于相同字段稽核规则存在不一致、闽值设置不一致的情况,从而导致数据开发质量差、BUG多。
使用后
建表一键关联标准,保障建表规范性,提升开发效率
将数据标准与模型设计进行关联,用户在进行模型设计过程中可以直接引用已经定义好的数据元模型,不但提高了建表效率,而且保证了字段的统一性和标准性。
打通标准和质量,保障质量稽核规则统一,提升开发质量和效率
将数据标准与数据质量中心进行关联,用户在模型构建中引用标准数据项作为字段,数据项根据定义号的值域及格式,可直接作用于质量稽核规则,无需开发人员挨个配置,在产品层面上实现了稽核规则的统一,提高了开发质量和效率。

 

icon指标系统icon

数据治理中业务端的直接对接入口,帮助企业解决多业态下指标口径不一致问题;通过提供业务/技术双角度在数据治理体系中构建唯一口径,进行“定义一开发-应用”的全生命周期覆盖,实现不同业务部门下指标“一见即得”,助力数据模型规范设计。

架构图:

 

icon功能亮点icon
规范化管理指标,消除指标二义性
严格定义指标规范,规避指标二义性,助力数据模型规范设计。
多产品协同,矩阵化能力升级
向上打通数据服务、BI,向下打通模型设计、数据资产地图、数据质量等产品链路,实现“业务反馈-指标规划-数据开发-业务应用”矩阵化能力覆盖。
指标模板灵活设计,打造企业级指标系统
提供灵活的模板配置能力,支持配置字段是否启用、是否必填、是否可搜索、是否在列表里展示以及提供多种指标标识生成方式,企业可根据业务情况定制化构建指标模板。
变更有迹可循,全流程覆盖管理
从“创建-评审-开发”全流程覆盖并提供审批支持,实现关键节点审批流程支持,让围绕指标本身及上下游的变更有迹可循。

 

icon产品效果icon
使用前
指标口径不一致,开发效率低且容易出错
业务部门不清楚系统中已经存在哪些指标,也不清楚去哪里找数,只能根据自身业务需要提出指标需求。指标开发人员不清楚系统中现有哪些应用或数仓模型、不清楚模型的计算口径、不敢用,只能竖并式开发,导致效率不高且造成数据口径冲突。
缺乏治理流程且指标治理要求差异性大
指标仅停留在开发阶段,没有完整的生命周期管理,且不同用户对指标治理流程的诉求不一致,无法发布为真正的指标数据资产。
不同角色的用户查找指标困难
一般指标按照指标域或业务过程进行组织,对于数据开发人员是比较友好的,但是对于数据管理者而言,可能更关注与指标的权属部门等信息,因此缺乏针对不同用户的指标编码方式。
使用后
消除指标口径二义性,提高指标复用度
通过指标中心结合指标管理制度实现指标增、删、改、查线上化操作,并实现指标与模型等上层应用的绑定关系,打通指标共享壁垒,提高指标复用度。
提供灵活的指标治理流程配置,建立完备的治理流程
在流程管理上,提供申请注册、申请确权、申请变更安全等级、申请治理、置为待发布、置为草稿、申请发布、申请下线流程操作,根据流程阶段的不同,将指标划分为新建、草稿、待发布、已发布、已下线状态,用户可自行选择需要启用的流程操作,满足差异化治理的需求。
建立指标资源目录,选择适合你的方式查找指标
是对于数据管理者而言,可能更关注与指标的权属部门等信息,因此缺乏针对不同用户的指标编码方式。建立指标资源目录,选择适合你的方式查找指标:通过引用标准资源目录或指标系统自定义的资源目录,为用户提供灵活的、多维度的指标编目方式,在指标注册发布时进行多角度分类,如按照指标域、业务过程、应用系统、来源部门等分类方案对指标进行组织,让不同角色的用户按照自己的方式找到想要的指标,解决了取数用数难的问题。

 

icon模型设计中心icon

数据治理中的桥梁环节,通过企业数仓的标准化建模可将数据标准与指标口径落实到具体的业务开发过程,实现标准与数据的-一对应;通过主题域与分层的设计,对数仓建设过程提供指导,并对已有模型进行持续监控,为企业提供模型使用与优化建议。

架构图:

 

icon功能亮点icon
多主题域数仓分层,业务技术双纬度切分
遵循数仓建设技术标准划分不同表分层,并结合业务实际划分不同主题域,使数据的业务含义能够一一对
应并得到直观的体现,实现业务逻辑的技术落地。
建设水平可视化评估,持续提供优化方向
把复杂的建设水平评估转换为简单易懂的可视化图表,直观反馈模型建设程度与数据覆盖情况,提供详细指标与建设方向指导,助力企业持续对数据模型进行优化与改进。
引用标准进行建模,效率与质量同步把控
建模时通过引用标准建立字段,自动生成字段英文名称、描述,一级格式及值域要求,保证了命名规范的同时也提供了质量稽核的依据。
多数据源类型支持,建立数据全链路规范
企业已存在的外部数据源的数仓,支持统一抓取进行管理,新建业务系统的数据表设计也可通过模型设计中心将平台的统一数据标准进行应用。

 

icon产品效果icon
使用前
模型跨层引用,结构混乱
模型开发过程中存在超过50%的任务直接读原始数据导致查询速度慢,同时大量模型跨层引用导致模型构建混乱,无法有效支撑前端引用。
外部数据系统无法统一管控建模
客户在数字化转型过程中,需要将散落到各个子数据系统的数据孤岛统一管控起来,完成统一的数仓搭建和主题域建设。而在实际过程中,客户需要通过逻辑数据湖的方式对数据进行统一的管控,如何对逻辑入湖的数据进行模型建设变成了问题。
使用后
模型涉及度量标准,规范建模,提升模型开发效率
构建业界首个面向数据中台的模型设计度量标准,提出跨层引用率、查询覆盖率、模型引用系数等指标帮助企业了解模型建设情况,完成模型治理,从而提升模型开发需求交付效率。
解决数据孤岛问题,外部数据系统统一管理、统一建模
模型设计中心支持外部数据源的数仓建设,当前支持MySQL、Greenplum、Oracle、Vertica等,用户无需将数据同步入湖便能在平台完成数仓的建设,方便模型的统一管理。

 

 

icon数据质量中心icon

数据治理中的验证环节,通过事前定义监控规则、事中监控数据的生产过程、事后评估和问题追溯,实现数据质量问题发现的“全面化、自动化、在线化”,从而将业务规范落实到数据开发的每一环节,为企业提供数据治理全生命周期的监管能力。

架构图:

 

icon功能亮点icon
多任务模式,解决湖内湖外数据源任务质量监控问题
支持对数据源类型为Hive、MySQL、Vertica、Greenplum的数据源任务进行单表质量监控任务和多表数据比对任务,湖内湖外数据质量统一管理。
丰富的规则预置模板,灵活的规则自定义配置
丰富的规则预置模板,灵活的规则自定义配置:监控规则配置灵活,覆盖面广,支持根据数据标准推荐规则、根据元数据推荐规则、模板规则、自定义SQL规则;同时具备多数据源类型SQL语言精准解析,辅助快速完成规则的设置。
事前定义、事中监控、事后回湖,全流程把控数据质量
数据质量中心通过事前定义数据的监控规则、事中监管数据的生成过程以及事后数据评估和问题追溯过程,把控高质量的数据。让企业拥有准确且业务有序的数据确保商业决策不会遭受“坏”或“脏”数据带来的负面影响。

 

icon产品效果icon
使用前
质量问题难以及时发现和定位
数据质量出现问题,缺乏及时报警响应机制,往往是先发现后治理,再进行任务返工,耗时耗力影响数据产出和决策。
质量稽核规则标准不统一,字段闽值设置不一致
质量模块相对独立,质量稽核规则制定依赖于开发人员,在配置时容易造成稽核规则遗漏、同一字段闽值设置不同。
质量问题难以追溯分析
质量问题发生后需要知道具体哪些数据发生问题;对于表质量情况,不同角色的用户关注的细节点不同;同时业务人员和数据治理专员等有定期检查和盘点的需求。
使用后
多种任务模式全流程把控数据质量
针对数据质量的完整性、准确性、一致性等问题,提前预设监控卡点,通过形态探查、数据比对、质量监控任务全面保障数据质量。
标准自动生成质量规则,保证规则一致性、准确性
基于数据标准进行数据质量规则制定,结合数据质量度量及改进形成数据质量闭环管理,确保质量稽核规则一致性、准确性。
提供丰富的事后数据评估和问题追溯手段
支持执行实例、执行趋势、异常数据样本等质量问题查看与分析功能。支持查看项目数据质量大盘,了解表质量分,明确线上任务配置数据质量监控任务的运行状况,整体把控项目数据质量。

 

icon安全中心icon

依托数据等级、用户等级相匹配的数据使用策略,更智能便捷的数据脱敏和数据加密应用能力,帮助用户快速构建基于数据内容的安全能力,满足企业各种场景的数据安全需求,采用系统预制的各种参数,无需过多配置即可直接使用。

架构图:

 

icon功能亮点icon
自定义审批链路,审批流程全掌控
提供灵活的审批流程自定义方案,可根据库、表、目录范围、数据安全等级自定义审批范围及审批链路。
库表权限规范管理,数据权限安全有保障
支持库、表权限的申请和授权,支持库、表权限的生命周期管理,对于即将到期的权限支持续权操作,同时也可将不需要的库、表权限进行主动释放。
敏感数据分级分类,数据脱敏保障数据安全
可根据企业行业特性自定义敏感数据分级分类,支持自定义脱敏算法,可对敏感数据进行动态脱敏和静态脱敏,同时结合脱敏白名单灵活调整脱敏影响范围。

 

icon产品效果icon
使用前
敏感数据缺乏保护
针对存储着大量敏感用户数据的企业,如果数据泄露将面临严重的财务或法律问题。
缺乏灵活的权限管理
只有管理员视角、缺乏用户视角的权限管理,容易导致权限的申请、续权、回收不灵活,数据使用成本高。
缺乏全平台操作审计
对于所有子产品无法进行操作审计,一旦发生风险行为,不仅无法及时预警,更无法追根溯源。
使用后
敏感数据分级分类,保障企业数据安全
安全中心构建数据保护模块,支持根据行业特性自定义敏感数据分级分类,系统内置4个安全等级可灵活配置;支持敏感数据识别功能,识别敏感字段及字段安全等级,结合静态脱敏和动态脱敏完成数据脱敏工作,保障企业的数据安全。
灵活细致的权限管理
安全中心提供用户和管理员双视角的资源权限管理,支持用户自定义权限审批范围和审批链路,让用户更灵活地完成资源权限申请、续权和释放等操作。可以降低数据使用成本,提高数据使用效率。
细粒度的操作审计
提供最细粒度的功能操作日志功能,结合操作审计功能,可以对高危行为进行预警,为事后追责保驾护航。

 

icon数据资产地图icon

基于元数据提供各类数据检索、数据血缘、数据资产目录、元数据采集和管理、元数据详情查看等功能,旨在帮助用户更加方便快捷的找数、用数。

架构图:

 

icon功能亮点icon
完善的元数据发布流程,保证湖内外元数据统一管理
完善的湖内/湖外数据发布流程,将元数据分为业务元数据、技术元数据、管理元数据,并通过元数据管理系统进行采集、注册以及发布。
统一的元数据中心,解决元数据缺失问题
将元数据和标准、质量、安全、模型等子产品进行打通,丰富元数据内容的同时,方便数据资产消费者更好的了解数据。
丰富的数据查询功能,帮助业务人员更好了解数据
支持表元数据信息、字段信息、DDL变更、血缘信息的展示。和模型设计相结合,可通过主题域和分层方式展示表方便查询。支持表的收藏订阅,已关注的表发生变化时,通过邮件进行通知。
icon产品效果icon
使用前
元数据缺失,看数用数困难
对于企业来说数据的负责人是谁、数据的安全性如何、数据的质量如何、数据是给谁用的、谁更改了数据等等,这些问题都需要元数据管理进行解决。元数据的缺失导致业务人员看不懂表,如何使用表。
数据分散,找不到想要的数据
随着业务的快速发展,海量数据日渐堆积,用户找数犹如大海捞针,数据无规则、乱序平铺,用户不知道想要的数据究竟在哪里,业务存在哪些数据可用。
数据链路不清晰,影响范围难评估
由于企业业务干变万化、上下游依赖关系复杂,实际数据生产链路之间往往也存在着错综复杂的血缘依赖关系。但由于数据链路不清晰,导致某节点变更后无法评估下游影响范围,或者下游数据异常,无法追湖上游形成异常的原因,给数据开发及治理带来困难。
使用后
统一元数据管理,解决元数据缺失问题
元数据管理解决的核心问题就是如何保证元数据质量。产品采用科学的元数据管理方式,将元数据分为业务元数据、技术元数据、管理元数据,并通过元数据管理系统进行采集、注册以及发布。同时将元数据和标准、质量、安全、模型等子产品进行打通来丰富元数据内容,方便数据资产消费者更好的了解和使用数据。
统一数据资产目录,多业务视角快速找数
数据资产目录解决的核心问题就是能够按照业务的不同维度来对数据进行分类管理,用户能够按业务需求根据指定目录找到相关数。同时用户也能根据资产目录结构,以全局视角了解整体数据分布范围。通过统一数据资产目录,实现数据的分类管理,实现方便快捷的找数。
全链路的数据血缘,开发治理有依据
全链路的数据血缘以可视化DAG图的方式,供用户快速查看数据的上游形成来源、下游使用去向,能够清晰的掌握数据的完整流向。当某环节出现数据异常时,能够及时根据血缘关系快速评估影响的下游系统范围、上游数据问题原因追溯等。此外,通过数据血缘也可查看数据被下游系统使用的情况,若没有使用可以考虑将数据下线来释放存储计算资源等,给数据成本治理起到重要的参考作用。

 

icon数据治理360icon

数据治理界的360,可以定量评估数据资产的成本、价值、质量、安全和规范。助力企业优化数据成本,赋能业务,节约资源。

架构图:

 

icon功能亮点icon
价值可视化,让用户直观了解数据资产
资产数据模型维度丰富,提供多个视角的资产分析能力。成本价值可视化,让业务明确整体成本与价值便于资产的管理。
治理有抓手有依据,数据治理便捷高效
构建项目/个人账单基准,以管理员和治理成员视角发送治理周报,提供数据治理红黑榜单,通过推荐下线和生命周期管理、小文件合并、冷备等多重工具,给数据治理提供有力保障。
健康诊断360,全方位了解数据健康度
从存储、计算、价值、规范、安全、质量6个维度监控数据资产健康情况并给出待治理项优化建议,帮助企业360度全方位了解数据。

 

icon产品效果icon
使用前
数据资产管理混乱,无存储和计算成本统计
企业数据中台建设过程中,业务方以业务需求为主导将数据接入平台后,只开发不治理,遗留下大量的历史数据和无用的存储表与计算任务。业务线持续发展后,计算和存储成本增长迅速,企业面临实际成本支出远远大于真实资源预算的情况。数据团队一方面需要满足快速发展的业务需求,另一方面又需要尽量控制成本增长,符合部门合理的预算范围之内,此时亟需工具型产品可以快捷方便的对劣质和无用数据进行治理。
数据资产治理捉襟见肘,缺少明确治理目的事倍功半
企业在数据治理过程中由于缺少资产健康度的量化分析,导致在治理过程中无法明确的找到急需治理项,往往投入大量的时间和精力治理效果不明显。即使在治理过程中找到了关键待治理项,但是治理之后效果如何也无法很快得到判断,同样导致对治理成果的感知不明显
使用后
统计存储和计算成本,了解资产使用情况,沉淀高价值资产
为了更好的支撑业务,真正解决业务线的治理痛点,同时也为了能将业务线积累的治理方法更好的沉淀在产品中,结合多业务线的治理痛点,建设了数据治理360平台,先从计算和存储方面入手,对无用数据进行分析和统计,提供对推荐下线表快速治理的入口,对任务实例进行细化分析,将资源消耗转化为费用,量化治理成效。
六个维度监控资产健康,准确高效进行数据资产治理
健康诊断功能能从存储、计算、价值、规范、安全、质量6个方面总计26条评分规则对企业数据资产进行健康打分,同时围绕上述6个维度给出治理项优化建议,帮助企业全面了解数据资产情况,找到治理薄弱环节,准确高效的进行数据治理。

 

icon数据服务icon

一站式自助数据服务平台,提供快速将数据表生成数据API的能力,致力于丰富、便捷、高效的产品功能,旨在打造让API开发零门槛的企业级API产品。

架构图:

 

icon功能亮点icon
一站式自助数据服务平台,解决取数易用性问题
平台秉承“配置即服务”的理念,数据开发工程师不再需要重复写代码开发数据接口,只需要在平台上进行简单配置,平台便可自动生成和发布数据API;数据使用者可以通过API集市查看发布的API调用说明并申请API使用权,极大改善了数据交付过程中的效率、质量、安全问题。
多重管控,解决API服务安全问题
支持流控策略、访问策略、报警策略、行例级权限设置,为API使用提供安全保障,使得不同应用可以放心共享API服务;同时资源组相互隔离,API调用互不影响,为API稳定使用提供保障;API调用和传输支持加密,让AP的使用更加安全。。

 

icon产品效果icon
使用前
API开发效率低,无法有效支撑快速发展的业务
数据团队承接业务方需求,需要将数据仓库中海量数据通过接口化方式交付给数据使用方,但开发和维护API的链路长,投入成本高,数据滞后;API对接不同的业务方,呈现烟肉式开发,API复用率极低,加大开发人员的工作负担,开发和交付API平均时间需要几天甚至几周进行排期,急需工具型产品的支持以实现快速按小时级交付数据服务API的需求。
安全管控缺失,API调用存在数据泄露的风险
对于临时性搭建的API服务,缺乏安全管控,在通过API进行数据调用过程中,存在数据泄露的风险,通过API的数据传输方式变得不可信、不敢用,降低数据开发工作人员的效率。
单个API使用场显受限,二次加工增加工作复杂度
单个API无法解决复杂的业务场景,比如需要对某个AP的输出结果进行处理后作为另一个API的输入结果,或者通过条件判断来动态的调用数据结果,业务方往往在调用API后还需要对其进行二次加工处理,增加了工作复杂度。
缺少上层应用血缘链路,数据应用效果无处可循
在传统API开发过程中,数据团队更多的关注于将数据表构建为API开放给业务人员使用,但业务发展迅速,变更频繁,API送代速度快,重构成本高,已开放出去的API是否还在使用,使用效果如何无从得知,增加了API的维护成本,无法对API进行治理。
使用后
可视化配置降低开发难度,多种功能辅助,保障API服务安全,提升API使用效率
通过指标中心结合指标管理制度实现指标增、删、改、查线上化操作,并实现指标与模型等上层应用的绑定关系,打通指标共享壁垒,提高指标复用度。
多重管控策略,解决API服务安全问题
数据服务通过支持流控策略,限制单位时间内最大调用次数保障API的稳定调用;通过黑白名单访问策格,保证仅授权或被禁止的IP地址实现调用或无法调用API的数据的需求;通过报警策略,时刻监控重要性API的调用状态,满足应用方平稳顺利的数据使用;通过控制行/列级权限,实现API开放的灵活性和安全性,让开放出去的数据能真正作用在业务使用中。
服务编排能力,实现API之间的串并行等复杂逻辑处理,提高API使用效率
数据服务通过提供服务编排能力,支持在画布中拖拽API节点、python节点、条件判断节点和UDF节点,实现将API参数进行复杂的逻辑处理,满足业务多种数据使用需求,由原本调用API后进行二次开发转变为只需要调用服务编排API,极大的提高了数据开发效率,简化了业务方使用数据的复杂度,进一步降低了数据API的开发门槛。
构建全方位API血缘链路,提供API调用详情,让API的价值有迹可循
数据服务通过构建数据表、API和应用的血缘链路信息,支持从任一视角查看上下游关系,同时提供API自创建后被调用的统计信息以及从来调用过的AP列表,针对性的对API进行治理,结合API血缘信息,让API治理有依据有抓手,让API数据应用价值最大化。

 

icon案例实践及荣誉资质icon

数据开发及治理平台EasyData目前已支撑金融、零售、制造、交通物流、运营商等多行业客户的大数据业务,在技术先进性、性能优越性、产品成熟度及安全可靠性等方面均得到了验证。

 
icon东北证券icon
东北证券股份有限公司作为一家综合类券商,业务遍及全国,现已在各地设立了36家经纪业务区域分公司、102家证券营业部证券营业部和3家分公司。东北证券借助数据开发治理平台EasyData,实现了“数据开发与治理的一体化”,从数据生产源头出发,遵循“先设计,后开发,先标准,后建模”的理念,确保开发出来的数据就是遵循规范和标准的,实现了数据的长效治理,解决了多年数据治理难落地,效果差的难题。通过数据资产消费平台,一线业务人员可以轻松实现数据资产,找得到、看得懂、信得过。
icon价值收益icon
标准落地
通过打通数据标准和数据建模工具,在模型设计过程中就可以直接完成数据标准的落标。东北证券注册元数据2814项。
质量保障
通过打通数据质量和数据标准工具,根据数据标准直接生产数据质量稽核规则应用在模型上。东北证券生成数据质量稽核规则2890项。
转型
通过打通数据安全和数据标准工具,根据数据标准中定义的数据敏感等级,生成数据脱敏规则直接应用在模型上。东北证券生成脱敏规则1323项。

 

icon浙江电信icon
中国电信是国有特大型通信骨干企业,连续多年入选“”世界500强企业“,中国电信股份有限公司浙江分公司是中国电信首批在海外上市的省级公司之一。浙江电信与网易数帆强强联手,依托EasyData构建了逻辑数据湖,将数据中台构建在跨平台的逻辑聚合层之上,实现了多平台的统一管理。与此同时,发布了数据入湖标准,实现了数据“入湖有标准,出湖可管控”的目标。
icon价值收益icon
逻辑统一,物理分散
将物理分散的Vertica、CDH、NDH等不同平台上的数据构建逻辑统一的数据中台。
规范入湖
发布6项数据虚拟入湖标准,浙江电信完成86个核心系统的接入,沉淀数据资产4144项。
出湖管控
通过数据服务,实现数据出口的统一管控,浙江电信发布数据服务API 300+。

 

icon九州通icon
 
九州通医药集团股份有限公司发轫于1985年,是一家以西药、中药和医疗器械批发、物流配送、零售连锁为核心的股份制企业。
icon价值收益icon
消除数据孤岛
集成打通数十个系统,开发超过220个数据模型和20个业务场景解决企业数据割裂和信息缺失问题。
数据应用提效
数仓任务运行从不完整同步耗时8小时,缩短到完整同步2小时,效率提升75%以上。
辅助业务决策
提供门店销量预测算法促使销售人员业绩达成,基于药品推荐转化算法的业务创新收入占比达8.5%。

 

icon中国南方电网icon
 
中国南方电网有限公司超高压输电公司作为南方电网骨干网架和重要联络线的规划与执行者,十余年来在南方五省(区),建成了目前国内独一无二、世界少有的现代化电网。
icon价值收益icon
数据集成
数万公里输电线路、上百个电站的数据进行统一收集,改变原有数据孤岛现象。
数据驱动业务
消息实时触达运维人员企业微信快速响应故障,工作效率提升。
建设数据文化
通过平台建设促进数字技术与业务深度融合,数据思维触达公司每个人员。

 

icon记忆科技icon
 
记忆科技集团早在2006年其内存业务规模现已跃居全球第四位,现已成为全球主要IT厂商的重要合作伙伴。
icon价值收益icon
构建企业级数仓
整合了记忆科技生产数据、ERP运营等多个系统,实现数据标准化和规范化,建立统一的企业级数仓。
 
提升测试效率
实现所有测试过程可视化、透明化不良产品测试时长从4小时缩短到10分钟内。
提升开发效率
原先需要4天完成的数据开发任务2天就能快速解决,开发效率提升50%。
产品推荐 查看更多>>
    百胜软件E3全渠道中台

    百胜软件E3全渠道中台,联结企业前端业务触点和后端供应链系统,企业分销管理系统帮助企业实现全渠道资源、业务一体化融合,降低运营成本,提高订单、库存等作业效率,真正实现重构人、货、场、财。

    企业级高性能PHP框架

    分布式系统

    自定义配置流程

    线上线下全渠道业务支持

    上讯信息敏捷数据脱敏系统SDM

    敏捷数据管理平台软件(ADM)是上海上讯信息技术股份有限公司(以下简称“上讯信息”)自主研发的,主要面向金融、运营商、政府、能源、医疗等行业打造的全生命周期数据安全管理软件产品,用于数据备份、备份数据恢复验证、测试数据交付和静态数据脱敏等应用场景,可为企业上、中、下游数据的高效使用和安全管控提供一套整体解决方案。

    支持多种敏感数据源

    敏感数据自动识别

    数据关联关系保持

    具备丰富脱敏算法

    腾讯轻联零代码应用集成与数据集成平台

    腾讯轻联零代码应用集成与数据集成平台,腾讯云iPaaS是一个以腾讯云为技术基座,背靠300+伙伴生态,通过核心的图形化开发界面,专注于系统集成、数据融合、SaaS集成、MQ消息集成、API全生命周期管理的新型云集成服务平台。

    系统集成

    数据融合

    SaaS集成

    MQ消息集成