通过对各主题域数据架构师数据管理问题的问题访谈调研,从数据管理、使用、生产三个方向深度剖析,总结治理能力6个方面问题。
目标:将数据标准规范定义、模型设计和数据开发体系通过统一建模工具连接在一起,多平台组合联动,以实现“规范即设计,设计即开发,开发即治理”的开发治理一体化,让数据“找得到,看得懂,信得过”
结合数据管理现状和业界数据架构管理实践,明确数据架构相关组件如下,包括数据资产目录、数据标准、数据模型和数据分布。
支持模型知识库管理,包括创建分支、锁定、版本、回退、复制、剪切、删除、设置共享、权限等操作。
在模型库中搜索实体/表、字段;支持表、字段的拖拉拽,通过拖拽的方式将选定的实体/表、字段加入到当前模型的实体/表中;通过模型库实现跨模型的实体/表的共享。
建模工具检查支持选择执行全部规范检查和部分规范检查,模型检查结束,根据模型检查规范,生成模型设计存在不符合规范的错误或警告信息。
在模型设计期间,设计者可以通过拖拉拽的方式直接引用数据标准,也可以在实体设计器中,使用智能推荐的方式批量推荐数据标准,优化数据应用模式,提升模型设计效率。
支持通过中文名进行模型内字段的数据标准自动匹配和发现,建立字段和数据标准的关联映射关系。
支持模型设计过程中绑定的数据标准与标准库中的数据标准进行一致性检查。
支持将逻辑模型转化成物理模型,再依据物理模型生成DDL脚本,用户可根据实际需求选择生成DDL脚本包含的内容,包括表、字段、主外键关系,节省手动编写脚本的时间。
可通过用户配置文件和安全设置(包括通过轻量目录访问协议进行的身份验证)来管理模型资产的控制。
模型设计工具具有细粒度的比较能力,可以详细列出两个模型版本之间的差异,并根据差异进行表和字段级别的合并。
基于Datablau DAM的元数据库和模型库,应用模型自动比较引擎功能,将模型库中设计态模型与元数据库中运行态模型进行比对,获取模型差异,及时发现“模型两张皮”情况,并通知相关方处理“两态模型”不一致问题。
系统支持为元数据绑定基线模型,并周期性比对生成差异报告。差异报告支持导出为Excel格式的文件。
模型设计工具针对当前设计模型基于核心检查点自动生成模型审批报告,为评审环节提供重要的参考指标。
6步骤法实现端到端数据湖治理:源端治理:数据标准落地,数据模型管控;资产入湖:资产注册,源端数据资产,自动入湖工具;数据仓库:分层分区,数仓建模,数据开发;指标管理:指标定义,指标层建模,数据开发;数据质量:数据质量检测,问题影响分析,数据任务监测;分析治理:指标数据安全,数据查询服务,BI集成
支持企业复杂异构数据源的智能采集,可根据业务需要扩展元模型,支持元数据采集配置以及周期性调度作业,调度作业状态查询;自动监测版本生成差异报告;基线模型绑定,任务监控,生产库事中校验;支持质量分析与关联分析等,并支持结果导出。
支持多角度、多维度的展现元数据详细信息,包括基本信息、字段信息、采样数据、血缘关系、知识图谱、API接口服务信息、数据质量信息、变更历史、评论信息
在元数据管理的系统调用页面管理维护系统间调用关系;在数据地图页面查看不同业务域的系统流转关系;支持点击系统查看系统信息;支持点击系统间关系查看系统间调用关系;并支持下钻血缘关系展开至字段级展示。
参考业界领先实践以及国内外同类项目数据标准管理经验,建议数据标准管理采用以下流程,可以最大化公司数据管理的效率。
数据标准主要包括各业务主题域的基础数据标准和指标数据标准,数据标准详细定义模板包括业务属性、技术属性、管理属性三部分
规范数据定义、统一业务话术,确保集团范围内数据在设计和定义、产生和采集、汇聚和加工、使用和共享等全生命期内遵从统一的定义和规范,解决目前存在的数据来源广泛、业务话术理解不统一、指标口径不一致、信息不规范等一系列问题
支持按主题、分类、目录的方式管控数据标准。支持数据标准的智能关联映射和多维度维护(标签、安全级别);基础标准与指标标准的业务信息、管理信息和技术信息的申请、审批、变更、发布、废弃、导入、导出等功能;属性可以进行扩展定义。
使用无监督机器学习算法进行语义识别,建立标准相似度模型,计算相似度估值,进行批量推荐。支持智能推荐的数据标准映射并可手动接受/拒绝;进入智能对标功能页面;设置数据范围和运行时间,点击开始扫描,然后进入查看页面,在元数据字段的推荐标准中选择一个数据标准,点击接受/拒绝或者批量接受/拒绝。
根据聚合算法,基于元数据扫描,自动归类相似度高的属性并智能提取数据标准。支持根据字段的中文名、英文名、 描述等属性识别相似的字段,并分组形成聚合推荐,可以查看每个聚合推荐的信息,为 其中的部分字段创建并绑定相同的数据标准。
数据标准落地到系统,周期性检验数据标准落地到元数据中情况,对数据标准落地情况进行评估,自动盘点核标情况并跟踪问题。支持通过设置任务执行的范围和周期运行自动核标任务;支持查看自动核标问题。
企业对大数据、人工智能通过一系列大数据分析手段来优化自身业务,提高市场竞争力。但一些项目智能愿景设立了,数据资源无法支撑上去。还有企业在发展过程中的人员变动、IT架构设计、采购流程、甚至厂商提供的解决方案差异等原因造成了各种数据质量问题,报表数据不准,自助式数据分析更无从谈起,数据难以利用。企业经过长期经营,在各种异构数据源中,累积了海量数据数据质量差、可信度低,自助式数据分析难以发挥作用。同时数据孤岛问题严重,数据源间难以建立关联,难以形成统一口径。 如何快速在不同数据源中,建立质量验核规则,定位质量问题数据,变现数据价值,是企业提升竞争力的重要战略目标。
支持按照业务规则、技术规则的维度定义数据质量检核规则,支持自定义SQL类型技术规则、正则表达式类型技术规则、函数类型技术规则、数据对比类型技术规则,支持质量规则的审核、维护等管理,支持规则模板的自定义;制定引用数据标准和元数据进行数据质量检核。
平台支持设定检核任务,设定任务覆盖的范围,任务的周期调度时间,并且支持绑定多条技术规则进行任务的检核。支持手动执行任务,支持任务的实时监控。
支持制定问题数据自定义分配方案,支持将具体的问题数据分发给指定人或机构,处理问题数据;支持查看问题数据的详情和下载;支持通过OA、短信、邮件、微信等方式通知。
支持解决方案的添加、删除、修改、查询;支持线下文档的上传;支持技术规则与解决方案进行绑定;支持解决方案变更历史的查看。形成问题解决闭环路线图,控制和预防问题的产生。
支持数据质量检查运行的总体情况,可查看当前数据资产管理平台的质量总分、质量规则数量以及监测任务修复情况等;展示方式以折线图、饼状图、列表等形式展示;展示维度包括:重要程度,来源,类型,系统;展示指标包括:指标问题数,全部问题记录数,逾期问题数,逾期问题记录数。
可按照问题类型、问题所属系统、问题变化趋势的方式展示问题的报告情况;支持饼状图、柱状图、曲线图等不同形式的展现方式;支持按照时间区间进行数据的筛选展示。
数据资产管理平台为数据资产管理体系的落地提供有效支撑。通过数据资产管理平台,可持续进行数据资产目录管理、元数据管理、数据标准管理、数据质量管理、数据共享交换服务等数据治理工作,夯实企业数据治理成果,提升数据质量,推动企业数字化转型。
企业级全面的数据资产,数据资产权威/可信/可用,多视角的数据资产目录
支持按表、字段、标准、指标、报表名称、数据资产名称对数据资产进行模糊搜索。可按业务主题域分类查看数据资产。支持热门数据资产推荐展示和按照近期浏览记录展示数据资产。
支持以大屏形式动态、实时展现数据资产相关情况,涵盖数据资产总量、数据资产分布情况、数据资产安全等级占比、资产目录数据资产分析、各部门数据资产分布、数据资产质量问题、各资产目录质量问题、资产热度TOP、资产目录发布状态分析等信息展示。
分类分级PDCA实施流程,提高安全治理平台数据识别率及准确率,保障治理成果的完整并有效地落地。
支持多级子目录的创建、删除、修改、查询、重命名;支持对数据分类目录进行数据安全分级信息添加;支持通过模板批量导入数据安全分类。可查看和修改安全等级、重要程度、影响对象、影响范围、影响程度等分级情况。
支持通过模板批量导入数据资产;同时可以导出待梳理、待确认、已发布、暂不梳理等所有状态的数据资产;针对“待梳理”的资产进行分级分类,状态变为“待确认”,然后接着进行选择“确认提交评审”、“修改安全分类”、“修改安全等级”、“重新梳理”等操作。
支持进行待评审的数据资产列表的查询和条件筛选,选中待评审数据资产列表中的某一或者多条数据资产,进行评审通过或驳回操作。
包含字段脱敏策略,表脱敏脱敏,访问策略,行级访问策略等。