icon痛点icon

各种数据和系统问题制约着数据价值的运用,比如口径不一致、 报表查询慢等。 因此数据标准的规范、数据仓库的搭建、报表体系的建设等等都需要有明确的建设思路。

数据脏乱差
表中存在作废数据,不合法数据,空值等
数据孤岛
业务系统未全部打通,无法关联进行报表展示
口径不一致
同一个字段,各系统口径不一致
系统性能差
业务系统报表效率低下,查询与导出缓慢
缺少历史
未记录状态流变历史,无法进行历史情况分析
开发任务多
业务分析需求渐增,IT苦于开发任务繁重
icon建设现状一业务库直连icon
建设现状
目前FineReport开发的报表应,用的查询和业务系统的数据写入压力都集中在业务系统数据库本身
适用场景
仅适用于业务库中数据量不大,日常导一些业务数据报表,线下用0ffice做图表汇报情况
问题暴露
在后续报表越上越多,使用频率越来越高的情况下,报表查询会越来越慢,甚至会拖慢业务系统正常运行,归因是业务系统数据库 设计之初就不适合做数据分析
icon现状分析一业务库与数仓区别 icon
icon数仓演变过程 icon
业务直读阶段
业务库中数据量不大,日常导一些业务数据报表,线下用office做图表汇报
中间库阶段
将业务库表抽取至中间库,解决高频write和read冲突问题和单数据库服务器性能问题 业务逻辑太多复杂,导致报表性能差,提前处理数据生成结果表用于分析展示
icon数仓演变过程 icon
数据集市阶段
单一主体域/业务库数据构建DW层,保证数据质量,解决复用问题,满足业务需求多个主题域/业务库分别建设,企业信息化逐步完善。各集市间通过ETL初步打破数据孤岛
数据仓库阶段
企业级信息化建设,预先建立总线架构, 建设一致性维度与事实。保证企业数据的一致性。满足企业整体分析决策需求
icon数仓技术架构全景图icon
icon技术架构-物理建模帖源层(ODS) icon
 
设计思路
将原始数据几乎无处理地存放在数据仓库系统中,结构上与源系统基本保持一致。
主要作用
将基础数据同步、存储至数据仓库,解决问题数据孤岛,保证数据集成完整性数据与源系统表致,体现非易失性定期同步,增加表同步时间戳,体现时变性
数据处理
少量的异常和错误数据处理
命名规则
层缩写源系统源系统表名
ods_ my_ order
icon技术架构-物理建模基础层(DWD) icon
设计思路
核心设计的-层,将从ODS层中获得的数据按照主题建立数据模型,对原始数据进行清洗和一致性处理,存放明细事实数据。
主要作用
划分数据分析主题域,体现面向主题特性; 对数据进行清洗和一致性处理,解决问题数据脏乱差和问题3口径不一致,体现数据集成一致性、完整性、有效性、精确性; 最细粒度指标存储,解决问题开发任务多; 定期同步,增加表同步时间戳,体现时变性
数据处理
空值处理,验证数据有效性,规范数据格式,统一数据标准,数据转码,业务规则清洗
命名规则
层缩写主题缩写存储内容全称
dwd_ mkt_ sign
icon技术架构-物理建模通用层(DWS) icon
设计思路
以分析对象作为建模驱动,基于上层的应用和产品的共性需求,构建公共粒度的汇总指标表。以宽表化手段物理化模型,为应用层提供统一计算口径和数据标准,提高效率。
主要作用
满足90%的共性需求,解决问题口径不一致和问题开发任务多 宽表化处理,解决问题性能差,提高分析效率定期同步,增加表同步时间戳,体现时变性
数据处理
维度上卷,指标汇总,指标合并
命名: 层缩写_主题缩写存储内容全称
dws_ mkt_ order
icon技术架构-物理建模应用数据层(ADS) icon
设计思路
根据业务需要,存放数据产品个性化的报表数据,可以直接提供查询展现,保证效率。
主要作用
个性化设计,解决问题性能差,保证数据分析效率数据处理: 高度汇总,个性处理
命名
层缩写_主题缩写表单全称 ADS/DM_ mkt XSJSC 建设方法: 结果表形式
icon数仓用途数据脏乱差 icon
 
业务系统 
存在负值不合理数据
存在空值无法计算/影响效率数据
存在状态为0作废数据 ETL清洗
数据仓库 
去除异常数据 
空值转成0用于计算 
去除作废数据
注:异常数据,作废数据有需要可以另做场景进行追踪监控,异常数据推送,异常统计看板等。
icon数仓用途数据孤岛 icon
业务系统
多业务系统数据库互不关联,形成数据孤岛
ETL清洗转换,规则映射
数据仓库
同一数据库存储所有数据
数据规则映射,打通孤岛状态
主题域划分,逻辑清晰
icon数仓用途数据口径不一致 icon
场景1
统计口径不一致, 同名不同意
财务报表截至当前已付款3000W
成本报表截至当前已付款3200W
原因分析:成本采用付款申请单口径,是否已付末知 财务采用付款单口径,已付才进行统计
规范处理:将已付款拆分为付款申请金额(成本口径)与已付金额(财务口径)对待,并进行指标落地,后期交流不存在该问题
场景2
数据规范不一致
财务系统性别列显示男女
成本系统性别列显示MW
原因分析:业务系统有各自的命名准则,并未统一 
规范处理:多部门拉通后,制定规范,数仓表建设时统一使用男女作为性别规范
icon数仓用途-业务系统性能差 icon
业务系统
采用E-R模型, 需要多表关联,逻辑复杂, 查询效率低
业务系统表读写同时发生,影响效率
数据仓库
采用维度建模,主表与相关维度表关联即可,逻辑简单,查询效率高;数仓表通常采取T+1同步方式,只存在读取场景,效率高。 (实时有条件可采取日志同步) *维度建模:数据结构简单,这种方法所构建出来的数据模型,要按照业务过程进行组织,每个事实表代表一个独立的业务过程, 事实表之间不存在直接的依赖关系。
icon数仓用途缺少历史, 过程跟踪 icon
业务系统
只有最基本的业务过程报表,通常不会 记录状态流变历史
数据仓库
周期性指标形成历史快照,随时追溯
累计型事实基于一个业务 流程将关键节点时间串联起来,记录全周期过程
icon数仓用途-IT开发任务多 icon
常规流程
业务需求给到T,n排期进行报表建设。 需求日益增多后,IT苦于数据准备和报表开发
数据仓库
提供主题宽表,搭配Bl分析工具,解放 IT人员工作,培养业务自助能力,提高分析效率
icon数仓价值 icon
数据治理
1.统 数据标准,规范化数据建设
2.企业数据资产沉淀,数据血缘清晰
高效分析
1.消灭信息孤岛
2.数据展示速度快,宽表落地辅助人员自助分析
降本
1.提供统一 服务,避免重复工作
2.降低互通成本,释放计算,人力资源
多样化场景支持
1.历史数据快照追溯
2.业务全周期节点追踪
3异常分析
icon数仓关键动作全景图 icon
数仓关键动作一需 求调研

公司宏观问题

1. 目前主要的业务板块有哪些?各个业务板块的重要性程度如何。

2. 业务相关部门或单位有哪些?相关单位主要处理什么事情?

3. 未来重点发展的业务单元有哪些?

4. 公司重点关注的数据指标及业务有哪些?

5.业务短板及当前的应对策略?有没有思考更深层次的应对策略,在数据层面有什么想法?

部门具体业务现状或价值场景

1. 当前关键工作内容及业务流程?

2. 当前关注点及对应的KPI有哪些?困难点及管控目标有哪些?KPI考核的周期及具体拆解的维度有哪些?

3. 涉及到的信息化平台和数据有哪些?日常工作中是怎么获取的?

4. 已经收集到的外部数据及期待拥有的外部数据?

5. 当前工作的难点及痛点(数据对业务的支撑)?如:要得到一个或一类数据需要从很多地方找才能得到,而且不仅需要从不同的功能找,还得通过不同的部门不同的人找;针对已有的数据或已经拿到的图片、文本等各种材料,你想要而不可得,你认为能够有却不知道怎么才能有的数据需求;由于数据无法贯通导致无法更好地实现工作目标;

6. 有没有一些工作或不合理操作得不到有效控制和管理的情况?有一些问题可能能够通过信息化手段加以预防改善

7. 数据分析或数据应用层面的诉求及期待?

8. 数据分析方面的诉求,体现到信息系统中,需要什么样的数据,是从那个应用系统来的,基础数据在哪里?对接方式是什么?

9. 数据分析诉求所需要的基础数据,数据字典是完整的吗?包括文档型或ER图展现两种模式,对系统数据结构之间的关系是否有人可以 完全清楚,需要哪些部门的业务或IT人员进行配合,这种配合是日常存在的?还是当前不存在这个机制?

10. 数据分析的诉求最终展现方式是如何的?是分析系统?还是辅助决策系统,如果是辅助决策,是否有决策相关的公式或指标定义?

11. 针对业务部门的场景需求,那希望通过数据层面能解决或者提升工作上哪些相关的能力?

12. 大数据系统对于实时数据处理有较强的支持能力,请问有无这方面的需求?比如实时交易数据的传输,实时物流情况的传输等等。

icon数仓关键动作一需求梳理 icon
主题域划分
一般为业务主题,比如财务主题、采购主题、生产主题、 库存主题、销售主题、服务主题
数据域划分
一般为业务主题下的关键实体,比如客户、订单、供应商、 仓库、产线等等,数据域是构建DWS层的依据
业务域划分
例如仓库相关的业务过程包括入库、盘点、出库等;生产相关业务过程包括切断,滚磨,研磨定位槽,切片,磨片, 倒角,刻蚀,CMP,清洗,检测包装等
 
实体划分
客观存在并可相互区别的事物,实体参与业务过程。比如, 员工、客户、产品、地点、发票等等
指标划分
时间+修饰词+原子指标
本月应收金额=本月+应收+金额
icon数仓关键动作- 面 m 求梳理 icon
icon数仓关键动作一 建设规范 icon
统一后续开发过程中的操作规范
使得后续开发人员遵 从规范,培养良好习惯
提升数仓开发的可维护性,便于用户的沟通及交流
需专门设计ETL模型规范
仓库设计规范
报表开发规范
icon数仓关键动作一建设规范 icon
icon数仓载体/工具 icon
icon数仓存储载体推荐 icon
icon硬件配置参考 icon
icon帆软大数据场景支撑案例-合作客户部分列举 icon
产品推荐 查看更多>>
    安全事件管理平台

    日志易安全事件管理平台,是兼具关联分析和异常分析能力的安全分析平台,全面支持各种威胁类型(已知威胁、可疑威胁以及未知威胁)的检测、分析与响应。平台基于日志易数据搜索引擎,通过流批处理计算框架,对企业的日志、流量数据进行深度关联,并结合资产信息、漏洞信息,

    高效稳定

    安全可靠

    瓴羊Quick Tracking数据全域采集与增长分析

    提供APP/小程序/H5/Web/IOT等数字应用终端的行为采集分析、私域标签画像、性能体验监控、隐私采集授权管理等数据采集与洞察服务,助力企业实现全域数据采集、用户增长和体验提升。支持SaaS版本和私有化部署。

    全域采集

    埋点管理

    分析洞察

    开放集成

    Talend大数据平台

    利用基于Spark的领先数据集成和数据质量平台,利用大数据框架的全部功能和规模,该平台可用于云,混合和多云架构。

    使用便捷

    功能完备