数据抽取前,需要作大量的准备工作,具体归纳为如下4个部分:
针对目标数据库中的每张数据表,根据映射关系中记录的转换加工描述,建立抽取函数。抽取函数的命名规则为:F_目标数据表名_E。根据抽取函数的SQL语句进行优化,该映射关系为前期数据差异分析的结果。可以采用的优化方式为:调整SORTAREA_SIZE和HASH_AREA_SIZE等参数设置、启动并行查询、采用提示指定优化器、创建临时表、对源数据表作ANALYZES、增加索引,建立调度控制表,包括ETL函数定义表(记录抽取函数、转换函数、清洗函数和装载函数的名称和参数)、抽取调度表(记录待调度的抽取函数)、装载调度表(记录待调度的装载信息)、抽取日志表(记录各个抽取函数调度的起始时间和结束时间以及抽取的正确或错误信息)、装载日志表(记录各个装载过程调度的起始时间和结束时间以及装载过程执行的正确或错误信息),建立调度控制程序,根据抽取调度表动态调度抽取函数,并将抽取的数据保存入平面文件。
平面文件的命名规则为:目标数据表名.txt。
该清洗函数可由调度控制程序在数据抽取前进行统一调度,针对ETL涉及的源数据库中数据表,根据数据质量分析的结果,建立数据抽取前的清洗函数。也可分散到各个抽取函数中调度。清洗函数的命名规则为:F_源数据表名_T_C。
针对ETL涉及的源数据库中数据表,如果需要转换的代码数据值长度无变化或变化不大,根据代码数据差异分析的结果,考虑对源数据表中引用的代码在抽取前进行转换。抽取前转换需要建立代码转换函数,代码转换函数由调度控制程序在数据抽取前进行统一调度;代码转换函数的命名规则为:F_源数据表名_T_DM。对新旧代码编码规则差异较大的代码,考虑在抽取过程中进行转换,根据代码数据差异分析的结果,调整所有涉及该代码数据的抽取函数。
看到这里的小伙伴们,为你开心,因为你的知识又多了两麻袋。关于数据抽取与分析还有很多知识要学习,但其实,希望你不要懈怠啊,小编会满怀着期待去和你在下篇文章中不期而遇,你呢?
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2020-03-12 17:35:02
2022-11-21 11:15:45
2024-03-27 10:36:26
2022-11-22 16:49:01
甄选10000+数字化产品 为您免费使用
申请试用
评论列表