大数据时代需要确立数据清洗的规范和标准

来源: 云巴巴 2019-09-16 20:08:50

数据的不断增加,形成“大数据时代”的突出特征..数据清理是大数据生产和交易的重要前提之一。目前,中国已形成基本的数据清洁行业格局,但由于各自的利益追求,仍存在许多问题。因此,今后我国应重点加强数据清洗环节的规范和标准,促进大数据产业健康发展。

越来越多的数据是未来的发展趋势。

在囊括环球的信息化海潮中,互联网、挪移互联网、云计算、物联网等手艺迅猛进展、加快立异,其中积淀的数据爆炸式增长,成为重要的生产要素和社会财富,堪称信息时代的矿产和石油。

鉴于这种前所未有的数据泛滥,如何在信息时代挖掘"数字油",将"大数据"转化为伟大的智慧,大市场和大生态是我们时代的历史机遇。国务院曾明确提出,要加强新一代信息根底办法设置装备摆设和云计算、大数据的应用。

使用以传统方式构建的基本体系结构清理数据

必须清理,分析,建模和可视化大数据以反映其潜在价值。然而,由于网民数量的增加,业务应用的多样化和社会网络的繁荣,单一的文件(如日志文件、音视频文件等)。硬盘的读取速度和文件的存储成本越来越高。同时,政府、银行和保险公司都存在非结构化、不规范的数据。只有将这些数据收集整理成结构化的、常规的数据,才能提高企业的决策支持能力和政府决策服务水平,使其发挥应有的作用。

因此,当前的数据清理主要是将数据划分为结构化数据和非结构化数据,这些数据通过传统的数据提取,转换,加载(ETL)工具和分布式并行处理来实现。总体架构如图 1 所示。

数据清洗

具体来说,结构化数据可以存储在传统的关系数据库中。关系数据库在处理事务,及时响应和确保数据一致性方面具有天然优势。

非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。

另外,它是结构化和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用sqoop等工具,先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入结构化数据。

适合清洁工作的不同质量原始数据的分类

数据清洗是将多维、多源、多结构的数据进行聚合后,提取、转换和加载数据。在此过程中,除了纠正和修复系统中的一些错误数据之外,还要组织和组织数据并将其存储在新的存储介质中。其中,数据的质量至关重要。

常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。

1)单数据源定义层违背字段约束条件(例如,日期出现 9 月 31 日),字段属性依赖冲突(例如,两条记录描述同一个人的某一个属性,但数值不一致),违反唯一性(同一个主键 ID 出现了多次)等。

第二类,单数据源实例层:单个属性值包含太多信息,拼写错误,空白值,噪声数据,数据重复,过期数据等。

第三类,多数据源的界说层:同一个实体的分歧称说(比方冰心和谢婉莹,用笔名仍是用真名)、同一种属性的分歧界说(比方字段长度定义不一致、字段类型不一致等)。

数据的维度、粒度不一致(例如,有的按 GB 记录存储量,有的按 TB 记录存储量;有的按照年度统计,有的按照月份统计),数据重复,拼写错误等。

除此之外,在数据处理过程中产生的二次数据 ,也会有噪声、重复或错误的情况。数据的调整和清理还涉及到格式、测量单元和数据标准化和归一化之间的相关性,从而对实验结果有很大的影响。通常这些问题可归因于不确定性。不确定性有两个内涵,即每个数据点本身的不确定性和数据点属性值的不确定性。前者可以用概率来描述,后者有多种描述,如描述属性值的概率密度函数、用方差表示的统计值等。

针对不同质量类型数据的不同清洁方法

针对上述数据质量中存在的空置、噪声、不一致等常见情况,可以采用人工检测、统计方法、聚类、分类、基于距离的方法、关联规则等方法实现数据清理。

过去,人工检测方法不仅耗费了大量的人力,物力和时间,而且在数据清理过程中也产生了许多衍生错误。最近,可视化作为一种​​有效的表示和交互方式,可用于提高数据错误识别和清理的效率,如图2所示。

数据清洗

图2中,a为社交网络图,无法显示任何数据异常;b为关联矩阵图,可以显示源数据的内部结构,但不利于寻找错误;c将源数据按照矩阵视图重排,比较容易发现矩阵右下角的数据缺失。

其他方法的优劣对比如表1所示。

表1  数据清洗方法的对比

数据清洗

根据缺陷数据类型的分类,数据清理可以分为两个核心问题:异常记录检测和重复记录检测。

异常记录检测。包括解析空值、错误值和不一致数据的方法。

对于零值的处理,一般采用均值、个数、最大值、最小值和中值填充等估计方法。但是,估值方法​​会引入错误,如果有更多的空值,结果会大大偏离。

对于误差值的处理,通常使用统计方法来处理它们,例如偏差分析,回归方程,正态分布等。也可以通过简单的规则库来识别错误,以检查数值范围或基于属性的约束关系。 。

对于不一致的数据处理,主要表现为数据不满足完整性约束。通过分析数据字典、元数据等可以对数据之间的关系进行排序,并且可以进行校正。数据不一致往往是由于缺乏一套数据标准造成的,这也与相关部门未能落实相关标准有关。

重复数据的检测。其算法可以细分为基于字段匹配的算法、递归的字段匹配算法、Smith Waterman算法、基于编辑距离的字段匹配算法和改进余弦相似度函数。这些细分算法的对比如表2所示。

表2  重复数据的检测算法对比

数据清洗

随着信息量的迅速增长和智能工具的不断涌现,它是不相干的、重复的、错误的,甚至是拟人化的信息也会增加,这给大数据的清洗带来了巨大的挑战。例如,由于人工智能技术,尤其是深度学习技术的迅速发展,机器人发帖、聊天、发微博、抢票等现象司空见惯,如微软“小冰”和聊天机器人“wbot”在微博上频繁互动等。目前,判断社会对象是否为人已经成为图灵测试的范畴。如何区分数据是否由人类生成,如何清除机器人生成的数据将对用户轨迹跟踪,网络公众意见分析和用户图像生成产生重大影响。鉴于上述问题,目前可以从两个方面对数据进行处理。

第一,限制内容产生。例如,可通过微博的实名制、论坛签到制、发帖验证码、网络爬虫的Robots协议等来完成。然而,随着模式识别技术的飞速发展,普通的验证码很难自动屏蔽和填充验证码。因此,验证代码也在朝着日益复杂的方向发展。例如12306使用一组近似图片,需要用户选出多个正确答案才能进行购票。

第二,改进数据清洗方法。根据行业规则和技术特征清洁机器人生成的数据。例如,基于主流搜索引擎会在用户代理中留下其特定关键字、网络爬虫一般会用HEAD发起请求等特征,可通过识别相应关键字、只保留GET请求等方法,过滤掉机器人产生的数据。另外,可以基于用户发布时间,频率,IP地址等来执行数据建模,并且使用机器生成和数据挖掘方法来过滤掉由机器人生成的内容。

中国的数据清理已形成基本的产业结构

在"大数据"时代,数据正成为一种生产手段,成为一个稀有的资产和新兴行业。"大数据"产业已被提升到国家战略的高度。随着创新驱动发展战略的实施,产业链上下游形成创新"大数据"产业生态环境。数据清洗是大数据产业链的一个重要组成部分,它可以将数据清洗行业细分为文本、语音、视频和地理信息。

1.1。文本清理区域。基于自然语言处理技术,通过分词、语料库标注、词典构建等技术,从结构化和非结构化数据中提取有效信息,提高数据处理效率。

2.语音数据加工领域。它主要是基于语音信号的特征提取,利用隐马尔可夫模型等算法进行模式匹配和音频处理。

3.视频图像处理领域。它主要是基于图像采集、边缘识别、图像分割、特征提取等环节,实现人脸识别、车牌标注、医学分析等实际应用。

4.地理信息处理领域。基于栅格图像和矢量图像,对地理信息数据进行处理,实现可视化、区域识别、位置标注等应用。

加强数据清理的规范和标准,促进产业发展

据统计,大数据开发过程中花在数据清理上的时间比例高达60%或更多。加快数据标准化,降低数据清洗成本已成为我国大数据产业必须克服的障碍。

一是加快跨行业数据标准的总体制定。行业的垂直构建在多个行业之间甚至行业的多个部门之间形成了分散的数据资源。数据以各种形式分散在各种行业,同样的数据、数据标准和同类数据的重复采集等问题给"大数据"的发展带来了极大的挑战。因此,迫切需要制定跨行业的数据标准,规范数据的收集,输入,传输,处理等过程,加快数据的整合和创新。

第二,实施国家和行业标准的数据。在一些行业中,数据输入、统计和其他国家和行业标准已经建立,数据字典已经标准化。然而,许多企业为了维护自己的市场限制,开发定制的程序应用和数据传输接口,也给数据清理带来额外的负担,而后期系统的维护成本很高。在这方面,有关管理部门应加强国家标准和数据标准的实施。

第三,确保数据清理过程中的数据安全。在《关于加强党政部门云计算服务网络安全管理的意见》中,CNN新闻办公室明确界定了云计算的数据归属、管理标准和跨境数据流的权力和责任。数据清洗加工的相关企业应该着重在数据访问、脱密、传输、处理和销毁等过程中加强对数据资源的安全保护,确保数据所有者的责任,以及数据在处理前后的完整性、机密性和可用性,防止数据被第三方攫取并通过“暗网”等渠道进行数据跨境交易。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

面向数据应用的数据管理对象都有哪些

面向数据应用的数据管理对象都有哪些

在这个发展着的社会中,互联网技术毫无疑问也在高速发展中,当然,数据在增加的同时,数据管理的方式也在发展着,快来和小编一起了解一下吧。 传统的数据管理侧重的数据对象是流程、表单、数据项、算法等直接面向具体业务需求的数据;数据管理随着管理对象——数据的增加,

2022-11-21 11:11:01

品牌如何智选KOL?数说雷达把KOL营销策略做到极致

品牌如何智选KOL?数说雷达把KOL营销策略做到极致

KOL正越发受到客户的重视,并投以大量预算。

2023-08-09 15:42:16

大数据技术在面对新冠肺炎等应急事件后的启示

大数据技术在面对新冠肺炎等应急事件后的启示

何将大数据用于疫情防控、如何将数据整合利用、如何保障数据安全,相信这些关键话题经此役检验,能为社会治理和大数据行业发展给予更多启示。

2020-03-10 11:32:59

数据战疫 | 让大数据成为战疫“利剑”

数据战疫 | 让大数据成为战疫“利剑”

新冠肺炎会让许多人想到2003年的非典,但是十七年来中国发生了翻天覆地的变化,我们很难简单将二者进行类比。特别是智能手机、4G网络、移动支付、物联网、社交媒体、大数据和人工智能等技术的迅猛发展和广泛普及,使疫情防控出现了显著转变,并朝着快速、精准和高效的方

2020-03-10 17:17:42

大数据如何以及为什么会迅速变成小数据蔓延

大数据如何以及为什么会迅速变成小数据蔓延

任何一个边缘计算器的核心都离不开数据,边缘设备将收集、分析和存储有关用户、他们的环境和他们的响应的信息,其结果是,更多的信息将出现在人们的各种设备中,信息将在整个环境中传播。这就是小数据蔓延 。

2020-03-10 17:04:53

大数据平台应该具备哪些实际功能

大数据平台应该具备哪些实际功能

大数据平台应该具备哪些实际功能呢?     一般的大数据平台的搭建对平台包括以下步骤中的数据的技术分析:     1、Linux系统安装     一般可以使用一个开源版的Redhat系统--CentOS作为社会底层技术平台。

2020-05-07 17:21:08

严选云产品

专属云 (KDC) 专属云KDC(Kingsoft Dedicated Cloud)是金山云提供的用户专属虚拟化资源池,用户可在专属宿主机上创建自定义配置的专属云服务器,应用领先的虚拟化技术满足资源独享、安全、合规需求。
安科瑞高校综合能效解决方案 安科瑞高校综合能效解决方案,变电所电力监控、实验楼数据机房等电能质量分析及治理。校园变电所运维管理,定期巡检任务派发,专家分析报告。集中监控,集中接收报警,校园用能监管平台对接方便。标准API接口 ,多路RS485接口,能对多种终端设备进行数据采集。
忽米物易管设备状态监测及预测性维护平台 忽米物易管设备状态监测及预测性维护平台,旋转类设备可通过【物易管】实现状态监测并利用模型算法预测潜在故障问题。远程完成现场设备维护,随时查看设备运行状态,兼容70+工业协议,覆盖装备制造、电子信息等重点行业90%工业设备。
金蝶云星辰生鲜行业ERP企业管理系统 金蝶云星辰生鲜行业ERP企业管理系统,订货商城,客户随时随地自助下单,商品级便捷备注,降低沟通成本,批次保质期管理,避免过期损失。多种价格管理策略,无惧价格频繁变动,多种价格管理策略,无惧价格频繁变动。销售定金管理,加快生鲜客户资金回笼效率。
赛凡智云行政行业私有云盘解决方案 赛凡智云行政行业私有云盘解决方案基于私有云盘统一存储、管理政府海量文件。运用文件加密技术,全面保障政府文档信息的安全,避免信息泄露;对文档进行自动备份,防止数据丢失。支持iOS、Android和Windows等多个平台,您可以随时随地通过手机或电脑访问所需文件, 满足您外出办公的需求。
万里汇中小企业跨境支付平台 万里汇中小企业跨境支付平台,数字化开户,最快仅需几分钟。10+个地区/币种本地收款账户线上秒申请,跨境电商/货物/ 服务贸易都能收。一个门户统一管理多个账户,灵活设置多级权限。 PC、手机都能访问操作,还有支付宝小程序。

甄选10000+数字化产品 为您免费使用

申请试用