大数据时代中你不知道的技术框架

来源: 云巴巴 2020-03-11 16:45:11

大数据，又称巨量资料，指是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具。在合理的时间内管理，处理。并更积极地处理企业经营决策资讯，简而言之，大数据就是数据量非常大，非常多。无法常规归类方法应用计算的数据集成。

1. 概述

当前大数据已经渗透到每个行业和领域，成为了重要的生产因素。在大数据环境下，数据是海量的，且呈爆发式增长。数据类型复杂多样，除结构化数据外，还有大量半结构化和非结构化数据。大数据应用需求也很复杂，包括复杂多表关联查询，即席查询，。线数据批量处理等，这种形势给构建大数据处理的通用平台带来了挑战。

2. 传统数据库构建大数据平台的不足

传统事务型数据库是针对事务型处理设计的，采用行存储和Shared Disk架构。硬件方面采用小型机+磁盘阵列的配置，而面对大数据的分析处理型应用，传统的数据库在处理海量数据方面表现出明显的不足。主要表现在如下方面：

传统的Shared Disk架构存在I/O瓶颈，扩展能力不足，无法支撑PB级别数据的存储和计算。对于海量非结构化数据处理也很有限；

传统数据库基于行存储方式适用于事务型应用，需要大量读取冗余数据而增加磁盘I/O，在分析类型应用效率低下。

传统数据库索引针对于每一行建立，检索速度慢，需要手工建立，不便于维护，且极大的影响数据的入库效率。

采用小型机+磁盘阵列的硬件平台成本较高，扩容成本大，且扩容能力有限。

传统的数据库系统采用关系型数据库，主要用于对结构化数据的处理，不支持对半结构化和非结构化数据的存储和处理。无法满足海量半结构化，非结构化的存储，查询，分析和处理的需求。

3.1.MPP数据库

MPP数据库是新型数据库类型，采用Shared Nothing+MPP架构，通过列存储，高效压缩，粗粒度智能索引等多项大数据处理技术，结合MPP架构高效的分布式计算模式。完成对海量高密度结构化数据的分析类应用的支撑，运行环境多为低成本PC Server，具有高性能和高扩展性的特点，MPP数据库广泛应用到行业数据仓库和各类结构化数据分析领域。

MPP数据库可以有效支撑PB级别的结构化数据处理，它具有如下特点：

具备ACID特性：满足原子性、一致性等要求。

支持关系模型：基于关系模型设计。

使用SQL引擎：标准接口，开发效率高，应用迁移方便。

基于Share Nothing架构：可以横向扩展数百个节点，支撑PB级别的数据处理。

存储结构化数据，有明显的星型和雪花模型结构：便于进行OLAP分析、多维分析。

可基于开放的X86架构服务器部署：平台建设成本低。

MPP数据库擅长处理高价值密度的结构化数据，适合大规模的复杂分析，海量数据的查询，关联等场景，例如数据仓，、数据集市，企业级报表，统计分析，即席查询，多维分析等。

3.2.Hadoop技术

基于Hadoop生态的大数据技术主要针对非结构化数据的存储和计，、实时流处理等传统关系型数据库较难处理的数据和场景。Hadoop依托于开源社区的优势，以及相关技术的不断进步和迭代更新。可支撑对于非结构、半结构化数据处理，复杂的ETL流程、复杂的数据挖掘和计算模型。

Hadoop技术具有如下特点：

键值对存储方式：简单低耦合方式存储数据。

分布式文件系统：基于HDFS的分布式文件系统，具有明显的存储优势，可以存储海量的结构化、半结构化、非结构化数据。

MR/RDD：灵活的编程模式。

存储结构化、半结构化和非结构化数据：全量数据存储。

可基于开放的X86架构服务器部署：扩容成本低。

扩展性：可以扩展到上千节点。

3.3.两种技术对比

MPP数据库与Hadoop技术具有各自的优缺点和适用场景，二者之间的对比如下。

MPP数据库为Shared Nothing架构，对于JOIN或GROUP BY操作，执行计划可以优化为直接通过本地计算完成关联或分组，而不需要进行各节点间重分布数据。处理性能优越。Hadoop是基于HDFS文件存储，需要通过扫描来定位数据，同时在计算中会有大量的节点间数据搬运和排序操作。对于大表复杂关联及GROUP BY处理性能较低。

MPP数据库擅长处理高价值密度的结构化数据，而Hadoop的优势在于处理非结构化数据和流数据。

Hadoop对数据的操作模型，更适合于只支持一次写入多次读取，数据更新性能较低，MPP数据库基于关系模型。其存储结构和处理结构可以支持任意对数据集合的更新和删除。

对于小数据量，MPP数据库和Hadoop生态的Spark在运算关系型上没有太大差异，但对于100TB级以上的数据处理。MPP数据库充分利用其内存管理和CBO设计上的优势，有比较Spark更强的性能优势，但在关系型运算之外，Spark在数据挖掘算法。尤其在基于迭代的算法执行方面具有优势。

Hadoop生态的Spark处理性能高，但也只有在内存中处理才能保证高性能，一旦内存不足，数据就需要存回到HDFS中，性能将会发生很大的抖动。

Hadoop对SQL兼容性不好，且调优算法复杂多样。MPP 数据库是关系型数据库，本身支持SQL。且执行计划有多年的积累，便于进行高效的优化。

MPP数据库擅长SQL编程解决的问题，Hadoop的MapReduce及RDD编程模型比较灵活。可以处理部分SQL不能处理的问题，例如机器学习等。

Hadoop采用Java开发，在运行时依赖JAVA虚拟机，内存需求较大时容易出现大量的内存垃圾。影响任务执行效率。MPP数据库有完善的内存管理，保证内存和磁盘之间数据置换的平滑性。

MPP数据库可以有效的采取基于代价的优化（CBO），根据内部数据字典作动态优化数据的分析和处理。

当前数据管理技术发展飞速，供我们选择的种类繁多，在面对家属上的选择时很难说哪种更好因此需要才是最主要的，根据需要选取适合的来满足更多的技术。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

话题:

大数据

评论列表

为你推荐

简单了解一下大数据未来的发展趋势吧（一）

数据是有意义的，大数据的意义也毋庸置疑，现在大数据的许多功用已经为我们所用，那么在未来，大数据的发展又会是朝着那个方向呢，大数据的发展趋势是怎样的呢，现在，就让我们一起来了解一下吧。与云计算的深度结合云处理为大数据可以提供了弹性可拓展的基础设施设备

话题:

大数据

2022-11-22 10:06:36

有孚网络——大数据助力精准医疗产业沙龙

2020年8月25日，由上海有孚网络股份有限公司与上海市浦东新区生物产业行业协会、上海张江生物医药基地开发有限公司、中国医药生物技术协会基因检测技术分会、中国遗传学会遗传诊断分会、长三角一体化基因检测联盟、转化医学网共同举办的大数据助力精准医疗产业沙龙在上

话题:

大数据

2022-11-22 10:57:38

怎么选择靠谱的大数据培训机构

大数据推动着时代的前进，也成为了潮流，自学大数据又会走很多弯路，那么培训机构怎么选？

话题:

大数据

2020-03-13 17:53:38

傲林科技：实施数字化转型，汽车零部件企业最关心哪些问题？

针对汽车零部件行业企业面临的“信息孤岛”、缺乏基于数据分析开展科学决策等问题，利用首创的“事件网”和“企业级数字孪生”，从企业“供产销”经营铁三角切入，结合企业生产运营“人机料法环财”等全局数据，提供关键业务场景下针对不同业务目标的动态最优方案，为企业管理者提供决策辅助支持，最终实现降本增效。

话题:

大数据

2022-07-11 13:40:42

大数据的特征有哪些，其结构组成是什么

大数据需要特殊的技术来高效地处理大量数据的内容限经过时间。适用于大数据的技术，包括企业大规模并行进行处理（MPP）数据库、分布式文件信息系统、数据分析挖掘、分布式网络数据库、云计算服务平台、互联网和可扩展的存储控制系统。大数据的特征容量，数据的大小

话题:

大数据

2022-11-22 10:08:34

浅谈何为结构化数据和其作用有哪些

在这个网络时代，数据对我们来说是非常重要的，我们每个人的工作和生活都会产生大量的数据。本文，简单谈一下何为结构化数据和其作用都有哪些。结构化数据，你可以简单的把它理解为一个数据库。结合到典型应用场景中更容易进行理解，比如企业ERP、财务管理系统；医疗H

话题:

大数据

2022-11-21 11:05:19

严选云产品

探域电商全域智能客服机器人探域电商全域智能客服机器人，以消费者触点为核心，助力品牌全域数智化运营，实现高质量增长。我们通过AI人工智能、NLP技术和行业知识图谱的核心技术，构建了营销服务一体化智能客服机器人、全域客户数据中台 Lite CDP、私域一体化智能营销SCRM等核心产品。

法大大开放平台API 法大大API提供接口服务和平台管理能力，支持与各项办公系统无缝对接，与业务流程实时打通。通过实名认证可确保后续颁发的电子签名为本人专有，严格遵照法规打造的个人及企业认证体系。

轻直播手术直播解决方案轻直播手术直播解决方案，自主研发和运营的企业级直播平台轻直播，可低成本、高效率的完成企业级平台定制服务，具备视频会议系统及企业直播平台定制化的能力。拥有完全自主、自建的专业手术直播和医学课件制作团队，具备全科室服务能力，与全国各大型三甲医院均有合作，团队项目经理多数具备医学背景，均为从业5年以上的资深医学转播专业人员。

欧软云SRM采购管理系统欧软云，打造企业智能供应协同云平台。满足集团化多种集中采购管理需求，全面整合集团内部采购业务。全面整合企业外部供应商及各大主流招投标资源。建立供应商全生命周期的绩效评价，全面提升供应商管理效率。通过移动APP应用端，轻松完成供应商协同作业，高效、便捷、无障碍。

网宿科技云点播提供集视频上传、存储管理、音视频处理、视频AI、版权保护、分发加速、播放SDK等功能于一体的音视频点播服务，一站式快速满足客户多样化的视频点播需求。

腾云悦智维鹰云智能运维平台腾云悦智维鹰云智能运维平台，依托人工智能和大数据技术，将各种云平台或监控工具产生的运维告警信息统一进行接收、降噪、分析、转派、处理的事件全生命周期管理平台，让运维团队彻底告别告警风暴。

数字化社区