本文将带大家细数细数那些各个方面的大数据。
公司的“大数据”
随着业务的发展,大量的流程和规则相关联的非结构化数据也将发生爆炸。 例如:
1、企业日常存储系统现在的平均20万张的照片,100G硬盘空间,每天消耗;
2、平均每天我们可以通过产生签约视频信息数据技术文件6000个,每个平均250M,磁盘进行研究空间每天工作需要消耗1T。
三国里的“大数据”
“草船借箭”和大数据有一定的社会关系?天文观测是基于风,云,温度,湿度,光的综合分析,并且其中从一个宽的范围,使得数据“非结构”型的节流阀,和大量的数据,但该数据被输入不要在计算机,但是人脑,并最终通过计算分析得出的结论。
谷歌分布式计算的三驾马车
Google File System用来进行解决这些数据信息存储的问题,采用N多台廉价的电脑,使用冗余 的方式,来取得读写发展速度与数据技术安全风险并存的结果。
说白了,Map-Reduce就是函数式编程,它把所有的函数分为两类,Map和Reduce,Map用来把数据分成多个部分,分别处理,Reduce合并处理后的结果得到最终的结果。
BigTable的是一种解决方案,以解决巨大表管理,负载均衡问题存储结构化数据的分布式系统。
Client发起的请求文件写入到NameNode的。
Name Node返回数据文件进行存储的 DataNode的信息。
Client读取文件信息。
HDFS简介-文件写入过程
Client启动写入Name Node文件的请求。
基于文件的大小和所述块的NameNode配置文件,为Client的信息返回它管理数据管理部。
Client将文件划分为以下多个相关文件块,根据DataNode的地址进行信息,按顺序可以写入到每一个DataNode块中。
MapReduce——映射、化简编程模型
输入数据 - 地图分解任务 - 执行以及返回结果 - 减少汇总结果 - 输出
Hbase——分布式数据存储系统
使用HBase RPC机制与hmaster和hregionserver通信
Zookeeper:协同服务管理,MAster可以通过Zookeepe随时感受到每个HReg离子服务器的健康状况
HMASTER:用户管理表进行增删改查操作
HRegionServer: HBase中最重要核心的模块,主要工作负责进行响应分析用户10请求,向HDFS文件管理系统中读写相关数据
REgion:在分布式存储HBase的最小单位,可以理解为一个选项卡
Hstore:HBase存储的核心。 由MemStore和Store文件组成。
HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件
以上就是大数据各方面内容。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-22 10:10:29
2022-11-21 10:47:27
2024-03-27 13:57:21
2024-03-27 14:54:44
甄选10000+数字化产品 为您免费使用
申请试用
评论列表