海量数据处理技术的相关方法介绍

来源: 云巴巴 2022-11-21 14:50:16

 

    虽然从发明到现在仅50年,电脑已经在所有商业和领域中成了不可或缺的一部分,近几年来,随着计算机的普及,海量数据处理的技术也越来越优秀。海量数据处理典型应用于大数据平台在保护我们的数据安全时,可以起到至关重要的重要。

    海量数据处理的两个文件,各存放50亿条URL,每个URL占64字节。内存限制是4G,找出两个文件中相同的URL,这个问题有一个内存限制,那么肯定需要分治法。

    方法一50亿个64Byte= 5G*64Byte = 320G,内存4个G,肯定是不可以的,那么咱们将每个URL进行hash,然后放到1024个文件中,也就是每个文件为320G/1024=320M左右。海量数据处理以hash值作为文件名,第一个文件hash出来的文件命名为(hash[URL]%1024)a1.....a1024,第二个文件hash出来的文件命名为b1.....b1024。1024个文件生成了,那么相同的URL肯定在hash命名文件的后缀中,比如a1 vs b1,海量数据处理这样依次读取文件的内容放入到hashset中。如果存在的话记录并且追加放到文件中。最后文件中就是所有URL即为相同的URL。

    方法二(Bloom Filter布隆过滤器),先说一下布隆过滤器。主要将需要内容进行hash,然后对应到相应的bit上,即Bit Map位图法,海量数据处理但是这个里边有一个问题就是hash会碰撞,即不同的结果可能会hash成相同的值,这样就会出错,如果可以接受错误率,当然错误率较低,那么可以采用这种方式。4G内存=2^32 * 8 约等于 40亿Byte * 8 大约等于340亿。先遍历第一个文件,然后再遍历第二个,这样会错误率。海量数据处理读取每个小文件,并且将读取的关键字形成Trie树字典树,这样会达到去重的效果。Trie树的插入和查询复杂度是O(k), k为最长字符串的长度,然后建立长度为1000的小根堆,海量数据处理将遍历每个关键字的出现的次数放到小根堆里,如果采用位图法的话需要为10^7 / 8 /1024/1024 大约等于1.19M,大于题目的1M,显然位图法不太合适,那么咱们考虑一下多路归并排序。

    众所周知,我们生活在一个动态的世界里,面临很多困难。我们只能面对他们,所迈出的第一步路是关键,海量数据处理技术这个产品可根据自己的需求,更好的对自己的信息进行一个分析与处理运用。在现在这个科技发达的时代,我们想要和时光赛跑,就更要学会去更好的利用科技,就更要学会利用这个世界级的业务压力的产品,那就是海量数据处理技术。

 

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

海量数据处理技术需要注意的细节之二

海量数据处理技术需要注意的细节之二

之前小编介绍的关于海量数据技术的内容小伙伴们还记得吗,要按时复习啊。本文,继续给大家介绍海量数据处理处理技术需要注意的细节。 海量数据处理处理技术的建立缓存机制。当数据量增加时,一般的处理工具都要考虑到缓存问题,缓存大小设置的好差也关系到数据处理的成败。

2022-11-21 14:52:45

海量数据处理技术需要注意的细节之一

海量数据处理技术需要注意的细节之一

有句话是这样说的,细节决定成败,那么海量数据处理处理技术需要注意的细节都有哪些呢?快跟着小编一起来看一下吧。 首先不得不提的就是要拥有编写优良的程序代码。处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序,好的程序代码对数据的处理至关重

2022-11-21 14:54:14

听说你还不知道什么是海量数据处理技术

听说你还不知道什么是海量数据处理技术

今天的生活充斥着各种压力,快节奏的生活方式导致了各种个人问题的猛增,所以,我们更要了解科技,学会运用科技,运用海量数据处理技术。之前的文章已经介绍过很多关于海量数据处理技术的知识了,本文,会继续介绍一下海量数据处理技术的子系统的主要三大功能。 还有一些与

2022-11-21 14:50:09

你知道关于海量数据处理技术的知识吗?

你知道关于海量数据处理技术的知识吗?

海量数据处理技术,即Massivedata processing technology。主要讨论三个方面,其一是数据量过大,其二是软硬件要求高,其三是要求很高的处理方法和技巧。海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有数据量过大,软硬件

2022-11-21 14:54:32

关于海量数据处理平台相关知识的解析

关于海量数据处理平台相关知识的解析

前两篇文章,小编已经介绍过相关的海量数据统计的基础知识,本文,会给大家介绍一下海量数据统计的系统功能都有哪些。总的来说,海量数据统计是现代科技下产生的十分优秀的产品,我们理应去了解更多关于海量数据统计的知识。 在海量日志数据里,提取某天访问量最多的IP,

2022-11-21 14:50:01

大数据需要处理,流程有哪些

大数据需要处理,流程有哪些

大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据产生影响作用。

2020-03-12 17:28:43

严选云产品

Udesk新一代智能客服机器人 Udesk是国内领先的新一代在线智能客服机器人,拥有上万家企业用户,为企业提供一套集智能客服机器人、聊天机器人、微信客服机器人系统为一体的完整的多渠道客户服务机器人解决方案。
好业财生鲜零售行业ERP解决方案 好业财生鲜零售行业ERP解决方案,通过好业财多因素分析商品销量,精准预测,减少订货过量造成的商品折价、损耗。 打造零售云仓,将片区内门店库存做成共享,最大化库存利用率,降低库存损耗率。智能补货,高效采购,正确配送运输,降低配送损耗。
亿联UME统一通信与协作解决方案 UME是全国产的统一通信与协作解决方案,集视频会议、高清语音、即时消息、互动协作于一体,各组件可按需搭配,支持一号通对接内部系统,统一业务入口,提供多种安全管控机制保障数据安全,还能与主流音视频硬件终端融合对接,为政企用户提供高品质、更安全的高效通信协作体验。
奇点云SimbaTag标签工厂 奇点云SimbaTag标签工厂,聚焦标签开发场景,基于OEET(Object-Entity-Event-Tag)方法论,助力企业快速搭建自有的标签类目体系,沉淀标签数据资产。形成“标签生产-管理-服务-回流”的标签运营生态,驱动个性化运营,让数据发挥价值。
声网Agora婚恋交友视频相亲方案 红娘、男女嘉宾和观众集成Agora SDK,通过Agora自建底层SD-RTN™传输实时音视频流;红娘、男女嘉宾三方可进行实时音视频交互,观众可围观相亲现场,通过RTM实时消息对相亲双方送上祝福;声网同时支持实时录制功能,用户可通过留存音视频内容进行内容审核,确保合法合规。
诺诺网企业数智服务平台 诺诺网企业数智服务平台,专注于企业数智化服务,提供业票财税档一体化解决方案,以极速开票、诺诺发票、诺税通等应用产品为核心,为用户企业提供多场景、多维度的发票、票税全生命周期管理;以财税机器人为核心的业财税一体化产品生态链,为企业提供专业的财税综合服务。

推荐视频

甄选10000+数字化产品 为您免费使用

申请试用