关于海量数据处理平台相关知识的解析

来源: 云巴巴 2022-11-21 14:50:01

 

     前两篇文章,小编已经介绍过相关的海量数据统计的基础知识,本文,会给大家介绍一下海量数据统计的系统功能都有哪些。总的来说,海量数据统计是现代科技下产生的十分优秀的产品,我们理应去了解更多关于海量数据统计的知识。

     在海量日志数据里,提取某天访问量最多的IP,一般处理海量的思路都是分治处理,就是现将数据进行拆分,然后进行处理,排序等,这个例子也不例外,IPV4的地址一共32位,最大值为2^32也就是总数大约4G左右。如果放到内存里边,以目前的内存容量也是可以处理的,但是咱们可以为自己设置一些条件,比如目前没有那么多内存。

     首先分治,将这个文件按照IPHASH分成1024份(如果想要均匀的分的算法需要使用一致性Hash算法)。这样每个文件大约4M左右并且存放到磁盘上去。构建一个需要以IPKey,出现次数为ValueTreeMap,读取每个文件,将IP和出现次数放入有序的TreeMap。 这样就可以得到出现次数最多的IP,前N个出现次数多的IP都可以获取到了。

     这种问题一般是TOP K的问题,思路都可以按照这样的思路去解决,当然这种场景比较合适的就是Map Reduce莫属了,另外,关于TOP K的这种排序的话可以采用最小堆排序(即根节点是最小的),它的时间复杂度为n*mlogmn即为一共多少数据。m为取出前m个数据。关于这种结构不知道的同学可以进行谷歌搜索,分治的作用就是为了减少使用系统的资源,比如系统内容。

     有10个文件,每个文件1G,每个文件的每一行都存放的是用户的搜索的关键字,每个文件的搜索的关键字都可能重复,找出热度高的前1000个搜索关键字,(提示分治+hash+trie+最小堆)如果是大量数据不重复的,而且需要内存占用比较少的需要找出出现的内容的话,适合使用BitMap位图法进行处理。

     随着计算机时代的到来,传统的思维方式有了显著的变化,人们表现出更开放的思想以及决定他们自己命运的强烈愿望。海量数据统计作为云时代的重要产品之一,是十分值得我们一起去深入研究和学习的。所以,还不快快去了解更多关于海量数据统计的相关知识。

 

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

你知道关于海量数据处理技术的知识吗?

你知道关于海量数据处理技术的知识吗?

海量数据处理技术,即Massivedata processing technology。主要讨论三个方面,其一是数据量过大,其二是软硬件要求高,其三是要求很高的处理方法和技巧。海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有数据量过大,软硬件

2022-11-21 14:54:32

简要介绍什么是海量数据处理技术

简要介绍什么是海量数据处理技术

在现在这个科技时代,我们每个人都会产生许多数据,那么如何实现海量数据处理呢,本篇就跟着小编的脚步一起来了解一下什么是海量数据处理技术吧。海量数据处理慢慢进入到我们的视野,并扮演这越来越重要的角色,我知道,一定有很多人不知道如何使用海量数据处理,本篇文章就详

2022-11-21 14:50:24

海量数据处理技术需要注意的细节之三

海量数据处理技术需要注意的细节之三

必然性寓于偶然性之中,偶然性背后隐藏着必然性,我们注重所有的偶然性,这样我们的结果才会得到最终的一个好的结果。所以,让我们继续看一下海量数据处理处理技术需要注意的细节吧。 使用文本格式进行处理,对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借

2022-11-21 14:52:32

你真的了解什么是海量数据处理吗?

你真的了解什么是海量数据处理吗?

现在,随着劳动力市场变得低迷,竞争日趋激烈。对于大多数人来说找到一份好工作很难,所以,我们就要多多了解现代科技,了解海量数据处理就十分必要了。你可能没有进行过数据采集,但是你一定在网脑或电视中见到过。本篇文章,就跟随着小编的脚步一起来看一下有关于海量数据处

2022-11-21 14:50:38

大数据需要处理,流程有哪些

大数据需要处理,流程有哪些

大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据产生影响作用。

2020-03-12 17:28:43

海量数据处理技术需要注意的细节之四

海量数据处理技术需要注意的细节之四

任何现象都从一定的方面表现着本质,现象是本质的外部表现,所以,为了更好的把握住本质,我们就跟要知道海量数据处理技术需要注意的细节了 海量数据处理技术避免使用32位机子(极端情况),目前的计算机很多都是32位的。那么编写的程序对内存的需要便受限制,而很多的

2022-11-21 14:54:48

严选云产品

分贝通企业支出管理平台 分贝通企业支出管理方案,全面满足企业费用支出管理需求。一站式企业支出管理平台,体验全新企业支出体验,全流程费控,全场景支付,提供整合的数据及流转。为高成长企业带来一站式的企业支付体验,帮助财务更高效、更数字化的管理费用支出。
奥哲·H3 BPM 以流程为中心,企业管理随需而变,帮助企业建立差异化竞争优势,让管理所想即所得
云盒子信创文档云 云盒子信创文档云基于云存储技术,打造跨系统平台的文档备份、在线协作、内容防复制、内外网安全交换平台。实现跨平台的文件同步、在线协作;禁止随意下载、转发、复制、打印;实现安全可控的内外网文件交换。
ITC智慧物流中心音视频系统解决方案 ITC智慧物流中心音视频系统解决方案,减少工作中会议室管理混乱、使用不均衡、设备不到位等情况,最大限度的提高工作效率。具备有高清音视频矩阵功能,可完全取代音视频矩阵系统,实现各类视频信号在拼接屏上任意区域的显示。
博易智讯数据资产管理 可将分析结果返回多种企业内控平台:财务预算系统、经营分析与人力资源系统、商业智能报表等
KC-MM7.0业务系统监控平台 KC-MM7.0业务系统监控平台具备自我容灾能力, 系统发生故障和设备损坏, 可将 KC-MM 的服务切换到另一 台 KC-MM 备机上。支持可视化监控, 支持基于监控拓扑图的图形化监控界面,也可对接大屏系统 进行大屏展现。

推荐视频

甄选10000+数字化产品 为您免费使用

申请试用