还不快来了解一下数据存储方式吗?

来源: 云巴巴 2022-11-22 11:06:14

 

    数据存储是现在的一个热点话题,互联网时代各种存储框架层出不穷,眼花缭乱,比如传统的关系型数据库:OracleMySQL。新兴的NoSQLHBaseCassandraRedis。全文检索框架:ESSolr等。

    如何为自己的业务选取合适的存储方案,相信大家都思考过这个问题。本文简单聊聊小编自己对于MysqlHBaseES的理解。希望能和大家一起探讨进步,有不对的地方也欢迎系小伙伴们指出。

    数据存储方式

    如果我们想要知道有哪些文档含有you这个关键字,首先可以创建一个倒排索引,格式如下。

    我们把前面的部分叫做dictionary(字典),里面的每个单词叫做term,后面的文档列表叫做psoting-listlist中记录了所有含有该term的文档id。两个组合起来就是一个完成的倒排索引(Inverted Index),能够看出,假如需要查找含有“you”的文档时,根据dictionary然后找到对应的posting-list即可。

    而全文检索中,创建Inverted Index是最关键也是最耗时的过程,而且真正的Inverted Index结构也远比图中展示的复杂。不仅需要对文档进行分词,ES里中文可以自定义分词器,还要计算TF-IDF。方便评分排序,当查找you时,评分决定哪个doc显示在前面,也就是所谓的搜索排名。压缩操作,每接收一个documentES就会将其信息更新在倒排索引中。

    从这里我们就可以看出ESMySQLHBase的存储还是有很大的区别,而且ES不仅包含倒排索引。默认同时还会把文档doc存储起来,所以当我们使用ES时,也能拿到完整的文档信息。所以某种程度上,感觉就像在使用数据库一样。但是也可以配置不存储文档信息,这时只能根据查询条件得到文档id,并不能拿到完整的文档内容。

    MySQL行存储的方式比较适合OLTP业务,列存储的方式比较适合OLAP业务,而HBase采用了列族的方式平衡了OLTPOLAP。支持水平扩展,如果数据量比较大、对性能要求没有那么高、并且对事务没有要求的话。HBase也是个不错的考虑。ES默认对所有字段都建了索引,所以比较适合复杂的检索或全文检索。

    关于数据存储的知识,本篇文章就介绍到这里了,其实,小编还写了有关数据存储的其他知识的文章,对此感兴趣的小伙伴们,还不赶快去看一下吗。

版权声明:本文为Yun88网的原创文章,转载请附上原文出处链接及本声明。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

数据存储的DAS、NAS和SAN三种存储方式比较

数据存储的DAS、NAS和SAN三种存储方式比较

存储应用最大的特点是没有标准的体系结构,DAS、NAS和SAN这三种存储方式共存,互相补充,已经很好满足目前企业信息化应用。 DAS采用了存储设备直接连接应用服务器,从连接方式上对比,具有一定的灵活性和限制性。NAS通过网络(TCP/IP,ATM,FDD

2022-11-22 11:06:37

统一数据平台之何为数据存储云平台

统一数据平台之何为数据存储云平台

今天,我们来介绍一下什么是数据存储云平台。 数据存储云平台系统能够实时地根据网络流量和各节点的连接、数据存储云平台通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导

2022-11-21 10:37:49

分布式数据库如何解决存储过程?

分布式数据库如何解决存储过程?

当前,绝大多数核心系统采用oracle,DB2的存储过程来实现的,而且不可否认的是存储过程确实好用,一个几十次数据库读写操作需要应用与数据库间几十次的数据调用往返,编写成存储过程后,变成单次往返,可以提升性能和安全性,并降低时延。

2020-04-17 21:46:20

数据存储的逻辑卷和文件系统是什么

数据存储的逻辑卷和文件系统是什么

提起数据存储的话,如果你还不知道逻辑卷和文件系统是什么,那可是万万不行的。 为了方便管理,我们也可以将多个物理块设备,组合成一个容量更大的逻辑块设备,也可以将硬盘这样的物理块设备,分割成多个逻辑块设备。 底层的相关技术和工具,包括RAID(大家可能比较

2022-11-22 11:07:01

云服务器中数据的存储对于用户使用而言也很重要

云服务器中数据的存储对于用户使用而言也很重要

云服务器是我们存储并且计算信息的主要依据,云服务器已经成为了我们存储信息时主要的一个选择。对于企业而言想要让企业所有的信息全部存在U盘上并不太可能,而这些信息如果不能存储在云服务器中则难免会造成信息泄漏的现象发生。如果说数据计算是云服务器的主要工作,那么把

2022-11-24 10:14:39

阿里云云服务器中快速存储数据信息的秘密是?

阿里云云服务器中快速存储数据信息的秘密是?

云服务器在使用的同时经常会遇到的安全方面的问题有哪些?比如说云服务器中的信息遭到窃取或者是遭到外来攻击之后云服务器中的数据信息造成了泄露,这些都是我们使用云服务器时经常会遇到的安全方面的问题。

2022-11-24 10:18:15

严选云产品

晨科试剂耗材管理系统 晨科试剂耗材管理系统,工作到期预警、库存预警,供应商、采购审请。对试剂耗材出库进行审批控制,方便实验室分仓间的试剂耗材借用。灵活适应各类检测检验机构试剂耗材管理需求 支持集团总部、子公司、部门多层组织架构,子公司或部门可以根据需要自行管理下级部门、人员和库存。
DigiCert® ONE平台 DigiCert® ONE平台提供多种配置选项,例如DigiCert托管云选项、本地选项、混合选项、气隙(air-gapped)选项等,因此它具有足够的灵活性来满足任何需求。DigiCert ONE采用了现代化的、基于容器的架构,因此它不仅具有高度的可扩展性,而且设置起来也极为快捷。无论您现有环境的规模及配置如何,设置时间只需要耗费几分钟或几小时,而不是几星期。这种闪电般的快速部署确保您能够近乎同时地颁发数以万计的证书并对其进行管理,而无需考虑顾问和标准集成流程的复杂性与费用。
基调听云制造业智能可观测解决方案 基调听云制造业智能可观测解决方案,为制造业发展注入强大动力。通过应用可观测性平台与设备监测管理系统,全面、精准地对生产环节进行监测。实时掌握设备状态、应用性能,助力企业快速定位问题、优化流程,保障生产高效稳定。
超越CMP一体化云管理平台 BeyondCMP一体化云管理平台是博云提供的混合云纳管综合解决方案产品,平台提供混合云环境资源的统一纳管、统一运营、统一运维,整体提升企业信息化管理的效率和服务水平。
UCSG-ASWG统一内容安全网关 统一内容安全网关-UCSG(Unified Content Security Gateway)用于一般位于企业/组织的互联网出口处, 接受UCSS的统一管理并负责具体的数据泄露防护功能和策略的执行以及与其他设备的联动
ADSCOPE媒体变现运营管理系统 ADSCOPE媒体变现运营管理系统,成熟的轻量化SDK,接入简单快捷,对接文档详尽专业,附带技术对接最佳实践。应用启动触发,曝光黄金位置,弹出窗口展示广告,适应各类场景。用户主动观看视频,更好的体验,更高的收益,视频全屏展示,获得更好收益。

甄选10000+数字化产品 为您免费使用

申请试用