在这个网络时代,我们每天的工作生活都会产生许多数据。但是,你知道吗,我们的数据又可以分为结构化数据和非结构化数据。之前小编的文章就介绍过结构化数据,本文,就非结构化数据的查询尽心简单的介绍。
随着计算机、互联网和数字媒体等的进一步普及,非结构化数据的查询是以文本、音频、图形、图像、视频等非结构化数据为主的信息急剧增加,特别是非结构化数据信息,如何存储、分析、查询、挖掘和利用这些海量信息资源就显得尤为关键。面对如此巨大的信息海洋,传统关系数据库主要面向事务处理和数据分析应用领域,在管理非结构化数据方面存在某些先天不足之处,擅长解决结构化数据管理问题,尤其在处理海量非结构化信息时更是面临巨大挑战。
出现了各种非结构化数据管理系统,以应对非结构化数据管理的挑战,例如基于传统关系数据库系统扩展的非结构化数据管理系统,基于NoSQL的非结构化数据管理系统等。在非结构化数据管理系统中,查询处理模块是其中一个重要的组成部分,针对非结构化数据的特性设计合理的查询处理框架和查询优化策略对于非结构数据的快速、有效访问极为重要。传统的结构化查询处理过程是:首先翻译器翻译查询请求生成查询表达式,然后由优化器优化查询表达式,得到优化过的查询计划,最后由执行器选择最优的查询计划执行,得到查询结果。查询处理的主要操作包括选择操作、连接操作、投影操作、聚合函数、排序等。查询优化的方法包括基于代价估算的优化和基于启发式规则的优化等。
另外还有parse-rtf可以对RTF文件处理,SearchWord可对Word和Excel,PPT文件进行处理等等。还有两个重要的操作相似性检索和相似性连接,非结构化查询处理过程中除了结构化数据查询处理所包含的操作外,相似性检索是指给定一个元素,在由该种类元素组成的集合中寻找与之相似的元素。
由于篇幅的原因,还有许多关于非结构化数据的要点没有讲到的,小编会在下篇文章中对非结构化数据的存储进行介绍,期待一下吧!
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-21 15:50:49
2022-09-08 14:34:41
2022-11-25 14:32:52
2020-03-30 17:07:00
2022-11-22 17:25:57
2022-11-22 11:00:46
甄选10000+数字化产品 为您免费使用
申请试用
评论列表