大模型带火数据训练,腾讯云向量数据库重磅发布!

来源: 云巴巴 2024-03-27 10:41:26

AI 技术不断向前发展,一个核心驱动因素,就是背后的存储、处理和分析大量数据所需要的强大基础设施也在不断发生进步。这波“新基建”浪潮也催生出又一颗冉冉升起的新星——向量数据库,一种用于管理非结构化数据,包括数字形式的文本、音频、图像和视频的强大解决方案。

可以说大模型数据训练需求的催化,让向量数据库愈发红火。

大模型的出现给人工智能带来了新的计算范式 —— the CVP Stack。其中,“C”代表大模型( ChatGPT 等 ),负责向量计算;“V”代表向量数据库( Vector Database ),负责向量存储;“P”代表 Prompt 工程,负责向量交互。

随着大模型技术的发展,向量数据库将在 AI 时代扮演极为重要的角色。它可以最大限度地发挥大模型威力的同时保护数据隐私,实现更丰富的智能应用。

icon大模型引发爆发增长的向量数据库

当我们见到一个熟悉的人的时候,大脑是这样思考的:首先,眼睛中的视杆细胞和视锥细胞记录下光的强度。这些信号传递到位于你大脑后方的视觉皮层,在皮层中数以百万计的神经元以不同的强度被激活。激活信号传输到你的颞叶,你的大脑解释为:我看到了某某。

尽管大模型呈现出的形式是端到端、文本输入输出的,但实际模型接触和学习的数据并不是文本本身,而是向量化的文本。想要按这种”脑回路“组织数据,需要一个专门的数据库——向量数据库。

过往,承担数据组织的是传统关系型数据库,但它更适合用来应对结构化的数据。大模型和神经网络,更多面对的是海量的非结构化数据,比如文本、音频、视频、关系等。

把复杂的非结构化数据通过向量化(embedding),处理统一成多维空间里的坐标值,通过计算向量之间的相似度或距离,快速定位最相关的近似值。

它被广泛地用于大模型训练、推理和知识库补充等场景:

支撑训练阶段海量数据的分类、去重和清洗,给大模型的训练降本增效;

通过新数据的带入,帮助大模型提升处理新问题的能力,突破预训练带来的知识时间限制,避免大模型出现幻觉;

提供一种私有数据连接大模型的方式,解决私有数据注入大模型带来的安全和隐私问题,加速大模型在产业落地。

……

简而言之,如果大模型是一个智能的处理器,那向量数据库就是配合这台处理器的”外置缓存"。

icon腾讯云向量数据库重磅发布

与传统数据库不同,向量数据库特别擅长从非结构化数据中提取见解。这些数据库使用向量嵌入来表示数值型数据,并将其排列在彼此相似的一个个聚类当中,能够帮助用户使用相似对象查询数据库,从而轻松比较并找出最适合的匹配项。向量搜索的另一个优势就是这类查询延迟更低,特别适合生成式 AI 应用。

企业开始大力投资向量数据库以提升算法准确性和效率。据相关统计,2023年4月的AI投资领域呈增长趋势,尤其是向量数据库领域的投资活动颇为活跃,Pinecone、Chroma 和 Weviate等向量数据库初创公司都在这个月获得了融资。

近日,腾讯云发布了国内首个AI原生的向量数据库,它最高支持业界领先的10亿级向量检索规模,并将延迟控制在毫秒级。相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。

针对大模型场景,它在接入层、计算层、存储层实现了全面AI化:

在接入层,智能化支持自然语言文本的直接检索;

在计算层,通过AI算子替代企业寻找/调优AI算法,将接入工期从一个月缩短到3天;

在存储层,融合智能压缩算法,把向量存储成本降低50%。

统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗,相比传统方式可以实现10倍效率的提升。

如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2~4个数量级。

其实,腾讯云向量数据库经历了鹅厂内部业务的长期锤炼:

覆盖腾讯视频、QQ浏览器、QQ音乐等上百个业务场景,每日调用量超千亿次;

支撑QQ音乐人均听歌时长提升3.2%,QQ浏览器成本降低37.9%,腾讯视频有效曝光人均时长提升1.74%;

向量化能力(embedding)多次获得权威机构认可,曾登顶MS MARCO榜单第一。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

想知道为什么数据库的设计很重要吗?

想知道为什么数据库的设计很重要吗?

相信朋友们对数据库都不陌生吧,应该也有相当一部分朋友知道数据库的设计是非常重要的,那么你们知道为什么重要吗,下面,就和小编一起来看下吧。 数据库是应用程序的核心要素和计算机负责存储运行软件应用程序所需的所有重要数据。为了社会保障企业应用正常运行,总有一个

2022-11-22 15:53:46

从“新基建”看国产分布式数据库的大机遇

从“新基建”看国产分布式数据库的大机遇

“新兴基础设施建设”即“新基建”,指发力于科技端的基础设施建设,主要包括七大领域:5G基建、特高压、城际高速铁路和城际轨道交通、新能源汽车充电桩、大数据中心、人工智能和工业互联网等七个领域。

2020-04-16 17:36:49

分布式数据库的发展背景以及技术路线

分布式数据库的发展背景以及技术路线

传统单机数据库的处理能力已经难以支撑这些业务发展,于是,开始探索各种解决各种有效的方案,最常见的就是应用系统通过分库分表进行解决。但是,这种解决方案一方面应用系统需要做大量改造,需要感知数据存储位置,一方面增加了运维的复杂性。

2020-04-17 21:43:29

瀚高数据库全面完成全国市场支撑体系建设

瀚高数据库全面完成全国市场支撑体系建设

2018年以来,随着国家基础软件振兴的使命,航高数据库不断加大研发投入和国际化运营,成为国内第一家实现国家市场支持体系建设的数据库制造商。

2019-09-17 16:23:45

热璞数据库荣获智慧郑州2019CCF中国计算机协会一等奖

热璞数据库荣获智慧郑州2019CCF中国计算机协会一等奖

12月21日晚,2019CCF大数据与计算智能大赛(简称:CCF BDCI)决赛嘉年华暨颁奖典礼在中国历史文化名城、全国科技进步先进市—河南郑州隆重召开。颁奖盛典上每个赛道分别决出了一等奖、二等奖和三等奖。

2020-02-11 11:45:06

单集群数据超千亿?微服务时代下,如何选择数据库?

单集群数据超千亿?微服务时代下,如何选择数据库?

最近腾讯云数据库与昆山农商银行联手搞了件大事,基于国产分布式数据库腾讯云TDSQL打造的昆山农商银行新一代核心系统成功投产上线了!

2022-03-31 19:59:53

严选云产品

百度智能云OCR识别私有化部署平台 百度智能云OCR识别私有化部署平台依托百度大脑领先的深度学习技术,提供多场景、多语种、高精度的文字检测与识别服务,让“ 计算机”和“ 人”一样看图识字;实现信息采集与处理的自动化,显著降低企业运营成本。
阿里云数据库MongoDB版 云数据库 MongoDB 版是完全兼容 MongoDB 协议、高度兼容 DynamoDB 协议的在线文档型数据库服务,支持单节点、双节点、副本集和分片集群四种部署架构,能够满足不同的业务场景需要,在互联网(游戏、资讯、社交、电商、直播)、新零售、在线教育、金融、物联网、政企等行业都有广泛的应用。
Udesk新一代智能客服机器人 Udesk是国内领先的新一代在线智能客服机器人,拥有上万家企业用户,为企业提供一套集智能客服机器人、聊天机器人、微信客服机器人系统为一体的完整的多渠道客户服务机器人解决方案。
百家云分组研讨型智慧教室解决方案 百家云分组研讨型智慧教室解决方案集成化教学设备,将教学空间布局单一改为更多设计风格,构建能支持大班授课、小班研讨的信息化互动环境,为教学活动提供互动传屏,成果呈现,数据分析等。通过留存的多样本、形成性的大数据,结合机器学习,让教学效果的评估和评价更加准确。
CRMEB多商户Java版 CRMEB 多商户JAVA版是一款B2B2C社交电商产品。微信公众号、微信小程序、H5、APP多终端适配,具有高并发、二开方便、多种运营模式、多种营销工具、商家自主入驻等优势;同时提高商家的品牌影响力、销售和收益,提高消费者的满意度和忠诚度。
McAfee网络安全平台NSP McAfee网络安全平台NSP,检测针对WEB服务器的SSL加密流量攻击,无需增加额外的解密设备,Agent代理方式或导入密钥,支持RSA、DHE、ECDHE等加密算法,支持Apache、Tomcat、Nginx、IIS、Websphere等WEB服务器,对于IPS没有性能影响!

甄选10000+数字化产品 为您免费使用

申请试用