为AI大模型带来数十倍性能提升!看腾讯星脉网络2.0如何构建万卡集群?

来源: 云巴巴 2024-08-14 17:10:01

AI大模型成为近年AI领域的热门方向。这些都是由超高性能的网络集群来实现的。然而重金购得的GPU,是否有效利用成疑?

想象一下,一个高度协同的“超级工厂”,其中的“工人”(即GPU)在完成阶段任务(计算产出)后,不得不进入繁琐的“信息对齐”流程(数据同步),方能再次投入工作。这一“对齐”过程,即集群间的通信时间,竟占据了总作业周期的高达50%,任何微小故障(单一节点问题)都能引发整个生产线的瘫痪(集群故障)。

在算力资源日益紧俏、成本水涨船高的背景下,三大效率挑战亟待解决:如何加速信息流通(通信速度)?怎样减少沟通成本(通信损耗)?故障诊断能否更加精确迅速?面对这些“生死攸关”的问题,大型模型制造商们准备好了吗?

icon腾讯星脉网络2.0来了!

如此大规模、长时间的GPU集群训练任务,对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。对此,追求极致高性能与高可用的星脉高性能计算网络面世了。

相比上一代,2.0版本单集群支持的GPU数量实现翻番,达到惊人的10万张;网络通信效率显著提高60%,直接推动大模型训练效率跃升20%;而在故障排查方面,更是取得了从按天计到分钟级的飞跃进步。这一切,都是对效率挑战的有力回应。

“基建”全面升级,组网规模翻倍

自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,为业界最高。

基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。

“治堵”更“高效”,训练效率提升10%

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。

“改装”更“灵活”,训练效率提升10%

腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信,相当于为GPU新建了一条路(网络通道),以实现数据的并行传输。 同时,Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。

此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。

“排查”更“精准”,从天级到分钟级

星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。

icon腾讯星脉的突出优势

腾讯星脉高性能计算集群,在当今激烈的计算资源竞赛中脱颖而出,展现出与众不同的优势:

超大规模组网能力

腾讯星脉支持单集群内10万张GPU的互联,这不仅是对上一代技术的两倍扩容,更是远超行业平均水平,为构建前所未有的大规模并行计算平台奠定了坚实基础。基于弹性高性能云服务器架构,可实现计算无虚拟化损耗及服务器特性无损。

极致通信效率

通过深度优化的网络架构与协议,腾讯星脉实现了通信效率60%的惊人提升。这意味着在大规模分布式训练场景下,数据交换更为迅速,大幅缩短了模型训练周期,为企业节省了宝贵的时间和成本。

高效故障定位机制

腾讯星脉在故障管理上的革新尤为突出,将故障定位时间从以往的天级别缩短至分钟级。这种即时响应能力,极大增强了系统的稳定性和可靠性,确保计算任务连续无阻,降低了因意外停机导致的数据丢失或项目延期风险。

技术创新与自主可控

作为腾讯自研成果,星脉不仅展现了公司在高性能计算领域的深厚积累与前瞻布局,更重要的是,它赋予了中国企业在关键技术领域更多的自主权与灵活性,降低了对外部技术依赖的风险。

云巴巴,作为腾讯云的紧密合作伙伴,在高性能计算领域积累了丰富的实践经验,深度参与并见证了腾讯星脉网络2.0的飞跃,同时也将继续携手腾讯云,依托腾讯星脉网络2.0的领先技术,为更多企业和研究机构提供定制化的解决方案,助力他们在AI大模型的探索之路上迈出更坚实的步伐。

无论是追求极致的计算性能,还是寻求稳定的生产环境,或是期望快速故障响应与恢复,云巴巴都能提供专业咨询与技术支持。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

云巴巴客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

云巴巴作为腾讯云的重要合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前腾讯云星脉已在云巴巴平台上线,如需了解更多产品信息,请扫描下方二维码与我们联系!

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

“生物识别技术”与“密码”的“不解之缘”

“生物识别技术”与“密码”的“不解之缘”

关于“生物识别技术”在我们日常生活中的应用,大家几乎可以异口同声说出“人脸识别”、“指纹解锁”等。透过现象看本质,这些技术的背后无外乎俩字——“密码”。是的,“生物识别”≈“身体密码”的说法一点也不过分。

2020-05-06 16:59:16

合成数据让AI模型训练更高效,AiUU智能助手助你一键搞定

合成数据让AI模型训练更高效,AiUU智能助手助你一键搞定

人工智能的发展应用离不开数据。

2024-03-27 11:00:37

多模态生物识别技术融合是未来发展趋势

多模态生物识别技术融合是未来发展趋势

用指纹、人脸解锁手机和门禁,在我们生活中已经屡见不鲜,当前,在智能门禁、智能手机、智慧安防、银行金融等领域,已经出现了多种生物识别技术的融合应用。随着生物识别产业的迅速增长,多模态生物识别技术的融合已是大势所趋。

2022-11-24 10:18:07

眼神科技智慧社区安防布控技术优势

眼神科技智慧社区安防布控技术优势

随着经济的迅猛发展,我国的城市化水平也得到了显著提高,各式高端社区纷纷涌现,社会对于智能社区解决方案的配置也随之愈发重视。眼神科技智慧社区安防布控技术的不断更新,支撑着智慧社区解决方案的进一步优化。

2022-11-23 16:44:32

关于虚拟主机,我想和朋友们要说的

关于虚拟主机,我想和朋友们要说的

什么是虚拟主机? 虚拟主机是服务器的一种,是很多人第一次接触到网站空间,会选择使用的类型。 其实现在来说,虚拟主机的已经成了一大部分群体的专属,任何事物的存在都有利弊,虚拟虚拟主机也不例外。我们在选择虚拟主机的时候,也要注意很多的方面,才能对自己或者公

2022-11-22 17:28:07

还不快来里哦啊接一下什么是人工智能

还不快来里哦啊接一下什么是人工智能

这是一篇关于人工智能的介绍,来和一起来探索人工智能吧,一定要看完哦....... 人工智能是一个非常广泛的话题,究竟有多广泛呢,从手机上的计算器到无人驾驶汽车,到未来发展可能发生改变这个世界的重大社会变革,人工智能系统可以用来描述很多东西,所以对于人们会

2022-11-22 15:31:34

严选云产品

蚂蚁金服“数巢”大数据智能服务平台 “数巢”大数据智能服务平台,基于基于业界领先的安全计算技术底盘,结合自研大数据平台,涵盖数据连接、融合、加工、建模、决策等功能,通过一体化数据研发服务联合风控、联合营销、联合研究等合作场景,保障数据服务智能、高效落地应用。安全连接数据、渠道、客户及合作伙伴
腾讯云小微小样本数智人 腾讯云小微小样本数智人,通过少量的小样本素材(3~5分钟),即可导入训练模型,生成与真人无异的数字人分身,五官、动作、表情完全模仿真人。适用于内容讲解、口播视频生产、直播带货等需要真人出镜的场景,节约成本,全年无休。
云道智造石化行业仿真分析计算系统 云道智造石化行业仿真分析计算系统,具备跨平台适配能力,支持主流自主操作系统和硬件。全参数化2D、3D几何建模,导入CAD模型。提供了丰富的图形显示和数据处理功能。具备快速参数化建模、计算和多种搅拌桨叶替换功能。
百度智能云大模型智能客服解决方案 百度智能云大模型智能客服解决方案,UNIT+大模型生产组件,可用于客服助手,也可用于机器人。提升构建过程的效能,显著提升用户体验效果。提供训练调优、人工干预、运营工具等,实现数据&效果飞轮。大模型语义理解,升级计划,全面升级跨时代产品。
政云数据工会财务综合管理平台 政云数据工会财务综合管理平台是杭州政云数据技术有限公司为工会系统专门研发的财务管理软件,它以新《工会会计制度》为管理内容基准,针对工会财务管理过程中预算、经费、财产等管理的特殊性及各级工会数据交互的需要而设计。
腾讯云 费控报销系统 腾讯云费控报销系统,全方位提升企业满意度,曾经报销30分钟,现在5分钟。填单体验、填单效率显著提升 ,电子发票无需黏贴,提升员工效率;发票查验、查重、合规、风险控制系统自动完成,报销审核效率显著提升;一键入账;数据报表系统生成;提升财务效率;预算、部门费用使用情况轻松掌控各类报表随时查阅。

甄选10000+数字化产品 为您免费使用

申请试用