立即咨询

电话咨询

微信咨询

立即试用
商务合作

为AI大模型带来数十倍性能提升!看腾讯星脉网络2.0如何构建万卡集群?

2024-08-14

AI大模型成为近年AI领域的热门方向。这些都是由超高性能的网络集群来实现的。然而重金购得的GPU,是否有效利用成疑?

想象一下,一个高度协同的“超级工厂”,其中的“工人”(即GPU)在完成阶段任务(计算产出)后,不得不进入繁琐的“信息对齐”流程(数据同步),方能再次投入工作。这一“对齐”过程,即集群间的通信时间,竟占据了总作业周期的高达50%,任何微小故障(单一节点问题)都能引发整个生产线的瘫痪(集群故障)。

在算力资源日益紧俏、成本水涨船高的背景下,三大效率挑战亟待解决:如何加速信息流通(通信速度)?怎样减少沟通成本(通信损耗)?故障诊断能否更加精确迅速?面对这些“生死攸关”的问题,大型模型制造商们准备好了吗?

icon腾讯星脉网络2.0来了!

如此大规模、长时间的GPU集群训练任务,对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。对此,追求极致高性能与高可用的星脉高性能计算网络面世了。

相比上一代,2.0版本单集群支持的GPU数量实现翻番,达到惊人的10万张;网络通信效率显著提高60%,直接推动大模型训练效率跃升20%;而在故障排查方面,更是取得了从按天计到分钟级的飞跃进步。这一切,都是对效率挑战的有力回应。

“基建”全面升级,组网规模翻倍

自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,为业界最高。

基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。

“治堵”更“高效”,训练效率提升10%

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。

“改装”更“灵活”,训练效率提升10%

腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信,相当于为GPU新建了一条路(网络通道),以实现数据的并行传输。 同时,Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。

此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。

“排查”更“精准”,从天级到分钟级

星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。

icon腾讯星脉的突出优势

腾讯星脉高性能计算集群,在当今激烈的计算资源竞赛中脱颖而出,展现出与众不同的优势:

超大规模组网能力

腾讯星脉支持单集群内10万张GPU的互联,这不仅是对上一代技术的两倍扩容,更是远超行业平均水平,为构建前所未有的大规模并行计算平台奠定了坚实基础。基于弹性高性能云服务器架构,可实现计算无虚拟化损耗及服务器特性无损。

极致通信效率

通过深度优化的网络架构与协议,腾讯星脉实现了通信效率60%的惊人提升。这意味着在大规模分布式训练场景下,数据交换更为迅速,大幅缩短了模型训练周期,为企业节省了宝贵的时间和成本。

高效故障定位机制

腾讯星脉在故障管理上的革新尤为突出,将故障定位时间从以往的天级别缩短至分钟级。这种即时响应能力,极大增强了系统的稳定性和可靠性,确保计算任务连续无阻,降低了因意外停机导致的数据丢失或项目延期风险。

技术创新与自主可控

作为腾讯自研成果,星脉不仅展现了公司在高性能计算领域的深厚积累与前瞻布局,更重要的是,它赋予了中国企业在关键技术领域更多的自主权与灵活性,降低了对外部技术依赖的风险。

云巴巴,作为腾讯云的紧密合作伙伴,在高性能计算领域积累了丰富的实践经验,深度参与并见证了腾讯星脉网络2.0的飞跃,同时也将继续携手腾讯云,依托腾讯星脉网络2.0的领先技术,为更多企业和研究机构提供定制化的解决方案,助力他们在AI大模型的探索之路上迈出更坚实的步伐。

无论是追求极致的计算性能,还是寻求稳定的生产环境,或是期望快速故障响应与恢复,云巴巴都能提供专业咨询与技术支持。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

云巴巴客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

云巴巴作为腾讯云的重要合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前腾讯云星脉已在云巴巴平台上线,如需了解更多产品信息,请扫描下方二维码与我们联系!

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

阿里云无影云电脑阿里云无影云电脑(WUYING Workspace)是一种易用、安全、高效的云上电脑,支持快速便捷的创建、部署和统一运维管控。自带多重安全管控能力,支持随时随地访问,资源灵活弹性。广泛应用于安全办公、协同研发、教育实训、私域运营、分支门店、客服办公等。
飞画flyDrop飞屏显示控制系统是一款专业的多媒体展览展示控 制管理软件,系统采用先进的软件技术,创新性地将内容、智能设备(声光电)融为一体,为展厅、智慧运营中心、智慧楼宇等展览展示场景提供灵活、简单、 易用的控制解决方案,大大提高对创意内容、屏幕、空间、设备的调度能力,赋能屏幕,赋能智 慧生活。
基调听云智能可观测性平台基调听云新一代贯通全栈IT与业务的智能可观测性平台,涵盖五个层面的能力升级:一是全栈数据采集,二是多维多源智能分析,三是以应用和业务为中心,四是可观测数据的纵横融合打通,五是全方位可观测,帮助企业从容应对数字化时代挑战,助力业务增长。
携客云采购管理系统SRM携客云的每个应用功能都经过用户的千锤百炼,无论是大型的集团,或是快速成长的企业,都能够为您企业供应链每个管理环节,找到最佳的业务管理方案,并配置您所需要的管理流程和业务细节。
2号人事部人力资源数字化平台2号人事部是由百万HR共创的一体化人力资源数字化平台,助力企业实现人力资源数字化转型。主要包括组织人事、薪酬社保、考勤休假、招聘协同、培训学习、绩效考核六大模块,并通过行政审批、员工服务、弹性福利来实现提升组织效能和员工满意度。
为你推荐
2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖,载誉而归

1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17
传统AI代码工具效率低下?TAPD MCP Server让开发效率与质量双倍飙升

腾讯TAPD作为国内领先的敏捷研发管理平台,可以说是最早拥抱MCP的研发管理工具之一,凭借其全生命周期的研发管理能力,成为AI代码助手的“最强外挂”,其创新功能直击开发痛点。

2025-04-25
如何提升政企客户服务效率?协同管理+规模触达成政企服务质量选型新标准

基于预设规则和对象特征,让消息推送更智能更精准,帮助企业打通内外部系统的数据系统,实现更多灵活、更个性化的营销和服务能力开发。

2025-04-25
如何利用数据分析做好活动营销?海纳嗨数让活动策划执行更加高效便捷

海纳嗨数凭借其专业的数据分析能力,为企业提供从数据采集到深度洞察的一站式解决方案,助力活动策划与执行实现质的飞跃。

2025-04-25
复杂网络环境下,如何通过弱网加速与源站高可用技术架构保障业务零中断?

网宿科技全站加速产品以弱网优化与源站灾备技术矩阵,构建全链路加速体系,通过核心技术为多场景提供端到端保障,实现弱网效率跃升、源站切换无感,助企业突破网络桎梏。

2025-04-24
查看更多