世界人工智能大会上,可以说大模型占据当仁不让的C位,国内外总计30余款大模型集体亮相,据不完全统计,其中既有来自企业巨头华为、百度、阿里、京东等推出的通用大模型,也有来自清华、复旦等学院派大模型,还有包括出门问问、第四范式等创业公司入局,“厮杀”尤为激烈。
腾讯论坛上腾讯公布了一系列AI创新进展。在业界普遍关注的AI大模型领域,腾讯云公布了技术底座、创新场景、AI for Science三大领域升级,也是继6月行业大模型技术解决方案后的再次更新。
其中,腾讯自研星脉高性能计算网络、向量数据库的最新升级,将为大模型的行业应用提供更强大的底层能力;金融风控、交互翻译、数智人等创新场景,为行业大模型行业探索提供更多可能性;AI for Science,持续将AI大模型等最新技术应用在天文探索、文化考古领域,以科技助力可持续社会价值创新。
腾讯论坛现场,腾讯集团副总裁、政企业务总裁李强表示:大模型时代,数据、网络、算力构成了底层基础设施的“铁三角”,除了提供MaaS服务,腾讯云也在通过云服务的方式,为行业大模型的打造提供HCC高性能计算集群、向量数据库等基础设施服务。
据了解,星脉网络具备 3.2Tbps 业界最高互联带宽,能提升 40% 的 GPU 利用率,节省 30%~60% 的模型训练成本,还让 AI 大模型通信性能提升 10 倍。同时,基于腾讯云新一代算力集群 HCC,星脉网络可支持 10 万卡的超大计算规模。
星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放 AI 潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。
AI 大模型 3 大网络需求:大带宽、高利用率、无损网络
目前,AI 大模型的训练参数已飙升至万亿级别,如此庞大的训练任务无法由单个服务器完成,而需要大量 GPU 服务器组成算力集群,相互协作完成任务。
这些服务器通过机间网络相连接,不断交换数据。因此,高性能网络具有至关重要的地位,它有利于让算力集群更加快速、准确地完成大规模的训练任务。
大集群不等于大算力,相反,GPU 集群规模的扩大还会引发额外的通信开销。因为传统网络架构下,数据传输时会通过多层协议栈,需要反复停下来检查、分拣、打包,导致通信效率低下。
也就是说,网络层级越多,致 GPU 集群通信性能将越低。现在爆火的生成式 AI 大模型需要运用千亿、万亿参数规模进行训练,这个训练过程中通信占比最大可达 50%,而传统低速网络的带宽无法支撑。
在这个问题的解决上,业界通常会引入 RDMA 技术(GPU 之间直接通信),这是一种高性能、低延迟的网络通信技术,能够允许计算节点之间直接进行数据传输,减少中间环节。
但光靠 RDMA 技术还远远不够,传统网络协议也将制约 GPU 集群的运行效率。传统网络协议也很容易导致网络拥塞、高延时和丢包,而仅 0.1% 的网络丢包就可能导致 50% 的算力损失,最终造成算力资源的严重浪费。
3.2Tbps 带宽,支持 10 万卡集群组网
基于以上问题,腾讯云在交换机、通信协议、通信库以及运营系统等软硬件方面进行升级,推出了自研的大模型专属高性能网络 " 星脉 "。
" 带宽 " 决定了能够同时传输的数据," 拓扑 " 是节点设备间的连接方式,决定了组网规模的大小。在这两项硬指标上,腾讯云称星脉皆达到了业界最高水平。
在硬件方面,星脉网络自研白盒交换机,这是一种软硬件解耦的开放网络设备,采用四层解耦体系,包括接入、转发、路由、管控系统;腾讯云还自研了网络操作系统,包括网络 OS 与网管平台,构建了互联底座,实现自动化部署和配置。
在软件方面,腾讯云自研的 TiTa 网络协议,能够实时监测并调整网络拥塞,TiTa 网络协议能够提升 40% 的带宽负载,还能提供低延时无损网络,实现高负载下的 0 丢包,使集群通信效率达 90% 以上。
此外,腾讯云还为星脉网络设计了高性能集合通信库 TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低 40%。
全方位,多角度解决行业侧需求
为了解行业需求,腾讯在10个行业中选择了一些现有客户,提供了50多个解决方案,去尝试用大模型技术解决特定行业问题。很多客户觉得大模型很贵,其实贵的不是大模型本身,而是它的推理算力。所以腾讯的方式是针对客户的问题,以最低的成本、最合适的模型和服务,来让客户真正用上大模型。
在腾讯云TI平台内置的行业大模型基础上,企业只要加入自己独有的场景数据,就能快速生成自己的专属模型,同时还能够按需定制不同规格、不同参数的模型服务。
在算力层面,腾讯发布了专门为大模型训练设计的新一代HCC高性能计算集群,采用腾讯云星星海自研服务器,算力性能提升了3倍;腾讯云将推出向量数据库(Tencent Cloud VectorDB),源自腾讯的向量引擎(OLAMA),更适用于AI运算和检索。
在平台层面,腾讯TI平台能提供完善的大数据工具链,包括数据标注、训练、评估、测试和部署等全套工具;“太极Angel”在传统CV、NLP算法模型的基础上,新增了对大模型的训练和推理加速能力,相比行业常用方案性能提升30%以上。
云巴巴作为腾讯云的铂金合作伙伴,致力以助力企业数字化转型,不断完善数字化服务平台的产品。未来,云巴巴将继续为企业用户提供更好的数字化服务,助力企业数字化转型。并将持续关注和探索人工智能技术的应用,目前腾讯云的许多产品都已经在云巴巴平台上线,如果您有需要可以通过平台购买,享受更多优惠!
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2020-01-21 16:04:15
2024-07-26 17:39:10
2022-11-21 11:06:41
2022-11-22 16:14:31
2024-07-30 09:49:45
甄选10000+数字化产品 为您免费使用
申请试用
评论列表