AI 新时代,百模大战已经开启,各路「英雄」纷纷入场。自 Bert 出现之后,大模型成为 AI 领域的主流技术趋势,业界也因此掀起两轮热潮。
一轮是2020年GPT-3开启的炼大模型,百亿、千亿甚至万亿的「参数量」成为大模型角逐的重心;另一轮则是最近ChatGPT引领的新一轮生成式大模型热潮,短短几个月就火出了圈。
我们可以明显看到,过去半年时间国内外众多大厂、创业公司都在争先推出各自的大模型,但大多视角也局限于「训练出」一个大模型,而忽略了大模型技术的部署与应用。
大模型落地看成本与效率
即使对于科技公司而言,大模型是一项全新的技术,训练、部署和应用都不是那么容易的事情。作为一套系统性的工程,大模型的顺利落地需要做到全面考量、有的放矢。
目前来看,企业要用上大模型,最重要的是明确具体业务场景,挑选合适的模型类型、数据以缩小计算、推理范围,做到更聚焦、可控、精准。其次是使用专业工具,通过一体化的数据训练服务,做到更高效率。
此外还需要梳理出测试用例,建立模型质量评估流程,有针对性地迭代调整。最后是关注安全合规,确保数据及模型应用安全、合规、可控。
可以说要训练一个成功的大模型,算力,算法、数据三者缺一不可。
越强的大模型,越需要更强的算力来完成训练。拥有强大的算力是AI大模型成功的关键。
在单体服务器计算能力有限的情况下,需要将上千台服务器相连,打造大规模、分布式的高性能计算集群。业界标杆的大模型,对训练算力需求普遍非常高,使用成千上万张GPU卡。
如此庞大的参数规模,单独一块GPU运算卡甚至都完成不了最基本的装载,这也使得要用网络联接成千上万的服务器组建大规模算力集群,为大模型提供所需的算力。
大模型对算力的要求分为训练和推理两个阶段。其中,训练需要短时间内并行算力非常全且非常大,并且要在短时间内能够交付,所以对算力的量级、算力的稳定性、弹性扩容能力都有较高的要求。
现阶段,AI大模型正处于训练需求的爆发期,大家都需要海量的可扩缩容的高性能算力,而且这些算力需要稳定交付和计算。所以对云厂商来说,目前他们正迎来一个全新的市场机遇。
腾讯云GPU服务器集群算力提升三倍
面对种种挑战,大模型厂商要为企业「减负」,在低门槛、低成本、高效率、高品质、高安全等多个方面下足功夫。只有这样,大模型与企业的双向奔赴才能顺利实现。
在刚刚过去的6月,腾讯云公布了一项行业大模型解决方案,立足不同企业的需求场景,依托腾讯云 TI 平台打造行业大模型精选商店,为企业客户提供 MaaS(Model-as-a-Service)一站式服务。
这张 MaaS 全景图显示,依托腾讯云 TI 平台打造行业大模型精选商店,为企业客户提供涵盖模型预训练、模型精调、智能应用开发等一站式行业大模型解决方案。
其中腾讯云为大模型所准备的高性能计算集群 HCC,该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,服务器之间采用3.2T超高互联带宽,可为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。
1、最强算力背后是底层自研技术的突破
服务器的单机性能是集群算力的基础。在非稀疏规格情况下,新一代集群单GPU卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。
针对大模型训练场景,腾讯云星星海服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至更高。
全面升级第四代英特尔至强扩展处理器,服务器PCIe带宽、内存带宽最高提升100%。
腾讯自研的星脉高性能计算网络,就是这条专业赛道。这条赛道对GPU集群网络做了深度定制。增加了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅降低了通信耗时的占比。
这相当于同样的GPU卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,让集群整体算力提升20%。
腾讯自研的星脉高性能计算网络对GPU集群网络做了深度定制。增加了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅降低了通信耗时的占比。
这相当于同样的GPU卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,让集群整体算力提升20%。
2、多层接入,算力更易获取
新一代HCC高性能计算集群,面向大规模AI训练。以专用集群方式对外提供服务,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并结合自研存储架构、节点之间通过自研星脉RDMA网络互联,给大模型训练业务提供高性能、高带宽和低延迟的一体化高性能计算。
后续,针对自动驾驶训练、自然语言处理、AIGC大模型训练、科研计算等场景下客户的高算需求,通过腾讯云裸金属、云服务器、容器、云函数等多形态多层级接入能力,都可以快速获取!
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-22 10:08:56
2022-11-21 10:25:31
2020-05-07 17:25:27
甄选10000+数字化产品 为您免费使用
申请试用
评论列表