icon腾讯在控本提效的三个方案研究icon
如意--全场景混部
CPU利用率提升15~45%
云原生环境下对高/低优先级作业进行混合部署,统一调配计算资源。
高QOS保障业务之间无影响。
悟净--内存多级卸载
平均内存节省35%
利用先进的内存后备设备,扩充内存
能力。
智能内存回收,避免内存雪崩。
多级内存沉降,降低配置成本。
悟能--主机节能
服务器整机功耗省5-30%

 

icon腾讯能耗节省-悟能方案概述icon
scas节能
>弹性cpu策略,基于cstat,让空闲CPU核进入深度睡眠C6状态。
>预留X倍核心,快速扩核逻辑,应对业务变化和突发增长。
>对业务性能几乎无影响,能在节能的同时,快速响应业务变化。
uncore节能
> Uncore:cpu的uncore部分设置为最低频率。
>Cpufreq:切换到最低频率。
>磁盘休眠:让scsi盘闲置时休眠。
>适用于长期低负载,无业务部署,可以快速切换到性能模式(秒级切换)。
uncore节能测试:
抽样130台机器,节能前平均每台216.38 watt,开启节能后,平均每台节能41.15 watt。继续抽样91台,磁盘休眠平均每台节能56.53 watt,合并磁盘节能后。平均每台节能约97.68 watt。
 

 

icon某客户悟能测试结果汇报icon
测试方法
测试环境中4台物理服务器,分别通过sysbench和mysql压力测试,按照一定比例进行压力测试,记录对比“开”、“关”悟能的能耗差异。
测试结果
(1)服务器BIOS开启Performance模式时,开启悟能后,平均节能11~16W,
约5%~7%。
(2)服务器BIOS开启Performance模式时,开启悟能后性能损耗小于5%。
(3)服务器BIOS开启conservative模式后的性能相比Performance模式损耗
大约在23%~24%。
(4)服务器BIOS开启conservative模式时,开启悟能后能耗平均上升26瓦,约
10%(悟能会将BIOS节能模式拉回到Performance模式)。
 
 
 
 

结论解读
(1)服务器BIOS建议设置为Performance模式,避免较大的性能损失。
(2)使用悟能的CPU节能模式,平均节能5%~7%(目前平均负载为21%),如果真实服务器日平均负载小于20%,可获得较好的节能效果。
(3)当前悟能测试了cpu的节能效果,在一些环境中,可以启用uncore的节能设置,节能效果更好(闲时让服务器整体进入“浅睡眠”状态)。

 

icon腾讯悟能内部使用效果icon

腾讯TEG机器总数60万台,主要采用CPU节电模式,日节电2.5万度

腾讯云机器总数约90万台,主要采用uncore节电模式,日节电19万度

 

icon目前混部方案的主要研究方向icon
第一代混部:分时错峰
·cpu quota、 shares
·干扰率高
·冲突处理时间长
·资源利用率低
容器调度层面的混部
第二代混部:全时间段混部
·容器调度+服务器QoS
·无需分时部署
·离在线混部
·多资源统一优先级
降低干扰率
第三代混部:全场景混部
·离在线混部+在线间的混部·CFS+容器优先级
·适用非典型离线业务
拓宽应用场景
第四代混部:智能化混部
·动态感知业务负载
·自动调配资源
·容错率更高
资源调配效率更高
icon腾讯在离线混部解决方案框架图icon
在线任务:
·延迟敏感、流量周期性、资源潮汐等。
·电商、直播等。
离线任务:
·时延不敏感、计算量大等。
·视频转码、大数据、图片压缩等。
TKE/TCS 容器调度层面:
·离、在线作业调度。
·对资源使用情况进行预测和监控。
·解决冲突,离线驱逐。
如意内核层面:
·CPU、IO、网络 、内存全资源覆盖。
·根据统一优先级进行资源分配与隔离。
·高优作业保证服务质量。
·低优作业防饿死。
·为上层提供统计信息。
·丰富的ebpf监控工具集。
icon内核核心能力-CPU和内存icon
iconCPU QoS:CFS调度算法局限性icon

基于社区shares+period/quota方案

 

icon如意CPU QoS:BT离线调度类-绝对抢占icon
 

 

icon如意CPU QoS:离线负载均衡icon

离线负载均衡

统一负载均衡:在线任务被离线任务影响,反复被迁移
离线负载均衡:对在线任务没有任何影响

 

icon如意CPU QoS:超线程隔离icon
 
处理器片上共享资源
 
超线程隔离

 

icon如意CPU QoS:离线压制水位线icon

使BT支持CPU限额功能,可以根据需要灵活配置离线的份额

echo 50>/sys/fs/cgroup/cpu/test/cpu.bt_suppress_percent

风险防范,灰度部署离线任务

 

icon案例展示-CPU QoS:WXG(微信)某在线业务icon
 

 

 

icon如意内存QoSicon
 
预留高优内存
预回收中低优先级容器的内存,使得系统中保留一定量的空闲内存,保证高优容器的内存分配时延和成功率。
 
Pagecache限制与隔离
整机pagecache限制:限制服务器总体pagecache使用率。
容器级别的pagecache隔离:单独配置某个容器的pagecache占比,超过后自动回收pagecache。
 
异步内存回收
·优先memcg 异步内存回收内存。
·全局水位分级,Memcg直接内存回收兜底。
 
按优先级OOM
·OOM时根据容器优先级由低到高释放内存,保障高优容器的稳定性。
·优先级相同的按照内存占用多少进行排序。

 

 

icon内核核心能力-网络和IOicon

 

 

icon实际效果 IO QoSicon

 

 

icon实际效果 网络QoSicon

 

icon悟净-内存成本优化与可用性icon

利用OS内核侧进行内存优化的天然优势,保障业务内存使用性能前提下,将较冷的内存换出至较便宜的设备上,从而降低整机的内存消耗,提高
内存资源利用率,通过平滑降配、负载调压、内存超卖等手段实现降本增效,助力业务和客户商业增值。

 

icon悟净核心技术实现icon
 
PSI、UMRD:根据进程对内存访问延迟的敏感性,决定回收的页面数量
DAMON 核心及子模块:扫描出长时间未访问的页面,提供基本扫描框架与全局
探测算法,提供 LRU Sort 与 SWAP hint 方法,与内核内存回收系统结合,提供
即时可用的页面热度信息。
Pageout Tiering 框架:在待回收的页面链表中,根据页面冷热频率(DAMON
动态迭代的采样频率)换出到不同速度的后备设备上。
SWAP Balancer 模块:每个 SWAP 后备设备维护 LRU 链表,当高级SWAP 设备
快满时,demote 冷页到速度更慢的设备上。
CXL 支持:在换出回写前,优先使用 CXLPromote/Demote,避免 PageFault、
10等造成的性能损失。
核心性能优化:针对内核 MM 核心代码进行了大量调优和优化,部分已经upstream。
icon悟净的实际效果icon
腾讯内部
·悟净在全公司的部署量超过200W 核。
·平均节省内存量达到35%(不包含降配)。
·部署的在线业务包含xstore内存型数据库、自研VOIP以及QQ音乐搜索业务等。
 
合同无法在线
·某快递公司
业务特征:K8S+Spring cloud +Consul,Java高内存。
核心诉求:降低成本、提升资源利用率。
使用效果:内存使用量压缩至原来66%,性能无明显变化。
·联通
近期上线中。
移植到CULinux平台。
初步测试内存节省20%+。
icon算力优化,进入智算时代icon

 

icon传统推理场景的算力共享-qGPUicon
 
很多客户反应“卡”不够用业务程序通常一个计算任务(Pod)独占一张卡。
目前卡的计算能力也来越强,大部分推理场景GPU卡的利用率都比较低。
所以,是卡的“数量”不够用,而不是“算力”不够。
目前大部分推理场景的GPU客户都在寻找切分方案。
iconqGPU基于内核劫持的实现框架icon

 

iconqGPU的主要特点icon
强隔离
支持 显存和算力的精准隔离
灵活性
精细切分GPU算力及显存
兼容性
业务无感知、CUDA不替换、不重编
覆盖度
支持消费卡及工程卡
高性能
GPU驱动层虚拟化,近零损耗
在离线
优秀的在离线混部能力,GPU 利用率压榨到极致
云原生
支持标准Kubernetes 和NVIDIA Docker
业务无感知,只需要在Pod的resourses中简单配置,
便可完成GPU切分使用
 
 
支持离在线混部,保障高优任务GPU算力资源
 
 
 
icon大模型推理加速框架-TACO-LLMicon
客户诉求
·寻求快速适配,简单部署,开箱即用的推理框架
·在延时不变的情况下,要求更高的吞吐性能
·客户对推理指标要求不同,需要个性化的优化手段
·客户要求不同的输出格式,例如openai,streaming等
算力显存利用率低

自回归模型吞吐低         显存限制算力利用率低

性能指标不同

首字母延迟,吞吐量
总时延

 

序列长度不同

输入以及输出的序列长度不同,影响推理性能

TACO-LLM解决方案
TACO-LLM作为腾讯云推出的一款易部署的大语言模型推理加速引擎,专注于解决客户诉求和推理难点:
易部署,开箱即用,全面兼容主流模型。
极致性能优化,降低生成过程延时,提高吞吐量,
面向生产落地,根据实际需求来调整推理策略
支持不同的算力和显存优化策略,充分利用算力设备,提高资源利用率。

iconTACO-LLM主要技术和效果icon
大模型推理服务路径
Server:服务器,例如云端实例或本地集群节点。
Inference Service:服务实例。按APIserving用户请求,同时处理多个序列输入并返回结果。
Inference Engine:高效执行模型的推理过程。
Model:部署在推理引擎中,较大时,分布式存储在不同GPU的显存上。
 

 

iconTACO-LLM落地业务案例-某头部视频网站icon
 
客户场景
·客户要求超过 NVIDIA 最新版本 TensorRT-LLM 性能 50% 以上。
·客户输入序列长度为 1500 左右,输出为 200 左右·客户应用场景
包括弹幕审核,广告、推荐,长文本总结等等。
客户痛点
·弹幕数量较多,内容丰富,需要处理大量的长序列输入
·由于弹幕的时效性,推理流程需要快速反馈出结果,对吞吐要求
较高。
·客户模型体量较大(70B+),超过单卡的显存容量,寻求更加高效的在线分布式推理方案。
性能优化结果
客户自测在 A800 上 TACO-LLM 相对最新版本 TensorRT-LLM 加速为1.67x~2.46x。
客户自测在 A100 上 TACO-LLM 相对最新版本 TensorRT-LLM 加速为1.5x~1.96x。
产品推荐 查看更多>>
    火山引擎云手机

    火山引擎云手机是结合云计算和超低延迟音视频传输技术的跨终端虚拟云手机服务,在云端最大化地模拟真实手机的环境和性能。为客户提供稳定可靠的云机和安卓实例,以及高品质、低延迟的互动和串流技术,同时支持客户开发自定义业务逻辑的云服务。

    安全稳定,兼容性强

    资源灵活,智能调度

    快速接入,轻松管理

    超低延时,服务增值

    阿里云云盒CloudBox

    阿里云云盒(Alibaba CloudBox): 公共云的硬件基础设施(包括计算、存储、网络)部署在客户的数据中心,满足数据安全、数据本地处理、低延时等业务需求。客户购买后,阿里云就会把相应的硬件送达并安装到指定的机房,就可以在云盒上方便地创建弹性计算实例,并且也能够轻松使用阿里云各种服务。

    本地化部署,安全审计

    超融合技术,降低成本

    公共云延伸,一致体验

    按需购买,全托管云服务

    快杰云主机

    计算、存储、网络性能的新变革,新芯片加持,整体计算性能提升16%;内网带宽为原先的2.5倍,内网包量最高可达1000万PPS;可挂载RSSD云盘,容量可达,32,000GB,延迟低至0.1ms;单个EIP支持最大10Gb外网带宽,网络包量达300万PPS

    高效稳定

    安全可靠