PaaS平台:让大模型开发与研究者拎包入驻。
平台己包含多种调度策略,可以满足资源隔离的要求,也可以提高资源使用率,任务运行效率。
Gang调度
· 在分布式训练任务中,避免占用POD而最后运行失败的情况发生,从而避免资源浪费。
反Gang调度
· 在推理服务中,在部分资源满足的情况下,部分任务就可以开始运行,从而减少资源空闲时问,提高资源使用率,提高任务运行效率。
反碎片化
· 通过反碎片化,预留整机资源,避免资源数量足够但无法起多机多卡任务的情况发生,从而提高资源的使用效率,提高任务运行效率。
租户内组内资源共享与租户内组间资源租借
· 允许租户内创建分组,并且分配资源,组内用户可以共享资源,且组与组之间资源隔离。保障每个组的资源独立性。
· 同时也可以允许组内资源不足,其他组资源空闲,从其他组租借资源,当其他组需要使用资源时,则自动归还,不影响其他组使用,从而提高资源使用率。
其他调度策略…
训练前、失败后自动进行检测,检测涵盖计算节点、存储、网络。
如遇异常,自动重启进程或重调度至健康节点。
全程被日志记录,可以查看和追溯,方便定位问题,缩短debug时间。
平台对推理服务提供扩缩容功能,包括
手动扩缩容:手动增减推理服务的基础实例数量。
定时扩缩容:允许设置定时扩缩容任务。
自动扩缩容:允许以推理服务的资源监控指标为依据,动态增减实例数量。
亮点:
> 在业务高峰期,可以增加服务实例数量,从而更好地满足业务需求,提高业务的稳定性.
> 在业务低谷期,可以减少服务实例数量,从而减少资源占用,提高资源使用效率。
客户需要一整套云服务资源,包含:大规模的GPU算力资源、高性能存储及网络等基础设施,从而在既定时间点高效地完成大模型的预训练。
模型公司与AI业务应用公司,专注于提供自研大模型或经过微调的大模型推理服务,整体工程架构会有更复杂推理服务Pipeline。
算力供应商,以裸机方式提供算力,而算力供应商的算力用户,需要平台来使用算力来更好地实现开发、训练、推理等应用,而算力供应商没有能力提供平台。
无穹通过自研推理引擎以及模型量化、workflow优化等方面的服务,提升用户体验。
1、端到端极致优化:提供定制的优化服务,可针对端到端的任务,针对业务对推理的效果、推理速度去做更极致的优化,包括模型量化、worfow优化等方面的服务。
2、自研引擎性能提升:性能方面,自研推理引擎2K文本长度优于VLLM等开源主流框架,10K以上目前持平;
无穹通过自研推理引擎和优化,提升业务的性能和吞吐量,极大的降低推理的成本。
1、性能提升:通过自研推理引警,提高算力资源的推理性能,降低成本;
2、吞吐提升:通过优化提升吞吐量,提升业务效率,增强业务体验的同时降低成本。
无穹通过自研推理引擎,提供自动扩缩容、保证高并发的稳定性,从而确保业务的稳定性。
1、自研推理引擎:可以和业务深度融合,自主可控保证框架的稳定性;
2、自动阔缩容:平台提供多种业务自动扩缩容策略,确保并发增加时业务的稳定性;
3、高并发稳定:推理主要是高并发稳定性,我们现在线上最大的业务,每个月1000亿token。