icon客户痛点及共性需求icon
集群规模小
AIGC/大模型百卡千卡级别集群,需要提升资源利用率及细粒度资源调度。
 
 
昇腾云具备万卡规模
资源成本高
大模型/AIGC推理业务波峰波谷明显需要快速扩缩容能力,减少推理业务成本。
 
 
根据业务需求实时弹性扩容
训练中断多
大模型/自动驾驶训练:单次训练模型GPU/NPU故障率高。
大模型/AIGC推理:大规模推GPU/NPU故障率高,推理服务异常。
NPU 30天不间断
工程能力弱
使用开源大模型,大模型工程化能力弱,无法快速构建大模型训练能力。
可视化工程调优工具
模型调优难
大模型/AIGC开源新模型层出不穷,模型调优难,需要有经验的调优专家。
昇腾云调优专业服务
建设周期长
大模型/AIGC/自动驾驶 算力获取难高端N卡供货周期长,很难快速组建大规模训练/推理场景。
服务小时级开通
icon华为人工智能自主创新,深耕根技术,市场份额国内领先icon

 

icon开放兼容,极致性能,昇腾云服务构筑全栈AI自主可控icon
丰富的昇腾生态
• El Gallery社区与MindSpore社区生态繁荣,汇集开发者80W+,沉淀行业资产2000+。
行业应用广泛适配昇腾芯片
• 支持5类典型三方大模型,支撑千卡级别训练。
• 完全支持兼容主力场景的算子、框架功能,接口。
• 矿山、电力等行业预训练大模型适配昇腾芯片。
• 自动驾驶,AIGC,大模型等解决方案适配昇腾芯片。
AI根技术基于昇腾深度优化
• 训练&推理加速:三层加速+昇腾算力,典型模型性价比领先友商30%。
• 统一资源调度:弹性调度、训练&推理融合调度、优先级抢占竟价实例等调度能力实现资源极致利用,综合分配率达90%,资源发放<30分钟。
• 诊断&快恢:智能运维,分钟级信息获取、2小时定界、任务恢复时长<30分钟。
AI开发平台ModelArts全栈自主可控
• ModelArts围绕昇腾推出Standard/Lite/Edge方案。
• 提供三方大模型工具链,支持大模型调优&工具链集成。
• 集成昇腾全栈的开发工具,云化免配置,开箱即用。
• 提供迁移/调试工具,自动算法迁移分析,一键迁移,精度自动比对,分布式训练调测、性能profiling、算子优化。
icon异腾云服务 三大Offering满足用户不同场景需求icon
ModelArts Lite
K8S原生接口,业务快速迁移;三层加速提升NPU训练性能,典型模型性能提升30%
ModelArts Standard
端到端的模型生产工具链,高效、易用的AI开发训练、推理
ModelArts Edge
边云协同推理,高效利用边缘资源
关键能力
• AI三层加速(推理加速/训练加速/数据缓存)
• 性能领先友商30%,提升华为云大模型训推性价比
• Serverless Al容器资源弹性,提供秒级NPU容器扩缩容能力,提升大模型推理性价比
关键能力
• 提供端到端生产工具链,一致性开发体验
• 提供AI工程化能力,实现AI全流程生命周期管理
• 容错能力强,故障恢复快
关键能力
• 高性价比:两级推理,降低用户使用成本
• 资源统一调度:支持本地集群以及负载均衡
• 高效运维:云上统一运维多个边缘设备
• 开放生态:支持第三方应用部署,无缝切换
icon三方开源大模型:支持30+三方开源大模型,加速客户大型业务上线icon
关键能力
① 构建大模型应用开发工具链,使能大模型开箱即用
• 构建大模型应用开发工具链,完善云上数据清洗|模型微调部署|Prompt|评测|Agent,大模型应用开发效率提升1倍;
原生昇腾云组件Agent,构建“大模型+云组件”组合竞争力,如搜索Agent,大数据Agent等,使能云上存量用户零迁移构建大模型应;
支持业内主流大模型应用开发框架:兼容主流应用框架GPU生态应用“零”改造迁移。
②提供昇腾版主流开源大模型

支持30+业内主流大模型,精度、性能超越同代N卡大模型30%;
回馈社区,内源代码、镜像、性能benchmark三层开放引领客户技术选型,同源大模型昇腾开发周期由月降至天。
③提供昇腾版大模型工具链,GPU大模型100%覆盖迁移
提供昇腾大模型原生应用开发工具链及三方大模型工具链,支持大模型调优&工具链集成,丰富用户选择。

 

icon昇腾云支持开源大模型路标规划 - 聚焦主流模型,快速批量复制icon

适配进度:异腾适配调优进度,支持昇腾云即开即用体验    泡泡大小:市场热度

 

icon全栈自主可控的AI开发平台ModelArts市场份额国内领先icon

 

icon针对场景算法进行深度优化,实现业界最优性能icon

 

icon昇腾云服务ModelArts大规模分布式训练能力,加速大模型研发icon

 

icon昇腾云服务为自动驾驶业务打造安全合规、可高效迭代的数据闭环方案icon

 

icon昇腾云服务完善的调优工具实现AIGC模型的性能提升icon
应用效果
SD模型推理使用异腾可替换V100,性能提升可达33%
1. 模型全满足:Stable Diffusion中的TextEncoder、VaeEncoder、unet、VaeDecoder、SafetyChecker模型全满足。
2. 模型转换:分钟级模型转换提供coverter lite模型转换工具将onnx转换成mindir(mindspore)。
3. 自动调优:自动图优化,生成调优策略、编译、在NPU芯片上验证的闭环反馈机制,不断选代出更优的调优策略。
4.性能&精度校验:提供Benchmark工具,定量分析推理耗时,指定模型输出进行精度误差分析,保证从NVIDIA到昇腾切换后性能提升&精度无损。
icon通用AI全面适配异腾,基于大模型提供丰富API能力icon

 

iconMindSpore原生支持大模型开发,干亿参数模型调优时间缩短60%icon

 

icon昇腾云服务针对国产MindSpore进行深度优化,广泛兼容主流框架icon

 

icon高效迁移:提供全流程昇腾迁移工具链,主流场景算法支持一键迁移icon
关键竞争力
提供高效昇腾迁移工具链,迁移效率提升4倍:
• 标准化迁移路径与全栈云化昇腾工具链支撑落地:系统化的昇腾迁移路径,以及全栈迁移、开发工具链支撑迁移路径落地提供自动调优系统及故障自动分析定界工具,迁移效率提升4倍。
• 典型场景快速迁移:自动驾驶、AIGC、大模型等场景,定制化迁移版,典型场景迁移至生产环境<2周。
云化工具链底座,按天迭代体验提升:
• 基于ModelArts studio工具链底座:全链路工具通过插件化方式最终集成在ModelArts Studio中,统一入口和工作台,避免在不同工具之前跳转。
• 工具插件化集成免配置按天迭代,性能调优助手,精度校验工具,迁移分析,代码、权重迁移助手等20+开发工具云化集成,支持按天迭代,自动匹配最新的开发工具与能力,免配置。
• 内置丰富工具使用最佳实践:最佳实践模板工具使用与典型迁移场景功能挑战15分钟上手。
关键路标
2023
训练&推理迁移工具链完备提供增强迁移工具、调试调优工具,保障NLP/CV大模型典型迁移效率。
2024
AI全流程昇腾迁移工具链,提供客户侧可用、易用的训练、推理迁移调优工具,支撑客户自主昇腾迁移。
2025
昇腾代码转换工具具备,高效迁移GPU训练态。
icon大模型迁移工具助力客户业务快速上线icon

 

icon大模型训练迁移昇腾云服务,性能与NV持平icon

 

icon昇腾云CANN沉淀1400+算子,支持业界主流AI框架,900+主流算法icon

 

iconEI Gallery:一站式数据和AI市场,构建百模千态的开放昇腾社区icon
昇腾开源模型专区
提供开源模型昇腾适配版本覆盖业内主
开源算法模型异腾模型资产即开即用

开放昇腾生态
开发者自研模型社区共亨
共同筑建昇腾生态发展

活跃生态社区
800.000+开发者构建活跃的生态
社区交流推动昇腾能力持续优化
icon构建昇腾迁移专业服务,支撑昇腾云服务客户快速迁移icon

培训课程赋能昇腾化改造,搭配昇腾迁移专业服务,建设核心伙伴梯队联合构建服务能力,帮助客户快速构建推理训练调优能力

 

icon美图“AI绘画”火爆全网,昇腾云服务ModelArts支撑业务快速创新icon

 

icon鹏城实验室加速科研创新和构建产业生态,带动深圳数字经济发展icon
分布式训练加速与可靠性
• DataTurbo分布式缓存提供本地SSD级读取性能,支持线性扩展,PB级训练数据集加载。
• 分布式日志管理和自动容错能力,提升大模型训练效率和使用体验。

分布式通信优化
• 多维度自动混合并行:支持数据、模型、流水线3D并行。
• 高效参数同步算法:3D AllReduce HD同步算法。

分布式路由自动规划
• 拓扑感知调度与集群通信优化:实现无阻塞通信,256卡以上可达30%性能提升。
icon山东能源集团基于昇腾云服务,实现AI工业化落地icon
单昇腾云服务使能企业AI落地
• 企业全栈国产化AI训练中心:建设全栈自主技术的AI训练中心,多场景实现一键迁移
• 基于低成本算力,AI模型工业化生产:矿山大模型套件覆盖煤矿行业100+高价值业务场景
• 性能深度优化,实现端到端的MLOps监控:通过弹性调度等技术,全面释放昇腾算力潜能,实现以业务为中心的AI模型持续运维
赋能煤矿AI场景开发
• 模型准确率提升:大模型相比小模型的算法准确率提升>15%
• 泛化能力提升:相比小模型,数据需求量降低30%以上
• 主运皮带监测场景:异物识别精度>98%;检测效率提升10-100倍
• 智慧配煤场景:焦炭质量预测模型精度>95%
icon昇腾云训练平台为华为智能汽车BU提升训练效率icon
业务痛点
• 单次训练数据量几十TB,需要从远端下载影响训练性能。
• 干卡大集群分布式训练整体性能衰减。
• 干卡级训练任务的底层故障频发,会导致训练任务失败率高。

解决方案
• 专为大数据量设计的昇腾集群,可提供百T级分布式数据缓存能力,加速数据加载效率。
• 昇腾组网优化,自动并行、动态路由规划,减少通信损耗,提升分布式训练效率提升20%。
• 基于昇腾构建了,30+类异常问题预检,并提供训练自动恢复能力,提示训练稳定性,故障率低于0.5%。

 

产品推荐 查看更多>>