无问芯穹一站式AI平台_模型预训练服务平台

无问芯穹一站式AI平台

在 AI 蓬勃发展的当下，无问芯穹一站式 AI 平台为从业者提供坚实支撑。作为 Paas 平台，它让大模型开发与研究者 “拎包入驻”，集模型预训练、推理、灵活算力、平台订阅、加速优化等服务于一体，满足多样 AI 需求，助力科研成果快速落地。

立即咨询

云端智算平台：Paas，全栈支持大模型高效敏捷开发 icon

PaaS平台：让大模型开发与研究者拎包入驻。

一站式AI平台重点功能 -- 监控 icon

更全面的监控

支持开发机，任务，推理服务等场景

提供多种多样的指标监控，来满足不同的需求，尤其是业务场景。

更精准的监控

每30秒更新一次数据，确保数据及时，可靠。
为问题定位，数据分析，业务支持提供精确的保障。

资源监控

适用于开发机，训练任务，推理服务，反映显卡、显存、内存、CPU等使用情况。

业务监控

适用于选择了「特定预置镜像」的推理服务，提供每秒请求数、流量等推理业务通用指标。

LLM 场景业务监控

使用「大模型专用镜像」，可提供 TTFT(生成首个 Token 的时间)、总 Token 数等LLM 业务指标。

一站式AI平台重点功能 -- 监控 icon

事件监控与通知

平台会记录任务在生命周期中的所有事件和查看，并且支持对任务生命周期内的事件发送通知。
亮点：
· 任务的全生命周坝记录，方便查看与追溯。

· 任务异常发生可以第一时间通知，缩短排查与解决时间。

任务的日志和可视化

支持用户将在训练过程中的TensorBoard 日志保存在挂载存储中，并且可以对日志进行可视化。
亮点：
· 日志可以在挂在储存保存，方便用户使用。

· 网页端实现TensorBoard日志可视化，无需用户自己准备TensorBoard环境和繁琐的敲打命令，一键式操作，方便用户查看。

一站式AI平台重点功能 -- 调度 icon

平台己包含多种调度策略，可以满足资源隔离的要求，也可以提高资源使用率，任务运行效率。
Gang调度
· 在分布式训练任务中，避免占用POD而最后运行失败的情况发生，从而避免资源浪费。

反Gang调度
· 在推理服务中，在部分资源满足的情况下，部分任务就可以开始运行，从而减少资源空闲时问，提高资源使用率，提高任务运行效率。
反碎片化
· 通过反碎片化，预留整机资源，避免资源数量足够但无法起多机多卡任务的情况发生，从而提高资源的使用效率，提高任务运行效率。
租户内组内资源共享与租户内组间资源租借
· 允许租户内创建分组，并且分配资源，组内用户可以共享资源，且组与组之间资源隔离。保障每个组的资源独立性。

· 同时也可以允许组内资源不足，其他组资源空闲，从其他组租借资源，当其他组需要使用资源时，则自动归还，不影响其他组使用，从而提高资源使用率。
其他调度策略…

一站式AI平台重点功能 -- 训练任务容错 icon

训练前、失败后自动进行检测，检测涵盖计算节点、存储、网络。

如遇异常，自动重启进程或重调度至健康节点。

全程被日志记录，可以查看和追溯，方便定位问题，缩短debug时间。

大模型任务容错系统实验结果 icon

175B的GPT3-3模型在512个A100GPU上的端到端训练时间从118天缩减为85天，训练整体效率提升28%。

平均在10分钟内完成了任务的重启。

收集真实大模型训练任务数据，共13个正常数据和 11 个出错的数据。

LOF 和 NProfile 都能够全部预测成功所有 11 个出错的任务。

GPT3-7B的save和load性能分别提升10X和7.5X。

GPT3-175B的save和load性能分别提升了20X和16X。

一站式AI平台重点功能 -- 推理扩缩容 icon

平台对推理服务提供扩缩容功能，包括

手动扩缩容：手动增减推理服务的基础实例数量。

定时扩缩容：允许设置定时扩缩容任务。

自动扩缩容：允许以推理服务的资源监控指标为依据，动态增减实例数量。
亮点：
> 在业务高峰期，可以增加服务实例数量，从而更好地满足业务需求，提高业务的稳定性.

> 在业务低谷期，可以减少服务实例数量，从而减少资源占用，提高资源使用效率。

一站式AI平台功能 -- 开发机Docker功能 icon

允许用户在开发机内运行Docker，从而提供更高的灵活性和隔离性。

在此功能下，客户可以在开发机内便捷构建镜像，并将镜像推送到租户私有镜像仓库。测试容器化应用。

让用户可以从裸机无感切换到开发机。

五种方案解决针对性解决五大应用场景！ icon

模型预训练服务

业务定位

以研发新的通用大模
型、垂类模型为目标。

模型推理服务

业务定位

以提供自研大模型推
理服务为目标。

灵活算力服务

业务定位

以满足学术任务及科
研等短时任务为目标。

平台订阅服务

业务定位

以平台服务链接最终使用用户为目标。

加速优化服务

业务定位

以加速推理速度，提升
用户业务体验为目标。

面向模型预训练场景

客户需要一整套云服务资源，包含：大规模的GPU算力资源、高性能存储及网络等基础设施，从而在既定时间点高效地完成大模型的预训练。

场景痛点
1、需要快速能够交付的算力和高性能存储

2、拿到算力后需要快速把卡用起来
3、需要稳定的使用机器
4、需要自己的任务有最好的性能

5、需要灵活的多用户、账号、存储、权限管理

6、需要提升机器的整体使用率

7、必须要使用国产化的算力

面向模型预训练场景

解决方案
算力极速交付，平台稳定易用
· 具备充足的自有资源、完善的供应链体系、敏捷地交付能力及高效系统设计实现算力极速交付。
· 硬件设备已经过充分验证、无单一节点风险，整体服务提供托管式运维、系统具各任务容错能力最终实现算力的稳定使用。
业务深度加速，性能压榨极致
· 具备高标准硬件、自研训练框架及镜像加速服务最终实现训练任务的极致性能。
· 完善的资源监控能力、多样化的调度策略及集群资源共享，极致压榨集群资源提升机器整体的利用率。
灵活分级权限，资源精细化管理
· 无问芯穹具备灵活的权限管理及资源管理功能，满足客户多团队协调使用要求。

面向大模型自研推理场景 icon

模型公司与AI业务应用公司，专注于提供自研大模型或经过微调的大模型推理服务，整体工程架构会有更复杂推理服务Pipeline。

场景痛点
1、需要快速能够交付的算力和存储

2、需要稳定的使用机器
3、需要灵活的链接到已有的自身业务系统中

4、需要保证端到端的业务性能
5、业务模式决定了整租机器会导致浪费

面向大模型自研推理场景 icon

媲美原生K8S使用，业务组件灵活接入
· 提供容器服务产品天然适配业务，与开源K8S版本使用一致，且用户整体业务免运维，实现业务的灵活接入。
· 容器服务产品化支持用户推理服务pipeline中的各个应用组件，确保用户使用可实现业务的灵活接入。
全流程监测监控，确保端到端性能
· 容器服务可获取集群的监控信息，实现告警信息发布，保障集群的正常运行。
· 相比于传统K8S产品封装了推理服务优化、推理服务容错等功能，有效保证端到端的业务性能。
软硬件动态扩缩容，有效提高资源利用率
· 支持集群在分钟级别上实现硬件资源快速扩缩容，灵活地应对不同的业务需求和负载变化。
· 支持推理服务的扩缩容，根据推理服务的实际需求和负载情况，动态地调整资源分配，提高资源利用效率。

灵活应用算力场景

灵活应用算力场景

需要学术加速

无问芯宫快速解决github、docker网速慢，huggingface镜像站下载、模型参数下载的问题。
需要更快更省的使用机器

平台资源充足、使用便捷，可实现分钟级的启动和应用，同时通过权限管理能够使资源利用最大化。
需要比裸机更方便的使用机器

平台使用体验与裸机基本一致，通过内置基础镜像、支持dind的模式，用户使用过更简单。
需要更灵活的商业模式

平台提供灵活的计费方式、使用方式和退费方式，解决客户费用方面的各种问题。

业务场景：平台授权

算力供应商，以裸机方式提供算力，而算力供应商的算力用户，需要平台来使用算力来更好地实现开发、训练、推理等应用，而算力供应商没有能力提供平台。

业务场景：平台授权

解决方案
平台缺失
提供无问芯穹一站式AI云平台
平台部署支持算力供应商的N,AMD集群，和国产集群，如华为，沐曦，天数，摩尔，燧原，壁仞等。
平台具备完整功能，如开发机，训练任务，推理服务，容错，监控等。
平台部署慢
快速平台部署，交付即可用
平台标准化部署能力，依托无问芯宫的强大的硬件运营与交付团队，实现“天”级交付。平台已适配NV，AMD以及国产算力芯片，交付即可用。
平台不易用
和裸机一致的使用体验，支持开发，训练，推理

平台提供开发机，训练任务，推理服务等功能，并且提供容错，监控功能，使得平台好用，更易用可以像使用裸机一样使用开发机，无缝切换到平台使用。

推理加速与优化场景

推理加速与优化场景

无穹通过自研推理引擎以及模型量化、workflow优化等方面的服务，提升用户体验。

1、端到端极致优化：提供定制的优化服务，可针对端到端的任务，针对业务对推理的效果、推理速度去做更极致的优化，包括模型量化、worfow优化等方面的服务。

2、自研引擎性能提升：性能方面，自研推理引擎2K文本长度优于VLLM等开源主流框架，10K以上目前持平；

无穹通过自研推理引擎和优化，提升业务的性能和吞吐量，极大的降低推理的成本。

1、性能提升：通过自研推理引警，提高算力资源的推理性能，降低成本；

2、吞吐提升：通过优化提升吞吐量，提升业务效率，增强业务体验的同时降低成本。

无穹通过自研推理引擎，提供自动扩缩容、保证高并发的稳定性，从而确保业务的稳定性。

1、自研推理引擎：可以和业务深度融合，自主可控保证框架的稳定性；

2、自动阔缩容：平台提供多种业务自动扩缩容策略，确保并发增加时业务的稳定性；

3、高并发稳定：推理主要是高并发稳定性，我们现在线上最大的业务，每个月1000亿token。

产品推荐

致远互联数据交换引擎

致远互联通过先进、敏捷的集成开发工具数据交换引擎（DEE），是立足于致远协同管理平台与异构业务系统（第三方系统）进行数据交换的协同应用中间件。

免费试用

查看详情

Talend B2B整合

Talend使公司能够与业务合作伙伴进行智能连接，交易和集成，而无需复杂性。

免费试用

查看详情

好会计外贸行业票财税方案

好会计外贸行业票财税方案，智能采集外销票据，适配各类外销企业。外销业务票据，智能识别结算，币种、结算汇率、原币金额。大幅提升做账效率及准确性，缩减反复审核工作量，100%节约录单、分单时间。

免费试用

查看详情

壹合原码商场监控平台

壹合原码商场监控平台，支持多种类型包括摄像头，实现对于不同业务场景环境24h的全感知监测，提升企业安全生产、安全管理的水平和效率。灵活的模块化设计，可根据客户业务形态灵活选择交付形态：软硬件分开/软硬一体、公有云/私有云/边缘盒子等多样化产品方案，从而经济、高效的满足不同规模、不同应用方式的多种类型客户需求。

免费试用

查看详情