立即咨询

电话咨询

微信咨询

立即试用
商务合作

无问芯穹一站式AI平台

在 AI 蓬勃发展的当下,无问芯穹一站式 AI 平台为从业者提供坚实支撑。作为 Paas 平台,它让大模型开发与研究者 “拎包入驻”,集模型预训练、推理、灵活算力、平台订阅、加速优化等服务于一体,满足多样 AI 需求,助力科研成果快速落地。
立即咨询
icon云端智算平台:Paas,全栈支持大模型高效敏捷开发icon

PaaS平台:让大模型开发与研究者拎包入驻。

 

 

icon一站式AI平台重点功能 -- 监控icon
更全面的监控
支持开发机,任务,推理服务等场景
提供多种多样的指标监控,来满足不同的需求,尤其是业务场景。
更精准的监控
每30秒更新一次数据,确保数据及时,可靠。
为问题定位,数据分析,业务支持提供精确的保障。
资源监控
适用于开发机,训练任务,推理服务,反映显卡、显存、内存、CPU等使用情况。
业务监控
适用于选择了「特定预置镜像」的推理服务,提供每秒请求数、流量等推理业务通用指标。
LLM 场景业务监控
使用「大模型专用镜像」,可提供 TTFT(生成首个 Token 的时间)、总 Token 数等LLM 业务指标。

 

 

 

icon一站式AI平台重点功能 -- 监控icon
事件监控与通知
平台会记录任务在生命周期中的所有事件和查看,并且支持对任务生命周期内的事件发送通知。
亮点:
· 任务的全生命周坝记录,方便查看与追溯。
· 任务异常发生可以第一时间通知,缩短排查与解决时间。
任务的日志和可视化
支持用户将在训练过程中的TensorBoard 日志保存在挂载存储中,并且可以对日志进行可视化。
亮点:
· 日志可以在挂在储存保存,方便用户使用。
· 网页端实现TensorBoard日志可视化,无需用户自己准备TensorBoard环境和繁琐的敲打命令,一键式操作,方便用户查看。
 

 

icon一站式AI平台重点功能 -- 调度icon

平台己包含多种调度策略,可以满足资源隔离的要求,也可以提高资源使用率,任务运行效率。
Gang调度
· 在分布式训练任务中,避免占用POD而最后运行失败的情况发生,从而避免资源浪费。

反Gang调度
· 在推理服务中,在部分资源满足的情况下,部分任务就可以开始运行,从而减少资源空闲时问,提高资源使用率,提高任务运行效率。
反碎片化
· 通过反碎片化,预留整机资源,避免资源数量足够但无法起多机多卡任务的情况发生,从而提高资源的使用效率,提高任务运行效率。
租户内组内资源共享与租户内组间资源租借
· 允许租户内创建分组,并且分配资源,组内用户可以共享资源,且组与组之间资源隔离。保障每个组的资源独立性。

· 同时也可以允许组内资源不足,其他组资源空闲,从其他组租借资源,当其他组需要使用资源时,则自动归还,不影响其他组使用,从而提高资源使用率。
其他调度策略…

 

 

icon一站式AI平台重点功能 -- 训练任务容错icon

训练前、失败后自动进行检测,检测涵盖计算节点、存储、网络。

如遇异常,自动重启进程或重调度至健康节点。

全程被日志记录,可以查看和追溯,方便定位问题,缩短debug时间。

 

 

icon大模型任务容错系统实验结果icon

175B的GPT3-3模型在512个A100GPU上的端到端训练时间从118天缩减为85天,训练整体效率提升28%。
平均在10分钟内完成了任务的重启。
收集真实大模型训练任务数据,共13个正常数据和 11 个出错的数据。
LOF 和 NProfile 都能够全部预测成功所有 11 个出错的任务。
GPT3-7B的save和load性能分别提升10X和7.5X。
GPT3-175B的save和load性能分别提升了20X和16X。

 

icon一站式AI平台重点功能 -- 推理扩缩容icon

平台对推理服务提供扩缩容功能,包括

手动扩缩容:手动增减推理服务的基础实例数量。

定时扩缩容:允许设置定时扩缩容任务。

自动扩缩容:允许以推理服务的资源监控指标为依据,动态增减实例数量。
亮点:
> 在业务高峰期,可以增加服务实例数量,从而更好地满足业务需求,提高业务的稳定性.

> 在业务低谷期,可以减少服务实例数量,从而减少资源占用,提高资源使用效率。

 

 

icon一站式AI平台功能 -- 开发机Docker功能icon
 
允许用户在开发机内运行Docker,从而提供更高的灵活性和隔离性。

在此功能下,客户可以在开发机内便捷构建镜像,并将镜像推送到租户私有镜像仓库。测试容器化应用。

让用户可以从裸机无感切换到开发机。

 

icon五种方案解决针对性解决五大应用场景!icon
模型预训练服务
业务定位
以研发新的通用大模
型、垂类模型为目标。
模型推理服务
业务定位
以提供自研大模型推
理服务为目标。
灵活算力服务
 业务定位
以满足学术任务及科
研等短时任务为目标。
平台订阅服务
业务定位
以平台服务链接最终使用用户为目标。
加速优化服务
业务定位
以加速推理速度,提升
用户业务体验为目标。

 

icon面向模型预训练场景icon

客户需要一整套云服务资源,包含:大规模的GPU算力资源、高性能存储及网络等基础设施,从而在既定时间点高效地完成大模型的预训练。

 
场景痛点
1、需要快速能够交付的算力和高性能存储
2、拿到算力后需要快速把卡用起来
3、需要稳定的使用机器
4、需要自己的任务有最好的性能
5、需要灵活的多用户、账号、存储、权限管理
6、需要提升机器的整体使用率
7、必须要使用国产化的算力

 

icon面向模型预训练场景icon
解决方案
算力极速交付,平台稳定易用
· 具备充足的自有资源、完善的供应链体系、敏捷地交付能力及高效系统设计实现算力极速交付。
· 硬件设备已经过充分验证、无单一节点风险,整体服务提供托管式运维、系统具各任务容错能力最终实现算力的稳定使用。
业务深度加速,性能压榨极致
· 具备高标准硬件、自研训练框架及镜像加速服务最终实现训练任务的极致性能。
· 完善的资源监控能力、多样化的调度策略及集群资源共享,极致压榨集群资源提升机器整体的利用率。
灵活分级权限,资源精细化管理
· 无问芯穹具备灵活的权限管理及资源管理功能,满足客户多团队协调使用要求。
icon面向大模型自研推理场景icon

模型公司与AI业务应用公司,专注于提供自研大模型或经过微调的大模型推理服务,整体工程架构会有更复杂推理服务Pipeline。

 
场景痛点
1、需要快速能够交付的算力和存储
2、需要稳定的使用机器
3、需要灵活的链接到已有的自身业务系统中
4、需要保证端到端的业务性能
5、业务模式决定了整租机器会导致浪费

 

icon面向大模型自研推理场景icon
媲美原生K8S使用,业务组件灵活接入
· 提供容器服务产品天然适配业务,与开源K8S版本使用一致,且用户整体业务免运维,实现业务的灵活接入。
· 容器服务产品化支持用户推理服务pipeline中的各个应用组件,确保用户使用可实现业务的灵活接入。
全流程监测监控,确保端到端性能
· 容器服务可获取集群的监控信息,实现告警信息发布,保障集群的正常运行。
· 相比于传统K8S产品封装了推理服务优化、推理服务容错等功能,有效保证端到端的业务性能。
软硬件动态扩缩容,有效提高资源利用率
· 支持集群在分钟级别上实现硬件资源快速扩缩容,灵活地应对不同的业务需求和负载变化。
· 支持推理服务的扩缩容,根据推理服务的实际需求和负载情况,动态地调整资源分配,提高资源利用效率。

 

icon灵活应用算力场景icon

 

 

icon灵活应用算力场景icon
 
需要学术加速
无问芯宫快速解决github、docker网速慢,huggingface镜像站下载、模型参数下载的问题。
需要更快更省的使用机器
平台资源充足、使用便捷,可实现分钟级的启动和应用,同时通过权限管理能够使资源利用最大化。
需要比裸机更方便的使用机器
平台使用体验与裸机基本一致,通过内置基础镜像、支持dind的模式,用户使用过更简单。
需要更灵活的商业模式
平台提供灵活的计费方式、使用方式和退费方式,解决客户费用方面的各种问题。

 

icon业务场景:平台授权icon

算力供应商,以裸机方式提供算力,而算力供应商的算力用户,需要平台来使用算力来更好地实现开发、训练、推理等应用,而算力供应商没有能力提供平台。

 

icon业务场景:平台授权icon
解决方案
平台缺失
提供无问芯穹一站式AI云平台
平台部署支持算力供应商的N,AMD集群,和国产集群,如华为,沐曦,天数,摩尔,燧原,壁仞等。
平台具备完整功能,如开发机,训练任务,推理服务,容错,监控等。
平台部署慢
快速平台部署,交付即可用
平台标准化部署能力,依托无问芯宫的强大的硬件运营与交付团队,实现“天”级交付。平台已适配NV,AMD以及国产算力芯片,交付即可用。
平台不易用
和裸机一致的使用体验,支持开发,训练,推理
平台提供开发机,训练任务,推理服务等功能,并且提供容错,监控功能,使得平台好用,更易用可以像使用裸机一样使用开发机,无缝切换到平台使用。

 

 

icon推理加速与优化场景icon

 

 

 

icon推理加速与优化场景icon

无穹通过自研推理引擎以及模型量化、workflow优化等方面的服务,提升用户体验。

1、端到端极致优化:提供定制的优化服务,可针对端到端的任务,针对业务对推理的效果、推理速度去做更极致的优化,包括模型量化、worfow优化等方面的服务。

2、自研引擎性能提升:性能方面,自研推理引擎2K文本长度优于VLLM等开源主流框架,10K以上目前持平;

无穹通过自研推理引擎和优化,提升业务的性能和吞吐量,极大的降低推理的成本。

1、性能提升:通过自研推理引警,提高算力资源的推理性能,降低成本;

2、吞吐提升:通过优化提升吞吐量,提升业务效率,增强业务体验的同时降低成本。

无穹通过自研推理引擎,提供自动扩缩容、保证高并发的稳定性,从而确保业务的稳定性

1、自研推理引擎:可以和业务深度融合,自主可控保证框架的稳定性;

2、自动阔缩容:平台提供多种业务自动扩缩容策略,确保并发增加时业务的稳定性;

3、高并发稳定:推理主要是高并发稳定性,我们现在线上最大的业务,每个月1000亿token。

 

 

产品推荐

腾讯云一站式等保安全解决方案
腾讯云一站式等保安全解决方案提供全面的网络安全等级保护,帮助企业快速满足国家等保合规要求。依托腾讯云合规资质和专家团队,降低合规成本,提供从测评到整改的一站式服务,确保企业网络安全,提升合规效率。
免费试用
查看详情
一心向上ESOP科创板企业股权激励咨询服务
一心向上ESOP针对科创板企业,提供专业的股权激励咨询服务。我们有先进的股权激励ESOP系统,能精准满足企业需求。同时,凭借丰富经验开展股权激励方案设计,助力科创板企业吸引人才、稳定团队,激发员工积极性,保障企业稳健发展。
免费试用
查看详情
数据智能决策平台
数据智能决策平台是一站式决策服务开发和管理平台,帮助企业将业务型决策快速转换成可自动化执行的在线决策服务,实现企业业务数字化、自动化、智能化、可分析。
免费试用
查看详情
差旅管家Tripwise商务出行管理平台
差旅管家Tripwise商务出行管理平台,差旅管家已与超过90%的数字化系统服务商达成深度合作,接数十家的主流OA/财务/费控系统,实现全链路的闭环管控。深度融合钉钉技术开发,深度对接各个OA系统,深度融合每刻费控技术开发。
免费试用
查看详情