北京天云融创软件技术有限公司(简称天云)是一家专注于云计算、高性能计算和智能计算领域的创新型科技企业。公司一直秉承自主研发的理念,为客户提供优质的平台化软件开发、完善的一体化解决方案以及高质量的运维服务,帮助客户突破算力瓶颈,解决繁杂的云服务管理困扰。
智算云平台是天云公司的核心产品线之一,该产品线由智算云门户、算力调度系统和算力应用平台组成,它能为用户提供一体化、端到端的智能计算和高性能计算服务。
天云智算云平台示意图
智算云平台是一个综合性计算服务平台,其不但提供应用 SaaS化、分布式计算、大模型服务等关键能力,而且还提供平台运营、运维监控管理等管理能力,它可以服务于不同领域不同用户人群,比如:
1)为工业制造、人工智能领域的最终用户:
获取更高的算力:通过提供的智能计算和并行计算能力,突破瓶颈。
更快的选代速度:智能化调度系统支持多批次高密度、高强度计算任务。
更多的应用场景:应用集成能力满足工业、智算、医疗等诸多领域需求。
更省使用成本:细粒度资源租赁、按需计费等多种模式节约成本。
2)为运营方、管理者提供以下能力:
完备的运营能力:支持平台多租户管理、充值计费、运营分析等功能
解决安全及管理问题:满足安全保密测评、审计、安全漏扫等要求。
强大的运维支撑工具:支持集群多维度管理监控、提供 ITIL支撑工具。
ShyForm 算力应用平台是智算云平台产品线的关键组成部分,它是一个向下对接算力调度系统,向上为算法、设计、仿真、AI工程师提供可视化交互服务的门户系统,它为用户和管理者提供了调度器没有的应用图形化、数据管理、智算交互、多租户运营、容器管理、训练计算及安全管控等功能。平台提供丰富的智算及工程领域应用集成、快速的应用云服务化能力、端到端的业务流管理,规范的资源、数据和应用许可授权治理,高效的资源管控和调度,像本地一样便捷灵活地使用智算应用和工程应用能力。
SkyForm 算力应用平台支持统一管理调度多种计算资源实现工业仿真计算和智能计算,通过可视化页面为用户提供所见即所得的本地化开发设计及训练仿真体验,目前平台与 SkyForm 算力调度系统已做深度集成,可支持该调度系统的所有功能,包括容器调度、Kubernetes 集群调度等。
如下是平台的总体结构图
图:产品结构图
通过产品结构图可简要了解产品的功能及可支撑的业务范围:
资源层:
skyForm 算力应用平台不但支持 Linux 仿真计算、科学计算、智能计算,同时支持在 windows 环境上完成开发设计及仿真作业。windows 环境上的开发与设计应用可视化采用的是其操作系统的远程会话机制,无需在集群中部署虚拟化环境,降低了集群 「结构复杂度,避免了异构资源建设带来的浪费。目前 skyFom算力应用平台已经和常见的国产化CPU进行了适配,取得了相应的兼容证明可以满足国产化集群需求。
调度层:
调度器是超级计算和智能计算的核心,拥有自主产权的 SkyForm 算力调度系统是天云的明星产品,其主要负责将用户的开发设计、仿真、训练任务根据资源情况和调度策略进行调度,调度服务支持十几种策略,并且支持按照用户、调度组、队列、主机、CPU和 GPU等多个维度资源的混合调度。调度层支持对接其他调度器如 LSF、SLURM,形成统一的调度资源池,屏蔽调度架构的异构化,为上层服务提供统一的调度命令和接口。SkyForm算力调度系统是天云自主研发的调度产品,其不但能支持传统应用仿真计算,同时可以支持AI 框架进行分布式训练和智能计算,与常见的 AI 框架完成集成。
服务层:
skyForm 算力应用平台服务层主要包含用户门户服务以及运营/运维管理服务,这两类服务主要为对应的门户提供支撑,用户门户服务包含开发与设计、仿真与训练、容器管理、版本管理、作业管理、数据管理、专属集群、资源动态远程可视化、租户管理、应用商城和充值计费等服务,通过这些服务为用户提供便捷的开发设计、训练仿真一体化工作台。在运营/运维管理服务中包含仪表盘集群管理、应用管理、项目管理、监控告警、统计分析、资产管理、计费管理、权限管控、工单管理等服务,这些服务可以保证平台管理员实现对系统的统一运营和应用集成,为实现智能化、自动化运营提供了基础条件。
页面层:
skyForm 算力应用平台页面层主要分为用户门户和管理门户,用户门户提供多种交互风格,用户可按使用习惯自主选择仿 windows 风格或菜单风格的门户方便普通用户快速进行开发设计、仿真、训练、共享协作等相关工作。管理门户采用传统风格,提供严谨准确的系统管理地图,为管理员解决运营各方面的问题。
skyForm 算力应用平台作为智算云平台的核心组成部分,其可以应用于多个不同行业领域,适配不同的业务场景,比如适用于:
·人工智能、深度学习、生成式大模型多机多卡训练场景;
·超算、高性能计算、大数据融合等场景;
·航空、航天、汽车、轨道交通等高端制造业的研发设计流程;
·半导体、集成电路 EDA 产业链相关电路设计流程;
·能源相关的石油勘探、风力发电、航洋工程等;
·医疗科学、生命科学和基因研究工程等;
·政府气候气象、海洋、金融、社会学等相关领域研究;
以上只罗列出部分算力应用平台适用的行业领域及场景,其在实际的生产活动中有更广泛的应用,在此不一一列举,
skyForm 算力应用平台经过多个版本的功能选代及落地项目实施应用,其某些功能特性和其他产品有较为显著的区别,根据产品相关实施项目及其显著特性我们可以从另外一种维度总结出产品高度契合业务场景,这些业务场景和以上描述的行业领域等内容从视角上有所区别,下面做详细说明:
1)资源转售及平台运营类业务:
其运营功能非常适合智算中心项目,可支持智算云对外运营,有多个实际落地案例,同时平台支持产品定制开发合作、联合运营合作、产品+运维服务结合模式,多种商务模式、即插即用的运营特性以及人工智算业务支撑能力可以快速满足客户需求。
2)军工安全保密类计算平台:
产品已完成国产化认证,在三员管理、密级控制及日志审计等安全功能加持下,配合产品积木式功能组合特性可以快速满足军工涉密应用测评相关要求,已实施项目的测评经验可以帮助用户快速上线系统,无后顾之忧。
3)智能计算和传统计算并存的统一平台:
产品集成 AI 应用框架、支持容器管理及传统设计仿真业务,可以满足在同一平台上既能使用当前业务所需的传统工业应用,又能研究代表未来的智能计算类应用及模型。同时平台支持在集群内开辟kubernetes、slurm 集群或者与其他 kubernetes 集群共享节点等新型架构,真正实现一个平台统一所有设计、计算业务。
4)基于混合云的计算调度平台:
产品支持用户分发计算任务到公有云资源中计算,并实现数据同步和用户映射,满足用户本地集群算力不足时通过公有云补充算力缺口的需求,同时亦可通过平台对外转售闲置算力,真正实现算力的削峰填谷、充分利用。
3.1 系统个性化
系统支持用户进行个性化配置,个性化配置包含登录页面、系统图标、背景图、文字内容、系统风格配置等,同时系统亦支持通过业务规则组合不同功能,比如开启/禁用计费、开启/禁用注册用户、开启/禁用存储管理、开启/禁用告警等功能,通过个性化设置可以让用户快速配置出满足其需求的系统。
skyForm 算力应用平台最核心的特性是研发设计/计算一体化及应用集成扩展性,据此核心特性,平台支持用户在用户门户中打开任意集成后的应用图形界面,这些应用不限于初始化的设计类软件,当用户需要使用某一个新的图形类软件时,只需要管理员在管理门户中完成应用的集成,用户即可在桌面门户中使用该应用。
支持对 windows、Linux 图形应用远程可视化,可根据用户控制其可用应用及队列,为用户提供仿 windows 交互体验,支持在平台中集成 WEB 型应用和 APP应用,实现远程图形方式和 URL方式访问应用全覆盖。
支持用户在平台中发起仿真计算、智能计算、训练任务,支持根据文件后缀直接提交任务,可实现在计算应用内部直接提交作业任务并查看计算过程,满足多种用户使用习惯,支持用户向多个集群提交作业实现跨集群计算。提交作业时系统为用户提供资源动态快速浏览功能,比如应用许可、队列及节点资源利用情况,让使用者精准提交作业。
支持 Docker 容器和 Apptainer容器管理,提供 Harbor 仓库用户、项目、镜像全生命周期管理,实现了 Harbor 仓库与调度器的集成对接,提供通过本地文件和远程 URL仓库导入镜像,可对 Docker镜像快速提交作业、进入作业容器等操作,支持对 Apptainer容器镜像文件管理,支持通过 def文件和 Docker容器在线构建 Apptainer 镜像并提交计算作业等。
支持按组织/租户权限为用户提供命令终端连接,命令终端默认启用Apptainer 容器终端,容器终端中只挂载个人用户目录及必要的启动文件目录,此方式有别于传统的ssH命令终端,可有效隔离用户进程,保证用户无法通过系统命令获取其他用户作业信息,包括进程信息等,系统支持设置用户命令终端数量,支持命令终端随用随启、退出页面自动关闭终端作业等功能。
支持用户通过 webSSH 方式进入到其专属主机中,同时在专属主机与外网隔离情况支持用户使用 SSH客户端连入专属主机,灵活开展其业务。
按照用户权限展示其提交的作业任务,可对作业和训练任务进行常规操作如停止、优先级切换、重新调度、置顶置底、图形连接、查看输出等操作,在作业和训练任务中可对其输入文件、输出文件进行操作及预览,可监控作业传统资源和 GPU 资源利用情况,支持普通作业和阵列作业的管理控制,支持租户对其下属作业的管理,作业管理是用户与调度系统的连接渠道,完善的作业管理功能帮助用户事半功倍。
支持对作业数据的归档、删除及常用操作,支持按照密级对数据文件进行分享组和项目组共享,支持租户共享空间和全局只读空间功能,按照数据隔离规范为租户及其用户提供独立的租户目录和租户目录下个人目录隔离功能,提供WEB客户端等多种文件上传下载方式,满足不同数据传输场景和安全需求,系统支持按照业务规则控制是否可下载、是否可复制、是否可用传输客户端、是否可用WEB 文件管理器等特性,实现文件控制精细化管理。
系统为用户提供版本管理功能,用户可对其代码、数据、模型进行版本管理支持用户在系统内创建版本管理的代码项目,对项目进行权限管控,支持对版本文件进行浏览追溯,用户亦可通过高级配置使用深度版本管理功能。
系统支持应用图形分享和数据分享协作,数据分享协作主要通过分享组、项目、租户等数据空间进行文件传递,图形分享主要通过图形链接分享实现。在协作管理中集中展示设计应用和仿真应用图形化连接,为用户提供图形连接的快速访问,支持向多人按照不同操作模式分享图形桌面,实现工作协同提高效率。
系统为组织/租户管理员提供管理功能,租户管理员对租户相关资源和用户进行管理,提供部门、调度组、用户、审核管理、配额管理功能,支持租户管理员进行充值、计费管理,租户账单审计功能。支持在非三员模式下用户自助注册组织/租户,注册用户及找回密码等功能。租户管理员可在应用市场申请可用应用以及配置下属用户相关应用权限等,支持租户对其下属用户设置配额,控制其资源使用,满足相关运营类需求。
以上内容主要概括了用户门户的重要功能,部分功能未-一罗列,比如应用市场、资源动态、个性化配置、告警提醒等,用户可在系统中继续了解这些功能用户门户主要服务于最终使用用户,它是平台与最终用户的重要交互接口,该门户支持为每一个用户进行不同的风格配置,默认提供仿 windows桌面风格,用户可自行切换至传统的菜单导航风格。
支持对集群多资源池进行统计及图表展示,提供集群 CPU、内存、存储、GPU作业分布、主机状态、用户使用、应用使用等多个维度图表,可支持在配置图表中增加用户关心的指标图,支持排除指定的统计对象,如运维主机等。
提供对集群主机、主机组、队列、调度组、存储、作业、连接、终端、资源规格的多维度管理功能,支持租户专属队列配置、队列扩容及配置、队列用户权限及状态控制、主机电源管理、主机状态管控,为管理员展示集群存储和个人空间信息,提供所有作业的展示、优先级切换及停止等干预操作,提供按照规格进行专属队列开通功能,支持系统配置调度组进行调度策略控制,满足管理员对集群细粒度操作控制需求。
支持集成 APP 单机应用、WEB URL类型单机应用以及第三方 WEB 类型系统通过可视化界面实现应用模版及参数配置,提供多种方式进行应用参数修改,支持应用模版的导入、同步等快捷实施方式,提供设置应用默认实例及集成脚本测试,支持监控应用权限分配信息,支持对应用许可数量监控和配置。支持对应用标签管理,实现应用按照标签归类统计分析。
管理员可对租户、用户设置应用权限,可发布应用到应用市场,由租户管理员和用户自行订阅,系统为管理者提供订阅申请审核功能,支持用户按文件后缀启动作业功能,满足快速提交作业需求。
支持按租户进行计费管理,提供租户、月份、用户等维度账单,支持按队列、资源类型、GPU卡、存储容量、应用配置计费价格,提供对租户进行余额管理和额度授权,支持消费明细管理和导出,支持租户/组织充值管理的审核和追踪。为管理员、租户管理员提供租户、用户配额控制功能,满足费用、存储空间、核时等多维度配额控制需求。
提供对集群中队列、主机、存储、容量、计费、作业状态等多目标进行告警通知,支持邮件、系统消息提醒,提供可配置的监控图表组件,支持按照业务进行监控图定制,满足管理员对集群更深、更细指标的监控需求。
根据具体的商务条款,可提供平台运维子系统,支持多维度监控、更多监控告警及资产管理功能,帮助用户治理集群、运营集群。
系统包含多个维度统计报表,如队列、用户、项目、应用、组织、部门相关的各种状态作业、作业吞吐量、作业槽数,支持选定时间段统计按天、小时、分钟输出报表,提供可配置的统计图表组件,满足管理员对资源池、租户统计需求。
支持对系统权限模型的相关操作,包含集团、租户、部门、用户、角色、项目、用户组、分享组、审核、日志等管理功能,支持三员管理,系统管理员、安全管理员和审计管理员权限相互制约,支持对租户、用户设置可使用的应用、支持通过第三方域控进行登录认证,系统支持涉密应用测评的密级管控,可以对用户、文件、项目、分享组进行定义密级和高密低传风险控制。
系统支持按业务规则和系统参数灵活配置系统功能,提供全系统涉及的计划任务管理和操作,为管理员提供系统公告、系统帮助通用类信息设置功能,支持涉密应用测评所需的系统日志、命令行日志、审计日志管理等。
系统支持从第三方 AD、LDAP、DB 同步用户、部门、用户组到系统中,支持按照资源模型映射方式完善同步到的信息,支持按照用户同步来源进行认证,系统支持 JWT单点登录,满足第三方系统单点登录到本平台以及从本平台单点登录跳转到第三方系统的功能需求。
skyForm 算力应用平台作为一款工程师、运营者与计算资源的核心交互系统其特点和优势如下:
使用简单让算力触手可及
·支持零插件纯 WEB方式使用平台及集群算力;
·支持在本地应用或 IDE 内进行远程调试和异地计算;
·支持多种协作模式提高效率,如数据共享组、应用桌面分享;
·支持像本地工作站一样通过应用内部提交计算任务,降低推广难度;
·在安全隔离的前提下,支持多种 SSH方式使用算力资源;
一个平台适配 AI + HPC多种场景
·支持对多集群、异构 CPU、多种 GPU 及其 MIG 特性的统一管理调度;
·支持常用的AI框架,包括TF、PyTorch、Ray、PP、DeepSpeed;
·支持传统 HPC 仿真设计,默认集成大部分工业应用,开箱即用;
·提供开发、训练、推理等全套 AI研发生命周期工具;
·适配智算中心运营、私有云集群、军工保密单位 HFC平台等场景;
即插即用的运营、运维服务
·支持多租户自服务管理功能、满足租户隔离、用户隔离安全需求;
·提供充值计费、价格折扣配置,支持租户、用户多种资源配额控制;
·支持可订阅的应用市场功能,为租户、用户提供多级应用订阅控制,支持按核时/卡时模式、独占主机方式多种使用需求,安全自由;
·提供可配置的 ITIL 支撑工具,满足公开运营和 SLA 服务管理需求;
丰富且实时的集群管理和资源管控功能
·提供集群主机、队列、调度组、用户组、作业、存储等管理功能;
·提供模版化应用集成方式和配套应用模板,具备极高的集成效率;
·支持集群从广度、深度多维度监控统计,提供可配置的指标和图表;
·支持一键同步第三方用户及单点登录,实现个性化的认证需求;
·支持集成运维子系统,提供资产管理、环境管理、监控告警功能;
安全合规,自主知识产权
·支持数据权限、三员管理、日志审计、安全漏扫等;
·支持涉密测评所需的主客体密级控制、高密低传风险管控;
·拥有自主知识产权,提供标准 RestAPI以供第三方定制开发;
·具有国产 CPU/OS 厂商的兼容认证,满足国产化和信创需求;
·具备面向公众运营的智算平台安全防护经验,完成安全适配;
灵活的部署方式,卓越的扩展性、可靠性和稳定性
·极小化和轻量化的部署需求,明晰的日志监控降低运维复杂度;
·支持多节点部署和横向扩展,提供系统负载均衡和 HA机制;
·支持多种业务规则积木式组合,满足迥异的个性化需求;
·支持上亿数量级作业数据和超大用户量的并发访问;
·有多个大规模智算中心建设、运营保障经验,让用户省心省力。
SkyForm 算力应用平台的核心能力是通过平台的应用集成扩展性以及其对调度器的深度集成,为用户提供可协作的开发设计、训练计算的一体化解决方案,通过设计研发、训练计算任务分发、数据管理、项目管理、协作共享、组织管理等特性使用户实现在一个平台上完成设计研发、训练计算流程闭环,让用户能够像用本地工作站一样使用平台集群资源,提高工程师个人效率和组织效率。
SkyForm 算力应用平台可以为用户带来如下价值:
1)降本提效
·应用可视化让工程师像使用本地工作站一样使用集群,提高了工作效率。
·研发和训练推理全生命周期管理可以满足常见的智算业务需求。
·集群资源可视化让管理员对各种集群资源统一管控,有助于精细管理和降低成本。
·多种功能积木式组合满足用户不同需求,快速部署服务为业务抢占先机。
·自动化调度提高集群利用率,多集群异构管理便于资源利旧。
2)数据安全及治理能力
·数据由平台集中管理,实现完全数据隔离,防止泄密和数据外溢。
·符合涉密测评安全要求和互联网安全要求,让平台上线安全无忧。
·提供与 SPDM、大数据等平台快速集成接口,让数据变废为宝。
3)运营增值能力和商业模式论证能力
·无缝支持租户运营模式,运营所需专属计费、自助服务、充值计费、订阅一应俱全,模块即插即用。
·开放式平台夯实运营底座,支持多集群、多调度器、工业计算、智能计算、公有云、容器技术,满足日趋多变的需求。
·轻量级部署和极简化应用集成降低运维复杂度和运营成本,快速验证商业逻辑可行性。
SkyForm 算力应用平台在不同的业务场景下有不同的部署架构,下面主要介绍典型的集群部署架构以及常用的 HA 部署模式:
图:集群典型部署架构
简要说明:
·计算存储区域:此区域是指集群存储区,根据用户的业务场景不同,存储的架构有所区别,比如常用的10 节点+SAN 存储、MDS IO 节点+OSS IO 节点等架构,并行存储软件可以采用 GPFS、Lustre、Beegfs 或者其他商用存储软件。
·计算资源区域:此区域是指集群计算节点区,系统可以按照不同的用途配置不同的计算节点,并按照队列的方式分配给相应租户和用户,常用节点包含胖节点、瘦节点、GPU 计算节点等。
·应用可视化区:此区域主要包含带有 GPU 卡的可视化节点,为用户提供应用可视化能力,应用可视化节点根据应用不同可能需要配置 Windows 和 Linux节点。
·平台管理区:此区域主要部署 SkyForm 算力应用平台及其组件,根据算力应用平台的负载均衡和 HA 需求可横向部署多个节点,在此区域还需要根据用户业务场景决定是否部署单独的域控节点、登录节点和文件访问节点,但典型部署方式推荐将登录节点和文件访问节点相关组件部署在算力应用平台节点中,域控节点推荐单独部署保证其可用性。
·集群调度系统:SkyFomm算力调度系统需要部署在所有计算节点、可视化节点和管理节点上,保证对所有资源可以有序调度管理。
SkyForm 算力应用平台推荐部署两个及以上节点,实现 HA 功能,其 HA 部署架构及实施效果如下图所示:
SkyForm 算力应用平台生产环境部署所需资源较少,根据用户需求可进行调整,下面是算力应用平台 HA部署架构下最低配置(请注意该配置只针对算力应用平台软件)