北京天云融创软件技术有限公司(简称天云)是一家专注于云计算、高性能计算和智能计算领域的创新型科技企业。公司一直秉承自主研发的理念,为客户提供优质的平台化软件开发、完善的一体化解决方案以及高质量的运维服务,帮助客户突破算力瓶颈,解决繁杂的云服务管理困扰。
SkyForm任务调度系统(简称SkyForm AIP)是由天云融创软件自发研制的高性能、高可、高可扩的人工智能、高性能计算、大数据应用管理平台,具有自主可控知识产权,核心技术不依赖于国外开源社区,拥有多项发明专利,产品成熟,适配所有常用国产化硬件和操作系统,已经广泛用于规模生产环境。
SkyForm AIP 是为人工智能框架、高性能计算、大数据等应用专门设计的企业级资源和任务调度和用户访问系统,注重大规模集群高性能计算、分布式深度学习、机器学习、数据分析等任务管理,使用户在使用大集群和异构硬件的时候达到像用本地系统一样的简单和透明,同时又让系统管理员能够有效地监控和管理集群上所有的资源,使昂贵资源的利用率最大化,从而提高效能、降低成本。
SkyForm AIP 与市场上常见的应用任务管理云平台比较对应用环境的支持有以下明显的优势和先进性。
SkyFom AIP 使用操作系统中的用户管理系统(LDAP,AD,NIS 等),自动同步用户信息和用户组信息,使用换作系统里的用户名和密码对用户进行认证。每个用户组可以指定一个组管理员,组管理员可以访问组内用户的任务。
SkyFom AIP 用户组定义的例子:
SkyFom AIP 支持将多套高性能计算集群连接起来,通过单一入口实现统一管理和调度,有效整合资源,简化资源使用方式,提升高性能计算集群的利用率。
运行 SkyForm AIP 调度系统的某一套计算集群作为主集群系统(Master Cluster),其主要功能包括:获取所有计算集群的状态和资源使用情况,获取所有计算集群的作业以及运行状态,调度和分发作业到特定的计算集群,代理用户访问特定资源等。
高性能计算集群既包括已有的或新建的传统计算集群系统,也包括基于公有云资源组建的远端计算集群系统。不同的从集群系统(Slave Cluster)所采用的负载调度系统可以各有不同,包括 AIP、LSF、PBS、SLURM 调度系统等。各计算集群加入多集群管理系统后,接受 AIP 主集群系统(Master Cluster)的管理,就可以作为多集群系统的一部分运行。主集群系统会根据客户端提交的作业请求,将计算任务转发给指定的从集群系统。同时各计算集群的负载情况以及作业运行状态的信息也会周期性的传送到主集群系统。加入多集群系统并接受主集群系统管理的各计算集群,集群已有的功能不受影响,即集群原来提供的功能可以并行继续使用。
主集群系统(Master Cluster)为用户提供统一的访问入口,资源申请方式和使用流程与单套主集群系统完全相同。系统支持多种计算任务/作业提交方式,支持基于B/S WEB 界面提供计算服务,支持通过 Shell 命令行/脚本方式提交计算任务。并可以根据用户使用习惯,进行灵活定制。
做为 SkyForm 任务调度系统的图形任务管理模块。SKyForm CRV 云远视提供了
一个面向交互式图形任务的话度和管理框架。远程交互式图形任务支持多种 2D或 3D 远程可视化技术,包括VNC,NiceDCV,微软RDP/RemoteFX等。SkyForm AIP 任务调度系统根据实际用户需求或业务需要。调度、启动、监控和管理交互式图形任务。SkyFom CRV云远视模块将可视化任务的连接信息和视频流,通过WEB 界面方式进行展现,或转发给相应的用户客户端。
如果打开的应用在服务节点/计算节点上以Web 网页方式提供服务,SKyForm CRV 云远视框架(模块)亦可对此类应用集成,例如JupyterLab,TensorBoard RStudio 等等。调度系统将自动分配Web服务的网络端口,启动对应的后台服务SKyForm CRV 云远视将Web 页面 URL 推送给最终用户,用户打开应用的效果就是以浏览器直接访问应用提供的Web URL。
SKyFomm CRV远程可视化框架使用 GPU 资源的技术主要有三种:
·GPU 透传:通过设备透传的方式,虚拟机的用户可以独享一个显卡,无法6实现显卡共享
·GPU 共享:通过物理机多个应用直接访问 GPU,显卡灵活共享
·GPU:通过虚拟 GPU 技术,实现显卡 1:2,1:4,1:8 等固定模式共享
SkyFom 任务调度系统 TCP/IP 网络代理服务针是4层网络通讯的转发和代理;7层网络(如 http)转发可以通过 Nginx来支持代理,不在 AIP 服务代理范围内。
通过 TCP/IP 代理服务。用户客户端可以访问集群系统内部的没有直通外网的计算节点上的图形交互式任务,或者命令行交互式任务。
SkyForm 任务调度系统提供C/C++、Python、CLI(易读和JSON)、REST 开发接口,提供业界常用话度器 PBS、LSF、SLURM兼容的命令行接口。
Python SDK是SkyForm任务调度系统提供的PythonSDK,提供了更易用的HighLevel API,支持机罪学习工程师简单地使用 Python在 AIP 完成模型训练和部署,串联机罪学习的流程。
Python SDK提供以下功能:
·支持多种主流机器学习训练框架
·标准化模型服务定义,模型转化为生产就绪服务非常简单
·强大的资源管理能力,让用户在无需关注物理资源的情况下托管训练任务应用服务
·高效的模型开发能力,提供模型仓库集装式版本管理,各类模型可以按版本6快速部署
·可视化训练管理,支持实时训练日志以及 GPU等资源实时监控
SKyForm AIP 与 CAE 仿真软件和 EDA仿真软件的集,成有三种方式:
·通过SkyForm AIP 门户或者AppSpace 应用平台的WEB服务界面,可以填写应用参数后直接递交 CAE/EDA仿真应用作业。SkyForm AIP的门户里已有的作业递交页面包括:ANSYS、FLUENT、ABAQUS、NASTRAN、LS-DYNA、 STAR-CCM+ 、OpiStmd、SIMPACK、JupyterLab等等。
·用户在厂商的图形应用里(如ANSYS WorkBench、Ansys HFSS、FLUENT Launcher等)里直接递交仿真作业。由于SkyForm AIP提供与LSF兼容的部分命令,用户选择LSF作为后台任务管理,即可将作业直接递交给 SkyFom AIP。
·通过命令行递交作业,或在有集成的应用命令行里直接话用AIP命令递交作业如 Synopsys Siliconsmar (通过Synposys CDPL)。
TensorFlow
TensorFlow是 Google 开源的机器学习和深度神经网络库,执行和伸缩性好。灵活的架构能够运行在个人电脑,服务器集群和移动设备上的单个或多个CPU,GPU 或TPU上。TensorFlow社区活跃开放,追随者众多,是GitHub关注度最高的深度学习项目。TensorFlow 能够支持广泛的应用,比如 Google搜索,Android 应用商店推荐,语音处理,图像识别,机器翻译,视频目标检测,增强学习等。TensorFlow开发了可视化工具TensorBoard,既可以显示神经网络结构,又可以显示训练和测试过程中各层参数的变化情况,用于更好地理解,调试和优化网络。
TensorFlow 还开发了机器学习模型 serving的高性能开源库,可以将训练好的模型快速部署服务上线,并支持模型热更新和自动模型版本管理。TensorFlow 的不足之处主要有速度比其他框架慢,内存资源占用多,静态图框架调试困难,版本更新快、兼容性问题多,很多的接口更新或者丢弃等
Caffe
Caffe是一款出现时间较早十分知名的深度学习框架,由伯克利 AI 研究所和社区贡献者开发。Caffe 的使用比较简单,无需编写代码即可进行模型训练,运行速度快同时还有十分成熟的社区。Caffe维护了一个Model Zoo,许多论文作者会将最前沿的模型发布到这里,模型与相应优化都是以文本形式而非代码形式给出,其他用户可以轻松稳定复现前沿模型。Caffe广泛应用于机器视觉,但不适用于文本,声音和时间序列数据等其他类型的深度学习应用。Caffe 原生支持 CPU/GPU 的单机和分布式模式不支持多机分布式模式,依赖第三方开发的版本(比如英特尔开发的基于MPI的多机版本)。Caffe的不足之处还包括更新放缓,框架设计带来的灵活性缺失和扩展困难不提供商业支持等。
PyTorch
PyTorch是 Facebook开源的深度学习框架,能够在强大的 GPU 加速基础上实现张量和动态神经网络。PyTorch 与机器学习第一大语言 Python深度结合,平滑地与Python数据科学堆栈结合,接口易于使用。PyTorch不需要预定义神经网络图,而是提供了一个框架,可以自由地定义和更改神经网络的结构,甚至在运行时动态修正模型结构而不影响其他计算,降低了调试的难度。PyTorch易于构建新颖甚至复杂的神经网络,支持动态图的灵活性非常适合学术研究开发新模型。PyTorch 支持多机分布式模式,但是没有采用TensorFlow和MXNet的PS-Worker模式,依赖于TCP 或MPI或Facebook孵化项目 gloo,只有gloo支持GPU。PyTorch的不足之处主要有框架比较新,2017 年1月才开源,现在最新版本发布为0.4.1,使用者较少,强大的社区有待形成。
MXNet
MXNet是灵活且高效的深度学习库,Apache 孵化器项目,中立,完全靠社区推动,也被 Amazon选为AWS 主要支持的深度学习平台。MXNet 平台特性与TensorFlow 最相近,有完整的多语言前端,应用场景从分布式训练到移动端部署都覆盖,整个系统全部模块化,适合快速开发,同时又具有轻量级,速度快,内存占用小的优势。MXNet的不足之处主要有缺乏完善高质量的文档,版本更新快、兼容性问题,社区规模较小且松散(主要开发者背景不同,由“民间”开发维护),缺乏商业应用等。
Jupyter Lab
JupyterLab 是数据科学/机器学习社区内一款非常流行的开源 web 编辑器,适用于Python 程序的开发, 调试及运行。
它提供了一个环境,用户无需离开这个环境,就可以在其中编写代码、运行代码、查看输出、可视化数据并查看结果。因此,这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等。
以下常用的 python 算法库可以通过 Jutyper notebooks 来调用和运行:
Scikit-learn(通用算法库)
Scikit-learn 是开源的 Python机器学习库,是一个完整的机器学习流程框架,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口。Scikit-learn的基本功能主要被分为六个部分:分类,回归,聚类,数据降维,模型选择和数据预处理。Scikit-learn定位于通用传统机器学习库,几乎覆盖了机器学习所有的主流算法,有很多高质量模型易于复用,但相对保守,只做机器学习领域的扩展,只采用经过广泛验证的经典算法。Scikit-learn 倾向于使用者自行对数据处理,而以TensorFlow 为代表的深度学习库会自动从数据中抽取有效特征。Scikit-learn 的模块高度抽象化,例如一个分类算法可以用几行代码完成,这种抽象化限制了使用者的自由度,但是大大降低了机器学习的使用门槛。Scikit-learn 主要适合中小型的实用机器学习项目,数据量不大且需要使用者手动对数据进行处理,这类项目通常只需单机环境,在 CPU 上就可以完成,对硬件要求低。
Keras
Keras 是用Python编写的高级神经网络API,能够以TensorFlow,CNTK,或者Theano作为后端运行,可以说是站在巨人肩膀上的设计。Keras 把用户体验放在首位,提供一致且简单的API,易学好懂,可以实现简单而快速的模型设计,用户友好,高度模块化,易扩展,同时支持卷积神经网络和循环神经网络,可以在CPU和GPU上无缝运行。Keras 由 Google软件工程师开发,作为高层神经网络 API而不是单独的深度学习框架,Keras 发展迅速,有可能成为用于开发神经网络的标准PythonAPI。Keras 的不足之处主要有速度慢,作为中间层比单独使用TensorFlow,CNTK或者Theano 要慢;为了扩展性好,大多数用Python 实现,在性能和内存管理方面缺乏效率。
MLlib(分布式算法库)
MLlib 是 Spark对常用机器学习算法的开源分布式实现库,目标是使实用的机器学习算法可扩展并容易使用。Spark是一个专门针对大量数据处理的通用的快速引擎其基于内存的计算模型天生擅长机器学习算法的选代计算,所以Spark是在大数据训练样本下的分布式机器学习理想平台,适用于工程化的实践项目。MLib 是Spark 的可以扩展的机器学习库,包括分类,回归,聚类,协同过滤,降维和关联分析等算法MLib 提供多种语言支持(Python,R,Scala,Java),对于处理大规模数据速度快。但是 MLib 每个类别的算法不够丰富,实现的都是些基本算法,如果要把基本算
法改进为想要的模式,学习门槛高,需要花费大量时间和精力。机器学习算法的单机和并行化版本的实现是完全不同的,Scikit-learn的单机算法并不能简单的移植到Spark MLlib.
RapidMiner Studio
RapidMiner Studio 是一款世界领先的数据挖掘图形化工具,免费提供数据挖掘技术和库。在一个非常大的程度上有着先进技术,特点是图形用户界面的互动原型。
RapidMiner Studio 是可以进行机器学习、数据挖掘、文本挖掘、预测性分析和商业分析的、具有拖拽功能的图形化工具。可以让分析师可以轻松地设计从混合到建模到部署的预测性分析流程,也可以让企业机构通过使用预测性分析来优化业务,从而获取竞争优势。提供了企业所需的高级分析功能,它可以用于提高市场回应率、降低客户流失、检测机械故障、计划预测性维护以及检测错误等。
Spark
Spark 是一种快速、通用、可扩展的大数据处理引擎,继承了MapReduce 分布式计算的优点并改进了 MapReduce 明显的缺点。Spark的中间输出结果可以保存在内存中,因此能更好地适用于数据挖掘与机器学习中迭代次数较多的算法。
MapReduce
MapReduce 作为计算模型,用以进行大数据量的计算。其中Map 对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce 这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。
Apache Airfow
国家超级计算无锡中心“工业仿真云平台”
云平台以国家超级计算无锡中心“神威·太湖之光”超级计算机、通用 X86 高性能集群为基础,提供“X86 架构+SW64 架构”的海量计算资源。以丰富的图形 GPU 资源为支撑,可保障大规模 CAE 仿真模块的图形化前后处理程序流畅运行。
SenseNenula 商汤星云产品系列,支持人、车、物、行为智能分析等高达100+长尾算法,高效适配30+种芯片。采用商汤具有代表性的超薄设计语言,带来赏心悦目的外观设计。高颜值 13.5mm薄面板、6mm窄边框 ,IP66防尘放水、满足室内外全场景。
防尘放水
高颜值
高效适配
长尾算法
速石科技半导体行业上云解决方案,利用云上的性能和多种不同异构资源,弹性伸缩能力,完成任务高峰时的计算能力,缩短了计算周期长的问题。利用云上按需实例、竞价实例,有效地控制及降低了成本,数据的读取能力提高,数据存储进行了有效的安全访问权限和加密措施。
快速部署
轻松上手
多云智能调度
专业EDA应用加速
实时计算 Flink版是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由Apache Flink创始团队官方出品。在阿里云实时计算团队目前是全球最大、拥有 Committer 数量最多、专业性最强的 Flink 团队,为实时计算用户提供企业级的管理和咨询服务。
高性能
智能调优
弹性扩容
运行运维