机器学习PAI

阿里云机器学习平台PAI(Platform of Artificial Intelligence),为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。

产品架构
 
机器学习PAI整体介绍
阿里云机器学习PAI包含3个子产品,分别是机器学习可视化开发工具PAI-STUDIO,云端交互式代码开发工具PAI-DSW,模型在线服务PAI-EAS, 3个产品为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。
PAI-STUDIO与PAI-DSW通过打通底层数据,为用户提供两种机器学习模型开发环境。同时PAI-STUDIO以及PAI-DSW的模型都可以一键部署到PAI-EAS,通过Restful API的形式与用户自身业务打通。
 
产品优势
简单易用
简单易用
封装上百种机器学习算法,通过可视化拖拽实现模型训练,一键式部署在线预测服务,打通机器学习全链路。
低成本
低成本
支持CPU/GPU混合调度,高效的资源复用;多种适用客户场景的计费方式,真正实现AI客户的云上降本
 
高性能
高性能
支持高维稀疏数据场景,超大规模深度模型训练;高效的结构化压缩训练,加速训练;inference模型压缩与量化,提升在线预测单机QPS。
 
解决方案丰富
解决方案丰富
积累了多种行业算法解决方案,包括泛推荐、金融风控、广告预测、图片分类等多种解决方案,帮助企业快速应用

机器学习PAI DSW 

PAI DSW(Data Science Workshop)是为算法开发者量身打造的云端深度学习开发环境,包含notebook和深度学习网络可视化建模,支持开源框架的安装,并提供阿里巴巴深度优化的Tensorflow框架,通过编译优化提升训练性能。

 

产品使用
1
创建实例,选定GPU资源
3
运行代码、生成训练模型
2
上传数据,在线开发、调试
4
模型服务在线部署
产品优势
灵活易用
灵活易用
notebook交互式云端算法开发平台,支持云端编程;将深度学习网络组件化,支持可视化展现及修改,支持网络结构与代码相互转换。
打通全链路
打通全链路
为算法开发者打通整个链路,可在DSW平台完成从数据处理到开发调试、训练生成模型以及最后的模型部署成在线服务,提供一站式的深度学习开发体验。
 
支持用户自定义
支持用户自定义
提供阿里深度优化的tensorflow框架,同时支持开源框架,如Tensorflow、Pytorch、Caffe等,为用户业提供灵活配置。
 
高性价比
高性价比
支持CPU/GPU混合调度,高效的资源复用;多种适用客户场景的计费方式,真正实现AI客户的云上降本。
应用场景
AI企业深度学习解决方案

提供深度学习解决方案,支持实际业务场景,深度学习训练模型可直接部署成服务供业务调用。

深度学习算法爱好者

深度学习算法开发爱好者随时随地编写算法代码

教育与科研领域

无需繁琐的环境配置,辅助教育从业者快速实现在线教学演示与科研项目的开发

 

机器学习PAI Studio

PAI-Studio为开发者提供可视化的机器学习实验开发环境,帮助用户实现0代码开发人工智能相关服务。内置数百个成熟的机器学习算法,覆盖商品推荐、金融风控、广告预测等场景。

产品优势
简单易用
简单易用
涵盖大部分经典机器学习算法,包含回归、分类、聚类、文本分析等共200余个算法组件
低成本
低成本
AutoML自动调参引擎内置PAI团队原创的Evolutionary Optimizer 调参方法,可以帮助算法从海量参数中快速查询到最优组合
 
高性能
高性能
支持流批一体化的模型训练,可以做到离线环境训练基础模型,在线环境实时更新模型,大大增强模型对于实时数据的感知能力
 
解决方案丰富
解决方案丰富
无需开发代码,可以通过拖拉拽的形式快速搭建机器学习实验
应用场景
 
新闻文本分类案例
通过PAI-Studio文本组件搭建 的文本自动分类案例
 
金融风控案例
通过PAI-Studio的图算法组件搭建的金融风控案例,可以快速定位人群中相互的信用关系
 
 
心脏病预测案例
通过PAI-Studio搭建的心脏病自动诊断案例
 
 
解决方案丰富
通过PAI-Studio中的协同过滤算法搭建的商品推荐业务方案
客户案例
 
新浪微博
通过PAI-Studio大规模矩阵处理的能力,强化自身算法平台对于千亿样本、千亿特征规模数据的处理能力
 
 
 
 
天弘基金
通过PAI-Studio算法组件快速构建基金推荐业务解决方案
 

机器学习PAI EAS

EAS ( Elastic Algorithm Service ) 是PAI平台的模型在线预测服务,支持异构硬件(CPU/GPU)的模型加载,高吞吐,低延迟;支持大规模复杂模型的一键部署,实时弹性扩缩容;提供完整的运维监控体系

产品优势
灵活易用
灵活易用
提供灵活的模型部署方式及服务调用方式,快速打通各种业务需求;与PAI Studio、PAI DSW无缝对接,从模型部署到服务运维浑然天成
弹性高可用
弹性高可用
高并发高吞吐,服务毫秒级响应时长;服务资源弹性扩缩,稳定保障线上业务
 
异构资源
异构资源
针对机器学习、深度学习模型不同的特点,一键部署模型至CPU、GPU服务,提供极致性能预测服务
 
功能完善
功能完善
提供丰富的版本管理、回滚失败、A/B Test、实时监控等使用功能 
产品使用
 
四种模式部署方式

四种模型部署方式

无论您通过何种方式训练得到的模型,都可以方便地在我们的产品里将它变成一个稳定的在线服务

PAI EAS控制台部署

适合用户已有的自训练模型,上传本地模型,简单配置即可部署

PAI Studio部署

适合通过Studio流程生成的模型,一键完成部署

PAI DSW部署

适合在DSW中实验得到的模型,快速验证线上效果

本地客户端部署

适合用户自训练模型部署,可集成至已有的离线系统中

 

 
三种服务调用路径

三种服务调用路径

不同的调用方式,可以适配不同的业务场景需求

公网地址调用

HTTP请求调用,调用地域不受限,适用范围最为广泛

VPC地址调用

HTTP请求调用,需同一region内请求,避免公网损耗,无流量费用

高速直连通道调用

即将发布,敬请期待

 

 

 

 

 

 

 
客户案例
阿里小蜜
弹性扩缩容,全面提升资源利用率,双十一当天单模型峰值达40W QPS,丝滑顺畅,稳定支撑
阿里安全
大规模图片安全扫描,针对深度学习优化网络协议,同时基于GPU加速在线推理处理效率
阿里妈妈广告
精准广告投放,毫秒级数据响应,高性能保障核心业务收入
 
阿里云印刷文字识别
基于PAI EAS高可用引擎,对数以万计OCR用户提供高SLA服务

 

什么是机器学习PAI

什么是机器学习
机器学习指机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。目前机器学习主要在以下方面发挥作用:

营销类场景:商品推荐、用户群体画像、广告精准投放
金融类场景:贷款发放预测、金融风险控制、股票走势预测、黄金价格预测
SNS关系挖掘:微博粉丝领袖分析、社交关系链分析
文本类场景:新闻分类、关键词提取、文章摘要、文本内容分析
非结构化数据处理场景:图片分类、图片文本内容提取OCR
其它各类预测场景:降雨预测、足球比赛结果预测

笼统地讲,机器学习可以分为三类:

有监督学习(Supervised Learning):指每个样本都有对应的期望值,通过模型搭建,完成从输入的特征向量到目标值的映射。典型的案例就是回归和分类问题。
无监督学习(Unsupervised Learning):指在所有的样本中没有任何目标值,期望从数据本身发现一些潜在的规律,例如一些简单的聚类。
增强学习(Reinforcement Learning):相对来说比较复杂,是指一个系统和外界环境不断地交互,获得外界反馈,然后决定自身的行为,达到长期目标的最优化。其中典型的案例就是阿法狗下围棋,或者无人驾驶。

什么是机器学习平台PAI
 
·PAI起初是一个定位于服务阿里集团的机器学习平台,致力于让AI技术更加高效、简洁、标准的被公司内部开发者使用。对集团内,PAI服务了淘宝、支付宝、高德等部门的业务。随着PAI的算法的不断积累,2015年底PAI作为天池大赛的官方比赛平台在阿里云正式上线,也成为了国内最早的云端机器学习平台之一。随着PAI在阿里云的业务的不断发展,2018年PAI平台正式商业化,目前已经在公有云积累了数万的企业客户以及个人开发者,是目前国内领先的云端机器学习平台之一。
·PAI底层支持多种计算框架:有流式算法框架Flink,基于开源版本深度优化的深度学习框架TensorFlow,支持千亿特征千亿样本的大规模并行化计算框架Parameter Server,同时也兼容Spark、PYSpark、MapReduce等业内主流开源框架。

·PAI平台提供:PAI-STUDIO(可视化建模和分布式训练)、PAI-DSW(notebook交互式AI研发)、PAI-AutoLearning(自动化建模)、PAI-EAS(在线预测服务)四套服务,每个服务既可单独使用,也可相互打通。用户可以从数据上传、数据预处理、特征工程、模型训练、模型评估,到最终的模型发布到离线或者在线环境,一站式完成建模,有效的提升开发效率。在数据预处理方面,PAI跟阿里云DataWorks(一站式大数据智能云研发平台)也是无缝打通的,支持SQL、UDF、UDAF、MR等多种数据处理开发方式,灵活性较高。在PAI平台上训练模型,生成的模型可以通过EAS部署到线上环境,整个实验流程支持周期性调度,可以发布到DataWorks与其它上下游任务节点打通依赖关系,另外调度任务区分生产环境以及开发环境,可以做到数据安全隔离。

·一站式的机器学习平台意味着只要训练数据准备好(存放到OSS或MaxCompute中),用户就不需要额外的迁移工作,所有的建模工作都可以通过PAI来实现。

 

概述
 
阿里云机器学习PAI平台的产品架构及上下游关系
 
AI业务的四个流程层:
基础设施层:CPU计算集群。
计算框架层:包括MapReduce、SQL、MPI等计算方式,分布式计算架构主要执行并行化计算分发任务。
核心产品功能层:即PAI提供的产品的核心能力。
业务应用层:阿里巴巴内部的搜索系统、推荐系统、蚂蚁金服等项目在进行数据挖掘工作时,都是依赖机器学习平台产品。机器学习平台的业务场景包含了金融、医疗、教育、交通、安全等各个领域。

重点介绍PAI的核心功能:
如图所示,PAI提供PAI-AutoLearning、PAI-Studio、PAI-DSW三种建模方式,从左到右,建模的灵活度更高。从右到左,建模的技术要求降低。其中Studio中包括了数据预处理、特征工程、机器学习算法、深度学习等基本组件。所有算法组件全部脱胎于阿里巴巴集团内部成熟的算法体系,经受过PB级别业务数据的锤炼。
此外,PAI在模型建模基础上,提供模型在线服务一键部署功能,解决了用户模型部署使用的最后一公里问题。
最后,PAI还给用户提供了智能生态市场功能,用户可以通过在智能生态市场快速获取业务解决方案或模型算法,进行相关业务与技术的高效对接。

 

PAI-AutoLearning:自动学习
PAI-AutoLearning自动化建模平台拟在为用户提供低门槛的偏场景化的机器学习建模服务,目前该平台已经内置了图像分类、推荐召回(即将上线)两款经典的机器学习业务场景,用户只需要在产品中做些基础的配置,无需对机器学习建模理论有深入的了解即可完成模型训练。
 
PAI-AutoLearning:自动学习
 
 
PAI-AutoLearning:自动学习
 
PAI-Studio:可视化建模
 
PAI-Studio:可视化建模
PAI-Studio拖拽式建模平台,机器学习的真正门槛来自于对底层算法原理的理解,以及复杂的计算机实现。为了解决这种问题,PAI平台将200余种经典算法进行封装,让用户可以通过拖拽的方式搭建机器学习实验。

PAI-Studio中的所有算法都经历过阿里巴巴集团许多业务、EB级数据的锤炼。根据算法的不同特点选用MapReduce、MPI、ParameterSever、Flink等不同框架进行实现,真正做到成熟、稳定、简单、易用。

同时,在调参方面,如何探寻算法最优的超参数组合是一直以来困扰算法工程师的难题,调参工作不仅考验算法工程师对于算法推导认知的功底,还会带来大量手动尝试的工作量,工作效率很低。PAI-Studio内置的AutoML技术通过智能化的方式降低机器学习实验搭建的复杂度,通过自研的进化式调参等方式彻底解放用户的调参工作,实现模型参数自动探索、效果自动评估、模型自动向下传导,实现模型优化全链路零干预,大大降低机器学习门槛,节约计算成本。

PAI-AutoML自动调参引擎自上线以来,已经收到国内外客户不错的反响。AutoML不仅包含基于Parallel Search思想的Grid search、Random search两种传统调参模式,还包含PAI团队基于Population Based Training理论原创的Evolutionary Optimizer调参模式,这种调参方式可以渐进式的帮助用户以最小代价探寻最优参数组合。

Evolutionary Optimizer在调参过程中保留所有参数的表现以备追溯,并且调参模式与训练流程打通,做到自动选参、自动训练、自动评估、自动部署的整个链路自动化。

 

 

PAI-Studio:可视化建模

 

PAI-Studio:可视化建模

 

PAI-Studio:可视化建模

PAI-EAS:在线服务部署
 
PAI-EAS:在线服务部署
PAI-EAS模型在线服务引擎提供了机器学习模型在线服务功能,支持基于异构硬件(CPU/GPU)的模型加载和数据请求的实时响应。您可以通过多种部署方式将您的模型发布成为在线的Restful API接口,同时我们提供的资源监控、弹性扩缩、蓝绿部署、版本控制等特性可以支撑您以最低的资源成本获取高并发、稳定的在线算法模型服务。
用户可以将Studio、DSW、Autolearning服务生成的模型一键式的发布到PAI-EAS形成Restful服务,通过EAS服务与用户自己业务系统打通,解决模型和客户业务最后一公里的问题。

目前EAS公共云支持区域:华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、新加坡。

EAS公共云上整体通过资源占用量收费。提供公共资源组及专属资源组两种资源占用模式。在公共资源组中按照每个模型服务占用的资源计量计费,在专属资源组中根据资源组管理的机器资源包年包月或按量付费。

 

AI市场:数据智能技术商城
 
AI市场:数据智能技术商城
 
 
 
 
PAI平台内置了数加生态市场,用户可以基于PAI-Studio的自定义算法功能开发算法并在市场开店和上架,实现产品和生态的融合。
用户可以将数加智能市场看作大数据与AI领域的“淘宝”交易平台。市场旨在促进大数据与AI技术产品的开发创新与应用:一方面,帮助更多的开发者基于Dataworks和PAI去开发应用,并且将应用售卖给更多用户;另一方面,帮助更多有业务需求的客户,在市场中找到解决自己问题的答案。
数加智能市场的商品类目包括大数据领域的解决方案、人工智能领域的图像识别及文本识别等应用API、机器学习封装算法等,并在不断扩展中。
此外,市场不光承载着数据产品的交易功能,更多地还承载着培养整个生态的使命。所以数加智能市场还提供了认证、培训和论坛三大板块。通过培训板块和阿里云认证体系,让大数据与AI爱好者可以在此获得更多、更全面的学习机会,为社区培养更多生态开发者。论坛版块又给开发者们提供了一个交流切磋,相互提高的平台场所。

 

产品优势
良好的交互设计
通过对底层的分布式算法封装,提供拖拉拽的可视化操作环境,让数据挖掘的创建过程像搭积木一样简单。缩短了您与数据的距离,真正实现了数据的触手可及。同时也提供了命令行工具,方便您将算法嵌入到自己的工程中。
良好的交互设计
优质、丰富的机器学习算法
机器学习平台上的算法都是经过阿里大规模业务锤炼而成的。从算法的丰富性角度来看,阿里云机器学习平台不仅提供了基础的聚类、回归类等机器学习算法,也提供了文本分析、特征处理等比较复杂的算法。
优质、丰富的机器学习算法
与阿里产品完美配合
使用阿里云机器学习平台计算的模型直接存储在MaxCompute(原ODPS)上,可以配合其它阿里云的产品组件加以利用。
与阿里产品完美结合
一站式的机器学习体验
阿里云机器学习平台除了提供模型训练功能,还提供在线预测以及离线调度功能,让机器学习训练结果和业务可以无缝衔接。
支持主流深度学习框架
阿里云机器学习平台已经包含了Tensorflow、Caffe、MXNet这三款主流的机器学习框架,底层提供M40型号的GPU卡进行训练。
优质的技术保障
阿里云机器学习算法平台的背后是阿里巴巴的算法科学家和阿里云的技术保障团队,在使用过程中遇到任何问题都可以到工单系统提交工单或者直接与相关接口人联系。
优质的技术保障
产品推荐 查看更多>>
    北明数科微售后

    北明数科“微售后”售后服务系统通过客户报修、智能派工、工单回执、回访评价、备件产品资源管理等,实现售后服务从受理、派工到完工的全程闭环管理,助力企业打造数字化售后服务体系,为企业提升售后管理效率,提升客户满意度,降低售后服务成本。

    提升客户服务体验

    提升企业品牌形象

    健全售后服务体系

    降低售后服务成本

    科大讯飞数字虚拟人

    科大讯飞数字虚拟人,AI虚拟人交互平台是新一代人机交互平台,具有多模感知,情感贯穿,多维表达,自主定制四大关键特点,其中虚拟人作为关键技术特点,平台具有多元化属性,我们将开放更多能力合作,共建平台生态。

    多模感知

    情感贯穿

    多维表达

    自主定制

    十维元客3D数字人智能交互一体机

    十维元客3D数字人智能交互一体机,双版搭载AIHUMAN,智能化实时互动、多模态物理仿真,满足多种线下需求,让数字交互无处不在。

    实时互动

    多模态

    人物定制

    高配置