阿里云数字人_多模态交互数字人_3D虚拟数字人_电商直播数字人价格-云巴巴 -云巴巴

阿里云数字人

阿里云数字人，支持上百种动作预置，全智能AI动作驱动实现无缝衔接、自然流畅，提供规范的录制手册，有初阶镜头经验的科技即可依据手册自助完成训练素材的录制、编辑和上传，提升素材的规范性。通过流式语音、流式驱动技术，实现低响应延迟，满足实时对话互动。

立即咨询

数字人形象丰富，满足不同场景和用户的个性化选择 icon

规范的SOP录制手册

提供规范的录制手册，有初阶镜头经验的科技即可依据手册自助完成训练素材的录制、编辑和上传，提升素材的规范性。

高质量的训练效果

行业top级的训练效果，可达到拟真度极高的形象表达。

完善的动作库、全智能AI动作驱动

支持上百种动作预置，全智能AI动作驱动实现无缝衔接、自然流畅。

极致的响应时间

通过流式语音、流式驱动技术，实现低响应延迟，满足实时对话互动。

技术优势：多模态数字人智能驱动技术实现 icon

围绕3D人体人脸构建、动作检测驱动，虚实融合应用等进行研究，发表顶级会议论文10余篇，国际赛事CVPR、ICCV冠军4项。数字人驱动：输入语音或者文本，AI自动生成与之匹配的面部和肢体动作。面部驱动：AI自动生成与语音、文本匹配的嘴型和表情。肢体驱动：AI自动生成与语音、文本匹配的节奏性律动和语义指示动作。音乐驱动舞蹈生成：输入音乐，AI自动生成多样的与音乐节奏匹配的舞蹈动作。

支持不同企业专属形象风格，打造独一无二虚拟数字IP icon

数字造星服务以达摩院AI实时驱动的美术规范为指导的，囊括人物策划&设计、3D建模&绑定、动作表情制作、驱动配置的完善的虚拟数字人资产制作标准制作产品。资产适配智能驱动与真人驱动，可多场景多端复用。

数字造星-3D资产构建能直接匹配DAMO驱动算法 icon

智能驱动动作丰富多样，涵盖客服、直播、新闻播报等多场景。同时支持智能动作和手动编辑，高精度动及专业的动作采集团队，布料系统提升动作细节效果；动作流畅度更高；科学的表情编码系统，面部表情逼真自然；准确率高：动作节奏和语音匹配/特定动作与文字匹配率/嘴型动作流畅度。

渲染效果模拟人体皮肤特性，皮肤细节丰富剔透；毛发各向异性反射特性发丝细节可见；瞳孔折射模拟，形象眼神清澈明亮。

建模特点采用人体解剖学的拓扑结构：模型骨骼、肌肉更真实。模型复用性高，支持实时驱动&离线渲染。

3D虚拟人捏脸系统——支持快速创建企业/用户丰富形象 icon

Alimoji ( 3D虚拟人捏脸系统）是由达摩院研制的一套高自由度的捏脸和装扮系统。用户可以在服装、道具、妆容等基础素材上简单调整参数后，获得不同风格的人物形象素材。Alimoji还集成了照片捏脸功能，用户只需上传一张照片就可以生成需要的脸型。此外，该系统还具有虚拟形象拍照及表情包生成功能，用户在完成装扮后可以生成专属的表情包和头像。Alimoji的强大功能和易用性，为用户提供了极大的自由度和可玩性。

Alimoji产品特点

资产素材丰富：支持性别、多种服饰和配饰、发型及妆容等素材资源，同时可定制素材。百变个性搭配：支持页面多种参数图片、色彩、logo等贴图调整，快速输出组合装扮。照片识别生成：上传照片快速生成alimoji人物3D形象，可对生成形象进行自定义调整。表情包动画合成：搭配好的人物形象可一键合成多种表情包动画动态素材，互动性更强。Pose图片生成：3D人物形象搭配完成可选定pose生成拍照图片，丰富养成过程参与感。

3D虚拟数字人-静态素材资产 icon

能力概述

阿里云虚拟数字人，是整合仿真形象渲染、声音克隆和视频简易二创的一体化服务方案。服务金融、教育、广电融媒、营销等多行业领域，开放数字人形象和人声特征克隆模型的自助训练，一站式提供文本/语音驱动的仿真形象合成及视频终片创作的能力。助力平台、企业实现私域个性化数字人营销、数字人慕课创作等专业场景的高质高效落地。

高还原度的拟真效果通过采集模特特定场景下播报形象的视频素材，驱动该模特在该场景下生成多语种、任意语料的、带表情动作的播报视频素材。效果高度逼真、高度自然。

场景化智能AI联动处理根据不同的场景自动处理数字人视频，包括进行绿幕抠图和实景抠图等操作。尤其是，创新性实现实景抠图时关联物的保留及人物跟随。

丰富的衍生制作能力提供专业的音视频剪辑（多层级元素、专业字幕、转场过渡、特效滤镜)，并开放视频模板定制工具，满足短视频、教学视频、广告宣传等各类数字人视频制作的要求。

灵活的应用方案不仅支持原子化数字人仿真渲染能力，更支持一站式视频创作玩法和视频模板工具，对于标准化场景，还提供封装了直播间装修、数字人脚本和互动语料预置的SaaS方案。

产品架构

核心链路

模板化视频成片及简易二创 icon

提供模板化创作工具创建模板，利用浏览器的非线编编辑器或AE制作模板库，结合数字人自动化渲染，可实现数字人内训、数字人慕课等标准模板组合方案，为企业高品质批量化视频生产流程提供了完整工具箱。

核心亮点

智能数字人视频精编创作能力

支持数字人训练、语音合成等多轨道多图层媒资数据组合、特效、滤镜、转场、字幕等视频制作必要能力，一站式完成数字人渲染和视频简编二创。完善视频模板工具及应用方案：用户可以基于普通模板和高级模板创作出丰富的视频模板，并随着产品升级获得更多定制自由度。批量化生产：利用开放的APl，实现自动化、批量化数字人视频生成。可灵活集成的可视化编辑能力：不仅支持API，更提供高度开放性的可视化的webSDK，基于浏览器实时预览，在线创作。

虚拟数字人驱动引擎：云渲染方案架构 icon

多模态交互数字人

数字人视频客服

支持在业务场景中构建数字人形象，并在通话中唤起，与C端客户实时通话。

能力范围

数字人应用唤起

可扩展在视频过程中的AI能力调用，如OCR、人脸识别等

自带ASR，实时转写通话内容

支持集成到客户系统或APP中

数字人智慧大屏产品应用场景 icon

产品应用场景结合客户线下服务、展厅、门店等屏端一体机/大屏，将虚拟数智人AI驱动、实时人机会话、音视频通信、视频推流渲染等技术能力，与业务系统对接，打造一个具象化、拟人化的企业对外宣传服务形象，实现线上线下标准化的客户服务体验，带来全新的品牌宣传及服务效应。同时解决客户前台咨询量高、线下咨询数据无法沉淀、用户等待咨询时长等问题。

产品能力优势个性化定制：支持客户个性化形象定制，打造虚拟品牌代言人，多种屏幕终端快速接入。创新科技体验：领先的虚拟数字人实时智能驱动、图像视频渲染、多模态智能化人机交互。业务服务与闲聊互动结合：不仅可以提供及时有效的客户服务，同时通过闲聊语料趣味互动陪伴线下客户得到更好的体验。数据资产沉淀：通过解决客户问题沉淀服务数据，帮助更好提升服务体验。

智慧座舱数字人

智能语音交互：高体验、小资源声学前端处理方案 icon

支持远场全时全双工语音交互

支持全双工，任意打断对话，抗人声、环境和设备噪声干扰。适用于嵌入式、移动端等多平台被集成的语音模组和端侧引擎。

设备端原生算法设计，低成本、低功耗

麦克风阵列︰适用于消费级硬件小阵列远场方案，轻量化算法和模型：经典物理建模和数据驱动的深度学习有机融合。

多模态人机交互

达摩院将语音识别和机器视觉结合，将8麦阵列与超高清广角摄像头结合实现多模交互，准确在嘈杂场所精确识别用户说话。

数字人+大模型释放AI创造力 icon

2D数字人一Al试衣解决方案 icon

3D试衣解决方案介绍 icon

图片生成视频 – LivePortrait助力轻娱乐内容AIGC icon

数字人轻娱乐/短视频：通过单张正面人物照片生成以文本为驱动的短视频，这项技术是轻娱乐和短视频应用领域中最先进的，能够让一个静态的人物照片快速自然地动起来，增强短视频的生产效率和趣味性。

客户案例：央视CCTV冬奥会虚拟数字记者 icon

客户案例：中国联通5G-AI秘书 icon

可视化人物形象+自然语言交互，完整实现“面对面视频智能助理”人机交互体验。集成运营商5GVolte音视频通话场景。沃助理-视频智能应答产品，通过数字人实时驱动能力结合智能语音能力，与来电用户“面对面”对话互动，并可将视频通过短信或微信的方式与智能语音应答消息一并发送给用户，全面提升服务体验。通过搭建一套数字人服务平台，具备支持3大场景的数字人智能服务能力：联通沃助理电话漏接场景，线下可交互大屏场景，以及提供数字人形象管理平台。

客户案例：中国联通5G-AI秘书 icon

阿里云为中国联通提供数字人管控平台、智能语音交互、智能对话机器人以及统一AI训练管理平台集成多种AI原子能力的产品，助力联通打造To B&C的不同行业及应用场景的实时智能音视频人机交互系统，满足用户个性化自定义配置、实时高并发场景下稳定的音视频智能通话性能、高达95%的人机对话准确性，为联通3000W+的增值业务用户提供强大技术支撑。

数字人管控平台，提供2D/3D人像AI驱动引擎，实现了丰富的动作、表情展示。在云渲染、智能驱动的基础引擎之上，搭建出集业务管理、资产管理、账号管理、系统日志、数据看板等为一体的数字人管控平台，在此之上为联通通话助理场景以及线下大屏场景提供业务服务能力。通过数据采集及训练覆盖百余种C端个人助理生活类场景，以及10种垂直行业场景的定制化模型训练，面向人机交互的通用语义理解正确率≥90%。通过全双工语音对话技术，实现优雅打断、静默识别、重复播报、超纲问题兜底等更拟人、更自然的人机交互对话体验。支撑3000万+用户量的实时语音交互系统，满足C端用户日常生活助理场景的转写性能要求以及日常助理所需覆盖的常用对话内容更精准的识别正确率，支持中文和英文两个语种的识别。真实自然场景下非特定说话人的中英文语音识别率需≥95%，提供两种方言识别的语音识别准确率≥85%。

客户案例：原江干区政务服务大厅智能服务大屏数字人 icon