发布背景
通义听悟是聚焦音视频内容的工作学习AI助手,2023年6月1日正式发布。
通义听悟是通义家族首个消费者端应用产品。多媒体时代,人们每天记录、分享和观看大量的音频视频内容,通义听悟帮助用户梳理和挖掘音视频信息价值沉淀为知识资产,供用户回顾和利用。
用户场景
依托大模型,为用户带来音频和视频内容记录和阅读的全新体验。
用户场晨:日常会议、网课学习、企业面试、用户访谈、企业培训、演讲学习、线下会议、远程音视频会议等各类涉及音频和视频的场景。
最终用户群体:学生、办公白领、媒体记者、咨询、秘书、HR、教育从业者、企业、政府、 金融投行、商业咨询、教育机构等。
产品分层
通义听悟包含两个产品形态,“听悟应用”+“听悟AP!”,分别瞄准C端用户和B端开发者。
实时语音转文字,双语翻译
精准语音识别,中英日实时翻译,说话人自动区分,一键标记要点,高效整理笔记
实时精准双语字幕
完整记录对话内容,区分不同说话人。
编辑文字,高亮要点内容
识别结果可修改,高亮重点交本。
同屏整理笔记
右侧整理笔记,一键插入时间戳。
音视频批量转文字
支持20+种音视频格式,5分钟生成双语文本,自动识别语种,区分不同说话人
多来源音视频转文字
本地&阿里云盘文件、RSS播客链接转写。
中英日粤多语言
多语言识别&翻译,网课学习无障碍。
超长音视频批量转写
支持多种格式,最大6G、6小时音视频。
“小悟”音视频问答助手
超长音视频跨记录、单记录、多语言自由问答
关键信息“问”出来
单记录1跨记录提问,智能推荐问题。
多语言自由提问
英文视频也能用中文提问并回答。
一键定位原文
快速回顾对应片段,信息检索更高效。
关键词、全文概要、发言总结
以通义千问大模型为底座,基于不同场景提供丰富的总结提炼能力
关键词
提炼总结关键词汇,明确核心话题。
全文概要
一段话总结音视频内容。
发言总结
概括和提炼发言人观点。
章节速览、问答/要点回顾、待办事项
以通义千问大模型为底座,基于不同场景提供丰富的总结提炼能力
章节速览
基于时间线分割话题并总结,快速定位片段。
问答/要点回顾
提炼面试、访谈问答对,总结要点内容。
待办事项
会议待办提取,支持回溯到原文。
提取PPT
网课视频PPT智能识别,自动总结课程要点
网课PPT提取总结
基于时间线排列并总结,快速浏览课程要点。
一键导出PPT文件
可导出为多种格式,包含总结内容。
快捷添加PPT画面
支持截图插入PPT,快速完善学习笔记。
思维导图
梳理音视频思维脉络,多层级结构化展示
结构化总结音视频
基于音视频生成多层级脑图,逻辑更清晰。
支持一键导出
可导出为.xmind文件/图片。
AI改写
口语内容书面化规整,提高阅读效率
文本一键规整
口语化内容转为书面语,提升阅读效率。
精准表达
文本更具规范性和准确性,无需手动整理。
广泛适用多种场景
会议、访谈、咨询、播客等均可使用。
多端产品形态:浏览器插件、小程序
浏览器插件
实时双语悬浮字幕,智能总结音视频内容适用于网课学习做笔记、视频观看、线上会议纪要(
钉钉会议、腾讯会议、Zoom...)等多种场景。
多端产品形态:浏览器插件、小程序
多端小程序
已上线微信、钉钉、阿里云盘等常用APP,覆盖用户移动端使用场景,随时随地使用听悟。
支持实时录音转文字、手机音视频文件转文字、微信聊天音视频转文字等。
小程序-实时记录
实时录音转文字,无需手动记录;同步开启翻译功能,跨语言沟通无障碍。
实时转文字
实时录音转文字,解放双手,轻松记录
实时翻译
实时翻译,跨语言沟通无障碍
小程序-智能速览
一键智能总结,音视频精华尽在掌握,多维度理解与总结,让信息触手可及
全文概要
快捷了解全文内容总结
章节速览
分章节查看内容摘要
发言总结
精准区分发言人,总结核心观点
问答/要点回顾
总结问答内容,梳理内容重点
提取PPT
智能提取课件PPT,总结讲解内容
关键词精准捕
捉信息要点,把握内容精髓
小程序-音字回听
智能速览回顾原文内容,点击原文可跳转播放,音字画同步对照,高效回顾
智能速览回顾原文
先速览,再回顾,阅读更高效
原文音字回听
跳转播放,音字画同步对照
小程序-AI看播客
快速浏览播客内容概要,高效筛选优质播客,播客链接一键处理
智能速览看播
客快速浏览概要,高效筛选优质内容
播客链接转写
上传播客链接,一键生成智能速览
工具靠近内容:通义听悟x阿里云盘
阿里云盘集成听悟,音视频一键速览,使用听悟A消费云盘内容。
内容入驻工具:“发现”优质播客
每日更新精选播客,总结思维导图、章节、发言观点等。
内容入驻工具:播客链接转文字
开放全部AI功能,API被集成
被集成
·通过API获得通义听悟全部AI能力
集成进开发者业务系统。
功能丰富
·语音、语言、视觉多模态AI按需获取各A模型不断进化。
易开发
·一套接口,参数配置。
·易于上手的文档、示例、开发者
服务。
定制专属大模型
·根据垂直行业需要,定制企业专属听悟大模型。
主要集成开发的场景方向
与各行各业开发者,共同探索行业多元应用场景,共创智能生态。
案例:钉钉闪记
全程转写
会中开启云录制,会后自动生成会议纪要,可支持多语言翻译,会中实时摘要总结。
纪要整理
对纪要内容编辑修改。
支持分享/下载/导出至钉钉文档。
会议回顾
支持音字视频对照回顾、快进/快退,倍速播放支持智能摘要总结、待办事项。
案例:钉钉直播/钉钉会议/钉钉文档
通义听悟Paas也被应用在钉钉直播,会议,文档等多种场景中。
案例:阿里云盘
案例:夸克网盘
网盘/本地文件转文字,实时录音转文字,实现付费增值
案例:合资品牌、新势力造车
案例:新东方
案例:某在线企业培训合作伙伴
直播课程内容回顾:完美再现教学现场,回放支持答题、聊天等互动式学习。
培训素材数字化:采集传统教学场景素材,数字化解析内容,快速丰富企业知识线上沉淀。
智能字幕:自动识别视频人声,多语言字幕翻译,3分钟完成字幕制作。
智能搜索:定位学员搜索关键词所在的语音、字幕、文档内容等,不辜负每一课投入。
案例:咨询访谈
某客户是中国证券行业长期、持续、全面领先的综合金融服务商
项目背景
金融尽调访谈:公司上市从审核制变更为注册制,即从上市前监管
改变为上市后监管,相当于监管风,险从证监会下移到券商。投行
人员,针对上市公司的客户现场沟通,也有部分电话和视频
会议形式。每个尽职调查做完,投行人员会回公司或者酒店,根据
沟通内容形成报告。
使用场景
·金融尽调访谈。
·高层领导重点会议。
·企业内部客户培训会议。
应用效果
合作产品已经上线,服务于客户总部1000+员工;覆盖金融尽调
访谈场景,实时会议场景;提高员工整理会议纪要尽职调研底稿效率。