icon智能电子产品特征icon

低功耗 | 小型化 | 持续监听 | 复杂场景抗噪 | 近场交互

无屏小屏
语音交互缩短交互路径
电池供电
超低功耗算法
复杂场景
清晰拾音抗噪干扰
资源受限
算法定点优化
icon智能电子语音解决方案架构图icon
icon智能手机行业竞争—芯片、屏幕、摄像、充电、音质是营销重点icon
icon语音助手是各家提升人性化智能化,打造私人助理的重要途径icon

语音应用:盲人/聋哑人应用、智能场景识别、自定义唤醒、语音解锁密码、与可穿戴设备联动、全双工人机对话、语音转文本、方言与翻译、语音+图像识物。

icon低功耗唤醒与多级校icon
icon自定义唤醒icon

低功耗自定义唤醒: 1. 唤醒模型大小:75k 2. 流程:手机端设定唤醒词,检查唤醒词合规性并计算阈值,开始声纹注册, 注册成功后将唤醒模型与声纹模型load到一级ADSP上 3. 测试场景:安静场景、家居场景。

icon低功耗唤醒与多级校验icon
icon免唤醒命令控制icon

背景:不再拘束于唤醒词,提供更自然的语音交互能力。在我们的日常生活中,不会和别人说话时每说一句话就叫对方名字一次,同样每次使用语音功能时都需要先呼叫车机的小名,有时真的会感觉心累;

使用场景:全局生效或者在应用内生效,如拍照摄影、游戏控制、音乐播控;

案例:

1. VIVO手机:拍照命令控制(拍照、茄子、Cheese)

2. 黑鲨手机:游戏控制命令词(打雷打雷、打药打药……)

3. 小米手机:来电控制命令词(接听电话、挂断电话)

4. 耳机:音乐播控命令词(增大音量、减小音量、上一首、下一首、播放音乐、暂停播放)

5. 手表:常用变盘操作指令(常用设置、运动设置、闹钟提醒……)

优势:

1. 资源占用低

2. 响应速度快

3. 准确率高

icon应用案例icon

小米手机: 支持接打电话、控制APP 可定义VIVO手机: 通过声控控制拍照,包括中文和英文 分别是:拍照、茄子、Cheese。

icon本地通用识别icon
icon场景识别与声音事件检测icon
安防
枪声
玻璃破碎
爆炸
呼救
环境
马路场景
地铁环境
机场环境
定制事件
婴儿啼哭
咳嗽
...
More
直播
工业异常音
敏感词
icon方言和重口音种类icon
2018 .12
快速定制交互类型识别
2019.6
提出普通话+方言/口音,混合建模技术
2020.1
长语音方言识别落地
2020.9
INTERSPEECH-AESR
“ 口 音 种 类 识 别 “ 冠 军 和 “ 口 音 英 语 语 音 识 别 ” 亚 军2021至今
已建设12种方言和重口音
icon方言和重口音特性与性能icon
所有方言和重口音识别均支持与普通话混合识别,即1+X模式;普通话/粤语混读;普通话/四川话混读;普通话/上海话混读;额外还有支持普通话+N种方言混合识别模型;普通话/粤语/四川话/上海话混读;快速迭代优化;每月固定优化语音识别模型;重点项目周级别优化;语音模型自定制、热词等确保快速修复Badcase;方言和重口音种类极速扩充已有12种,持续拓展中。
icon小语种icon
 1. 支持语种
小语种目前支持20个语种的云端及本地识别。
2. 识别性能
特定领域命令词识别,本地可达到95%,云端可达到98%。 通用连续语音识别,本地平均性能85%,云端平均性能92%。
 
3. 技术框架
对于新语种系统的开发,大概需要300小时通用数据,200小时定制领域数据。基于给定数据, 可以通过添加加性噪声及冲激响应来进行数据增强,模拟实际应用场景的噪声及远场环境;采用多种语言训练的基准模型提供先验知识,在给 定的新语种任务上做迁移学习;性能较好的大模型作为teacher教本地小模型,提升本地模型的学习能力;结合不同的损失函数作为学习目标进行 多任务学习,获得更高的识别准确率;此外,采用 off2on技术,减小延时,保证识别的实时性。对于已有语种的系统,需要依据实际应用需求,结合当 前系统的数据构成进行评估。
iconTTS 风格&情感合成icon
产品介绍
同-发音人,多种风格&情感, 包括:欢快, 抱歉,激烈,放松等
业界领先的技术和数据积累 1、上海交大实验室加持的业界领先声学建模技术 2、基于主流generator-discriminator网络的声码器技术 3、数千小时高质合成基础语料 业界领先的合成效果合成音和录音ABX达到40%;46%;14% (40%认为合成音好,46%认为录音好, 14%认为一样好) 。
iconTTS 声音复刻icon
产品简介 “声音复刻"又称“声音克隆",是赋能用户通过少的录音,训练得到音色和发音风格与录音非常相似的声音楼型, 快速“克隆"个性化的声音,进而使用该音色完成讲故事、播天气、读小说、导航播报等功能。
主要特性 1、20句话,400字, 2、男声、女声、童声;中文和英文 技术指标 自然度和相似度MOS超过3.8 2022年复刻产品展望 1、更高的品质. 2、更少的数据. 10句话200字& 5句话100字& - -句话 3、更多的情感。复刻后支持高兴、抱歉、闲聊等多种风格&情感 4、更多的方言。支持复刻四川话、粤语等主要方言
iconTTS 本地合成icon
产品简介 在设备端完成语言合成,支持linux、android等多种操作系统,支持arm、x86、x86_64等多种硬件平台;业界领先的技术和数据积累 1、高自然度高性能流化encoder-decoder声学模型 2、高保真度高性能同态神经网络声码器 (Neural Homomorphic Vocoder) 3、数千小时高质量合成基础语料。
 
产品简介 在设备端完成语言合成,支持linux、android等多种操作系统,支持arm、x86、x86_64等多种硬件平台,业界领先的技术和数据积累 1、高自然度高性能流化encoder-decoder声学模型 2、高保真度高性能同态神经网络声码器 (Neural Homomorphic Vocoder) 3、数千小时高质量合成基础语料。
iconTTS 方言小语种icon
目前支持的方言:四川话、粤语、上海话、山东话、闽南语。 近期将上线河南话、东北话、法语、德语。2022产品预期 1、同一个发音人,支持多种方言和语言 2、每种方言均具有多种情感&风格 3、更多的方言和小语种
icon近场智慧降噪icon
icon远场会议通话降噪icon

主要由三个部分组成:回声消除、语音降噪、自动增益控制。 1. 回声消除采用传统控制和深度神经网络相结合的方案消除线性回声和非线性回声,能够在单讲 回声消除干净的情况下尽可能保留双讲人声。 2. 语音降噪部分利用麦克风阵列技术选取主要方向人声,再利用神经网络模型进行语音降噪,所 使用的网络模型包含了绝大多数会议场景噪声,如小会议室、大会议室、嘈杂办公室等等。 3. 自动增益控制是为了保证人声不会因为人与设备之间的距离增加而产生明显的音量变化。

icon远场通话降噪-效果对比icon
icon多种麦克风阵列icon
近场麦克风阵列
单麦克风:
➢硬件成本低
➢硅MIC SNR不低于65dB,硅MIC灵敏度波动范围在1dB以内
双麦克风阵列:
➢适配BF等传统降噪算法
➢ 间距花盖1 5~35mm
➢ 单体要求与单麦一致
三/四麦克风阵列: 兼容双麦克风阵列优势,高噪场景,FB/VPU MIC音频可保证更好,ENC效果 ➢ Hybrid ANC,主动降噪,性能更强 。
远场麦克风阵列
六麦克风阵列:
➢环形/线型阵列, 满足不同 产品封装要求
➢ 拾音距离远达8m
➢灵敏度一致性: 硅麦≤土 1.5dB;驻极体≤土2dB
➢ 信噪比:硅麦≥63 dB; 驻极体≥68dB 四麦克风阵列:
➢环形/线型阵列, 满足不同产品封装要求
➢ 拾音距离远达5m
➢ 单体要求与六麦-致
三麦克风阵列:
➢可分离说话人内容 (会议场景)
➢单体要求与四/六麦 一致
双麦克风阵列:
➢ 拾音距离远达3m
➢ 单体要求与四/六麦一致
icon结合声纹的目标人声提取icon
icon1+N—跨设备声纹验证icon
1、建立家庭用户账号系统
2、所有设备登录同一账号
3、在任一台设备进行注册和验证时带上账 号参数,实验跨设备身份验证
落地场景
某电视厂商,多台电视跨设备声纹认证,某空调厂商,不同空调跨设备声纹认证;
指标
跨设备命令词声纹认证准确率>85%。支持系统自动注册方案,无须用户主动注册。
icon1+N—融合声纹验证icon
icon应用案例icon
手机端注册声纹
小艺小艺,今天天气怎么样
跨设备验证
小艺小艺,打开房门
门外监控
重点: 1. 唤醒+一句话,声纹验证准确率 99%,误闯率0.1% 2. 仿冒攻击,拒绝录音和合成音攻击门外监控系统显示有人到访 并将来访人像投影到电视大屏上
icon1+N—就近唤醒icon
功能需求
解决全屋智能一体化家居场景下,多台设备、同一唤醒词引发的“一呼百应”现象,只唤醒就近设备,提升用户在家居场景下的语音体验。
解决方案
经过若干个多设备选择方案的迭代,我司实现了基于双耳直 混比模型(Binaural-Model Direct-to-Reverberant Energy Ratio, BMDRR)的多设备选择方案,有效改善不同设备间协同 唤醒的体验,提升就近唤醒的准确率。
功能特点
分布式组网策略,就近设备应答,拒绝“一呼百应”;多平台、多设备联动,为你的家“保驾护航”;安静、本机播放、单点干扰等测试场景下,综合准确率可达90%
iconAI接听助理:自助转接+回应icon
来电提醒
AI助理自动接听并转写
通话内容实时推送给机主
记录查询
代接记录随时查询
支持一键播放录音或者回电
通话详情
支持一键播放录音或者回电
通话详情
 
iconAI接听助理:C端灵活定制icon
助理风格定制
开场白自助设计+海量音色库免费开放 用户可通过简易录音,快速定制专属音色
代接场景区分
机主不同状态一键切换区分
代接场景可自定义设置
icon典型合作客户icon
产品推荐 查看更多>>
    思必驰手机音频解决方案

    思必驰手机音频解决方案可以盲人/聋哑人应用、智能场景识别、自定义唤醒、语音解锁密码、与可穿戴设备联动、全双工人机对话、语音转文本、方言与翻译、语音+图像识物,以及不再拘束于唤醒词,提供更自然的语音交互能力。在我们的日常生活中,不会和别人说话时每说一句话就叫对方名字一次,全局生效或者在应用内生效,如拍照摄影、游戏控制、音乐播控。

    低功耗唤醒与多级校验

    自定义唤醒

    免唤醒命令控制

    场景识别与声音事件检测

    腾讯云小微智能硬件AI语音助手IHAVA

    腾讯云小微智能硬件 AI 语音助手(Intelligent Hardware AI Voice Assistant,IHAVA)为您提供前沿的 AI 语音全链路能力、硬件方案咨询及认证服务,整合腾讯系优质内容和服务,面向智能硬件行业打造全方位的自然人机交互体验。

    提供前沿的 AI 语音全链路能力

    硬件方案咨询及认证服务

    整合腾讯系优质内容和服务

    面向智能硬件行业打造全方位的自然人机交互体验

    魔音工坊AI配音平台

    魔音工坊AI配音平台拥有全能创新的音频合成编辑功能,成熟的应用商店能够南腔北调,语种多样以及情感合成,情绪多变。同时网页、小程序和APP,一个账户,多端通用,是短视频AI配音行业第一品牌。

    全能创新音频合成编辑功能

    丰富的声音IP

    一个账户多端通用

    成熟应用商店