思必驰手机音频解决方案_智能语音唤醒_智能语音识别系统

思必驰手机音频解决方案

思必驰手机音频解决方案可以盲人/聋哑人应用、智能场景识别、自定义唤醒、语音解锁密码、与可穿戴设备联动、全双工人机对话、语音转文本、方言与翻译、语音+图像识物，以及不再拘束于唤醒词，提供更自然的语音交互能力。在我们的日常生活中，不会和别人说话时每说一句话就叫对方名字一次，全局生效或者在应用内生效，如拍照摄影、游戏控制、音乐播控。

立即咨询

智能电子产品特征

低功耗 | 小型化 | 持续监听 | 复杂场景抗噪 | 近场交互

无屏小屏
语音交互缩短交互路径

电池供电
超低功耗算法

复杂场景
清晰拾音抗噪干扰

资源受限
算法定点优化

智能电子语音解决方案架构图 icon

智能手机行业竞争—芯片、屏幕、摄像、充电、音质是营销重点 icon

语音助手是各家提升人性化智能化，打造私人助理的重要途径 icon

语音应用：盲人/聋哑人应用、智能场景识别、自定义唤醒、语音解锁密码、与可穿戴设备联动、全双工人机对话、语音转文本、方言与翻译、语音+图像识物。

低功耗唤醒与多级校

自定义唤醒

低功耗自定义唤醒： 1. 唤醒模型大小：75k 2. 流程：手机端设定唤醒词，检查唤醒词合规性并计算阈值，开始声纹注册，注册成功后将唤醒模型与声纹模型load到一级ADSP上 3. 测试场景:安静场景、家居场景。

低功耗唤醒与多级校验 icon

免唤醒命令控制

背景：不再拘束于唤醒词，提供更自然的语音交互能力。在我们的日常生活中，不会和别人说话时每说一句话就叫对方名字一次，同样每次使用语音功能时都需要先呼叫车机的小名，有时真的会感觉心累；

使用场景：全局生效或者在应用内生效，如拍照摄影、游戏控制、音乐播控；

案例：

1. VIVO手机：拍照命令控制（拍照、茄子、Cheese）

2. 黑鲨手机：游戏控制命令词（打雷打雷、打药打药……）

3. 小米手机：来电控制命令词（接听电话、挂断电话）

4. 耳机：音乐播控命令词（增大音量、减小音量、上一首、下一首、播放音乐、暂停播放）

5. 手表：常用变盘操作指令（常用设置、运动设置、闹钟提醒……）

优势：

1. 资源占用低

2. 响应速度快

3. 准确率高

应用案例

小米手机：支持接打电话、控制APP 可定义VIVO手机：通过声控控制拍照，包括中文和英文分别是：拍照、茄子、Cheese。

本地通用识别

场景识别与声音事件检测 icon

安防
枪声

玻璃破碎

爆炸

呼救

环境
马路场景

地铁环境

机场环境

定制事件
婴儿啼哭

咳嗽

...

More
直播

工业异常音

敏感词

方言和重口音种类

2018 .12

快速定制交互类型识别

2019.6

提出普通话+方言/口音，混合建模技术

2020.1

长语音方言识别落地

2020.9

INTERSPEECH-AESR

“ 口音种类识别 “ 冠军和 “ 口音英语语音识别 ” 亚军2021至今

已建设12种方言和重口音

方言和重口音特性与性能 icon

所有方言和重口音识别均支持与普通话混合识别，即1+X模式；普通话/粤语混读；普通话/四川话混读；普通话/上海话混读；额外还有支持普通话+N种方言混合识别模型；普通话/粤语/四川话/上海话混读；快速迭代优化；每月固定优化语音识别模型；重点项目周级别优化；语音模型自定制、热词等确保快速修复Badcase；方言和重口音种类极速扩充已有12种，持续拓展中。

小语种

1. 支持语种

小语种目前支持20个语种的云端及本地识别。

2. 识别性能

特定领域命令词识别，本地可达到95%，云端可达到98%。通用连续语音识别，本地平均性能85%，云端平均性能92%。

3. 技术框架

对于新语种系统的开发,大概需要300小时通用数据，200小时定制领域数据。基于给定数据, 可以通过添加加性噪声及冲激响应来进行数据增强,模拟实际应用场景的噪声及远场环境；采用多种语言训练的基准模型提供先验知识,在给定的新语种任务上做迁移学习;性能较好的大模型作为teacher教本地小模型,提升本地模型的学习能力;结合不同的损失函数作为学习目标进行多任务学习,获得更高的识别准确率;此外,采用 off2on技术,减小延时,保证识别的实时性。对于已有语种的系统,需要依据实际应用需求,结合当前系统的数据构成进行评估。

TTS 风格&情感合成 icon

产品介绍

同-发音人，多种风格&情感, 包括:欢快，抱歉，激烈，放松等

业界领先的技术和数据积累 1、上海交大实验室加持的业界领先声学建模技术 2、基于主流generator-discriminator网络的声码器技术 3、数千小时高质合成基础语料业界领先的合成效果合成音和录音ABX达到40%；46%；14% (40%认为合成音好，46%认为录音好， 14%认为一样好) 。

TTS 声音复刻

产品简介 “声音复刻"又称“声音克隆"，是赋能用户通过少的录音，训练得到音色和发音风格与录音非常相似的声音楼型，快速“克隆"个性化的声音，进而使用该音色完成讲故事、播天气、读小说、导航播报等功能。

主要特性 1、20句话，400字， 2、男声、女声、童声;中文和英文技术指标自然度和相似度MOS超过3.8 2022年复刻产品展望 1、更高的品质. 2、更少的数据. 10句话200字& 5句话100字& - -句话 3、更多的情感。复刻后支持高兴、抱歉、闲聊等多种风格&情感 4、更多的方言。支持复刻四川话、粤语等主要方言

TTS 本地合成

产品简介在设备端完成语言合成，支持linux、android等多种操作系统，支持arm、x86、x86_64等多种硬件平台；业界领先的技术和数据积累 1、高自然度高性能流化encoder-decoder声学模型 2、高保真度高性能同态神经网络声码器（Neural Homomorphic Vocoder） 3、数千小时高质量合成基础语料。

产品简介在设备端完成语言合成，支持linux、android等多种操作系统，支持arm、x86、x86_64等多种硬件平台，业界领先的技术和数据积累 1、高自然度高性能流化encoder-decoder声学模型 2、高保真度高性能同态神经网络声码器（Neural Homomorphic Vocoder） 3、数千小时高质量合成基础语料。

TTS 方言小语种

目前支持的方言：四川话、粤语、上海话、山东话、闽南语。近期将上线河南话、东北话、法语、德语。2022产品预期 1、同一个发音人，支持多种方言和语言 2、每种方言均具有多种情感&风格 3、更多的方言和小语种

近场智慧降噪

远场会议通话降噪

主要由三个部分组成：回声消除、语音降噪、自动增益控制。 1. 回声消除采用传统控制和深度神经网络相结合的方案消除线性回声和非线性回声，能够在单讲回声消除干净的情况下尽可能保留双讲人声。 2. 语音降噪部分利用麦克风阵列技术选取主要方向人声，再利用神经网络模型进行语音降噪，所使用的网络模型包含了绝大多数会议场景噪声，如小会议室、大会议室、嘈杂办公室等等。 3. 自动增益控制是为了保证人声不会因为人与设备之间的距离增加而产生明显的音量变化。