腾讯云声音工坊TTSW_声音复刻服务_声音定制方案

腾讯云声音工坊TTSW

腾讯云声音工坊（ TTSW ）提供定制音色的能力，满足客户定制化需求。通过先进的深度学习技术，根据客户实际业务情况，提供不同的定制方案，从而更有效、更专业地服务实际业务需求。普遍适用于智能客服、智能硬件、在线教育、有声阅读、新闻播报等场景，通过训练专属业务音色，从而更好的服务业务场景，提升交互体验。

立即咨询

声音工坊

声音复刻

提供20句录⾳数据，快速实现定制⾳⾊。定制成本低，流程快、⾃动化流程，适合需要批量定制、且对⾳⾊效果要求不⾼的业务场景。

声音定制

提供1-8⼩时⾳频训练数据，实现深度定制⾳⾊服务。深度定制、精品⾳⾊，成本相对较⾼，适合对定制⾳⾊效果要求⾼的业务场景。

声音工坊

歌声合成

传入歌词、曲谱，指定音色，即可生成独一无二的合成歌声或歌曲。提供30分钟歌声录⾳数据，实现深度定制⾳⾊服务。

音色变换

采集语料，训练变声模型，输出⽬标⾳⾊。输⼊任意⼈声⾳频都可以转换成⽬标⾳⾊的⾳频。

声音复刻

声音复刻满足快速、批量、轻量级定制音色的需求

客户只需要提供少量的录音数据，即可快速获得个性化、轻量级定制的音色服务。适用于在线教育、有声阅读、智能硬件等多个业务场景。

声音复刻

产品简介：只需要提供20句录⾳数据，即可快速（30min训练）获得个性化、轻量级定制的⾳⾊。使⽤场景：适⽤于在线教育、有声阅读、智能硬件等业务场景。接⼊⽅式：⽀持API、SDK。训练语种：⽬前仅⽀持训练中⽂普通话。

声音复刻

基于最前沿的深度神经网络技术自主研发的音色定制语音合成技术，采用端到端神经网络对声学模型迁移学习建模，合成的语音自然度和音色相似性高，采用神经网络技术对合成器迁移学习建模使得合成出的语音音质清晰度高。

降低定制门槛
只需提供20句录音数据，即可开启个性音色定制

快速、批量定制
只需30min即可完成定制训练，支持快速、批量完成轻量级定制

效果自然拟真
基于最新DNN技术，合成音色音质清晰、自然流畅、相似度高

覆盖丰富场景
适用于在线教育、有声阅读、音视频创作、智能硬件等业务场景

声音定制

声音定制满足深度定制、精品音色的定制需求

客户需要提供小时级的录音数据，通过腾讯云内部的标注和模型训练，从而定制一个专业的、符合业务场景要求的高质量音色。

声音定制

介绍：⾳⾊定制就是通过机器去模拟某个⼈的⾳⾊，再通过这个⾳⾊完成内容播报；场景：智能客服、有声阅读、IP⾳⾊等。周期：腾讯云收到客户提供的录⾳数据后，1个⽉提供第⼀版训练效果；录⾳周期取决于客户进度安排。

定制流程

1.需求明确

客户和腾讯云沟通明确具体业务需求

2.数据评估

客户提供少量录音数据，腾讯云评估数据是否可用

3.合同签署

双方签订合同，约定训练周期、报价等

4.数据准备

客户指定声优在专业录音棚内完成所需文本的录音

5.标注&训练

腾讯云根据客户提供的录音完成数据标注和模型训练

6.验收上线

客户对腾讯云提供的音色效果验收，通过后完成上线

使用场景

虚拟人
专属个人定制

有声阅读
父母亲人的声音亲切陪伴

客服助手
客服坐席声音分身

智能硬件
智能家居、机器人

车载智能
家人安全提醒孩子的声音陪你闲聊

智能客服（声音定制）-招联金融 icon

项⽬背景

：客户已有智能客服，但是希望实现独家⾳⾊，代表招联⾦融品牌，因此提出定制⾳⾊的需求。

合作流程

：1. 明确定制需求：客户明确定制中英⽂混读⾳⾊（语种要求），预计提供1h录⾳数据（训练数据要求）。2. 提供样本评估：客户提供录⾳的⽂本（500业务常⽤话术）、录⾳⾳频（专业声优、录⾳棚录制）给腾讯云评估可⽤性。3. 数据标注&模型训练：评估通过后，开始数据标注和模型训练，⼤概2-3周产出⼀版训练效果。4. 效果验收上线：客户接⼊业务系统对⾳⾊效果进⾏实际业务场景下的验收，验收通过后上线。

客户价值

⾸先TTS可以有效降低客服的⼈⼯成本，提升服务效率；同时，定制专属⾳⾊也具备⼀定的品牌效应。

歌声合成

歌声合成是运用AI语音算法打造的一款自动生成个性化歌曲的产品，通过传入歌词、曲谱，指定音色，即可生成独一无二的合成歌声或歌曲，可用于娱乐创作、虚拟歌声等场景。支持歌词修改，同歌不同词，玩转歌曲改编。支持定点匹配伴奏，生成带BGM的歌曲。支持定制音色，使用专属声音。

音色变换

音色变换是选择指定的变声模型，或者收集目标音色语料数据，训练一个目标音色的变声模型，精准将原说话人的声音转换为目标说话人，同时保留原说话人的风格特色。让声音有更多的表现形式。无需语料标注，快速训练模型。输入任意人声即可转换，支持转换成方言。支持定制音色，使用专属声音。

应用场景——虚拟人声音方案 icon

声音工坊集成各项能力可以为虚拟人定制打造全方位的识别声音方案，广泛应用于各种泛娱乐场景，如虚拟偶像直播、演唱会、虚拟主播/智能机器人唱歌、歌曲创作、模仿变声等。和tts结合使用，使虚拟偶像能说会唱。为虚拟偶像生成专属歌曲，打造虚拟歌手。灵活修改曲谱和节拍，给演唱会带来更多变化和看点。虚拟主播唱歌，给直播带来新形态。观众改词，主播唱歌，增加互动性玩法。