立即咨询

电话咨询

微信咨询

立即试用
商务合作

那些语音识别的尴尬,腾讯语音识别功能常见问题解答!

2024-03-27

语音识别是一个有着悠久历史的研究领域。在过去的几十年里,从最简单的小词汇量朗读语音识别问题 Read Speech 开始,逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。

如今,即便是在以前认为非常难的电话自由聊天这样形式的语音识别问题上,机器也已经达到甚至超过人的识别水准。但是我们要看到,虽然取得了这些进展,但离真正的人与机器的自由交流还有一定差距,这也就是为什么语音识别的研究前沿需要继续往前推进一步。

腾讯在研究语音识别的过程中越来越没有了环境的诸多限制,其语音识别技术和自然语言处理技术都是基于深度学习和神经网络等技术的研究成果,具有高效、准确的特点。

值得一提的是,腾讯的语音识别技术在智能客服、智能家居等领域都有着不错的发展。例如,在智能客服领域,这些产品可以对用户的需求和问题进行分析和识别,并给出相应的解决方案。在智能家居领域,这些产品可以根据用户的习惯和喜好,自动调节家居设备的设置,提供更加个性化的使用体验。

腾讯语音识别一直在为企业提供精准并极具性价比的识别服务,在录音质检、会议实时转写、语音输入等多个场景中都很适用,但在过程中也遇到不少难题。数字化顾问云小巴特准备腾讯语音识别功能常见问题大解答,送给各位!

icon识别效果问题排查

如您在使用语音识别时,发现转写的结果与您预期有一些差距,就可以通过以下步骤进行问题排查。

分为如下几种常见情况:

1、本身音频内容靠正常的人耳听不清楚或者听不懂,这类情况建议对于前端的采音环境进行改造,如采音距离由远场改为近场,采音环境的噪音尽量控制和减少,口音、方言尽量控制在带口音的普通话(即非本地人可听懂)以及改善语速过快造成的吞音。

2、本身音频内容可以听懂,但识别结果与听到的内容相差很大。这类情况一般是音频信息不满足语音识别服务要求导致的。

通过 cooledit、Adobe Audition 或者 FFmpeg 查看音频的详细信息,包括采样率、声道数和位深。语音识别服务目前仅支持8000Hz或者16000Hz采样率、16bits位深,录音文件识别支持单/双声道,实时语音识别和一句话识别仅支持单声道。注:如果您使用的是实时语音识别或一句话识别,音频属性必须严格符合上述要求。

查看音频的波形和频谱(Adobe Audition 在视图选项中)来判断实际音频真实的采样率,建议真实采样率要满足语音识别的要求(8k电话引擎模型对应8000kHz采样率,16k非电话引擎模型对应16000kHz采样率)。

3、本身音频内容可以听懂,并且识别结果与听到的内容相差不大,但有一些特有的名词或者句子识别不好,可通过如下步骤提升识别效果:

将识别不好的名词参考热词使用文档指引进行热词的添加和使用。

将识别不好的名词所在句子或者识别不好的特殊句子参考自学习模型使用文档指引进行自学习模型的添加和使用。

4、本身音频内容可以听懂,并且识别结果与听到的内容相差不大,但会多出来一些识别结果。这类一般是因为噪声造成的,噪声分为两种,一种是非人声的噪音,一种是人声的噪音。本身ASR算法对于第一类噪音做过一定的适配和优化,这一类可以提供具体的 badcase 给到腾讯来分析优化,但对于第二类人声噪音较难解决,因为会对于真正需要识别出来的人声的造成误伤。

icon服务与计费相关

1、语音识别服务每月有免费额度吗?

录音文件识别免费额度为每月10小时。

一句话识别免费额度为每月5000次。

实时语音识别免费额度为每月5小时。

语音流异步识别免费额度为每月5小时。

录音文件识别极速版免费额度为每月5小时。

免费额度中的小时数指识别成功的音频时长;免费额度中的次数指识别成功的次数。

2、语音识别服务如何计费?

目前有预付费和后付费两种计费模式,预付费支持购买付费资源包,调用量的扣费顺序为:免费资源包 > 付费资源包 > 后付费。

3、语音识别预付费资源包是否支持余量预警通知?

支持,免费与预付费资源包均支持余量预警,请关注站内信与短信等渠道通知。

icon功能相关

1、不同使用场景对应的是语音识别哪种服务?

实时语音识别适用于有实时性要求的场景,例如语音输入法、语音机器人、会议现场记录等场景。

录音文件识别适用于语音时间较长、实时性要求低的场景,例如客服质检、视频字幕生成等场景。

录音文件识别极速版适用于语音时间较长、实时性有极高要求的场景,例如视频添加字幕、准实时质检等场景。

一句话识别适用于对60秒之内的短音频文件进行识别的场景,例如语音短信、语音搜索等场景。

语音流异步识别适用于语音流准实时识别,异步返回文字结果的场景,例如直播审核、音视频审核等场景。

2、语音识别支持中英文混合场景和地方方言吗?

实时语音识别、一句话识别、录音文件识别、录音文件识别极速版和语音流异步识别支持中英文混合识别(使用中文引擎的时候,在少量英文的情况下可以支持中英文混合识别,大量英文可能出现识别率降低的情况),且支持带口音的中文普通话语音识别。

实时语音识别、一句话识别、录音文件识别和录音文件识别极速版支持上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话等23种方言的识别。

3、语音识别支持的输入音频时长是多少?

一句话识别每次调用支持60秒之内的音频。

录音文件识别每次调用支持五小时之内的音频。

实时语音音频流中每个数据包的音频分片为200ms。

4、一句话识别和录音文件识别的音频数据支持哪种传输方法和格式?

采用 HTTP 协议传输,POST 方法,音频数据传输如下两种方式:

音频数据使用 base64 编码后,随 HTTP body 传输。

若采用 url 下载,body 中的数据可不填,在请求参数内填入音频 url。

5、实时语音识别中,如果一段音频包含多句话该如何提高准确率?

建议开启VAD功能,VAD(Voice Activity Detection)是指对音频进行分段的技术,如果一段音频中包含了多句话,VAD可以检测多句话之间的停顿进行自动断句,从而达到更高的识别准确度。

6、语音识别是否支持同步的结果调用形式?

实时语音识别支持同步返回识别结果。

一句话识别支持快速返回识别结果。

录音文件识别支持回调和轮询两种异步调用形式。

7、语音识别能否保存语音文件?

语音识别上传的音视频文件是不会保存的,识别成功后存储的是识别后的文本文件,文本文件会在服务器上保存7天。保存语音文件会影响识别结果,目前结果是直接返回的,您可以在业务侧自行实现语音文件的保存,您可将语音文件保存在本地服务器或者数据库中。

8、语音识别准确率是多少?

腾讯云语音机器人系统在国家电子计算机质量监督检验中心出具的测试报告中,对于数据采样率16k、16bit、原始不压缩的 wav 或 pcm 格式的音频数据,中文语音识别的字准率为97.40%(结果保留两位小数),英文(美式)语音识别的字准率不低于88.00%(结果保留两位小数)。

但请您知悉,前述字准率仅为第三方实验测试数据,仅供您参考,不作为腾讯云语音识别服务准确性的承诺保证。

iconAPI与SDK相关

1、语音识别接口的 HTTP 请求返回鉴权失败?

可对照参数表检查自己的参数是否正确上传。若想快速接入,推荐使用官网提供的 SDK。

2、语音识别服务识别结果报错无效的 URL 地址?

用户提供的 URL 地址需要是公网的 URL,能被腾讯云访问。可使用腾讯云提供的 COS 服务存放音频并使用相关的 URL。也要请用户排查防火墙是否拦截,是否内网 IP,是否存放于其他服务提供商无法被腾讯云下载等问题。

3、语音识别调用接口服务的时报错"未注册的 AppId"?

用户未注册,用户需要按照语音识别入门开通语音识别服务方可使用服务。

4、语音识别接口会限制音频文件的采样率吗?

接口不会限制,但是采样率不符合标准,会影响到识别效果。

icon其他相关

1、语音识别如何接入?

注册并通过实名认证后,登录腾讯云控制台,点击语音识别控制台即可开通相关服务,该项服务即可享受对应额度的免费调用额度,以资源包的形式发放到您的腾讯云账号中,并在计费结算时优先扣减。免费额度耗尽后,语音识别提供预付费和后付费两种计费模式。

2、语音识别控制台功能体验怎样上传大于5M的文件?

语音识别控制台上作为功能体验提供给您进行测试,如果您的测试文件比较大,建议您采用上传音频URL方式,建议音频时长不能大于五个小时。

3、录音文件转文字,返回文字用时多久?

录音文件转文字返回结果受网络和音频长度、录音环境、语言标准等因素影响,具体时间需要根据参数来决定。

云巴巴作为腾讯的重要合作伙伴,也一直在和腾讯语音识别产品携手共同为企业用户提供更多优质的产品与服务,如果您有任何感兴趣的产品,可以扫描下方二维码联系我们!

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

网易数帆有数BI有数BI是由网易数帆推出的一款企业级智能大数据敏捷分析平台。无需代码、PPT式简单拖拽即可轻松完成报告与大屏的制作。丰富的在线图表组件、可视化ETL操作、多终端智能预警等能力真正降低了用户的使用门槛,提高了数据使用效率,助力企业实现数据驱动决策。
携客云采购管理系统SRM携客云的每个应用功能都经过用户的千锤百炼,无论是大型的集团,或是快速成长的企业,都能够为您企业供应链每个管理环节,找到最佳的业务管理方案,并配置您所需要的管理流程和业务细节。
橙色云CRDE智橙协同设计研发平台橙色云CRDE智橙协同设计研发平台是SaaS云原生平台,整合云CAD、项目管理、BOM管理等多功能,支持多终端、跨地域协同工作。它以云PLM与云CAD一体化为核心,提供一站式产品创新解决方案,推动企业数字化转型,实现高效、低成本研发设计。
阿里云无影云电脑阿里云无影云电脑(WUYING Workspace)是一种易用、安全、高效的云上电脑,支持快速便捷的创建、部署和统一运维管控。自带多重安全管控能力,支持随时随地访问,资源灵活弹性。广泛应用于安全办公、协同研发、教育实训、私域运营、分支门店、客服办公等。
句子互动SCRM系统句子互动SCRM系统,把企业微信账号变成机器人,实现更效率和高频次的触达。基于预设规则和对象特征,让消息推送更智能更精准。 帮助企业打通内外部系统的数据系统,实现更多灵活、更个性化的营销和服务能力开发。同时支持私有部署、iframe嵌入等多种系统接入方式。
为你推荐
2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖,载誉而归

1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17
复杂网络环境下,如何通过弱网加速与源站高可用技术架构保障业务零中断?

网宿科技全站加速产品以弱网优化与源站灾备技术矩阵,构建全链路加速体系,通过核心技术为多场景提供端到端保障,实现弱网效率跃升、源站切换无感,助企业突破网络桎梏。

2025-04-24
宠物电商私域运营难?三大痛点如何破解?这篇文章给出答案!

如何将散落的用户数据转化为精准触达能力?如何在企业微信生态中实现规模化高效运营?

2025-04-24
企业网站加速如何兼顾性能与安全?CDN+HTTPS协同驱动实现双优平衡

网宿科技全站加速产品通过CDN加速与HTTPS加速的协同作用,为企业提供高效、安全、可靠的网站加速解决方案。

2025-04-24
AI如何重塑供应链数智化?看洞隐DI.AI破解传统物流的“效率之困”

洞隐DI.AI以AI为底座,覆盖供应链全流程,构建“感知-决策-执行”闭环能力。

2025-04-24
查看更多