语音识别是一个有着悠久历史的研究领域。在过去的几十年里,从最简单的小词汇量朗读语音识别问题 Read Speech 开始,逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。
如今,即便是在以前认为非常难的电话自由聊天这样形式的语音识别问题上,机器也已经达到甚至超过人的识别水准。但是我们要看到,虽然取得了这些进展,但离真正的人与机器的自由交流还有一定差距,这也就是为什么语音识别的研究前沿需要继续往前推进一步。
腾讯在研究语音识别的过程中越来越没有了环境的诸多限制,其语音识别技术和自然语言处理技术都是基于深度学习和神经网络等技术的研究成果,具有高效、准确的特点。
值得一提的是,腾讯的语音识别技术在智能客服、智能家居等领域都有着不错的发展。例如,在智能客服领域,这些产品可以对用户的需求和问题进行分析和识别,并给出相应的解决方案。在智能家居领域,这些产品可以根据用户的习惯和喜好,自动调节家居设备的设置,提供更加个性化的使用体验。
腾讯语音识别一直在为企业提供精准并极具性价比的识别服务,在录音质检、会议实时转写、语音输入等多个场景中都很适用,但在过程中也遇到不少难题。数字化顾问云小巴特准备腾讯语音识别功能常见问题大解答,送给各位!
识别效果问题排查
如您在使用语音识别时,发现转写的结果与您预期有一些差距,就可以通过以下步骤进行问题排查。
分为如下几种常见情况:
1、本身音频内容靠正常的人耳听不清楚或者听不懂,这类情况建议对于前端的采音环境进行改造,如采音距离由远场改为近场,采音环境的噪音尽量控制和减少,口音、方言尽量控制在带口音的普通话(即非本地人可听懂)以及改善语速过快造成的吞音。
2、本身音频内容可以听懂,但识别结果与听到的内容相差很大。这类情况一般是音频信息不满足语音识别服务要求导致的。
通过 cooledit、Adobe Audition 或者 FFmpeg 查看音频的详细信息,包括采样率、声道数和位深。语音识别服务目前仅支持8000Hz或者16000Hz采样率、16bits位深,录音文件识别支持单/双声道,实时语音识别和一句话识别仅支持单声道。注:如果您使用的是实时语音识别或一句话识别,音频属性必须严格符合上述要求。
查看音频的波形和频谱(Adobe Audition 在视图选项中)来判断实际音频真实的采样率,建议真实采样率要满足语音识别的要求(8k电话引擎模型对应8000kHz采样率,16k非电话引擎模型对应16000kHz采样率)。
3、本身音频内容可以听懂,并且识别结果与听到的内容相差不大,但有一些特有的名词或者句子识别不好,可通过如下步骤提升识别效果:
将识别不好的名词参考热词使用文档指引进行热词的添加和使用。
将识别不好的名词所在句子或者识别不好的特殊句子参考自学习模型使用文档指引进行自学习模型的添加和使用。
4、本身音频内容可以听懂,并且识别结果与听到的内容相差不大,但会多出来一些识别结果。这类一般是因为噪声造成的,噪声分为两种,一种是非人声的噪音,一种是人声的噪音。本身ASR算法对于第一类噪音做过一定的适配和优化,这一类可以提供具体的 badcase 给到腾讯来分析优化,但对于第二类人声噪音较难解决,因为会对于真正需要识别出来的人声的造成误伤。
服务与计费相关
1、语音识别服务每月有免费额度吗?
录音文件识别免费额度为每月10小时。
一句话识别免费额度为每月5000次。
实时语音识别免费额度为每月5小时。
语音流异步识别免费额度为每月5小时。
录音文件识别极速版免费额度为每月5小时。
免费额度中的小时数指识别成功的音频时长;免费额度中的次数指识别成功的次数。
2、语音识别服务如何计费?
目前有预付费和后付费两种计费模式,预付费支持购买付费资源包,调用量的扣费顺序为:免费资源包 > 付费资源包 > 后付费。
3、语音识别预付费资源包是否支持余量预警通知?
支持,免费与预付费资源包均支持余量预警,请关注站内信与短信等渠道通知。
功能相关
1、不同使用场景对应的是语音识别哪种服务?
实时语音识别适用于有实时性要求的场景,例如语音输入法、语音机器人、会议现场记录等场景。
录音文件识别适用于语音时间较长、实时性要求低的场景,例如客服质检、视频字幕生成等场景。
录音文件识别极速版适用于语音时间较长、实时性有极高要求的场景,例如视频添加字幕、准实时质检等场景。
一句话识别适用于对60秒之内的短音频文件进行识别的场景,例如语音短信、语音搜索等场景。
语音流异步识别适用于语音流准实时识别,异步返回文字结果的场景,例如直播审核、音视频审核等场景。
2、语音识别支持中英文混合场景和地方方言吗?
实时语音识别、一句话识别、录音文件识别、录音文件识别极速版和语音流异步识别支持中英文混合识别(使用中文引擎的时候,在少量英文的情况下可以支持中英文混合识别,大量英文可能出现识别率降低的情况),且支持带口音的中文普通话语音识别。
实时语音识别、一句话识别、录音文件识别和录音文件识别极速版支持上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话等23种方言的识别。
3、语音识别支持的输入音频时长是多少?
一句话识别每次调用支持60秒之内的音频。
录音文件识别每次调用支持五小时之内的音频。
实时语音音频流中每个数据包的音频分片为200ms。
4、一句话识别和录音文件识别的音频数据支持哪种传输方法和格式?
采用 HTTP 协议传输,POST 方法,音频数据传输如下两种方式:
音频数据使用 base64 编码后,随 HTTP body 传输。
若采用 url 下载,body 中的数据可不填,在请求参数内填入音频 url。
5、实时语音识别中,如果一段音频包含多句话该如何提高准确率?
建议开启VAD功能,VAD(Voice Activity Detection)是指对音频进行分段的技术,如果一段音频中包含了多句话,VAD可以检测多句话之间的停顿进行自动断句,从而达到更高的识别准确度。
6、语音识别是否支持同步的结果调用形式?
实时语音识别支持同步返回识别结果。
一句话识别支持快速返回识别结果。
录音文件识别支持回调和轮询两种异步调用形式。
7、语音识别能否保存语音文件?
语音识别上传的音视频文件是不会保存的,识别成功后存储的是识别后的文本文件,文本文件会在服务器上保存7天。保存语音文件会影响识别结果,目前结果是直接返回的,您可以在业务侧自行实现语音文件的保存,您可将语音文件保存在本地服务器或者数据库中。
8、语音识别准确率是多少?
腾讯云语音机器人系统在国家电子计算机质量监督检验中心出具的测试报告中,对于数据采样率16k、16bit、原始不压缩的 wav 或 pcm 格式的音频数据,中文语音识别的字准率为97.40%(结果保留两位小数),英文(美式)语音识别的字准率不低于88.00%(结果保留两位小数)。
但请您知悉,前述字准率仅为第三方实验测试数据,仅供您参考,不作为腾讯云语音识别服务准确性的承诺保证。
API与SDK相关
1、语音识别接口的 HTTP 请求返回鉴权失败?
可对照参数表检查自己的参数是否正确上传。若想快速接入,推荐使用官网提供的 SDK。
2、语音识别服务识别结果报错无效的 URL 地址?
用户提供的 URL 地址需要是公网的 URL,能被腾讯云访问。可使用腾讯云提供的 COS 服务存放音频并使用相关的 URL。也要请用户排查防火墙是否拦截,是否内网 IP,是否存放于其他服务提供商无法被腾讯云下载等问题。
3、语音识别调用接口服务的时报错"未注册的 AppId"?
用户未注册,用户需要按照语音识别入门开通语音识别服务方可使用服务。
4、语音识别接口会限制音频文件的采样率吗?
接口不会限制,但是采样率不符合标准,会影响到识别效果。
其他相关
1、语音识别如何接入?
注册并通过实名认证后,登录腾讯云控制台,点击语音识别控制台即可开通相关服务,该项服务即可享受对应额度的免费调用额度,以资源包的形式发放到您的腾讯云账号中,并在计费结算时优先扣减。免费额度耗尽后,语音识别提供预付费和后付费两种计费模式。
2、语音识别控制台功能体验怎样上传大于5M的文件?
语音识别控制台上作为功能体验提供给您进行测试,如果您的测试文件比较大,建议您采用上传音频URL方式,建议音频时长不能大于五个小时。
3、录音文件转文字,返回文字用时多久?
录音文件转文字返回结果受网络和音频长度、录音环境、语言标准等因素影响,具体时间需要根据参数来决定。
云巴巴作为腾讯的重要合作伙伴,也一直在和腾讯语音识别产品携手共同为企业用户提供更多优质的产品与服务,如果您有任何感兴趣的产品,可以扫描下方二维码联系我们!
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2019-09-17 16:17:53
2022-11-24 14:14:08
2024-07-09 17:33:18
2022-11-24 10:06:40
2022-11-21 11:35:22
甄选10000+数字化产品 为您免费使用
申请试用
评论列表