视频直播,语音聊天,音乐社交,这些与“声音”相关的社交场景在过去两年中变得越来越热,并吸引了许多内容创作者和用户。但是,相关的语音内容审查一直是许多平台的头疼问题。这也使得“每日聆听4000种声音”的声音成为头条新闻。现在,市场上的一些厂商已经开始提供智能语音黄变服务,大大减少了人工黄变的工作量。
然而,对于社会产品团队来说,现有的语音内容审计+实时音视频服务、部署、调试、运行和维护成本都很高,许多方案对背景音乐和噪声的音频识别效果都很差。为了解决这个问题,我们正式推出了Agora一站式智能语音识别方案。
所有现有的计划是如何运作的?
一般情况下,一个社会产品需要与三家制造商对接:CDN制造商,用于推送流和拉流,并实现正常直播;RTC制造商用于实现低延迟的实时交互直播;内容审查制造商通过人工智能手动进行审核。Access的体系结构基本如下图所示,可以简单地概括为三个步骤:
1.内容被转码或直接推送到CDN;
2。内容审计供应商从内容交付网络(cdn)中撤出,然后进行人工智能和手动内容审计。
3.审计完成后,将返回到服务器。
图:传统的实时音视频内容评审过程
这种旧方法引起的问题是显而易见的。首先,开发人员需要停靠三个供应商,并且必须多次部署和调试。调试有很多成本和风险。此外,当CDN失败时,需要很长时间来解决问题。此外,在此过程中,开发人员还需要支付额外的拉流成本。
另一方面,目前的方案也需要解决噪声问题。由于音频社会交互的场景很多,如语音调频、语音聊天室、音乐社交、娱乐直播等,这些场景往往伴随着环境噪声和背景音乐,这将影响现有内容审核方案的识别率。
一种用于声音网络的AGORA一站式智能语音识别方案
目前,语音网络已经为业界提供了独一无二的一站式智能语音识别方案.如上述体系结构所示,开发人员只需在应用程序中集成声音Mesh AgoraSDK,就可以使音频在AgoraSD-RTN™网络中实时传输过程中完成语音内容的识别和审查。在原有的现场语音互动直播的基础上,我们整合了业界三大语音识别服务。同时,基于音频网络的人工智能音频降噪引擎,提高了语音质量,优化了语音识别效果。
语音识别过程如下图所示。首先,由声音网络专门开发的AI音频降噪引擎消除了背景声音,优化了音频质量,并使声音更清晰。我们在网络广播,语音约会和其他互联网平台上听到的语音音频通常有两种类型,一种是普通语音,另一种是非文本声音,如娇川和ASMR,后者没有任何语义。因此我们将通过不同的模块检测,将语音转换为文本并进一步过滤内容安全引擎,结合“多意义上下文短文本垃圾邮件检测”,“深度学习垃圾检测”,“规则引擎”和“分类器”模块过滤掉非法内容,如政治,泛黄(包括娇川,ASMR),惶恐不安,以及音频中的辱骂。人工审核团队可以通过网络背景对机器审核结果进行随机检查和审核,并不断优化机器审核的准确性。此过程可以显着降低手动审核的成本并提高效率。
目前,该解决方案可以检测到广告、色情、政治、暴力和滥用等非法内容。适用于直播视频、语音聊天室、娱乐直播、语音调频、音乐社交网络等实时音视频社交场景。
agora一站式智能语音识别计划的优点包括:
1
调用RESTfulAPI,一站式访问
Sound Network Agora目前提供实时音频呼叫SDK。通过在您的应用中集成Agora SDK,开发人员可以通过调用RESTful API为其应用添加语音内容审核。与传统的内容审计解决方案相比,完善的网络解决方案可以节省开发时间,服务器和其他访问成本。
2
AI 降噪,识别率更高
面对语音识别中常见的噪声、背景音乐等音质问题。通过人工智能音频去噪引擎对音频进行优化,提高语音识别率。同时,用户的语音和音频体验也会得到改善。在今年的RTC2019实时互联网会议上,我们将进一步分享人工智能音频去噪背后的技术实践。请期待。
3
语音交互低延时
声网sdk实现了从全球终端到终端76ms的实时音频和视频低延迟传输。声网agora sd-rtntm实时通信网络采用专用的udp协议进行传输,根据软件定义和优化路由选择最优传输路径,自动避开网络拥塞和主干网故障的影响。在保证低延迟传输的同时,声网agora sdk还支持48kz的高质量语音。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-23 16:44:32
2022-11-23 16:37:22
2024-11-08 17:48:13
2022-11-22 10:12:03
2022-11-23 17:15:19
甄选10000+数字化产品 为您免费使用
申请试用
评论列表