声网 Agora 一站式智能语音识别方案

来源: 云巴巴 2019-09-17 16:17:53

视频直播,语音聊天,音乐社交,这些与“声音”相关的社交场景在过去两年中变得越来越热,并吸引了许多内容创作者和用户。但是,相关的语音内容审查一直是许多平台的头疼问题。这也使得“每日聆听4000种声音”的声音成为头条新闻。现在,市场上的一些厂商已经开始提供智能语音黄变服务,大大减少了人工黄变的工作量。

然而,对于社会产品团队来说,现有的语音内容审计+实时音视频服务、部署、调试、运行和维护成本都很高,许多方案对背景音乐和噪声的音频识别效果都很差。为了解决这个问题,我们正式推出了Agora一站式智能语音识别方案。

所有现有的计划是如何运作的?

一般情况下,一个社会产品需要与三家制造商对接:CDN制造商,用于推送流和拉流,并实现正常直播;RTC制造商用于实现低延迟的实时交互直播;内容审查制造商通过人工智能手动进行审核。Access的体系结构基本如下图所示,可以简单地概括为三个步骤:

1.内容被转码或直接推送到CDN;

2。内容审计供应商从内容交付网络(cdn)中撤出,然后进行人工智能和手动内容审计。

3.审计完成后,将返回到服务器。

图:传统的实时音视频内容评审过程

这种旧方法引起的问题是显而易见的。首先,开发人员需要停靠三个供应商,并且必须多次部署和调试。调试有很多成本和风险。此外,当CDN失败时,需要很长时间来解决问题。此外,在此过程中,开发人员还需要支付额外的拉流成本。

另一方面,目前的方案也需要解决噪声问题。由于音频社会交互的场景很多,如语音调频、语音聊天室、音乐社交、娱乐直播等,这些场景往往伴随着环境噪声和背景音乐,这将影响现有内容审核方案的识别率。

一种用于声音网络的AGORA一站式智能语音识别方案

目前,语音网络已经为业界提供了独一无二的一站式智能语音识别方案.如上述体系结构所示,开发人员只需在应用程序中集成声音Mesh AgoraSDK,就可以使音频在AgoraSD-RTN™网络中实时传输过程中完成语音内容的识别和审查。在原有的现场语音互动直播的基础上,我们整合了业界三大语音识别服务。同时,基于音频网络的人工智能音频降噪引擎,提高了语音质量,优化了语音识别效果。

语音识别过程如下图所示。首先,由声音网络专门开发的AI音频降噪引擎消除了背景声音,优化了音频质量,并使声音更清晰。我们在网络广播,语音约会和其他互联网平台上听到的语音音频通常有两种类型,一种是普通语音,另一种是非文本声音,如娇川和ASMR,后者没有任何语义。因此我们将通过不同的模块检测,将语音转换为文本并进一步过滤内容安全引擎,结合“多意义上下文短文本垃圾邮件检测”,“深度学习垃圾检测”,“规则引擎”和“分类器”模块过滤掉非法内容,如政治,泛黄(包括娇川,ASMR),惶恐不安,以及音频中的辱骂。人工审核团队可以通过网络背景对机器审核结果进行随机检查和审核,并不断优化机器审核的准确性。此过程可以显着降低手动审核的成本并提高效率。

目前,该解决方案可以检测到广告、色情、政治、暴力和滥用等非法内容。适用于直播视频、语音聊天室、娱乐直播、语音调频、音乐社交网络等实时音视频社交场景。

agora一站式智能语音识别计划的优点包括:

1

调用RESTfulAPI,一站式访问

Sound Network Agora目前提供实时音频呼叫SDK。通过在您的应用中集成Agora SDK,开发人员可以通过调用RESTful API为其应用添加语音内容审核。与传统的内容审计解决方案相比,完善的网络解决方案可以节省开发时间,服务器和其他访问成本。

2

AI 降噪,识别率更高

面对语音识别中常见的噪声、背景音乐等音质问题。通过人工智能音频去噪引擎对音频进行优化,提高语音识别率。同时,用户的语音和音频体验也会得到改善。在今年的RTC2019实时互联网会议上,我们将进一步分享人工智能音频去噪背后的技术实践。请期待。

3

语音交互低延时

声网sdk实现了从全球终端到终端76ms的实时音频和视频低延迟传输。声网agora sd-rtntm实时通信网络采用专用的udp协议进行传输,根据软件定义和优化路由选择最优传输路径,自动避开网络拥塞和主干网故障的影响。在保证低延迟传输的同时,声网agora sdk还支持48kz的高质量语音。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

眼神科技智慧社区安防布控技术优势

眼神科技智慧社区安防布控技术优势

随着经济的迅猛发展,我国的城市化水平也得到了显著提高,各式高端社区纷纷涌现,社会对于智能社区解决方案的配置也随之愈发重视。眼神科技智慧社区安防布控技术的不断更新,支撑着智慧社区解决方案的进一步优化。

2022-11-23 16:44:32

基于指纹识别技术产生的USBkey会给我们的生活带来哪些影响

基于指纹识别技术产生的USBkey会给我们的生活带来哪些影响

虹膜、指纹、面部,更多的解锁方式出现的背后是我们对安全系数更高的生活不断地探索,也是我们对于自身周围安全意识的提升。众多的识别方式中指纹识别被广泛的应用在智能锁、智能手机的指纹锁等多个领域,指纹识别的出现也让我们的生活变得更加简单快捷。

2022-11-23 16:37:22

京东商家如何选择合适的数字人直播工具?言犀数字人直播如何助力电商直播降本增效?

京东商家如何选择合适的数字人直播工具?言犀数字人直播如何助力电商直播降本增效?

随着双十一购物节的临近,各大电商平台纷纷准备各式各样的活动迎接这场购物盛宴,直播更是必不可缺的环节。然而,如何在这一竞争激烈的市场中脱颖而出,成为京东商家面临的一大挑战。数字人直播作为一种新兴的直播形式,逐渐受到越来越多商家的青睐。本文将为您详细介绍京东商家如何选择数字人直播,并重点推荐京东言犀数字人如何助力电商直播降本增效。

2024-11-08 17:48:13

智能制造在互联网和金融行业的应用

智能制造在互联网和金融行业的应用

阿里巴巴已经开发的智能故障管理平台,面向企业,智能制造实现了基于机器学习的异常检测,准确,及时的故障检测的公司。智能制造通过研究时间序列数据分析和机器学习,对未来发展一段时间的业务能力指标趋势进行预测。 智能制造对于企业产生异常时,自动调用各类AP接口,

2022-11-22 10:12:03

一文读懂虹膜识别技术原理和优缺点

一文读懂虹膜识别技术原理和优缺点

虹膜识别被公认为是识别精度最高的生物识别系统,通过我们拥有的独一无二的眼睛虹膜特征来识别身份,它的准确性甚至超过了DNA匹配。而虹膜识别技术是将独特的虹膜特征翻译成数字编码,用这种编码可以识别、检验身份。

2022-11-23 17:15:19

本次腾讯云618,腾讯云人脸试妆10万次仅需328元!

本次腾讯云618,腾讯云人脸试妆10万次仅需328元!

今年腾讯云618为用户准备了超值好礼,更有腾讯云618优惠券为用户带来更多价格优惠!

2022-11-24 13:59:16

严选云产品

安全狗云甲·自适应容器安全管理系统 云甲采用主机安全Agent和安全容器相结合的技术,既能做到对容器的全面保护又能灵活地跟容器编排体系相结合。在整个容器的安全生命周期中,采用自动检测、自动分析、自动处理的方式来防御整个容器生命周期中所遇到的安全威胁。在防护技术上使用智能检测、机器学习与威胁预测等先进的方法来确保容器及容器内应用安全。
Worktile企业协作管理系统 Worktile企业协作管理系统,从目标到项目,覆盖企业常见管理场景。搭建覆盖研发、生产、营销、人事、办公、采购、客服等全部门与全流程的企业项目协作与目标管理平台,以数字化赋能各环节提高效率。主流工具一应俱全,开箱即用。支持消息汇总、通知公告、审批、日程管理、文件管理和工作汇报,个性化匹配企业需要的办公管理规则。
携客云采购管理系统SRM 携客云的每个应用功能都经过用户的千锤百炼,无论是大型的集团,或是快速成长的企业,都能够为您企业供应链每个管理环节,找到最佳的业务管理方案,并配置您所需要的管理流程和业务细节。
致远互联A8移动工作平台 致远互联A8移动工作平台,指定条件下,打开APP自动签到/签退,新增零信任三大特性功能,提升安全等级,IM过程对文件上传、下载权限整体管控。增加补卡功能,减少人为上报繁琐流程,一定程度上减轻考勤周期末人工核算成本。
阿里云视频直播风控内容审核系统 阿里云视频直播风控内容审核系统基于海量标注数据和深度学习算法实现,从语音、文字、视觉等多维度精准识别媒体文件中包含的违禁内容,包括色情、暴恐、广告、不良场景识别等多个功能模块,同时支持视频图像文件内容质量审核功能,应用于短视频平台、直播平台、传媒审核等场景。
安恒AiMask数据静态脱敏 安恒AiMask数据静态脱敏,国内首家支持面向机器学习任务的脱敏算法,满足数据统计分析,AI建模等需求。覆盖金融、政府、电信、医疗、教育等行业,分布式运算引擎,便于任务分布式运行,充分调动各个节点资源,保证脱敏效率。同时增强任务的容错能力。

甄选10000+数字化产品 为您免费使用

申请试用