腾讯云语音识别技术采用自主研发的Dual Path Attention Network(DPAN)模型,通过共享端到端AED系统和Hybrid Conformer系统的Encoder,通过系统融合实现对语音信号高效的建模,在不同应用场景下,具备较好的鲁棒性。同时,根据业务需求,在DPAN框架下,实现了低延时的流式输出,以及在声音和文本层面的自适应能力。针对多语言混合场景,研发了混合语音识别模型,可支持单一模型识别国内20多个地区方言,以及单一型识别中英粤三个语种,极大方便了业务应用。
16K(非电话) 场景: 整体识别准确率业界领先,基于微信、王者、腾讯自由强势产品积累数据持续打磨模型;
8K(电话)场景: Q2更新一版基于业界最领先技术的模型,整体识别准确率预计可以追齐友商。
经过3.0专项打磨,在保证基本准确率的基础上,时延指标处于业界一流水平。
高效识别各类场景的涉政、色情、娇喘、广告、辱骂、 歪唱国歌等违规内容提前防御内容风险,提高审核效率,净化网络环境,提升用户体验。