语音质量预测方法、装置、电子设备、存储介质及产品制造方法及图纸

技术编号:43148833 阅读:17 留言:0更新日期:2024-10-29 17:49
本发明专利技术提供一种语音质量预测方法、装置、电子设备、存储介质及产品,包括:获取待预测的视频通话结果的音频信号和视频信号;将音频信号输入多尺度音频特征融合模块,得到多尺度音频特征;将视频信号输入多尺度视频特征融合模块,得到多尺度视频特征;通过多尺度视频特征融合模块中的多尺度残差网络对视频信号的各尺度的视频特征进行处理,得到多尺度视频特征;根据多尺度音频特征和多尺度视频特征,预测视频通话结果的语音质量。本发明专利技术通过多尺度残差网络,挖掘视频信号中与语音质量相关的尺度和深度特征信息,使得特征信息更加全面多样,并通过结合多尺度视频特征结合多尺度音频特征进行语音质量预测,可以强化特征信息,提高语音质量预测效果。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种语音质量预测方法、装置、电子设备、存储介质及产品


技术介绍

1、语音质量预测方法通常分为主观方法和客观方法。主观方法是人工对语音质量进行评分,如平均意见分数(mean opinion score,mos)等;客观方法是通过算法预测语音质量。

2、然而,主观方法耗时耗力且存在人工误差;客观方法通常只考虑语音信号特征,特征类型较为单一,并且提取的特征信息不够全面,特征表达能力较弱,从而导致语音质量预测效果差。

3、因此,如何提高语音质量预测效果是目前亟待解决的问题。


技术实现思路

1、本专利技术提供一种语音质量预测方法、装置、电子设备、存储介质及产品,用以解决现有技术中特征类型较为单一,并且提取的特征信息不够全面,特征表达能力较弱,导致语音质量预测效果差的缺陷,实现语音质量的准确预测。

2、本专利技术提供一种语音质量预测方法,包括:

3、获取待预测的视频通话结果的音频信号和视频信号;

4、将所述音频信号输入多尺度音频特本文档来自技高网...

【技术保护点】

1.一种语音质量预测方法,其特征在于,包括:

2.根据权利要求1所述的语音质量预测方法,其特征在于,所述多尺度视频特征融合模块还包括三维卷积神经网络;所述将所述视频信号输入多尺度视频特征融合模块,得到多尺度视频特征,包括:

3.根据权利要求1所述的语音质量预测方法,其特征在于,所述多尺度音频特征融合模块包括二维卷积神经网络和自适应特征聚合层;所述将所述音频信号输入多尺度音频特征融合模块,得到多尺度音频特征,包括:

4.根据权利要求1所述的语音质量预测方法,其特征在于,所述根据所述多尺度音频特征和所述多尺度视频特征,预测所述视频通话结果的语音质量,包括:...

【技术特征摘要】

1.一种语音质量预测方法,其特征在于,包括:

2.根据权利要求1所述的语音质量预测方法,其特征在于,所述多尺度视频特征融合模块还包括三维卷积神经网络;所述将所述视频信号输入多尺度视频特征融合模块,得到多尺度视频特征,包括:

3.根据权利要求1所述的语音质量预测方法,其特征在于,所述多尺度音频特征融合模块包括二维卷积神经网络和自适应特征聚合层;所述将所述音频信号输入多尺度音频特征融合模块,得到多尺度音频特征,包括:

4.根据权利要求1所述的语音质量预测方法,其特征在于,所述根据所述多尺度音频特征和所述多尺度视频特征,预测所述视频通话结果的语音质量,包括:

5.根据权利要求4所述的语音质量预测方法,其特征在于,所述将所述多尺度音频特征和所述多尺度视频特征进行融合...

【专利技术属性】
技术研发人员:梁立涛张桐童马云飞王鑫王刚
申请(专利权)人:中国移动通信集团北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1