语音质量的评估模型、训练评估方法、系统、设备及介质技术方案

技术编号:27833889 阅读:26 留言:0更新日期:2021-03-30 11:50
本发明专利技术公开了一种语音质量的评估模型、训练评估方法、系统、设备及介质,评估模型包括:端点检测模块,用于输入待评估的音频信号,并对音频信号进行端点检测得到第一音频信号;预处理模块,用于对第一音频信号进行预处理得到语谱图;特征提取模块,用于提取语谱图的特征;第一神经元,用于根据特征使用交叉熵损失函数判断第一音频信号是否为语音信号以得到加权系数;第二神经元,用于根据特征及加权系数使用误差损失函数得到第一音频信号的质量得分。本发明专利技术通过提取音频信号的语谱图,利用语音质量评估模型判断出语音信号是否为语音,同时得的该语音信号的语音质量分数,在进行语音质量评估时不需要参考信号,评估过程更简单。评估过程更简单。评估过程更简单。

【技术实现步骤摘要】
语音质量的评估模型、训练评估方法、系统、设备及介质


[0001]本专利技术涉及音频
,尤其涉及一种语音质量的评估模型、训练评估方法、系统、设备及介质。

技术介绍

[0002]电话一直以来都是重要的沟通方式,随着网络通讯的快速发展,网络语音通信也成为了电话语音的一个重要组成部分。相比于公共交换电话网络通讯,网络协议通讯更容易受网络可靠性影响,因此在当前情况下对电话语音质量评估变得尤为重要。
[0003]语音信号质量评估方法主要有两类:人工主观评估方法和有参考信号的客观评估方法。人工主观评估方法可推广性较差而且无法保证通话隐私;有参考信号的客观评估方法需要有参考信号,但是电话语音中难以得到参考信号。

技术实现思路

[0004]本专利技术要解决的技术问题是为了克服现有技术中有参考信号的客观评估方法需要有参考信号、评估过程复杂的缺陷,提供一种语音质量的评估模型、训练评估方法、系统、设备及介质。
[0005]本专利技术是通过下述技术方案来解决上述技术问题:
[0006]本专利技术提供一种基于神经网络的语音质量的评估模型,包括
[0007]端点检测模块,用于输入待评估的音频信号,并对所述音频信号进行有效音频端点检测得到第一音频信号;
[0008]与所述端点检测模块的输出连接的预处理模块,用于对所述第一音频信号进行预处理得到语谱图;
[0009]与所述预处理模块的输出连接的特征提取模块,用于提取所述语谱图的特征;
[0010]与所述特征提取模块的输出连接的第一神经元,用于根据所述特征使用交叉熵损失函数判断所述第一音频信号是否为语音信号以得到加权系数;
[0011]与所述特征提取模块的输出连接的第二神经元,用于根据所述特征及所述加权系数使用误差损失函数得到所述第一音频信号的质量得分。
[0012]在本方案中,通过对输入待评估的音频信号进行语音端点检测,找出语音的起始点和结束点,检测出有用语音,去除无效语音,可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。因电话语音中存在非语音信号会降低评估分数的鲁棒性,故采用多标签模型的思想,基于音频输入,在判断其是否为语音时,同时得到语音质量评估的得分。利用深度学习框架,提取音频信号的短时频域特征,利用多标签模型,在损失函数上对二者进行约束,最后根据是否为语音信号得到加权系数,并对语音质量得分加权,实现了判断当前音频信号是否为语音的同时得到了语音信号的质量评分,在进行语音质量评估时不需要参考信号,评估过程更简单。
[0013]优选地,所述特征提取模块包括卷积层、GRU(门控循环单元)网络和DNN(深度神经
网络)网络;
[0014]所述卷积层、所述GRU网络和所述DNN网络依次连接;
[0015]所述卷积层用于提取所述语谱图的初始特征;
[0016]所述GRU网络用于记录所述初始特征的历史信息的影响并生成所述语谱图的中间特征;
[0017]所述DNN网络用于对所述中间特征进行整合以生成所述语谱图的特征。
[0018]在本方案中,卷积层用于提取语谱图的初始特征;GRU网络用于记录历史信息的影响,DNN网络用于对GRU提取的语谱图的中间特征进行整合以得的语谱图的特征,通过多层表示和抽象学习来对数据之间的复杂关系进行建模,它比传统的浅层模型有更多层的非线性变换,使得其在表达和建模能力上更强大,在音频信号这种复杂信号的处理上更有优势。
[0019]优选地,所述预处理模块还用于对所述第一音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述语谱图。
[0020]相对于现有技术,从传感器经过模数转换得到的一系列时域数值语音信号,时域波形比较容易受外界环境改变,而且很难在时域中找到对应的物理意义。在本方案中,通过频率转换提取第一音频信号的短时频域特征,相对应频域分析方法,对外界环境有较好的鲁棒性,而且可以得到例如共振峰参数、基音周期参数等具有实际物理意义的语音特征。
[0021]本专利技术还提供一种语音质量的评估模型的训练方法,所述语音质量评的估模型包括上述所述的基于神经网络的语音质量的评估模型,所述训练方法包括:
[0022]标注样本语音;
[0023]计算所述交叉熵损失函数;
[0024]基于所述交叉熵损失函数将所述样本语音输入到所述语音质量的评估模型进行预训练;
[0025]计算所述交叉熵损失函数和所述误差损失函数;
[0026]基于所述交叉熵损失函数和所述误差损失函数将所述样本语音输入到所述语音质量的评估模型进行联合训练。
[0027]在本方案中,构建多标签模型,利用深度学习网络从语谱图中提取表达能力更强的特征,对模型首先只训练是否为语音的分类部分,由于语音、非语音之间区别明显,模型能够学到更多表示语音的高层特征,同时其能够起到预训练模型中的作用。然后将是否为语音的分类部分与语音质量得分的回归部分联合训练,不需要参考信号,过程简单。
[0028]本专利技术还提供一种语音质量的评估方法,包括
[0029]将待评估音频信号输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。
[0030]在本方案中,使用多标签模型,实现了判断当前信号是否为语音的同时得到语音质量分数,利用该模型结果,通讯线路维护人员可以实时监控当前整体的通话质量是否有波动,另外也可以评估是否有坐席的线路表现异常。对于通讯异常及时预警,可以保障语音通讯能一直处于较高的质量。
[0031]优选地,所述质量评估方法还包括:
[0032]对待评估音频信号进行端点检测得到第二音频信号;
[0033]对所述第二音频信号进行预处理得到待评估语谱图;
[0034]所述将待评估音频信号输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分的步骤具体包括:
[0035]将所述待评估语谱图输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估语谱图是否为语音信号以及所述待评估语谱图的质量得分。
[0036]在本方案中,通过对待评估音频信号进行端点检测和预处理,滤除部分无用信号后,再输入到模型进行语音质量评估,提高了评估结果的准确性。
[0037]优选地,所述对所述第二音频信号进行预处理得到待评估语谱图的步骤具体包括:
[0038]对所述第二音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述待评估语谱图。
[0039]在本方案中,通过频率转换提取第一音频信号的短时频域特征,相对应频域分析方法,对外界环境有较好的鲁棒性,而且可以得到例如共振峰参数、基音周期参数等具有实际物理意义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的语音质量的评估模型,其特征在于,包括:端点检测模块,用于输入待评估的音频信号,并对所述音频信号进行有效音频端点检测得到第一音频信号;与所述端点检测模块的输出连接的预处理模块,用于对所述第一音频信号进行预处理得到语谱图;与所述预处理模块的输出连接的特征提取模块,用于提取所述语谱图的特征;与所述特征提取模块的输出连接的第一神经元,用于根据所述特征使用交叉熵损失函数判断所述第一音频信号是否为语音信号以得到加权系数;与所述特征提取模块的输出连接的第二神经元,用于根据所述特征及所述加权系数使用误差损失函数得到所述第一音频信号的质量得分。2.如权利要求1所述的基于神经网络的语音质量的评估模型,其特征在于,所述特征提取模块包括卷积层、GRU网络和DNN网络;所述卷积层、所述GRU网络和所述DNN网络依次连接;所述卷积层用于提取所述语谱图的初始特征;所述GRU网络用于记录所述初始特征的历史信息的影响并生成所述语谱图的中间特征;所述DNN网络用于对所述中间特征进行整合以生成所述语谱图的特征。3.如权利要求1所述的基于神经网络的语音质量的评估模型,其特征在于,所述预处理模块还用于对所述第一音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述语谱图。4.一种语音质量的评估模型的训练方法,其特征在于,所述语音质量评的估模型包括如权利要求1

3中任意一项所述的基于神经网络的语音质量的评估模型,所述训练方法包括:标注样本语音;计算所述交叉熵损失函数;基于所述交叉熵损失函数将所述样本语音输入到所述语音质量的评估模型进行预训练;计算所述交叉熵损失函数和所述误差损失函数;基于所述交叉熵损失函数和所述误差损失函数将所述样本语音输入到所述语音质量的评估模型进行联合训练。5.一种语音质量的评估方法,其特征在于,包括将待评估音频信号输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。6.如权利要求5所述的语音质量的评估方法,其特征在于,所述评估方法还包括:对待评估音频信号进行端点检测得到第二音频信号;对所述第二音频信号进行预处理得到待评估语谱图;所述将待评估音频信号输入到使用如权利要求4所述的语音质量评估模型的训练方法训练所得的语音质量评估模型中以得到所述...

【专利技术属性】
技术研发人员:朱城锜罗超胡泓
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1