一种基于语音识别的话音质量评估方法及装置制造方法及图纸

技术编号:30095050 阅读:23 留言:0更新日期:2021-09-18 08:58
本发明专利技术公开一种基于语音识别的话音质量评估方法,其包括以下步骤:对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率和受扰话音的MOS主观评价值构成训练样本数据集;针对训练样本数据集,建立受扰话音识别正确率与受扰话音MOS主观评价值之间的BP神经网络回归模型;代入训练样本对低信噪比下话音质量评估的BP神经网络回归模型进行训练,得到网络参数确定的BP神经网络话音质量评估模型;基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。本发明专利技术能够显著提高话音质量评估的准确性。高话音质量评估的准确性。高话音质量评估的准确性。

【技术实现步骤摘要】
一种基于语音识别的话音质量评估方法及装置


[0001]本专利技术涉及通信
,尤其是涉及一种基于语音识别的话音质量评估方法及装置。

技术介绍

[0002]随着5G技术的应用,移动通信在人们生活中变得越来越普遍。大量用频设备的使用对无线通信造成的无形干扰越来越严重,而话音通信是人们日常生活中广泛使用的一种通信业务,这些无意干扰的增加会严重影响人们正常的话音通信质量,因此通过有效评估当前话音通信质量,自适应调整通信频谱调用,提升通信系统的服务质量,是网络运营商需要解决的关键技术之一。而在军用领域,特别是在通信对抗过程中,对抗双方都会通过通信干扰设备对对方的通信设备实施干扰,如何通过话音通信质量评估来考核通信干扰设备的干扰效果也是一个重要的研究方向。因此,无论是在民用领域还是在军用领域,对受干扰后在低信噪比下的话音质量进行科学、客观、有效的评估具有重大意义。
[0003]话音质量评估主要包括主观评估和客观评估两大类,主观评估是以平均意见得分法(Mean Opinion Score,MOS)为主,它采用五级评分制,评价标准如表1所示。
[0004]表1基于MOS的主观评估等级表
[0005]MOS得分话音质量失真觉察程度收听注意力等级5优不觉察失真可完全放松,不需要注意力4良刚觉察失真需要注意,但不需要明显集中3一般稍微讨厌中等程度的注意力2差讨厌但不令人反感需要集中注意力1劣及其讨厌令人反感即使努力去听,也很难听懂
[0006]主观评估主要基于人耳对话音质量的主官感觉来进行判断,评估方法受人为因素影响较大,且评估过程费时费力、使用不便。现有技术中的客观评估技术主要通过受扰语音与原始语音进行信号特征匹配得到受扰话音质量等级,该技术通常需要原始语音与受扰语音严格时间同步才能得到较好的评估结果;然而在实际应用中,时间同步往往很难实现,得到的评估结果也很不理想。

技术实现思路

[0007]为解决现有技术中话音客观评估方法的应用条件较为理想、工程实现较为困难的问题,本专利技术的目的是提供一种低信噪比下基于语音识别的话音质量评估方法及装置,其以原始话音和受扰话音的识别结果为基础,建立话音质量评估模型,评估结果给人较好的感官效果,同时避免了时间同步问题,提高了话音质量评估的准确性。
[0008]为实现上述专利技术目的,本专利技术采用如下技术方案:
[0009]一种基于语音识别的话音质量评估方法,其包括以下步骤:
[0010]S1、对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的
话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率x
i
和受扰话音的MOS主观评价值y
i
构成训练样本数据集n表示原始话音或受扰话音的总条数;
[0011]S2、针对训练样本数据集,建立受扰话音识别正确率x
i
与受扰话音MOS主观评价值y
i
之间的回归模型;所述的回归模型采用BP神经网络;
[0012]S3、代入训练样本对低信噪比下话音质量评估的BP神经网络回归模型进行训练,得到网络参数确定的BP神经网络话音质量评估模型;
[0013]S4、基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。
[0014]进一步地,上述的步骤S2中,BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元,其中,输出层第j个神经元的阈值用θ
j
表示,隐层第i个神经元的阈值用γ
i
表示,输入层神经元与隐层第i个神经元之间的连接权重为v
i
,隐层第i个神经元与输出层第j个神经元之间的连接权重为w
ij
;记隐层第i个神经元接收到的输入为α
i
=v
i
x,输出层第j个神经元接收到的输入为其中,b
i
为隐层第i个神经元的输出;隐层和输出层神经元都使用Sigmoid函数
[0015]进一步地,上述的步骤S3中,利用误差逆传播算法对BP神经网络参数进行求解,算法步骤如下:
[0016]S3.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重v
i
(i=1,2,

,L)、w
ij
(i=1,2,

,L;j=1,2,

,5)和各神经元阈值γ
i
(i=1,2,

,L)、θ
j
(j=1,2,

,5),确定学习率ε;
[0017]S3.2、将训练数据集第k个样本(x
k
,y
k
)中的输入x
k
代入神经网络,计算当前时刻神经网络的输出其中,
[0018]S3.3、计算神经网络输出与样本(x
k
,y
k
)的均方误差,即)的均方误差,即计算输出层神经元的梯度项gj=yjk1

yjkyjk

yjk,计算隐层神经元的梯度项
[0019]S3.4、更新网络参数:按照下面的公式,更新神经网络的连接权重w
ij
、v
i
和阈值θ
j
、γ
i

[0020][0021][0022][0023][0024]S3.5、判断是否满足收敛条件,即判断是否满足E
k
<<Δ或迭代次数是否超过K次,Δ为可容忍的误差常数,K为允许迭代的最大次数;若满足,执行步骤S3.6;若不满足,执行步骤S3.2;
[0025]S3.6、判断训练数据集中的样本是否执行完毕;若满足,训练结束,输出连接权重和阈值确定的多层BP神经网络模型;若不满足,k

k+1,执行步骤S3.2。
[0026]进一步地,上述的步骤S4中,话音评估过程为:
[0027]S4.1、对受扰话音进行数字采样、分帧、加窗预处理;
[0028]S4.2、利用自适应滤波、谱减法和维纳滤波降噪算法对预处理后的受扰话音进行降噪处理;
[0029]S4.3、将降噪后的话音信号利用语音识别模块进行语音识别,并统计识别正确率;将识别正确率代入已训练好的BP神经网络模型,BP神经网络模型的输出即为话音质量评估等级。
[0030]进一步地,上述的基于语音识别的话音质量评估方法,其回归模型采用支持向量机、最小二乘回归、或随机森林,替换BP神经网络。
[0031]一种基于语音识别的话音质量评估装置,其包括:
[0032]话音采集模块,用于对原始话音和受扰话音分别进行采集,得到音频文件;
[0033]降噪模块,用于实现对采集的受扰话音信号进行降噪处理,提高受扰话音信号的信噪比;
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的话音质量评估方法,其特征是:其包括以下步骤:S1、对预先录制的原始话音和受扰话音数据集分别进行语音识别,统计受扰后的话音信号相对于原始话音的识别正确率以及受扰话音的MOS主观评价值,由识别正确率x
i
和受扰话音的MOS主观评价值y
i
构成训练样本数据集n表示原始话音或受扰话音的总条数;S2、针对训练样本数据集,建立受扰话音识别正确率x
i
与受扰话音MOS主观评价值y
i
之间的回归模型;所述的回归模型采用BP神经网络;S3、代入训练样本对低信噪比下话音质量评估的BP神经网络回归模型进行训练,得到网络参数确定的BP神经网络话音质量评估模型;S4、基于训练好的BP神经网络对受扰话音进行话音质量评估,BP神经网络的对应输出即为低信噪比下的话音质量客观评估等级。2.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其步骤S2中,BP神经网络包含1个输入神经元、5个输出神经元和L个隐层神经元,其中,输出层第j个神经元的阈值用θ
j
表示,隐层第i个神经元的阈值用γ
i
表示,输入层神经元与隐层第i个神经元之间的连接权重为v
i
,隐层第i个神经元与输出层第j个神经元之间的连接权重为w
ij
;记隐层第i个神经元接收到的输入为α
i
=v
i
x,输出层第j个神经元接收到的输入为其中,b
i
为隐层第i个神经元的输出;隐层和输出层神经元都使用Sigmoid函数3.根据权利要求1所述的基于语音识别的话音质量评估方法,其特征是:其步骤S3中,利用误差逆传播算法对BP神经网络参数进行求解,算法步骤如下:S3.1、网络参数初始化:在(0,1)范围内随机初始化神经网络中所有连接权重v
i
(i=1,2,

,L)、w
ij
(i=1,2,

,L;j=1,2,

,5)和各神经元阈值γ
i
(i=1,2,

,L)、θ
j
(j=1,2,

,5),确定学习...

【专利技术属性】
技术研发人员:崔建岭沈思连王满喜乔会东李浩董树理王得旺戴幻尧王莉李林王雷钢王建路
申请(专利权)人:中国人民解放军六三八九二部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1