本发明专利技术公开了一种基于神经网络的语音质量评估方法,所述的方法包括:音频转换模块,用于将音频转换成可以在神经网络模型中处理的格式;加噪模块,用于生成与纯净语音配对的带噪语音;特征提取模块,用于提取输入神经网络的特征;神经网络模块,用于评估输入模型特征所对应的语音质量分数;损失函数,用于神经网络的训练。本发明专利技术通过提取语音的时频特征,利用神经网络评估出语音质量分数。在进行语音质量评估时不需要纯净语音作为参考。量评估时不需要纯净语音作为参考。量评估时不需要纯净语音作为参考。
【技术实现步骤摘要】
一种基于神经网络的语音质量评估方法
[0001]本专利技术涉及音频
,尤其涉及一种基于神经网络的语音质量评估方法。
技术介绍
[0002]语音是人们日常生活中交流的一种最快捷、最高效的方式。但是现实生活中语音信号往往会被各种噪声所干扰,从而影响语音质量。因此对带噪信号及去噪处理后的信号的语音质量的评估变得尤为重要。
[0003]语音信号质量评估方法主要有两类:采用人工主观评估的方法和有参考信号的客观评估方法。采用人工主观进行语音质量评估的方法费时费力,需要很大的人力成本,且有信息安全的风险;有参考信号的评估方法适用于实验室环境,在现实生活场景中往往缺乏配对的参考信号,不具有实用性。
[0004]现实生活中待训练和待评估的语音数据采用各种各样的数据格式进行保存,不同的数据格式可能在不同的处理方法中不兼容。
技术实现思路
[0005]鉴于以上问题,本专利技术提出一种基于神经网络的语音质量评估方法,所述方法包括:音频转换模块,用于将待训练和待评估的音频信号转换成可以在神经网络模块中处理的格式;与所述音频转换模块相连的加噪模块,用于将经过转换后的纯净语音进行加噪产生神经网络模型的训练数据。
[0006]特征提取模块,用于对待训练或者待评估的语音进行时频特征提取从而输入神经网络模块。
[0007]与特征提取模块的输出相连的神经网络模块,用于预测与输入语音特征相对应的评估分数。
[0008]损失函数,用于神经网络的训练。
[0009]在本方案中,通过音频转换模块将不同格式的音频转换成本方法所适用的特定格式,提高了本方法的实用性。通过将纯净语音输入加噪模块产生之相对应的带噪语音,并使用PESQ算法对带噪语音进行标记用于产生神经网络的训练数据。使用特征提取模块将待训练数据进行批量特征提取,输入神经网络模块。
[0010]优选地所述神经网络模块包括池化层、分组长短时记忆层、全连接层、丢弃层等。
[0011]所述的化层采用自适应平均池化层,用于对特征维度进行压缩。
[0012]所述的分组长短时记忆层,采用一种分组策略和表达重组策略,用于高效提取特征在时间维度上的上下文特征产生中间特征。
[0013]优选地所述的分组长短时记忆层的分组策略将输入特征和隐藏状态分成K组,分别表示为:
{,...}和{,...}。在输出层将所有的隐藏状态进行拼接。所述的表达重组策略,将输出的特征添加一维变换成(K,N/K),其中N表示特征维度;然后再对其进行维度交换,变换为(K,N/K);最后将特征的形状变回N维。
[0014]在本方案中,通过在分组长短时记忆层中采用分组策略可以降低模型模型复杂度;采用表达重组策略可以恢复因为分组而造成的特征上下文相关性的缺失。
[0015]优选地所述的分组长短时记忆层在参数初始化时,将每个LSTM的遗忘门偏差设置为
‑
3,其它参数设置为0。
[0016]在本方案中,通过每个LSTM的遗忘门偏差初始化的设置,可以使LSTM更关注临近时刻的上下文关系。
[0017]所述的全连接层,用于将长短时记忆层产生的中间特征映射到训练目标。
[0018]所述的丢弃层,用于缓解神经网络过拟合问题。
[0019]优选地,所述损失函数为:其中代表权重系数,它是一个关于句子级别PESQ分数的函数表示为:它是一个关于句子级别PESQ分数的函数表示为:、分别真实和预测的句子级别的PESQ分数;N代表训练的句子总数;代表第n句语音的帧数;代表第n句语音中第t帧的帧级别的PESQ预测分数。
[0020]在本方案中所述的损失函数的权重系数具有对称性,相应的会使神经网络模型有更好的预测效果。
[0021]优选地所述的特征提取模块在批量训练神经网络模块时先将本批量中待处理的语音进行长度对齐,然后分别做短时傅里叶变换并取幅值,再进行谱归一化生成批量特征输入神经网络模块。
[0022]在本方案中所述的特征提取模块对语音进行时间长度上的对齐、幅度谱归一化能更好的训练神经网络模块,提高所训练模型的泛化性。
附图说明
[0023]为进一步理解本专利技术实施例的技术方案,在此对附图加以说明,此处附图构成本申请的一部分,并不构成本专利技术实施例的限定。
[0024]图1是本专利技术一实施方式提供的语音质量评估神经网络模块训练方法流程图。
[0025]图2是本专利技术一实施方式提供的语音质量评估方法流程图。
[0026]图3是本专利技术一实施方式提供的特征提取模块的工作流程图。
[0027]图4是本专利技术一实施方式提供的神经网络模块结构图。
具体实施方式
[0028]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实
施例对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
[0029]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体实施例的目的,不是旨在于限制本专利技术。
[0031]请参阅图1,为本专利技术一个实施例提供的语音质量评估的神经网络训练方法,包括以下步骤:步骤S11,将纯净语音输入音频格式转换模块,生成适用于本方法的特定格式的音频数据用于神经网络模块的训练。
[0032]在本实施例中,音频格式转换模块将输入的纯净语音转换为16k采样率、单通道的“.wav”格式的数据。
[0033]步骤S12,对音频格式转换模块输出的特定格式音频进行加噪,产生配对的带噪语音。
[0034]在本实施例中,采用多种噪声、多种信噪比进行随机加噪,产生多种噪声条件下的带噪语音。
[0035]步骤S13,将带噪语音和纯净语音进行PESQ值计算对带噪语音进行标注。
[0036]步骤S14,将带噪语音输入特征提取模块进行时频特征提取。
[0037]步骤S15,将特征提取模块产生的时频特征输入神经网络模块,进行PESQ值预测。
[0038]在本实施例中,PESQ值为16k宽带模式,范围为:1.04
‑
4.64,也可以选择16k窄带模式,范围为:
‑
0.5
‑
4.5。
[0039]步骤S16,将神经网络模块输出的预测值与标注数据输入损失函数用于神经网络模块进一步学习。
[0040]请参阅图2,为本专利技术一个实施例提供的语音质量评估流程,包括以下步骤:步骤S21,待评估语音通过音频格式转换模块,生成适用于本方法的特定格式的音频数据。
[0041本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于神经网络的语音质量评估方法,其特征在于,包括:音频转换模块,用于将待训练和待评估的音频信号转换成可以在神经网络模块中处理的格式;加噪模块,用于对纯净语音进行加噪产生神经网络模型的训练数据;特征提取模块,用于对语音进行时频特征提取从而输入神经网络模块;神经网络模块,用于预测与输入语音特征相对应的评估分数;损失函数,用于神经网络的训练。2.如权利要求1所述的一种基于神经网络的语音质量评估方法,其特征在于,所述的模块包括池化层、分组长短时记忆层(grouped lstm layer)、全连接层、丢弃层等。3.如权利要求2所述的一种基于神经网络的语音质量评估方法,其特征在于,所述的池化层采用自适应平均池化层,用于对特征维度进行压缩;所述的分组长短时记忆层,采用一种分组策略和表达重组策略,用于高效提取特征在时间维度上的上下文特征产生中间特征;所述的全连接层,用于将长短时记忆层产生的中间特征映射到训练目标;所述的丢弃层,用于缓解神经网络过拟合问题。4.如权利要求2所述的分组长短时记忆层,其特征在于,采用一种分组策略和表达重组策略;所述的分组策略将输入特征和隐藏状态分成K组分别表示为:{,...}和{,....
【专利技术属性】
技术研发人员:卢晨华,黄志华,郭创建,
申请(专利权)人:新疆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。