【技术实现步骤摘要】
一种基于神经网络的语音质量评估方法
[0001]本专利技术涉及音频
,尤其涉及一种基于神经网络的语音质量评估方法。
技术介绍
[0002]语音是人们日常生活中交流的一种最快捷、最高效的方式。但是现实生活中语音信号往往会被各种噪声所干扰,从而影响语音质量。因此对带噪信号及去噪处理后的信号的语音质量的评估变得尤为重要。
[0003]语音信号质量评估方法主要有两类:采用人工主观评估的方法和有参考信号的客观评估方法。采用人工主观进行语音质量评估的方法费时费力,需要很大的人力成本,且有信息安全的风险;有参考信号的评估方法适用于实验室环境,在现实生活场景中往往缺乏配对的参考信号,不具有实用性。
[0004]现实生活中待训练和待评估的语音数据采用各种各样的数据格式进行保存,不同的数据格式可能在不同的处理方法中不兼容。
技术实现思路
[0005]鉴于以上问题,本专利技术提出一种基于神经网络的语音质量评估方法,所述方法包括:音频转换模块,用于将待训练和待评估的音频信号转换成可以在神经网络模块中处理的格式; ...
【技术保护点】
【技术特征摘要】
1.一种基于神经网络的语音质量评估方法,其特征在于,包括:音频转换模块,用于将待训练和待评估的音频信号转换成可以在神经网络模块中处理的格式;加噪模块,用于对纯净语音进行加噪产生神经网络模型的训练数据;特征提取模块,用于对语音进行时频特征提取从而输入神经网络模块;神经网络模块,用于预测与输入语音特征相对应的评估分数;损失函数,用于神经网络的训练。2.如权利要求1所述的一种基于神经网络的语音质量评估方法,其特征在于,所述的模块包括池化层、分组长短时记忆层(grouped lstm layer)、全连接层、丢弃层等。3.如权利要求2所述的一种基于神经网络的语音质量评估方法,其特征在于,所述的池化层采用自适应平均池化层,用于对特征维度进行压缩;所述的分组长短时记忆层,采用一种分组策略和表达重组策略,用于高效提取特征在时间维度上的上下文特征产生中间特征;所述的全连接层,用于将长短时记忆层产生的中间特征映射到训练目标;所述的丢弃层,用于缓解神经网络过拟合问题。4.如权利要求2所述的分组长短时记忆层,其特征在于,采用一种分组策略和表达重组策略;所述的分组策略将输入特征和隐藏状态分成K组分别表示为:{,...}和{,....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。