一种语音特征重建方法及装置制造方法及图纸

技术编号:21737265 阅读:28 留言:0更新日期:2019-07-31 19:41
本发明专利技术涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。

A Method and Device for Speech Feature Reconstruction

【技术实现步骤摘要】
一种语音特征重建方法及装置
本专利技术涉及信号处理
,特别涉及一种语音特征重建方法及装置。
技术介绍
针对受到噪声干扰的单通道语音信号,以借助于理想二值掩蔽的语音分离进行语音增强是较为有效的处理方法。通过理想二值掩蔽,可以将时频域内带噪声的语音信号成分进行分类,区分开被噪声遮蔽的成分,保留语音信号能量较强的成分。分离出的语音信号成分带有重要的语音信息,常常被用于后续的语音识别和语音感知处理。但是,被噪声遮蔽的语音成分,同样带有语音信息,缺少了这些成分的语音信号不可避免地表现出感知质量的下降和识别正确率的降低,严重阻碍了对语音信的分析和利用。因而,针对语音分离信号的语音特征重建方法,在研究和应用层面都具有独到的重要性。现阶段的语音信号语音特征重建技术,主要依据对纯净语音信号的时频域特征进行统计,根据统计量来估计缺失的特征。这样的统计量是在用于统计的语音信号的平均化结果,虽然在统计意义上可以表达语音信号成分的分布,但是在局部意义上缺少特异性。同时,基于统计量的语音特征重建,需要选取参照特征,依据待重建成分周围的参照特征进行重建,因而受到参照范围的限制。这些属性导致经过重建得到的语音本文档来自技高网...

【技术保护点】
1.一种语音特征重建方法,其特征在于,所述方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将所述第一有效语音信号转换为第一时频域特征;根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接,构成第一复合特征;将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征。

【技术特征摘要】
1.一种语音特征重建方法,其特征在于,所述方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将所述第一有效语音信号转换为第一时频域特征;根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接,构成第一复合特征;将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征。2.如权利要求1所述的语音特征重建方法,其特征在于,所述将所述第一有效语音信号转换为第一时频域特征,具体包括:对所述第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;将所述处理后的语音信号进行傅里叶变换,获取与所述处理后的语音信号对应的功率谱;对所述功率谱取对数,获取所述第一时频域特征。3.如权利要求2所述的语音特征重建方法,其特征在于,所述第一时频域特征为第一对数功率谱,所述预设的第一掩模矩阵的长度和宽度,均与所述第一时频域特征的长度和宽度相同,所述根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,具体包括:利用预设长度的滑动窗按照所述第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中所述滑动窗的宽度与所述第一对数功率谱的宽度相同;当达到预设时刻时,遍历在所述预设时刻时的所述滑动窗内的第二对数功率谱的每个元素;当确定所述滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为1,否则,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为0;当所述第一对数功率谱中第h个元素重复出现在所述滑动窗内时,获取所述第h个元素每一次出现在滑动窗时,M矩阵中与所述第h个元素对应位置的元素的设定值,并计算所有所述M矩阵中与所述第h个元素对应位置的元素的设定值的平均值,作为所述M矩阵中与所述第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于所述滑动窗内的所述第二对数功率谱的元素总个数的正整数,所述第二对数功率谱为所述第一对数功率谱的一部分。4.如权利要求1-3任一项所述的语音特征重建方法,其特征在于,所述将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征之前,所述方法还包括:基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;将所述第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将所述第i个样本语音信号转换为第三时频域特征;根据所述第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵;将所述第i个样本语音信号对应的处理后的第二掩模矩阵与所述第i个样本语音信号对应的第二时频域特征进行拼接,构成与所述第i个样本语音信号对应的第二复合特征;根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。5.如权利要求4所述的语音特征重建方法,其特征在于,根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,具体包括:设置所述深度神经网络的第一初始权重;根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对所述神经网络每一层的权重系数进行训练,并获取所述神经网络每一层的权重系数;根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,分别对所述神经网络每一层的权重系数进行优化训练,获取所述神经网络每一层的最优权重系数;根据所述神经网络每一层的最优权重系数,计算所述深度神经网络的输出值与所述第三时频域特征之间的误差,且所述误差小于预设阈值时,...

【专利技术属性】
技术研发人员:张鹏远战鸽潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1