一种多声源融合场景的人声检测方法及装置制造方法及图纸

技术编号:33293610 阅读:14 留言:0更新日期:2022-05-01 00:17
本申请公开了一种多声源融合场景的人声检测方法及装置,本申请提供的多声源融合场景的人声检测方法,通过利用第一语音帧样本与第二语音帧样本分别作为正样本和负样本,通过以上的正样本与负样本进行MFCC特征特区以及语谱图生成,然后利用生成的语谱图对深度学习网络单元进行人声MFCC特征识别训练,再利用深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练,以提高神经网络对多声源环境下的人声检测能力,构建人声检测模型,以便通过构建的人声检测模型对待检测的多声源声音信号进行人声检测,从而获得多声源声音信号的人声检测结果,解决了现有的多声源人声检测难以准确检测出人声的技术问题。声检测难以准确检测出人声的技术问题。声检测难以准确检测出人声的技术问题。

【技术实现步骤摘要】
一种多声源融合场景的人声检测方法及装置


[0001]本申请涉及语音识别
,尤其涉及一种多声源融合场景的人声检测方法及装置。

技术介绍

[0002]随着近年来人工智能技术的快速发展,各种交互手段不断发展。其中,智能语音交互起着关键作用。目前,在智能语音交互的过程中,还有许多难题等待解决,如声源识别,声源定位,声源检测等等。而声源检测中,最重要的一个方向是人声检测。具体来说,是在多声源混合下对人声的检测技术。
[0003]在现实生活中,最需要人声检测技术的莫过于多声源融合的大场景(如鸡尾酒场合:包含人声,动物声,机器等各种声源)。这种场合下,声源检测受到多种因素的干扰,难以准确检测出人声。

技术实现思路

[0004]本申请提供了一种多声源融合场景的人声检测方法及装置,用于解决现有的声源检测容易受到多种因素的干扰,难以准确检测出人声的技术问题。
[0005]为解决上述技术问题,本申请第一方面提供了一种多声源融合场景的人声检测方法,包括:
[0006]获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧信号样本,所述第二语音帧样本为不包含人声的多声源语音帧信号样本;
[0007]提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;
[0008]利用所述第一语音帧样本和所述第二语音帧样本的语谱图,对深度学习网络单元进行人声MFCC特征识别训练;
[0009]利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;
[0010]基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;
[0011]获取待检测的多声源声音信号;
[0012]对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;
[0013]提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;
[0014]以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。
[0015]优选地,所述提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图具体包括:
[0016]通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;
[0017]通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;
[0018]通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;
[0019]基于所述MFCC特征生成所述语音帧信号的语谱图。
[0020]优选地,所述获取待检测的多声源声音信号之后还包括:
[0021]对所述多声源声音信号的高频部分进行信号加重预处理。
[0022]优选地,还包括:
[0023]根据各个所述语音帧信号的人声检测结果,确定第一语音帧信号,其中,所述第一语音帧信号为检测出人声的语音帧信号;
[0024]基于各个所述第一语音帧信号在所述多声源声音信号中对应的时间段,对所述多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号;
[0025]分别对所述第一声音信号进行去噪处理和人声增强处理,再从处理后的所述第一声音信号中提取人声数据。
[0026]优选地,所述循环神经网络单元具体为LSTM神经网络单元。
[0027]同时,本申请第二方面还提供了一种多声源融合场景的人声检测装置,包括:
[0028]语音样本获取单元,用于获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧样本,所述第二语音帧样本为不包含人声的多声源语音帧的语谱图;
[0029]语音样本处理单元,用于提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;
[0030]第一训练单元,用于利用所述第一语音帧样本和所述第二语音帧样本,对深度学习网络单元进行人声MFCC特征识别训练;
[0031]第二训练单元,用于利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;
[0032]人声检测模型构建单元,用于基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;
[0033]待检测信号获取单元,用于获取待检测的多声源声音信号;
[0034]分帧处理单元,用于对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;
[0035]语谱图生成单元,用于提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;
[0036]人声检测运算单元,用于以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。
[0037]优选地,所述语谱图生成单元具体用于:
[0038]通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;
[0039]通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;
[0040]通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;
[0041]基于所述MFCC特征生成所述语音帧信号的语谱图。
[0042]优选地,还包括:
[0043]预处理单元,用于对所述多声源声音信号的高频部分进行信号加重预处理。
[0044]优选地,还包括:
[0045]第一语音帧信号确定单元,用于根据各个所述语音帧信号的人声检测结果,确定第一语音帧信号,其中,所述第一语音帧信号为检测出人声的语音帧信号;
[0046]信号滤波单元,用于基于各个所述第一语音帧信号在所述多声源声音信号中对应的时间段,对所述多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号;
[0047]人声数据提取单元,用于分别对所述第一声音信号进行去噪处理和人声增强处理,再从处理后的所述第一声音信号中提取人声数据。
[0048]优选地,所述循环神经网络单元具体为LSTM神经网络单元。
[0049]从以上技术方案可以看出,本申请实施例具有以下优点:
[0050]本申请提供的多声源融合场景的人声检测方法,通过利用包含人声的第一语音帧样本以及不包含人声的第二语音帧样本分别作为正样本和负样本,通过以上的正样本与负样本进行MFCC特征特区以及语谱图生成,然后利用生成的语谱图对深度学习网络单元进行人声MFCC特征识别训练,再利用深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多声源融合场景的人声检测方法,其特征在于,包括:获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧样本,所述第二语音帧样本为不包含人声的多声源语音帧的语谱图;提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;利用所述第一语音帧样本和所述第二语音帧样本,对深度学习网络单元进行人声MFCC特征识别训练;利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;获取待检测的多声源声音信号;对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。2.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,所述提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图具体包括:通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;基于所述MFCC特征生成所述语音帧信号的语谱图。3.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,所述获取待检测的多声源声音信号之后还包括:对所述多声源声音信号的高频部分进行信号加重预处理。4.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,还包括:根据各个所述语音帧信号的人声检测结果,确定第一语音帧信号,其中,所述第一语音帧信号为检测出人声的语音帧信号;基于各个所述第一语音帧信号在所述多声源声音信号中对应的时间段,对所述多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号;分别对所述第一声音信号进行去噪处理和人声增强处理,再从处理后的所述第一声音信号中提取人声数据。5.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,所述循环神经网络单元具体为LSTM神经网络单元。6.一种多声源融合场景的人声检测装置,其特征在于,包括:语音样本获取单元,用于获取第一语音帧样本和第...

【专利技术属性】
技术研发人员:陈晓敏杨志景刘庆李灏曾睿江奕锋戴宇
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1