This application discloses a mask estimation method and device, which includes: generating energy characterization information, which represents energy difference information of directional signal with frequency point F output on N beams, which are presupposed with different directions based on microphone array; and then, estimating N beams according to the generated energy characterization information. The N masks are used to characterize the probability of directional signals coming from the spatial region to which N beams point. It can be seen that the energy difference information is taken into account in the mask estimation in this application. The energy difference information is not affected by environmental noise and can ensure the effectiveness of the mask estimation results.
【技术实现步骤摘要】
一种掩码估计方法及装置
本申请涉及信号处理
,尤其涉及一种掩码估计方法及装置。
技术介绍
实际中,远距离拾音的应用需求非常广泛。例如,学生上课时想把老师们的授课内容录下来,供以后重听、复习;在一些会议场合,秘书希望能够录下领导们的发言,甚至将录音用语音识别软件直接转写为文字,便于整理会议纪要。远距离拾音相比近距离拾音的优势在于:1)灵活便利:不需要在每个发言人面前都摆放一个拾音设备,布置更加便利,避免了更换发言人时还需要移动拾音设备的麻烦。而且,有时候用户自带的拾音设备也不方便放置在发言人面前。2)隐蔽:远距离拾音技术降低了拾音设备的存在感,提高了讲话者的舒适度,也使拾音场所的室内布置更加简洁。甚至有些应用场景需要秘密拾音,对远距离拾音的需求更加强烈。虽然远距离拾音在应用上更有优势,但当前的远距离拾音技术还无法达到近距离拾音的效果。其原因在于输入信号的信噪比极低,即,由于拾音设备距离说话人较远,意味着录到的说话人语音的音量较低,尽管拾音场所的环境噪声本来不大,但实际录到的信号的信噪比也很低,在这种情况下,环境噪声的影响非常显著,使得现有的掩码估计方法会失效, ...
【技术保护点】
1.一种掩码估计方法,其特征在于,包括:生成能量表征信息,所述能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息,所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束,N≥2;根据所述能量表征信息估计得到N个掩码值,所述N个掩码值用于表征所述方向性信号分别来自所述N个波束所指向的空间区域时的概率。
【技术特征摘要】
1.一种掩码估计方法,其特征在于,包括:生成能量表征信息,所述能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息,所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束,N≥2;根据所述能量表征信息估计得到N个掩码值,所述N个掩码值用于表征所述方向性信号分别来自所述N个波束所指向的空间区域时的概率。2.根据权利要求1所述的方法,其特征在于,所述生成能量表征信息,包括:生成所述N个波束中的每一波束对应的夹角差异信息,作为能量表征信息;其中,所述夹角差异信息包括:对应波束与所述N个波束中的每一波束之间的夹角。3.根据权利要求1所述的方法,其特征在于,所述生成能量表征信息,包括:生成所述N个波束中的每一波束对应的延迟差异信息,作为能量表征信息;其中,所述延迟差异信息包括:当所述方向性信号位于对应波束指向的空间区域时,所述方向性信号从所述麦克风阵列中的每一麦克风到所述麦克风阵列的中心位置之间的时间延迟。4.根据权利要求1所述的方法,其特征在于,所述根据所述能量表征信息估计得到N个掩码值,包括:根据所述能量表征信息,为所述N个波束分别构建一个掩码计算模型;利用构建的N个掩码计算模型,估计得到N个掩码值。5.根据权利要求4所述的方法,其特征在于,所述利用构建的N个掩码计算模型,估计得到N个掩码值,包括:生成所述方向性信号在所述N个波束上输出的能量值;根据生成的N个能量值以及构建的N个掩码计算模型,估计得到N个掩码估计值。6.根据权利要求1至5任一项所述的方法,其特征在于,所述方向性信号包括方向性噪声,所述方法还包括:对于预设时长内的各个单位时间,确定所述麦克风阵列在各个时间单位的接收信号在N个波束的输出能量值;根据各个时间单位的接收信号在N个波束的输出能量值,确定所述方向性噪声所属的空间区域。7.根据权利要求6所述的方法,其特征在于,所述根据各个时间单位的接收信号在N个波束的输出能量值,确定所述方向性噪声所属的空间区域,包括:对于所述N个波束中的每一波束,选择各个时间单位的接收信号在该波束的输出能量值中的最小值,得到N个最小值;将所述N个最小值由大到小进行排序,选择排序在前的K个最小值对应的K个波束指向的空间区域,作为方向性噪声所属的空间区域,N>K≥1。8.根据权利要求7所述的方法,其特征在于,所述方向性信号还包括方向性语音,则所述方法还包括:从N-K个最小值中选择一个最大值,所述N-K个最小值为从所述N个最小值中去除所述K个最小值后的各个最小值;将所述最大值对应的波束所指向的空间区域,作为所述方向性语音所属的空间区域。9.一种掩码估计装置,其特征在于,包括:信息生成单元,用于生成能量表征信息,所述能量表征信息表征了频点为f的方向性信号在N个波束上输出的能量差异信息,所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束...
【专利技术属性】
技术研发人员:张健,曹圣红,王海坤,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。