语音信号的提取方法、装置、可读存储介质及电子设备制造方法及图纸

技术编号：37149847 阅读：15 留言：0更新日期：2023-04-06 22:04

本公开实施例公开了一种语音信号的提取方法、装置、计算机可读存储介质及电子设备，其中，该方法包括：获取在目标区域内采集的多通道混合音频信号和图像序列；确定目标区域内的目标用户；基于图像序列，确定目标用户的唇部区域图像序列；基于唇部区域图像序列，确定唇部状态特征数据，以及确定目标用户的唇部与麦克风阵列的空间位置特征数据；基于多通道混合音频信号，确定音频特征数据；基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。本公开实施例实现了将多通道混合音频信号和空间位置特征数据结合进行多模态语音分离提高了语音信号提取的稳定性和准确性。提高了语音信号提取的稳定性和准确性。提高了语音信号提取的稳定性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音信号的提取方法、装置、可读存储介质及电子设备

[0001]本公开涉及计算机
，尤其是一种语音信号的提取方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]随着人机交互方式的不断发展，人机交互的高效性、准确性、便捷性是相关领域研究的目标。多模态语音分离作为人机交互的一种方式，目前得到广泛的研究和应用。多模态语音分离是指将音频和图像相结合，使用神经网络等手段对听觉和视觉信号进行多模态融合来解决声源分离问题。这种方法通过对模型进行训练，使模型同时学习音频和图像的特征，通过图像作为辅助，更好地学习到音频中不同说话人的声音信息。
[0003]目前的多模态语音分离方法，通常对说话人的唇部图像的质量要求较高，在出现唇部遮挡或唇部图像不清晰时，对语音分离的效果影响较大。

技术实现思路

[0004]为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音信号的提取方法、装置、计算机可读存储介质及电子设备。
[0005]本公开的实施例提供了一种语音信号的提取方法，该方法包括：获取在目标区域内采集的多通道混合音频信号和图像序列；确定目标区域内的目标用户；基于图像序列，确定目标用户的唇部区域图像序列；基于唇部区域图像序列，确定唇部状态特征数据；基于多通道混合音频信号，确定音频特征数据；基于唇部区域图像序列，确定目标用户的唇部与麦克风阵列的空间位置特征数据；基于唇部状态特征数据、音频特征数据和空间位置特征数据，从多通道混合音频信号中提取目标用户的语音信号。
[0006]根...

【技术保护点】

【技术特征摘要】
1.一种语音信号的提取方法，包括：获取在目标区域内采集的多通道混合音频信号和图像序列；确定所述目标区域内的目标用户；基于所述图像序列，确定所述目标用户的唇部区域图像序列；基于所述唇部区域图像序列，确定唇部状态特征数据；基于所述多通道混合音频信号，确定音频特征数据；基于所述唇部区域图像序列，确定所述目标用户的唇部与麦克风阵列的空间位置特征数据；基于所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据，从所述多通道混合音频信号中提取所述目标用户的语音信号。2.根据权利要求1所述的方法，其中，所述基于所述唇部区域图像序列，确定所述目标用户的唇部与麦克风阵列的空间位置特征数据，包括：基于所述唇部区域图像序列和用于采集所述图像序列的相机的预设参数，确定表示所述目标用户的唇部的空间位置的唇部位置信息；基于所述唇部位置信息和所述麦克风阵列的预设位置信息，确定所述目标用户的唇部位置所在的目标直线与所述麦克风阵列的基准线之间的角度；基于所述角度，确定所述目标用户的唇部位置与所述麦克风阵列之间的角度特征数据；基于所述角度特征数据，确定所述空间位置特征数据。3.根据权利要求2所述的方法，其中，还包括：确定表示所述多通道混合音频信号之间的相位差特征数据；所述基于所述角度，确定所述目标用户的唇部位置与所述麦克风阵列之间的角度特征数据，包括：基于所述角度和所述相位差特征数据，确定所述角度特征数据。4.根据权利要求3所述的方法，其中，所述基于所述角度特征数据，确定所述空间位置特征数据，包括：基于所述角度特征数据和所述相位差特征数据，确定所述空间位置特征数据。5.根据权利要求1所述的方法，其中，所述基于所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据，从所述多通道混合音频信号中提取所述目标用户的语音信号，包括：利用预先训练的神经网络模型的融合网络，对所述唇部状态特征数据、所述音频特征数据和所述空间位置特征数据进行融合，得到融合特征数据；利用所述神经网络模型的解码网络，对所述融合特征数据进行解码，得到掩码数据；基于所述掩码数据，从所述多通道混合音频信号中提取所述目标用户的语音信号。6.根据权利要求5所述的方法，其中，所述基于所述掩码数据，从所...

【专利技术属性】
技术研发人员：宫一尘，李文鹏，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人