语音匹配方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:36730900 阅读:29 留言:0更新日期:2023-03-04 09:57
本申请公开了一种语音匹配方法、装置、设备及计算机可读存储介质,所述方法包括:获取待处理的多媒体数据和训练好的匹配模型,从所述多媒体数据中提取出语音数据和图像数据;对所述语音数据进行分离处理,得到多个单人语音数据;对所述图像数据进行人脸识别,得到所述图像数据中对应的多个人脸图像;利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理,得到与各个单人语音数据匹配的目标人脸图像。实现对各个单人语音数据的人脸图像匹配,并且能够同时对多个人脸图像进行匹配,从而提升语音匹配的效率及正确率,增加语音匹配处理的灵活性。增加语音匹配处理的灵活性。增加语音匹配处理的灵活性。

【技术实现步骤摘要】
语音匹配方法、装置、设备及计算机可读存储介质


[0001]本申请涉及信息处理
,涉及但不限于一种语音匹配方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]在一个嘈杂的鸡尾酒会中,人类依然可以选择性的注意一些声音,滤除一系列其他的声音。针对人类的这种听觉注意力机制研究,引出了语音信号处理领域的一个经典问题“鸡尾酒会问题”,而解决“鸡尾酒会问题”,主要是把多种混合的声音分离开来,其核心是多说话人语音分离。
[0003]多说话人语音分离在引入深度学习思想之后,取得了较大的发展。基于深度学习的语音分离方法根据是否使用多感知特征,可分为两类:一类是基于纯音频的深度学习语音分离方法,另一类是基于视听特征融合的深度学习语音分离方法。
[0004]在相关技术中,基于视觉听觉特征结合的多说话人语音分离方法是将人脸或者嘴唇信息等作为模型输入的一部分,并对视觉特征和音频特征进行融合,分离模型进行语音分离的同时,也完成了对音频和视频的匹配。语音分离效果在人数为2

3人较少时,效果较好。但人数的增加会使得模型性能降低本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音匹配方法,其特征在于,所述方法包括:获取待处理的多媒体数据和训练好的匹配模型,从所述多媒体数据中提取出语音数据和图像数据;对所述语音数据进行分离处理,得到多个单人语音数据;对所述图像数据进行人脸识别,得到所述图像数据中对应的多个人脸图像;利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理,得到与各个单人语音数据匹配的目标人脸图像。2.根据权利要求1中所述的方法,其特征在于,所述方法还包括:获取样本语音数据和样本人脸图像,所述样本人脸图像中包括正例样本人脸图像和至少一个负例样本人脸图像,其中,所述正例样本人脸图像为与所述样本语音数据匹配的样本人脸图像,所述至少一个负例样本人脸图像为与所述样本语音数据不匹配的样本人脸图像;将所述样本语音数据、所述正例样本人脸图像和所述至少一个负例样本人脸图像输入预设的匹配模型,得到所述样本语音数据与所述正例样本人脸图像的第一距离和所述样本语音数据与所述至少一个负例样本人脸图像的第二距离;获取所述第一距离与第一距离阈值之间的第一误差信息,并获取所述第二距离与第二距离阈值之间的第二误差信息,其中,所述第一距离阈值小于所述第二距离阈值;基于所述第一误差信息和所述第二误差信息对所述预设的匹配模型进行反向传播训练,得到所述训练好的匹配模型。3.根据权利要求1中所述的方法,其特征在于,对所述语音数据进行分离处理,得到多个单人语音数据,包括:对所述语音数据进行编码处理,得到编码后的语音数据;对所述编码后的语音数据进行分离处理,得到分离后的语音数据;基于所述编码后的语音数据和所述分离后的语音数据,确定融合语音特征;对所述融合语音特征进行解码处理,获得所述多个单人语音数据。4.根据权利要求3中所述的方法,其特征在于,对所述语音数据进行编码处理,得到编码后的语音数据,包括:对所述语音数据进行分段处理,得到多段语音数据;对所述多段语音数据依次进行重叠、拼接处理,形成满足预设重叠率的三维语音向量;将所述三维语音向量转换成序列型向量,并将所述序列型向量确定为所述编码后的语音数据。5.根据权利要求2中所述的方法,其特征在于,利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理,得到与各个单人语音数据匹配的目标人脸图像,包括:将所述多个单人语音数据确定为语音数据集合,将所述多个人脸图像确定为人脸图像集合,将所述语音数据集合中的任一单人语音数据确定为目标语音数据;将所述目标语音数据和所述人脸图像集合输入所述训练好的匹配模型,得到所述目标语音数据的匹配结果,所述匹配结果包括所述目标语音数据与所述人脸图像集合中各个人脸图像之间的各个距离;
当基于所述各个距离确定存在与所述目标语音数据满足匹配条件的人脸图像,将所述满足匹配条件的人脸图像确定为目标人脸图像;从所述语音数据集合中删除所述目标语音数据得到更新后的语音数据集合,从所述人脸图像集合中删除所述目标...

【专利技术属性】
技术研发人员:卢慧君蔡敦波钱岭黄智国
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1