一种基于声纹生成人脸图像的方法和装置制造方法及图纸

技术编号:22330703 阅读:47 留言:0更新日期:2019-10-19 12:23
本申请公开了一种基于声纹生成人脸图像的方法和装置,通过提取说话人的面部特征信息和音频的声纹特征信息,学习说话人面部特征信息和声纹特征信息之间的自然映射关系,根据待测说话人的语音数据推测待测说话人的面部特征,解码生成待测说话人的人脸图像,从而实现了根据说话人的语音线索生成人脸图像的效果,有利于帮助快速锁定可疑嫌疑人、缩小刑侦范围,为刑侦部门提供高效的线索排查手段。

A method and device for generating face image based on voiceprint

【技术实现步骤摘要】
一种基于声纹生成人脸图像的方法和装置
本申请涉及生物识别
,尤其涉及一种基于声纹生成人脸图像的方法和装置。
技术介绍
随着生物识别技术作为新一代人工智能的重要领域,借助人体生理特征或行为特征进行身份识别成为重要的研究方向。声纹,一般指语音中所蕴含的能够表征说话人的语音特性以及基于语音特征建立的语音模型,每个人在说话过程中所蕴含的语音特征、声道特征和发音习惯几乎是独一无二的。从发声生理特征上来说,声道起始于声带的开口即声门处而终止于嘴唇,包括延后和口腔,且声道的截面积取决于舌、唇、颌及软腭的位置,声音就是振动产生的,并在空气或其他介质中借助介质质点的振动传播。近年来,电信诈骗、绑架、敲诈勒索等涉及语音案件数量呈快速上升的趋势,随着电信网络、互联网语音的飞速发展,可预见未来涉及语音的案件数量以及案件中的语音线索及证据将不断增加,因此,通过案件中的语音线索生成案件可疑嫌疑人的人脸图像,快速锁定可疑嫌疑人、缩小刑侦范围,为公安干警提供高效的线索排查手段,是本领域技术人员亟待解决的技术问题。
技术实现思路
本申请提供了一种基于声纹生成人脸图像的方法和装置,用于根据语音声纹信息生成对应的人脸图像,帮助快速锁定可疑嫌疑人、缩小刑侦范围,为刑侦部门提供高效的线索排查手段。有鉴于此,本申请第一方面提供了一种基于声纹生成人脸图像的方法,包括以下步骤:101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;102、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;103、根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;104、将获取到的待测说话人的音频输入所述音频-面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。优选地,步骤102具体包括:1021、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征;1022、调整所述声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,所述第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征;1023、保留所述第一预置Loss函数的函数值最小时对应的所述声纹特征提取网络模型,同时保留所述第一预置Loss函数的函数值最小时的所述声纹特征与所述面部特征的映射关系。优选地,步骤101之后且步骤104之前还包括:1014、根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对所述人脸解码网络模型进行训练。优选地,步骤101之前还包括:100、构建训练数据集,所述训练数据集包括测试说话人的语音样本和人脸图像样本。优选地,所述人脸特征提取网络模型和/或所述音频-面部联想学习神经网络模型具体为CNN+全连层神经网络模型。优选地,所述人脸特征提取网络模型为ResNet网络模型。优选地,步骤100之后且步骤101之前,还包括:1001、所述对人脸特征提取网络模型进行训练,根据第二预置Loss函数调整所述人脸特征提取网络模型的模型参数,所述第二预置Loss函数为:Lface_encoder=F(fcnn(vf),target);其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出。优选地,步骤1014具体包括:根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整所述人脸解码网络模型的模型参数,所述第三预置Loss函数为:Lface_decoder=F(fface_decoder(vf),target);其中,Lface_decoder为人脸解码网络模型的输入到输出的映射关系。本申请第二方面提供了一种基于声纹生成人脸图像的装置,包括以下模块:面部特征提取模块,用于将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;声纹特征调整模块,用于将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;音频人脸模型构建模块,用于根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;人脸图像生成模块,用于将获取到的待测说话人的音频输入所述音频-面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。优选地,还包括:解码模型训练模块,用于根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练;数据集模块,用于构建训练数据集,所述训练数据集包括测试说话人的语音样本和人脸图像样本;面部特征训练模块,用于对人脸特征提取网络模型进行训练,根据第二预置Loss函数调整所述人脸特征提取网络模型的模型参数,所述第二预置Loss函数为:Lface_encoder=F(fcnn(vf),target);其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出;所述解码模型训练模块,具体用于根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整所述人脸解码网络模型的模型参数,所述第三预置Loss函数为:Lface_decoder=F(fface_decoder(vf),target);其中,Lface_decoder为人脸解码网络模型的输入到输出的映射关系;所述声纹特征调整模块具体包括:第一子模块,用于将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征;第二子模块,用于调整所述声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,所述第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征;第三子模块,用于保留所述第一预置Loss函数的函数值最小时对应的所述声纹特征提取网络模型,同时保留所述第一预置Loss函数的函数值最小时的所述声纹特征与所述面部特征的映射关系。从以上技术方案可以看出,本申请实施例具有以下优点:本申请中,提供了一种基于声纹生成人脸图像的方法,包括以下步骤:101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到测试说话人的面部特征;102、将获取到的测试说话人的语音样本输入声纹特征提取网络模型,得到测试说话人的声纹特征,调整声纹特征提取网络模型的模型参数,保留声纹特征与面部特征达到最佳映射时的声纹特征提取网络本文档来自技高网...

【技术保护点】
1.一种基于声纹生成人脸图像的方法,其特征在于,包括以下步骤:101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;102、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;103、根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频‑面部联想学习神经网络模型;104、将获取到的待测说话人的音频输入所述音频‑面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。

【技术特征摘要】
1.一种基于声纹生成人脸图像的方法,其特征在于,包括以下步骤:101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;102、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;103、根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;104、将获取到的待测说话人的音频输入所述音频-面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。2.根据权利要求1所述的基于声纹生成人脸图像的方法,其特征在于,步骤102具体包括:1021、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征;1022、调整所述声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,所述第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征;1023、保留所述第一预置Loss函数的函数值最小时对应的所述声纹特征提取网络模型,同时保留所述第一预置Loss函数的函数值最小时的所述声纹特征与所述面部特征的映射关系。3.根据权利要求2所述的基于声纹生成人脸图像的方法,其特征在于,步骤101之后且步骤104之前还包括:1014、根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对所述人脸解码网络模型进行训练。4.根据权利要求1所述的基于声纹生成人脸图像的方法,其特征在于,步骤101之前还包括:100、构建训练数据集,所述训练数据集包括测试说话人的语音样本和人脸图像样本。5.根据权利要求4所述的基于声纹生成人脸图像的方法,其特征在于,所述人脸特征提取网络模型和/或所述音频-面部联想学习神经网络模型具体为CNN+全连层神经网络模型。6.根据权利要求1所述的基于声纹生成人脸图像的方法,其特征在于,所述人脸特征提取网络模型为ResNet网络模型。7.根据权利要求5所述的基于声纹生成人脸图像的方法,其特征在于,步骤100之后且步骤101之前,还包括:1001、对所述人脸特征提取网络模型进行训练,根据第二预置Loss函数调整所述人脸特征提取网络模型的模型参数,所述第二预置Loss函数为:Lface_encoder=F(fcnn(vf),target);其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出。8.根据权利要求3所述的基于声纹生成人脸图像的方法,其特征在于,步骤1014具体包括:根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训...

【专利技术属性】
技术研发人员:许敏强杨世清吴建花陈琦
申请(专利权)人:广州国音智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1