一种基于条件生成对抗网络的声音预测人脸方法技术

技术编号：28709783 阅读：19 留言：0更新日期：2021-06-05 23:40

本发明专利技术提出了一种基于条件生成对抗网络的声音预测人脸方法，该方法包括：数据构建步骤，采集声音数据及人脸数据并进行数据清洗，分别根据年龄及性别标注生成one

全部详细技术资料下载

【技术实现步骤摘要】
一种基于条件生成对抗网络的声音预测人脸方法

[0001]本专利技术涉及深度学习应用
，具体涉及了一种基于条件生成对抗网络的声音预测人脸方法。

技术介绍

[0002]近年来，深度学习的发展得到了社会各界的广泛关注，其技术应用也已经渗透了生活的方方面面。深度学习的提出得益于神经网络的发展，其根本概念在于模拟人脑进行数据分析，找到输入与输出之间的隐层联系。目前，深度学习技术在图像处理、自然语言处理、音频处理等问题上均显露出令人惊叹的效果，其中尤以在图像处理上的表现最令人瞩目。
[0003]图像处理问题可以分为：图像检测、图像分类、图像生成等。生成对抗网络就是一种极具发展前景的图像生成模型，其本质是一个“博弈对抗”的过程。生成对抗网络由生成器与鉴别器两部分网络构成，生成器的目的在于合成以假乱真的图片，而鉴别器的目的在于分辨出合成图片与真实图片，两者通过不断较量最终达到平衡。但原始的生成对抗网络的生成结果不可控，为了改善该问题，条件生成对抗网络CGAN应运而生，其背后的思想在于给原始网络加入一定的约束条件，使得生成图片符合指定的要求。这一改进大大推动了生成对抗网络在各大领域的融合发展。
[0004]在条件生成对抗网络的基础上，根据文本生成图片，根据颜色生成图片等技术都已经取得较好的成果，但由音生貌，通过声音预测人脸的语音画像领域发展却始终不如人意。现有的语音画像技术生成图片分辨率低下，难以在实际工作中得到应用，且大多使用声音特征直接作为生成对抗网络的约束条件，增大了网络的学习难度，模型效果不如人意。/>
技术实现思路

[0005]针对上述不足，本专利技术提出了一种基于条件生成对抗网络的声音预测人脸方法，该方法使用声音分类网络将声音特征转化为one
‑
hot标签编码，以标签编码为条件生成对抗网络的约束条件，进而可以得到分辨率较高的预测人脸图片。
[0006]本专利技术采用的技术方案为：
[0007]一种基于条件生成对抗网络的声音预测人脸方法，该方法包括：数据构建步骤、声音分类网络模型设计与训练步骤、人脸图像生成网络设计与训练步骤、模型预测步骤；数据构建步骤主要通过采集当前主流的Common Voice音频数据集中汉语(中国大陆)声音数据和UTKface数据集中亚裔人脸数据，进行数据清洗并依据数据库相关标注数据，为声音和人脸数据分别建立one
‑
hot编码标签；设计及训练声音分类网络模型步骤利用深度学习技术在分类问题上的处理，设计相应的网络结构，并利用所构建的数据进行训练，获得网络模型；设计及训练人脸图像生成网络步骤利用条件生成对抗网络的相关原理，利用所构建的数据进行训练并获得网络模型；模型预测步骤串联声音分类网络与人脸图像生成网络，实现从声音预测人脸的功能。
[0008]具体的，该方法的实现步骤如下：
[0009]S1、数据构建，采集Common Voice音频数据集中汉语(中国大陆)声音数据和UTKface数据集中亚裔人脸数据；对声音数据及人脸图像数据进行数据清理；根据数据集中原始的年龄及性别标注，对声音数据及人脸图像数据建立one
‑
hot编码标签，保持两者编码规则的一致性；
[0010]S2、设计及训练声音分类网络模型，该网络模型包含三个子网络，分别为梅尔频谱转化网络，预训练的resnet50网络和全连接网络；首先将经过数据处理的声音数据输入梅尔频谱转化网络，获得声音数据的梅尔频谱；接着将梅尔频谱输入预训练的resnet50网络，得到精确度更高的声音特征；最后将resnet50网络的输出经过一定的数据处理后输入全连接网络，输出为预测的one
‑
hot声音分类标签；优化预测的声音分类标签与真实的声音编码标签之间的相似度，更新网络的权重，获得收敛的网络；
[0011]S3、设计及训练人脸图像生成网络，该网络为预训练的CGAN网络，以随机种子作为网络输入，以人脸one
‑
hot编码标签为约束条件，同时训练网络的生成器及鉴别器，使两者在博弈中达到平衡；取网络收敛后的生成器为人脸图像生成网络；
[0012]S4、模型预测，将待预测的声音经过预处理后输入声音分类网络，获得one
‑
hot声音分类标签；将分类标签输入人脸图像生成网络，获得预测的人脸图像。
[0013]进一步地，步骤S1中，对数据进行数据清理步骤如下：
[0014]S11、清除无声声音片段；
[0015]S12、清除标注残缺的声音数据及人脸图像数据；
[0016]S13、将声音数据统一裁剪至时间长度5s；
[0017]进一步地，步骤S1中，对声音及人脸数据建立one
‑
hot编码标签，该标签根据标注共分为八种情况，分别为：男性小于19岁、男性19
‑
29岁、男性30
‑
39岁、男性大于40岁、女性小于19岁、女性19
‑
29岁、女性30
‑
39岁、女性大于40岁，将其分别编码为(00000001，00000010，00000100，00001000，00010000，00100000，01000000，10000000)；
[0018]进一步地，步骤S2中，声音分类网络的具体训练步骤如下：
[0019]S21、将经过处理的声音数据输入梅尔频谱转换网络，该网络采用librosa工具包中的封装函数实现；
[0020]S22、将提取的梅尔频谱输入预训练的resnet50网络，得到精确度更高的声音特征；
[0021]S23、将resnet50网络的输出经过最大值池化后输入全连接层，得到预测的one
‑
hot标签；
[0022]S24、根据预测的one
‑
hot标签与真实的one
‑
hot标签计算交叉熵损失函数，更新resnet50网络及全连接层的参数；
[0023]S25、重复S21至S24步骤，直至达到训练次数，完成训练并保存此时的分类网络；
[0024]进一步地，步骤S3中，人脸图像生成网络的具体训练步骤为：以随机种子及人脸one
‑
hot编码标签为CGAN网络生成器的输入，输出为生成的随机人脸图片；将该随机人脸图片、人脸one
‑
hot编码标签及真实人脸图片输入CGAN网络鉴别器，输出值用于判断生成器的合成图片是否真实以及是否符合标签约束；同时训练生成器及鉴别器，通过优化损失函数更新网络权重，使网络达到平衡；取收敛的CGAN生成器为人脸图像生成网络；
[0025]综上所述，本专利技术公开了一种基于条件生成对抗网络的声音预测人脸方法。其有益效果为：本专利技术基于深度学习中声音分类及人脸图像技术，弥补了语音画像领域的空白。通过将声音特征转化为分类标签，再将分类标签作为生成对抗网络的约束条件，减小了网络学习的难度，提高了生成图片的质量。
附图说明...

【技术保护点】

【技术特征摘要】
1.一种基于条件生成对抗网络的声音预测人脸方法，其特征在于，所述预测方法包括下列步骤：S1、数据构建，采集声音数据，进行数据清洗并根据说话者年龄及性别标注制作one
‑
hot标签编码，其中，标签共包括4类年龄属性和2类性别属性；采集人脸图像数据，进行数据清洗并根据人脸的年龄及性别标注制作one
‑
hot标签编码，保持声音标签数据与人脸标签数据制作规则的一致性；S2、设计及训练声音分类网络模型，该网络模型分为三个子网络，分别为提取声音大尺度特征的梅尔频谱转化网络、对声音特征进行特征识别的预训练resnet50网络、根据识别出的特征对声音数据进行分类的全连接网络；以经过数据处理的声音数据作为输入，优化该网络的分类输出与声音标签编码之间的相似度，实现声音分类网络模型的收敛；S3、设计及训练人脸生成网络，该网络由预训练的CGAN网络构成，以随机种子及人脸标签数据为输入，使得CGAN网络的生成器与鉴别器在博弈中达到平衡，实现人脸生成网络的收敛；S4、模型预测，将声音数据经过预处理后输入声音分类网络，获得对应的标签编码；将标签编码输入人脸生成网络，获得预测的说话者人脸图像输出。2.如权利要求1所述的一种基于条件生成对抗网络的声音预测人脸方法，其特征在于，所述步骤S1中声音数据采集Common Voice开源数据集中汉语(中国大陆)声音数据，该数据集包含原始的年龄、性别标注；人脸图像数据采集UTKface开源数据集中亚裔人脸数据，该数据集包含原始的年龄、性别标注。3.如权利要求1所述的一种基于条件生成对抗网络的声音预测人脸方法，其特征在于，所述步骤S1中数据清洗步骤包括：清除无声声音片段；清除标注残缺的...

【专利技术属性】
技术研发人员：许曼玲，戴宪华，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人