肖像生成方法和装置制造方法及图纸

技术编号:36426834 阅读:15 留言:0更新日期:2023-01-20 22:37
本发明专利技术实施例公开了一种肖像生成方法和装置。本发明专利技术实施例的方法对获取的目标音频合理量化或参数化后得到音频特征信息,考虑到音频特征信息对肖像各部分的影响不同,将音频特征信息分别输入到嘴部特征点预测模型和面部特征点预测模型,确定对应的嘴部特征点序列和面部特征点,然后将嘴部特征点序列和面部特征点序列进行融合,得到完整的目标特征点序列,最后,基于目标特征点序列和从目标视频中提取的目标人脸图像序列,确定目标肖像序列,本发明专利技术实施例通过对与音频内容发声高度相关的嘴部特征点和与音频内容的情绪或感情高度相关的面部特征点分开处理,可使目标音频与生成的目标肖像关联更加紧密,目标肖像的各部分更加精准,更加生动自然。更加生动自然。更加生动自然。

【技术实现步骤摘要】
肖像生成方法和装置


[0001]本专利技术涉及计算机视觉领域,具体而言,本专利技术涉及一种肖像生成方法和装置。

技术介绍

[0002]随着虚拟现实技术的不断发展,音频驱动的虚拟肖像也开始应用在各个领域,如虚拟现实游戏、虚拟形象网络直播、视频会议等,如何在虚拟现实社交过程中使虚拟肖像在语音交互过程中具有更加生动的表情,仍是目前的技术难点。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供了一种肖像生成方法和装置,以实现通过音频驱动的方式控制人脸图像的嘴部特征点和面部特征点的分布,从而提高肖像的真实感。
[0004]第一方面,提供一种肖像生成方法,所述方法包括:
[0005]对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;
[0006]将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;
[0007]将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;
[0008]基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。
[0009]第二方面,提供一种肖像生成装置,所述装置包括:
[0010]提取模块,用于对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;
[0011]嘴部模块,用于将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;
[0012]面部模块,用于将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;
[0013]肖像生成模块,用于基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。
[0014]第三方面,提供一种电子设备,所述设备包括:
[0015]存储器,用于存储一条或多条计算机程序指令;
[0016]处理器,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中的方法。
[0017]第四方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中的方法。
[0018]本专利技术实施例的肖像生成方法和装置通过对获取的目标音频合理量化或参数化后得到音频特征信息,考虑到音频特征信息对肖像各部分的影响不同,将音频特征信息分别输入到嘴部特征点预测模型和面部特征点预测模型,确定对应的嘴部特征点序列和面部特征点;然后将嘴部特征点序列和面部特征点序列进行融合,得到完整的目标特征点序列;
最后,基于目标特征点序列和从目标视频中提取的目标人脸图像序列,确定目标肖像序列。本专利技术实施例通过对与音频内容发声高度相关的嘴部特征点和与音频内容的情绪或感情高度相关的面部特征点分开处理,可使目标音频与生成的目标肖像关联更加紧密,目标肖像的各部分更加精准,更加生动自然。
附图说明
[0019]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:
[0020]图1为本专利技术实施例的肖像生成方法的流程图;
[0021]图2为本专利技术实施例的音频特征提取方法的流程图;
[0022]图3为本专利技术实施例的嘴部特征点分布的示意图;
[0023]图4为本专利技术实施例的特征点预测模型的训练流程图;
[0024]图5为本专利技术实施例的目标特征点序列的示意图;
[0025]图6为本专利技术实施例的基于目标特征点序列和目标人脸图像确定目标肖像的示意图;
[0026]图7为本专利技术实施例的判别器网络结构体的示意图;
[0027]图8是本专利技术实施例的肖像生成装置的示意图;
[0028]图9为本专利技术实施例的电子设备的示意图。
具体实施方式
[0029]以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
[0030]此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
[0031]除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
[0032]在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0033]图1为本专利技术实施例的肖像生成方法的流程图,如图1所示,所述方法包括以下步骤:
[0034]在步骤S110中,对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列。
[0035]其中,目标音频为含人声的音频文件,目标视频为包含人物正面图像的视频文件。获取目标音频后,需要对目标音频合理量化或参数化,以便作为步骤S120中的嘴部特征点预测模型和步骤S130中的面部特征点预测模型的输入信息。
[0036]音频特征信息可以包括基频(Pitch)、能量(Energy)、语速(Speech Rate)、共振峰
频率(Formant)、单个音节的持续时间(Duration)、音节之间的停顿时间(Pause)、梅尔频率倒谱系数(Mel

Frequency Cepstral Coefficients,MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)、线性预测分析(Linear Prediction Coefficients,LPC)、基于滤波器组的Fbank特征(Filter bank)、感知线性预测系数(Perceptual Linear Predictive,PLP)等,以及它们的各种变化形式,比如最大值、最小值、均值、范围、变化率等,这些参数主要体现人体的声门和声道的特征,与人的生理构造有密切的关系。根据使用的量化或参数化的方法不同,音频特征信息不同。其中,MFCC可以模拟人耳将音频非线性映射的过程,成功提取音频中韵律和语义的活动,本实施例以MFCC为例描述提取音频特征信息的过程。
[0037]图2为本专利技术实施例的音频特征提取方法的流程图,如图2所示,该方法包括:
[0038]在步骤S111中,对获取的目标音频进行信号预处理,包括预加重,分帧,加窗。将目标音频的数字音频信号通过高通滤波器,得到高频信息,然后对目标音频进行采样,将预设数量个采样点集合成一个观测单位,即一帧。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以16KHz来说,若帧长度为256个采样点,则对应的时间长度是21.33ms。将每一帧乘以汉明窗,以增加帧左端和右端的连续性。
[0039]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种肖像生成方法,其特征在于,所述方法包括:对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。2.根据权利要求1所述的肖像生成方法,其特征在于,所述方法还包括:基于所述目标肖像序列,合成目标肖像视频。3.根据权利要求1所述的肖像生成方法,其特征在于,所述音频特征信息基于梅尔频率倒谱系数提取。4.根据权利要求1所述的肖像生成方法,其特征在于,所述对目标视频进行特征提取,确定目标人脸图像序列,包括:获取目标视频的多张关键帧图像;对所述多张关键帧图像进行人脸识别,确定多张待测人脸图像;将出现频率超过预设第一阈值的待测人脸图像确定为目标人脸图像;基于多张目标人脸图像,确定所述目标人脸图像序列。5.根据权利要求1所述的肖像生成方法,其特征在于,所述将所述音频特征信息和所述目标人脸图像输入面部特征点预测模型,确定对应的面部特征点序列,包括:基于所述音频特征信息,确定音频语义解析信息;将所述音频语义解析信息和所述目标人脸图像输入面部特征点预测模型,确定对应的面部特征点序列。6.根据权利要求1所述的肖像生成方法,其特征在于,所述基于所述目标人脸图像、所述嘴部特征点序列和面部特征点...

【专利技术属性】
技术研发人员:陈苏全唐旻杰梁超王开新陈云琳
申请(专利权)人:出门问问创新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1