视频生成方法及装置制造方法及图纸

技术编号:37968677 阅读:15 留言:0更新日期:2023-06-30 09:44
本发明专利技术实施例公开了一种视频生成方法及装置,在根据图像文件确定第一人脸特征点和第二人脸特征点并根据音频数据获取至少两个不同说话人的语音数据后,对所述人脸特征点和语音数据进行对应匹配,基于匹配后的至少两个对应的人脸特征点和语音数据,分别生成相应的人脸特征点的偏移序列,进而合成至少两个人脸图像序列,并基于所述人脸图像序列生成双人对话视频。由此,降低了身份信息分离和读取的难度,从而合成双人对话视频,同时使生成的双人对话视频具有生动的姿态表达能力。视频具有生动的姿态表达能力。视频具有生动的姿态表达能力。

【技术实现步骤摘要】
视频生成方法及装置


[0001]本专利技术涉及图像处理领域,具体涉及一种视频生成方法及装置。

技术介绍

[0002]近年来,人工智能语音驱动合成式技术迅速发展,在很多行业得到了广泛的应用。
[0003]目前语音驱动说话人脸生成技术主要分为两个方面,一是端到端的合成技术,使用神经网络对输入图像和语音来编码其各自表征,基于生成对抗网络来合成图像序列,这种方法生成的视频缺少生动的姿态表达能力,且清晰度较低,偶尔会出现伪影、不连贯等现象。二是引入中间特征表示,先通过语音驱动生成面部特征点序列,再将面部特征点序列与图像通过生成对抗网络合成说话人脸视频,该方法生成的视频仍有清晰度不高、背景抖动的现象。同时,由于双人对话训练数据难获取、身份信息分离和读取存在一定难度等原因,现有的语音驱动技术难以实现合成双人对话视频。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种视频生成方法及装置,以降低身份信息分离和读取的难度,从而合成双人对话视频,同时使生成的双人对话视频具有生动的姿态表达能力。
[0005]第一方面,提供一种视频生成方法,所述方法包括:
[0006]获取音频数据和图像文件,所述音频数据包括语音,所述图像文件包括第一人脸图像和第二人脸图像;
[0007]根据所述图像文件确定第一人脸特征点和第二人脸特征点,所述人脸特征点用于表征人脸五官的形状特征;
[0008]根据所述音频数据获取至少两个语音数据,不同的语音数据对应于不同说话人的语音;
[0009]在各所述语音数据中,确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据;
[0010]根据第一人脸特征点和第一语音数据确定第一人脸特征点的偏移序列;
[0011]根据第二人脸特征点和第二语音数据确定第二人脸特征点的偏移序列;
[0012]根据第一人脸特征点的偏移序列确定第一合成人脸图像序列;
[0013]根据第二人脸特征点的偏移序列确定第二合成人脸图像序列;
[0014]根据所述第一合成人脸图像序列和第二合成人脸图像序列生成双人对话视频。
[0015]可选的,所述根据所述音频数据获取至少两个语音数据具体为:
[0016]将说话人转变时刻作为所述音频数据分割点对所述音频数据进行分割,以获取至少两个语音数据。
[0017]可选的,所述在各所述语音数据中,确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据具体为:
[0018]按照预定的规则从所述音频数据中确定第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据。
[0019]可选的,所述在各所述语音数据中,确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据具体为:
[0020]分别确定所述第一人脸图像和第二人脸图像的图像人物属性信息;
[0021]分别确定各所述语音数据的语音人物属性信息;
[0022]根据所述图像人物属性信息和所述语音人物属性信息匹配所述人脸图像和语音数据,以确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据。
[0023]可选的,所述根据第一人脸特征点和第一语音数据确定第一人脸特征点的偏移序列及根据第二人脸特征点和第二语音数据确定第二人脸特征点的偏移序列,具体为:
[0024]分别根据第一语音数据和第二语音数据分离对应的音频内容表征信息和说话人身份表征信息;
[0025]将第一人脸特征点及第一语音数据对应的音频内容表征信息和说话人身份表征信息输入预先训练的面部特征点偏移预测模型,确定第一人脸特征点的偏移序列;
[0026]将第二人脸特征点及第二语音数据对应的音频内容表征信息和说话人身份表征信息输入预先训练的面部特征点偏移预测模型,确定第二人脸特征点的偏移序列。
[0027]可选的,所述根据第一人脸特征点的偏移序列确定第一合成人脸图像序列及根据所述第二人脸特征点的偏移序列确定第二合成人脸图像序列具体为:
[0028]将所述第一人脸特征点的偏移序列输入对抗生成网络,确定第一合成人脸图像序列;
[0029]将所述第二人脸特征点的偏移序列输入对抗生成网络,确定第二合成人脸图像序列。
[0030]可选的,所述根据所述第一合成人脸图像序列和第二合成人脸图像序列生成双人对话视频具体为;
[0031]将所述第一合成人脸图像序列和第二合成人脸图像序列与背景图像融合生成双人对话视频,所述背景图像为原始图像背景或特定图像背景。
[0032]第二方面,提供一种视频生成装置,所述装置包括:
[0033]第一获取单元,被配置为获取音频数据和图像文件,所述音频数据包括语音,所述图像文件包括第一人脸图像和第二人脸图像;
[0034]第一确定单元,被配置为根据所述图像文件确定第一人脸特征点和第二人脸特征点,所述人脸特征点用于表征人脸五官的形状特征;
[0035]第二获取单元,被配置为根据所述音频数据获取至少两个语音数据,不同的语音数据对应于不同说话人的语音;
[0036]匹配单元,被配置为在各所述语音数据中,确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据;
[0037]第二确定单元,被配置为根据第一人脸特征点和第一语音数据确定第一人脸特征点的偏移序列;
[0038]第三确定单元,被配置为根据第二人脸特征点和第二语音数据确定第二人脸特征
点的偏移序列;
[0039]第一合成人脸生成单元,被配置为根据第一人脸特征点的偏移序列确定第一合成人脸图像序列;
[0040]第二合成人脸生成单元,被配置为根据第二人脸特征点的偏移序列确定第二合成人脸图像序列;
[0041]视频生成单元,被配置为根据所述第一合成人脸图像序列和第二合成人脸图像序列生成双人对话视频。
[0042]第三方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的装置。
[0043]第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的装置。
[0044]本专利技术实施例在根据图像文件确定第一人脸特征点和第二人脸特征点并根据音频数据获取至少两个不同说话人的语音数据后,对所述人脸特征点和语音数据进行对应匹配,基于匹配后的至少两个对应的人脸特征点和语音数据,分别生成相应的人脸特征点的偏移序列,进而合成至少两个人脸图像序列,并基于所述人脸图像序列生成双人对话视频。由此,降低了身份信息分离和读取的难度,从而合成双人对话视频,同时使生成的双人对话视频具有生动的姿态表达能力。
附图说明
[0045]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:获取音频数据和图像文件,所述音频数据包括语音,所述图像文件包括第一人脸图像和第二人脸图像;根据所述图像文件确定第一人脸特征点和第二人脸特征点,所述人脸特征点用于表征人脸五官的形状特征;根据所述音频数据获取至少两个语音数据,不同的语音数据对应于不同说话人的语音;在各所述语音数据中,确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据;根据第一人脸特征点和第一语音数据确定第一人脸特征点的偏移序列;根据第二人脸特征点和第二语音数据确定第二人脸特征点的偏移序列;根据第一人脸特征点的偏移序列确定第一合成人脸图像序列;根据第二人脸特征点的偏移序列确定第二合成人脸图像序列;根据所述第一合成人脸图像序列和第二合成人脸图像序列生成双人对话视频。2.根据权利要求1所述的方法,其特征在于,所述根据所述音频数据获取至少两个语音数据具体为:将说话人转变时刻作为所述音频数据分割点对所述音频数据进行分割,以获取至少两个语音数据。3.根据权利要求1所述的方法,其特征在于,所述在各所述语音数据中,确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据具体为:按照预定的规则从所述音频数据中确定第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据。4.根据权利要求1所述的方法,其特征在于,所述在各所述语音数据中,确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据具体为:分别确定所述第一人脸图像和第二人脸图像的图像人物属性信息;分别确定各所述语音数据的语音人物属性信息;根据所述图像人物属性信息和所述语音人物属性信息匹配所述人脸图像和语音数据,以确定所述第一人脸特征点对应的第一语音数据和第二人脸特征点对应的第二语音数据。5.根据权利要求1所述的方法,其特征在于,所述根据第一人脸特征点和第一语音数据确定第一人脸特征点的偏移序列及根据第二人脸特征点和第二语音数据确定第二人脸特征点的偏移序列,具体为:分别根据第一语音数据和第二语音数据分离对应的音频内容表征信息和说话人身份表征信息;将第一人脸特征点及第一语音数据对应的音频内容表征信息和说话人身份表征信息输入预先训练的面部特征点偏移预测模型,确定第一人脸特征点的偏移序列;将第二人脸特征点及第二语音数据对应的音频内容...

【专利技术属性】
技术研发人员:李永源唐旻杰李梅孙瑜博陈云琳
申请(专利权)人:上海墨百意信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1