一种响应者的头部姿态生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38159318 阅读:14 留言:0更新日期:2023-07-13 09:30
本发明专利技术适用于人工智能领域,提供一种响应者头部姿态生成方法、装置、设备及存储介质,该方法通过获取对应响应者的说话者的视频帧序列,以及与视频帧序列对应的音频帧序列,并提取视频帧序列中说话者的头部序列特征以及音频帧序列的音频序列特征,确定响应者在每一帧时刻下对应的初始头部姿态与响应者在每一帧时刻下对应的响应态度信息,得到对应的头部姿态调整系数,根据对应的头部姿态调整系数与对应的初始头部姿态,得到响应者的头部姿态,响应者接收到的音频帧序列作为响应者头部姿态生成的参考特征,使响应者根据音频帧序列的音频序列特征作出相应的反应,提高了响应者头部姿态生成的准确性,从而呈现出响应者对于说话者更真实的反应。者更真实的反应。者更真实的反应。

【技术实现步骤摘要】
一种响应者的头部姿态生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种响应者的头部姿态生成方法、装置、设备及存储介质。

技术介绍

[0002]在虚拟人物合成领域,将说话者与响应者合成虚拟人物进行对话的过程中,一般只对说话者进行驱动,生成对应姿态的动作,响应者实现虚拟角色的动作往往是采用预先录制的视频,使用静态图像、重复帧或预先编写好的动画来合成,重复预先设置的动作,很难有随意的动作变化,这就导致响应者呈现的画面不够真实,无法对说话者做出适当的反应。因此,在对话中针对说话者的表达,如何构建响应者的反馈式反应成为了亟待解决的问题。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种响应者的头部姿态生成方法、装置、设备及存储介质,以解决响应者如何建响应者的反馈式反应的问题。
[0004]第一方面,提供一种响应者的头部姿态生成方法,所述方法包括:
[0005]获取对应所述响应者的说话者的视频帧序列,以及与所述视频帧序列对应的音频帧序列,并提取所述视频帧序列中所述说话者的头部序列特征以及所述音频帧序列的音频序列特征;
[0006]对所述头部序列特征进行解析,确定所述说话者的每一帧时刻对应的对方态度信息,并根据所述对方态度信息,确定所述响应者在每一帧时刻下对应的初始头部姿态;
[0007]对所述音频序列特征进行解析,确定所述响应者在每一帧时刻下对应的响应态度信息,并将所述响应态度信息输入训练好的头部姿态重建模型,输出每一帧时刻对应的头部姿态调整系数;
[0008]在每一帧时刻下,根据对应的头部姿态调整系数与对应的初始头部姿态,构建得到所述响应者的头部姿态。
[0009]第二方面,提供一种响应者的头部姿态生成装置,所述装置包括:
[0010]提取模块,用于获取对应所述响应者的说话者的视频帧序列,以及与所述视频帧序列对应的音频帧序列,并提取所述视频帧序列中所述说话者的头部序列特征以及所述音频帧序列的音频序列特征;
[0011]头部序列特征解析模块,用于对所述头部序列特征进行解析,确定所述说话者的每一帧时刻对应的对方态度信息,并根据所述对方态度信息,确定所述响应者在每一帧时刻下对应的初始头部姿态;
[0012]音频序列特征解析模块,用于对所述音频序列特征进行解析,确定所述响应者在每一帧时刻下对应的响应态度信息,并将所述响应态度信息输入训练好的头部姿态重建模型,输出每一帧时刻对应的头部姿态调整系数;
[0013]头部姿态获取模块,用于在每一帧时刻下,根据对应的头部姿态调整系数与对应的初始头部姿态,构建得到所述响应者的头部姿态。
[0014]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的头部姿态生成方法。
[0015]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的头部姿态生成方法。
[0016]本专利技术与现有技术相比存在的有益效果是:
[0017]获取对应响应者的说话者的视频帧序列,以及与视频帧序列对应的音频帧序列,并提取视频帧序列中说话者的头部序列特征以及音频帧序列的音频序列特征,对头部序列特征进行解析,确定说话者的每一帧时刻对应的对方态度信息,并根据对方态度信息,确定响应者在每一帧时刻下对应的初始头部姿态,对音频序列特征进行解析,确定响应者在每一帧时刻下对应的响应态度信息,并将响应态度信息输入训练好的头部姿态重建模型,输出每一帧时刻对应的头部姿态调整系数,在每一帧时刻下,根据对应的头部姿态调整系数与对应的初始头部姿态,构建得到响应者的头部姿态,响应者接收到的音频帧序列作为响应者头部姿态生成的参考特征,使响应者根据音频帧序列的音频序列特征作出相应的反应,提高了响应者头部姿态生成的准确性,从而呈现出响应者对于说话者更真实的反应。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例提供的一种响应者的头部姿态生成方法的一应用环境示意图;
[0020]图2是本专利技术一实施例提供的一种响应者的头部姿态生成方法的流程示意图;
[0021]图3是本专利技术一实施例提供的一种响应者的头部姿态生成装置的结构示意图;
[0022]图4是本专利技术一实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0025]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关
联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0026]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0027]另外,在本专利技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0028]在本专利技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本专利技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0029]本专利技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种响应者头部姿态生成方法,其特征在于,所述头部姿态生成方法包括:获取对应所述响应者的说话者的视频帧序列,以及与所述视频帧序列对应的音频帧序列,并提取所述视频帧序列中所述说话者的头部序列特征以及所述音频帧序列的音频序列特征;对所述头部序列特征进行解析,确定所述说话者的每一帧时刻对应的对方态度信息,并根据所述对方态度信息,确定所述响应者在每一帧时刻下对应的初始头部姿态;对所述音频序列特征进行解析,确定所述响应者在每一帧时刻下对应的响应态度信息,并将所述响应态度信息输入训练好的头部姿态重建模型,输出每一帧时刻对应的头部姿态调整系数;在每一帧时刻下,根据对应的头部姿态调整系数与对应的初始头部姿态,构建得到所述响应者的头部姿态。2.如权利要求1所述的响应者的头部姿态生成方法,其特征在于,所述提取所述视频帧序列中所述说话者的头部序列特征,包括:将所述视频帧序列输入至预设的头部检测神经网络模型,输出所述视频帧序列中所述说话者的头部区域;对每一帧中的所述头部区域进行特征点检测,得到对应的所述说话者的头部序列特征。3.如权利要求1所述的响应者的头部姿态生成方法,其特征在于,所述提取所述音频帧序列的音频序列特征,包括:利用预设计算公式,计算所述音频帧序列中每一帧中信号的能量值,得到每一音频帧的能量特征;提取所述音频帧序列中的时域信号与音频信号,根据所述时域信号与音频信号,得到频域特征与时域特征;根据所述音频帧序列,结合所述能量特征、所述频域特征和所述时域特征,得到音频序列特征。4.如权利要求1所述的响应者的头部姿态生成方法,其特征在于,所述对所述头部序列特征进行解析,确定所述说话者的每一帧时刻对应的对方态度信息,并根据所述对方态度信息,确定所述响应者在每一帧时刻下对应的初始头部姿态,包括:根据所述头部序列特征中的相邻帧的头部特征,通过预设算法,得到所述相邻帧的头部特征差异值;根据所述头部特征差异值确定所述说话者的每一帧时刻对应的对方态度信息;根据所述对方态度信息与预设的初始头部姿态模型,得到所述响应者在每一帧时刻下对应的初始头部姿态。5.如权利要求1所述的响应者的头部姿态生成方法,其特征在于,所述对所述音频序列特征进行解析,确定所述响应者在每一帧时刻下对应的响应态度信息,包括:根据所述音频序列特征与预设的态度识别规则,得到所述音频...

【专利技术属性】
技术研发人员:凌天东王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1