视频生成方法、装置和电子设备制造方法及图纸

技术编号:33648292 阅读:60 留言:0更新日期:2022-06-02 20:25
本申请公开了一种视频生成方法、装置和电子设备,属于通信领域。在显示目标会话界面的情况下,接收用户在目标会话界面中的第一输入,第一输入为用户对目标音频和目标图像的输入;响应于第一输入,获取目标音频的音频特征信息;根据音频特征信息,对目标音频进行音频切片处理,得到音频情感特征序列;根据音频情感特征序列,对目标图像进行姿势筛选处理,得到姿势图像序列,并根据目标图像和音频情感特征序列,生成表情图像序列;基于目标图像、音频特征信息、姿势图像序列和表情图像序列,生成并输出目标视频。并输出目标视频。并输出目标视频。

【技术实现步骤摘要】
视频生成方法、装置和电子设备


[0001]本申请属于通信领域,具体涉及一种视频生成方法、装置和电子设备。

技术介绍

[0002]目前,用户在使用电子设备中的聊天类应用程序与某个用户(例如用户A)进行聊天时,由于视频聊天的局限性,为了更好的传递和表达情感,用户可以向用户A发送动态表情包。若用户使用现有的动态表情包,则不能更好的传递和表达用户的情感,因此,用户可以向用户A发送自制动态表情包。
[0003]然而,在上述方法中,用户需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤,如此,用户的操作繁琐且耗时,从而电子设备制作动态表情包的效率较低。

技术实现思路

[0004]本申请实施例的目的是提供一种视频生成方法、装置和电子设备,能够解决电子设备制作动态表情包的效率较低的问题。
[0005]第一方面,本申请实施例提供了一种视频生成方法,该方法包括:在显示目标会话界面的情况下,接收用户在目标会话界面中的第一输入,第一输入为用户对目标音频和目标图像的输入;响应于第一输入,获取目标音频的音频特征信息;根据音频特征信息,对目标音频进行音频切片处理,得到音频情感特征序列;根据音频情感特征序列,对目标图像进行姿势筛选处理,得到姿势图像序列,并根据目标图像和音频情感特征序列,生成表情图像序列;基于目标图像、音频特征信息、姿势图像序列和表情图像序列,生成并输出目标视频。
[0006]第二方面,本申请实施例提供了一种视频生成装置,视频生成装置包括:该视频生成装置包括:接收模块、获取模块、处理模块、生成模块和输出模块。接收模块,用于在显示目标会话界面的情况下,接收用户在目标会话界面中的第一输入,第一输入为用户对目标音频和目标图像的输入。获取模块,用于响应于接收模块接收的第一输入,获取目标音频的音频特征信息。处理模块,用于根据获取模块获取的音频特征信息,对目标音频进行音频切片处理,得到音频情感特征序列;并根据音频情感特征序列,对目标图像进行姿势筛选处理,得到姿势图像序列。生成模块,用于根据目标图像和处理模块处理的音频情感特征序列,生成表情图像序列;并基于接收模块接收的目标图像、处理模块处理的姿势图像序列和表情图像序列,生成目标视频。输出模块,用于输出生成模块生成的目标视频。
[0007]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0008]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0009]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方
法。
[0010]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
[0011]在本申请实施例中,在显示目标会话界面的情况下,电子设备可以接收用户在目标会话界面中的第一输入,该第一输入为用户对目标音频和目标图像的输入;然后电子设备可以响应于第一输入,获取目标音频的音频特征信息,并根据音频特征信息,对目标视频进行切片处理,以得到音频情感特征序列,从而可以根据情感特征序列,对目标图像进行姿势筛选处理,得到姿势图像序列,并根据目标图像和音频情感特征序列,生成表情图像序列,以使得电子设备可以基于目标图像、音频特征信息、姿势图像序列和表情图像序列,生成并输出目标视频。由于电子设备可以直接根据用户在会话界面上输入的语音和图像,直接生成对应的动态表情包,相较于传统技术中,若用户需求通过电子设备中的聊天类应用程序与某个用户(例如用户A)发送动态表情包时,需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤,本申请实施例中,用户无需提前通过表情包制作应用程序对视频和音频进行录入、剪辑等多个步骤,因此,简化了用户的操作,节省了用户的时间,如此,提升了电子设备制作动态表情包的效率和灵活性。
附图说明
[0012]图1是本申请实施例提供的一种插帧方法的示意图之一;
[0013]图2是本申请实施例提供的一种手机的界面的实例示意图之一;
[0014]图3是本申请实施例提供的一种表情特征序列生成方法示意图;
[0015]图4是本申请实施例提供的一种视频生成方法示意图;
[0016]图5是本申请实施例提供的一种手机的界面的实例示意图之二;
[0017]图6是本申请实施例提供的一种视频生成装置的结构示意图;
[0018]图7是本申请实施例提供的一种电子设备的硬件结构示意图之一;
[0019]图8是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
[0020]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0021]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0022]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的视频生成进行详细地说明。
[0023]目前,用户可以通过文字、图像和声音接收信息,其中,文字是一种高度精炼的信
息,在不同场景下表达方的和接收方对同样的文字信息的理解可能不同,甚至完全相反。然而,用户除了文字交流外,还可以通过语音以传达更多情绪化的信息。因此,在用户使用电子设备进行聊天时,可以通过发送语音与其他用户进行交流,但是由于语音传达的情感不够丰富,因而用户可以选择与其他用户进行视频通话,在视频通话可以为用户带来更多的亲切感的同时,也有很多局限性,因此,用户可以选择向其他用户发送表情包,若用户发送的表情包为非用户的表情包,则该表情包不能完全真实地表达出用户的真实情感,若用户需求制作表情包,则可以通过其他应用程序制作表情包,再向用户发送表情包,以表达情感,因此,在很多情况下,即使是简单图像的表情包也可能承担了用户需求表达情绪的作用,从而可以使得整个对话更加缓和与和谐。
[0024]在本申请实施例中,在显示目标会话界面的情况下,电子设备可以接收用户在目标会话界面中的第一输入,该第一输入为用户对目标音频和目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:在显示目标会话界面的情况下,接收用户在所述目标会话界面中的第一输入,所述第一输入为用户对目标音频和目标图像的输入;响应于所述第一输入,获取所述目标音频的音频特征信息;根据所述音频特征信息,对所述目标音频进行音频切片处理,得到音频情感特征序列;根据所述音频情感特征序列,对所述目标图像进行姿势筛选处理,得到姿势图像序列,并根据所述目标图像和所述音频情感特征序列,生成表情图像序列;基于所述目标图像、所述音频特征信息、所述姿势图像序列和所述表情图像序列,生成并输出目标视频。2.根据权利要求1所述的方法,其特征在于,所述对所述音频特征信息进行音频切片处理,得到音频情感特征序列,包括:根据所述音频特征信息,对所述目标音频进行音频切片处理,得到至少两个音频片段;对所述至少两个音频片段中的每个音频片段分别进行情感识别处理,得到所述音频情感特征序列。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述音频情感特征序列,对所述目标图像进行姿势筛选处理,得到姿势图像序列,包括:对所述目标图像进行人脸检测处理,得到第一人脸图像,并获取所述第一人脸图像的人脸特征信息;根据预设人脸特征序列和所述人脸特征信息,确定至少两个余弦距离,每个余弦距离用于指示所述预设人脸特征序列中的一个预设人脸特征与所述人脸特征信息的差异程度;根据预设人脸情感特征序列和所述音频情感特征序列,确定至少两个相似度,每个相似度用于指示所述预设人脸情感特征序列中的一个预设人脸情感特征与所述音频情感特征序列的差异程度;根据所述至少两个余弦距离和所述至少两个相似度,确定所述姿势图像序列。4.根据权利要求3所述的方法,其特征在于,所述根据所述至少两个余弦距离和所述至少两个相似度,确定所述姿势图像序列,包括:对所述至少两个余弦距离和所述至少两个相似度进行加权处理,得到多个加权值,每个加权值为一个余弦距离和一个相似度的加权值;确定与目标加权值对应的姿势图像,并将所述目标加权值对应的姿势图像确定为所述姿势图像序列,所述目标加权值为所述多个加权值中权值最大的加权值。5.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标图像和所述音频情感特征序列,生成所述表情图像序列,包括:采用表情生成算法,根据所述目标图像和所述音频情感特征序列,生成至少两帧表情图像,每帧表情图像为所述目标图像和所述音频情感特征序列中的一个音频情感特征生成的表情图像;在所述音频情感特征序列中的相邻非中性情感的音频情感特征之间添加中性情绪特征,得到处理后的所述音频情感特征序列;根据所述至少两帧表情图像和处理后的所述音频情感特征序列,生成所述表情图像序列。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标图像、所述音频特征信息、所述姿势图像序列和所述表情图像序列,生成并输出目标视频,包括:对所述音频特征信息进行编码处理,得到目标音频特征,并对所述姿势图像序列中的每帧姿势图像分别进行编码处理,得到所述每帧姿势图像的姿势特征,以及对所述目标图像和所述表情图像序列中的每帧表情图像进行编码处理,得到所述每帧表情图像的特征向量;根据所述目标音频特征、所述每帧姿势图像的姿势特征和所述每帧表情图像的特征向量,生成第一图像序列;对所述第一图像序列进行逐帧拼接处理,得到并输出所述目标视频。7.一种视频生成装置,其特征在于,所述视频生成装置包括:接收模块、获取模块、处理模块、生成模块和输出模块;所述接收模块,用于在显示目标会话界面的情况下,接收用户在所述目标会...

【专利技术属性】
技术研发人员:刘鑫
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1