视频生成方法、装置和电子设备制造方法及图纸

技术编号：33648292 阅读：60 留言：0更新日期：2022-06-02 20:25

本申请公开了一种视频生成方法、装置和电子设备，属于通信领域。在显示目标会话界面的情况下，接收用户在目标会话界面中的第一输入，第一输入为用户对目标音频和目标图像的输入；响应于第一输入，获取目标音频的音频特征信息；根据音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列；根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列；基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。并输出目标视频。并输出目标视频。

全部详细技术资料下载

【技术实现步骤摘要】
视频生成方法、装置和电子设备

[0001]本申请属于通信领域，具体涉及一种视频生成方法、装置和电子设备。

技术介绍

[0002]目前，用户在使用电子设备中的聊天类应用程序与某个用户(例如用户A)进行聊天时，由于视频聊天的局限性，为了更好的传递和表达情感，用户可以向用户A发送动态表情包。若用户使用现有的动态表情包，则不能更好的传递和表达用户的情感，因此，用户可以向用户A发送自制动态表情包。
[0003]然而，在上述方法中，用户需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤，如此，用户的操作繁琐且耗时，从而电子设备制作动态表情包的效率较低。

技术实现思路

[0004]本申请实施例的目的是提供一种视频生成方法、装置和电子设备，能够解决电子设备制作动态表情包的效率较低的问题。
[0005]第一方面，本申请实施例提供了一种视频生成方法，该方法包括：在显示目标会话界面的情况下，接收用户在目标会话界面中的第一输入，第一输入为用户对目标音频和目标图像的输入；响应于第一输入，获取目标音频的音频特征信息；根据音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列；根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列；基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。
[0006]第二方面，本申请实施例提供了一种视频生成装置，视频生成装置包括：该视频生成装置包括：接收模块、获取模块、处理...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法，其特征在于，所述方法包括：在显示目标会话界面的情况下，接收用户在所述目标会话界面中的第一输入，所述第一输入为用户对目标音频和目标图像的输入；响应于所述第一输入，获取所述目标音频的音频特征信息；根据所述音频特征信息，对所述目标音频进行音频切片处理，得到音频情感特征序列；根据所述音频情感特征序列，对所述目标图像进行姿势筛选处理，得到姿势图像序列，并根据所述目标图像和所述音频情感特征序列，生成表情图像序列；基于所述目标图像、所述音频特征信息、所述姿势图像序列和所述表情图像序列，生成并输出目标视频。2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征信息进行音频切片处理，得到音频情感特征序列，包括：根据所述音频特征信息，对所述目标音频进行音频切片处理，得到至少两个音频片段；对所述至少两个音频片段中的每个音频片段分别进行情感识别处理，得到所述音频情感特征序列。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述音频情感特征序列，对所述目标图像进行姿势筛选处理，得到姿势图像序列，包括：对所述目标图像进行人脸检测处理，得到第一人脸图像，并获取所述第一人脸图像的人脸特征信息；根据预设人脸特征序列和所述人脸特征信息，确定至少两个余弦距离，每个余弦距离用于指示所述预设人脸特征序列中的一个预设人脸特征与所述人脸特征信息的差异程度；根据预设人脸情感特征序列和所述音频情感特征序列，确定至少两个相似度，每个相似度用于指示所述预设人脸情感特征序列中的一个预设人脸情感特征与所述音频情感特征序列的差异程度；根据所述至少两个余弦距离和所述至少两个相似度，确定所述姿势图像序列。4.根据权利要求3所述的方法，其特征在于，所述根据所述至少两个余弦距离和所述至少两个相似度，确定所述姿势图像序列，包括：对所述至少两个余弦距离和所述至少两个相似度进行加权处理，得到多个加权值，每个加权值为一个余弦距离和一个相似度的加权值；确定与目标加权值对应的姿势图像，并将所述目标加权值对应的姿势图像确定为所述姿势图像序列，所述目标加权值为所述多个加权值中权值最大的加权值。5.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标图像和所述音频情感特征序列，生成所述表情图像序列，包括：采用表情生成算法，根据所述目标图像和所述音频情感特征序列，生成至少两帧表情图像，每帧表情图像为所述目标图像和所述音频情感特征序列中的一个音频情感特征生成的表情图像；在所述音频情感特征序列中的相邻非中性情感的音频情感特征之间添加中性情绪特征，得到处理后的所述音频情感特征序列；根据所述至少两帧表情图像和处理后的所述音频情感特征序列，生成所述表情图像序列。
6.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像、所述音频特征信息、所述姿势图像序列和所述表情图像序列，生成并输出目标视频，包括：对所述音频特征信息进行编码处理，得到目标音频特征，并对所述姿势图像序列中的每帧姿势图像分别进行编码处理，得到所述每帧姿势图像的姿势特征，以及对所述目标图像和所述表情图像序列中的每帧表情图像进行编码处理，得到所述每帧表情图像的特征向量；根据所述目标音频特征、所述每帧姿势图像的姿势特征和所述每帧表情图像的特征向量，生成第一图像序列；对所述第一图像序列进行逐帧拼接处理，得到并输出所述目标视频。7.一种视频生成装置，其特征在于，所述视频生成装置包括：接收模块、获取模块、处理模块、生成模块和输出模块；所述接收模块，用于在显示目标会话界面的情况下，接收用户在所述目标会...

【专利技术属性】
技术研发人员：刘鑫，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人