短视频生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：37291535 阅读：26 留言：0更新日期：2023-04-21 03:22

本发明专利技术涉及语音语义领域，尤其涉及一种短视频生成方法、装置、计算机设备及存储介质。其方法包括：对音频数据进行基于梅尔倒谱系数算法的语音特征提取，得到音频数据的语音特征；通过对抗网络模型对语音特征和音频数据进行动作预测处理，得到与音频数据对应的预测动作特征；通过人脸识别模型对人脸视频数据进行人脸识别，得到与人脸视频数据对应的目标人脸特征；将预测动作特征和目标人脸特征嵌入视频生成器中进行渲染，生成包含虚拟人脸运动的短视频。本发明专利技术生成的短视频既包含与音频数据和人脸视频数据对应的虚拟人脸运动，又包含音频数据，不会存在卡顿、忘词等情况，视频效果较好，可满足用户的需求，提高用户体验感。提高用户体验感。提高用户体验感。

全部详细技术资料下载

【技术实现步骤摘要】
短视频生成方法、装置、计算机设备及存储介质

[0001]本专利技术涉及语音语义领域，尤其涉及一种短视频生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着视频技术的快速发展，各行各业为了更好地进行信息传播和宣传，通常会选择通过短视频、直播等视频媒体进行信息传播。
[0003]然而，由于大部分企业的工作人员，并非专业的视频工作者，需要花费大量的时间进行拍摄视频，导致最终生成的短视频往往不理想。例如，拍摄过程中出现拍摄卡顿、忘词等失误。且现有视频生成技术，针对视频中出现的卡顿、忘词等失误很难完全消除，不留痕迹。因此，生成的视频效果较差。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种短视频方法、装置、计算机设备及存储介质，以解决现有视频生成技术，很难消除视频中出现的卡顿、忘词等失误情况，导致视频效果较差的问题。
[0005]一种短视频生成方法，包括：
[0006]获取音频数据，对音频数据进行基于梅尔倒谱系数算法的语音特征提取，得到所述音频数据的语音特征；<br/>[0007]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种短视频生成方法，其特征在于，包括：获取音频数据，对音频数据进行基于梅尔倒谱系数算法的语音特征提取，得到所述音频数据的语音特征；通过对抗网络模型对所述语音特征和所述音频数据进行动作预测处理，得到与所述音频数据对应的预测动作特征；获取人脸视频数据，通过人脸识别模型对人脸视频数据进行人脸识别，得到与所述人脸视频数据对应的目标人脸特征；将所述预测动作特征和所述目标人脸特征嵌入视频生成器中进行渲染，生成包含虚拟人脸运动的短视频。2.如权利要求1所述的短视频生成方法，其特征在于，所述对音频数据进行基于梅尔倒谱系数算法的语音特征提取，得到所述音频数据的语音特征，包括：对所述音频数据进行预处理，得到预处理音频数据；将所述预处理音频数据进行傅里叶变换处理，得到傅里叶频谱数据；通过梅尔滤波器对所述傅里叶频谱数据进行滤波处理，得到滤波频谱数据；将所述滤波频谱数据进行离散余弦变换处理，得到所述音频数据的语音特征。3.如权利要求1所述的短视频生成方法，其特征在于，所述通过人脸识别模型对人脸视频数据进行人脸识别，得到与所述人脸视频数据对应的目标人脸特征，包括：通过所述人脸识别模型对所述人脸视频数据包含的每帧视频图像进行人脸关键点检测，得到人脸区域视频数据；对所述人脸区域视频数据逐帧进行人脸特征的提取，得到与所述人脸视频数据对应的目标人脸特征。4.如权利要求3所述的短视频生成方法，其特征在于，所述对所述人脸区域视频数据逐帧进行人脸特征的提取，得到与所述人脸视频数据对应的目标人脸特征，包括：通过人脸识别模型对所述人脸区域视频数据逐帧进行人脸特征的提取，得到与所述人脸视频数据对应的初始人脸特征；基于所述初始人脸特征，利用三维人脸重建技术进行三维人脸重建，得到三维人脸模型；根据所述三维人脸模型，得到与所述人脸视频数据对应的目标人脸特征。5.如权利要求1所述的短视频生成方法，其特征在于，在所述生成包含虚拟人脸运动的短视频之后，包括：获取与所述音频数据对应的文字文本以及所述文字文本在所述音频数据的出现时间...

【专利技术属性】
技术研发人员：彭粤，刘喜声，陈闽，刘湘子，刘卓一，宁夏夏，周璇，王旭根，梁亚妮，刘映，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人