一种视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：38478101 阅读：31 留言：0更新日期：2023-08-15 16:57

本申请实施例公开了一种视频生成方法、装置、设备及存储介质，相关实施例可应用于云技术、人工智能等各种场景，用于维护手语视频的声画同步。本申请实施例方法包括：获取目标文本以及与所述目标文本相对应的目标时间，其中，所述目标时间为延迟时长或播放时长，根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比，根据所述句子压缩比以及所述目标文本，生成目标压缩文本，将所述目标压缩文本输入至手语视频生成模型，通过所述手语视频生成模型生成目标手语视频。视频生成模型生成目标手语视频。视频生成模型生成目标手语视频。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频生成方法、装置、设备及存储介质

[0001]本申请实施例涉及人工智能
，尤其涉及一种视频生成方法、装置、设备及存储介质。

技术介绍

[0002]随着信息技术的飞速发展，在人工智能、虚拟现实等新技术的带动下，数字人技术取得了长足的进步，以虚拟主播、虚拟员工等为代表的数字对象成功进入大众视野。而现有的手语数字对象系统通常是将自然语言文本或语音识别后的口语文本翻译为手语语序文本，再结合手形、肢体动作、面部表情和口型等多模态合成手语视频。
[0003]但是，手语作为一种视觉语言，是由手控信息(如手形或手部位置等)和非手控信息(如表情、口动或体态等)联动而成，手语的速度一般要比正常人的语速要慢30％
‑
50％，这样就容易出现手语合成的画面无法跟上视频流本身的播放速度，从而导致在为视频内容搭配手语视频时出现原音视频和生成的手语视频的声画不同步问题。

技术实现思路

[0004]本申请实施例提供了一种视频生成方法、装置、设备及存储介质，用于基于句子压缩比可以生成文本字符数小于目标文本初...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法，其特征在于，包括：获取目标文本以及与所述目标文本相对应的目标时间，其中，所述目标时间为延迟时长或播放时长；根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比；根据所述句子压缩比以及所述目标文本，生成目标压缩文本；将所述目标压缩文本输入至手语视频生成模型，通过所述手语视频生成模型生成目标手语视频。2.根据权利要求1所述方法，其特征在于，当所述目标时间为播放时长时；所述根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比，包括：调用语言压缩模型集合，根据所述语言压缩模型集合以及所述目标时间确定与所述目标文本对应的目标压缩比，其中，所述目标压缩比为所述每个句子的句子压缩比的组合，或所述目标压缩比为所有所述句子的句子压缩比，所述语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；所述根据所述句子压缩比以及所述目标文本，生成目标压缩文本，包括：根据所述目标压缩比以及所述目标文本，生成所述目标压缩文本。3.根据权利要求2所述方法，其特征在于，所述调用语言压缩模型集合，根据所述语言压缩模型集合以及所述目标时间确定与所述目标文本对应的目标压缩比，包括：依次将所述目标文本的每个句子输入至所述语言压缩模型集合进行压缩，得到与所述每个句子相对应的初始压缩文本集合；分别从所述每个句子相对应的所述初始压缩文本集合中选取任一个初始压缩子文本，得到所述目标文本对应的若干个候选压缩组合；从所述若干个候选压缩组合中确定符合所述播放时长的目标压缩组合；将所述目标压缩组合中的每个初始压缩子文本对应的压缩比作为所述句子压缩比。4.根据权利要求2所述方法，其特征在于，所述语言压缩模型的训练包括以下步骤：获取与每个所述语言压缩比相对应的训练样本对，其中，所述所述训练样本对包括训练原始样本以及训练压缩样本，所述训练压缩样本为字符数小于所述训练原始样本，且与所述训练原始样本之间的相似度大于相似阈值的文本；将所述训练样本对以及所述基础压缩比输入所述语言压缩模型，通过所述语言压缩模型输出样本压缩文本；计算所述样本压缩文本与所述训练压缩样本之间的文本相似度；根据所述文本相似度对所述样本压缩文本进行损失计算，得到压缩损失结果；根据所述压缩损失结果对所述语言压缩模型的模型参数进行更新。5.根据权利要求1所述方法，其特征在于，当所述目标时间为播放时长时；所述根据所述目标时间，为所述目标文本中的每个句子确定一个句子压缩比，包括：根据所述目标文本中的每个句子的长度，对所述播放时长进行划分，得到所述每个句子对应的句子时间段；根据所述每个句子对应的句子时间段，为所述每个句子确定一个所述句子压缩比。6.根据权利要求5所述方法，其特征在于，所述根据所述每个句子对应的句子时间段，为所述每个句子确定一个所述句子压缩比，包括：
获取所述每个句子所对应的句子手语时长；计算所述每个句子时间段的长度与所述句子手语时长之间的时长比值；将所述时长比值作为所述句子压缩比。7.根据权利要求1所述方法，其特征在于，当所述目标时间为所述延迟时长时；所述根据所述所述目标时间，为所述每个句子确定一个句子压缩比，包括：将所述延迟时长与延迟阈值进行比对，确定每个所述延迟时长属于的延迟范围；根据所述延迟范围与压缩比之间的关系，得到所述目标文本对应的所述压缩比，并将所述压缩比作为所述句子压缩比。8.根据权利要求7所述的视频生成方法，其特征在于，所述根据所述句子压缩比以及所述目标文本，生成目标压缩文本，包括：调用语言压缩模型集合，从所述语言压缩模型集合中确定与所述句子压缩比对应的目标语言压缩模型，其中，所述语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比；将所述每个句子输入至所述目标语言压缩模型，通过所述目标语言压缩模型输出压缩子文本；将所述压缩子文本进行合并，得到所述目标压缩文本。9.根据权利要求1至8中任一项所述方法，其特征在于，所述获取目标文本，包括：获取原始文本，其中，所述原始文本包含至少两个...

【专利技术属性】
技术研发人员：申彤彤，徐竟达，杨鹏，祁点点，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人