一种视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38478101 阅读:16 留言:0更新日期:2023-08-15 16:57
本申请实施例公开了一种视频生成方法、装置、设备及存储介质,相关实施例可应用于云技术、人工智能等各种场景,用于维护手语视频的声画同步。本申请实施例方法包括:获取目标文本以及与所述目标文本相对应的目标时间,其中,所述目标时间为延迟时长或播放时长,根据所述目标时间,为所述目标文本中的每个句子确定一个句子压缩比,根据所述句子压缩比以及所述目标文本,生成目标压缩文本,将所述目标压缩文本输入至手语视频生成模型,通过所述手语视频生成模型生成目标手语视频。视频生成模型生成目标手语视频。视频生成模型生成目标手语视频。

【技术实现步骤摘要】
一种视频生成方法、装置、设备及存储介质


[0001]本申请实施例涉及人工智能
,尤其涉及一种视频生成方法、装置、设备及存储介质。

技术介绍

[0002]随着信息技术的飞速发展,在人工智能、虚拟现实等新技术的带动下,数字人技术取得了长足的进步,以虚拟主播、虚拟员工等为代表的数字对象成功进入大众视野。而现有的手语数字对象系统通常是将自然语言文本或语音识别后的口语文本翻译为手语语序文本,再结合手形、肢体动作、面部表情和口型等多模态合成手语视频。
[0003]但是,手语作为一种视觉语言,是由手控信息(如手形或手部位置等)和非手控信息(如表情、口动或体态等)联动而成,手语的速度一般要比正常人的语速要慢30%

50%,这样就容易出现手语合成的画面无法跟上视频流本身的播放速度,从而导致在为视频内容搭配手语视频时出现原音视频和生成的手语视频的声画不同步问题。

技术实现思路

[0004]本申请实施例提供了一种视频生成方法、装置、设备及存储介质,用于基于句子压缩比可以生成文本字符数小于目标文本初始的文本字符数的目标压缩文本,从而使得基于目标压缩文本生成的手语视频中的手语语速能够接近目标文本对应的口语语速,达到手语视频中声画尽可能同步的效果。
[0005]本申请实施例一方面提供了一种视频生成方法,包括:
[0006]获取目标文本以及与目标文本相对应的目标时间,其中,目标时间为延迟时长或播放时长;
[0007]根据目标时间,为目标文本中的每个句子确定一个句子压缩比;<br/>[0008]根据句子压缩比以及目标文本,生成目标压缩文本;
[0009]将目标压缩文本输入至手语视频生成模型,通过手语视频生成模型生成目标手语视频。
[0010]本申请另一方面提供了一种视频生成装置,包括:
[0011]获取单元,用于获取目标文本以及与目标文本相对应的目标时间,其中,目标时间为延迟时长或播放时长;
[0012]确定单元,用于根据目标时间,为目标文本中的每个句子确定一个句子压缩比;
[0013]处理单元,用于根据句子压缩比以及目标文本,生成目标压缩文本;
[0014]处理单元,还用于将目标压缩文本输入至手语视频生成模型,通过手语视频生成模型生成目标手语视频。
[0015]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
[0016]调用语言压缩模型集合,根据语言压缩模型集合以及目标时间确定与目标文本对
应的目标压缩比,其中,目标压缩比为每个句子的句子压缩比的组合,或目标压缩比为所有句子的句子压缩比,语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比;
[0017]根据句子压缩比以及目标文本,生成目标压缩文本,包括:
[0018]根据目标压缩比以及目标文本,生成目标压缩文本。
[0019]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
[0020]依次将目标文本的每个句子输入至语言压缩模型集合进行压缩,得到与每个句子相对应的初始压缩文本集合;
[0021]分别从每个句子相对应的初始压缩文本集合中选取任一个初始压缩子文本,得到目标文本对应的若干个候选压缩组合;
[0022]从若干个候选压缩组合中确定符合播放时长的目标压缩组合;
[0023]将目标压缩组合中的每个初始压缩子文本对应的压缩比作为句子压缩比。
[0024]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
[0025]获取单元,还用于获取与每个语言压缩比相对应的训练样本对,其中,训练样本对包括训练原始样本以及训练压缩样本,训练压缩样本为字符数小于训练原始样本,且与训练原始样本之间的相似度大于相似阈值的文本;
[0026]处理单元,还用于将训练样本对以及基础压缩比输入语言压缩模型,通过语言压缩模型输出样本压缩文本;
[0027]处理单元,还用于计算样本压缩文本与训练压缩样本之间的文本相似度;
[0028]处理单元,还用于根据文本相似度对样本压缩文本进行损失计算,得到压缩损失结果;
[0029]处理单元,还用于根据压缩损失结果对语言压缩模型的模型参数进行更新。
[0030]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
[0031]根据目标文本中的每个句子的长度,对播放时长进行划分,得到每个句子对应的句子时间段;
[0032]根据每个句子对应的句子时间段,为每个句子确定一个句子压缩比。
[0033]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
[0034]获取每个句子所对应的句子手语时长;
[0035]计算每个句子时间段的长度与句子手语时长之间的时长比值;
[0036]将时长比值作为句子压缩比。
[0037]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
[0038]将延迟时长与延迟阈值进行比对,确定每个延迟时长属于的延迟范围;
[0039]根据延迟范围与压缩比之间的关系,得到目标文本对应的压缩比,并将压缩比作为句子压缩比。
[0040]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体
可以用于:
[0041]调用语言压缩模型集合,从语言压缩模型集合中确定与句子压缩比对应的目标语言压缩模型,其中,语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比;
[0042]将每个句子输入至目标语言压缩模型,通过目标语言压缩模型输出压缩子文本;
[0043]将压缩子文本进行合并,得到目标压缩文本。
[0044]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,获取单元具体可以用于:
[0045]获取原始文本,其中,原始文本包含至少两个句子;
[0046]根据语句重要程度信息对原始文本的句子进行抽取,得到目标文本。
[0047]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,获取单元具体可以用于:
[0048]将原始文本划分为至少两个文本段;
[0049]根据语句重要程度信息对至少两个文本段中的每个文本段分别进行句子抽取,得到每个文本段对应的摘要文本;
[0050]根据每个文本段在原始文本中的位置,对摘要文本进行整合,得到目标文本。
[0051]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,获取单元具体可以用于:
[0052]对每个文本段进行分句处理,得到至少两个句子;
[0053]对至少两个句子分别进行向量转换,得到每个句子对应的句向量;
[0054]将每个句子对应的句向量输入至分类器,通过分类器输出每个句子对应的句向量对应的摘要分值;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:获取目标文本以及与所述目标文本相对应的目标时间,其中,所述目标时间为延迟时长或播放时长;根据所述目标时间,为所述目标文本中的每个句子确定一个句子压缩比;根据所述句子压缩比以及所述目标文本,生成目标压缩文本;将所述目标压缩文本输入至手语视频生成模型,通过所述手语视频生成模型生成目标手语视频。2.根据权利要求1所述方法,其特征在于,当所述目标时间为播放时长时;所述根据所述目标时间,为所述目标文本中的每个句子确定一个句子压缩比,包括:调用语言压缩模型集合,根据所述语言压缩模型集合以及所述目标时间确定与所述目标文本对应的目标压缩比,其中,所述目标压缩比为所述每个句子的句子压缩比的组合,或所述目标压缩比为所有所述句子的句子压缩比,所述语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比;所述根据所述句子压缩比以及所述目标文本,生成目标压缩文本,包括:根据所述目标压缩比以及所述目标文本,生成所述目标压缩文本。3.根据权利要求2所述方法,其特征在于,所述调用语言压缩模型集合,根据所述语言压缩模型集合以及所述目标时间确定与所述目标文本对应的目标压缩比,包括:依次将所述目标文本的每个句子输入至所述语言压缩模型集合进行压缩,得到与所述每个句子相对应的初始压缩文本集合;分别从所述每个句子相对应的所述初始压缩文本集合中选取任一个初始压缩子文本,得到所述目标文本对应的若干个候选压缩组合;从所述若干个候选压缩组合中确定符合所述播放时长的目标压缩组合;将所述目标压缩组合中的每个初始压缩子文本对应的压缩比作为所述句子压缩比。4.根据权利要求2所述方法,其特征在于,所述语言压缩模型的训练包括以下步骤:获取与每个所述语言压缩比相对应的训练样本对,其中,所述所述训练样本对包括训练原始样本以及训练压缩样本,所述训练压缩样本为字符数小于所述训练原始样本,且与所述训练原始样本之间的相似度大于相似阈值的文本;将所述训练样本对以及所述基础压缩比输入所述语言压缩模型,通过所述语言压缩模型输出样本压缩文本;计算所述样本压缩文本与所述训练压缩样本之间的文本相似度;根据所述文本相似度对所述样本压缩文本进行损失计算,得到压缩损失结果;根据所述压缩损失结果对所述语言压缩模型的模型参数进行更新。5.根据权利要求1所述方法,其特征在于,当所述目标时间为播放时长时;所述根据所述目标时间,为所述目标文本中的每个句子确定一个句子压缩比,包括:根据所述目标文本中的每个句子的长度,对所述播放时长进行划分,得到所述每个句子对应的句子时间段;根据所述每个句子对应的句子时间段,为所述每个句子确定一个所述句子压缩比。6.根据权利要求5所述方法,其特征在于,所述根据所述每个句子对应的句子时间段,为所述每个句子确定一个所述句子压缩比,包括:
获取所述每个句子所对应的句子手语时长;计算所述每个句子时间段的长度与所述句子手语时长之间的时长比值;将所述时长比值作为所述句子压缩比。7.根据权利要求1所述方法,其特征在于,当所述目标时间为所述延迟时长时;所述根据所述所述目标时间,为所述每个句子确定一个句子压缩比,包括:将所述延迟时长与延迟阈值进行比对,确定每个所述延迟时长属于的延迟范围;根据所述延迟范围与压缩比之间的关系,得到所述目标文本对应的所述压缩比,并将所述压缩比作为所述句子压缩比。8.根据权利要求7所述的视频生成方法,其特征在于,所述根据所述句子压缩比以及所述目标文本,生成目标压缩文本,包括:调用语言压缩模型集合,从所述语言压缩模型集合中确定与所述句子压缩比对应的目标语言压缩模型,其中,所述语言压缩模型集合中的每个语言压缩模型分别设置有对应的一个压缩比;将所述每个句子输入至所述目标语言压缩模型,通过所述目标语言压缩模型输出压缩子文本;将所述压缩子文本进行合并,得到所述目标压缩文本。9.根据权利要求1至8中任一项所述方法,其特征在于,所述获取目标文本,包括:获取原始文本,其中,所述原始文本包含至少两个...

【专利技术属性】
技术研发人员:申彤彤徐竟达杨鹏祁点点
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1