基于视频辅助的文本重构模型训练方法及装置制造方法及图纸

技术编号:35651486 阅读:13 留言:0更新日期:2022-11-19 16:46
本发明专利技术公开了一种基于视频辅助的文本重构模型训练方法及装置,该方法包括:根据确定出的所有训练样本,训练待训练文本模型,得到训练后文本模型,并判断训练后文本模型是否收敛;其中,在训练待训练文本模型时,对于任一训练样本,待训练文本模型包括的特征融合层的输入内容包括该训练样本中样本文本对应的文本特征向量以及预先生成的该样本文本对应的视频特征向量;若是,则将训练后文本模型确定为文本重构模型。可见,实施本发明专利技术能够通过视频特征向量的辅助训练出文本重构模型,不仅有利于用户通过文本重构模型快速地制作出视频文本,无需对其进行反复修正,还有利于提高所生成的视频文本与视频之间的匹配度,满足用户对视频文本的制作需求。视频文本的制作需求。视频文本的制作需求。

【技术实现步骤摘要】
基于视频辅助的文本重构模型训练方法及装置


[0001]本专利技术涉及模型训练
,尤其涉及一种基于视频辅助的文本重构模型训练方法及装置。

技术介绍

[0002]随着视频制作行业的快速发展,视频制作在国内的广告市场中占据着越来越重要地位,成为了各个企业最常用以及最有效的广告手段。在视频制作的过程中,常离不开视频文本(如视频脚本)的设计。生动有趣的视频文本,能够使得制作出来的视频更加富有创意,从而为企业营造出更好的营销效果。
[0003]当前,视频文本的生成方式主要通过制作者采用固定的视频文本制作模板对视频文本进行编辑来实现。然而,通过实践发现,这种依赖于人为编辑的视频文本生成方式需要制作者依据自身的制作经验来对视频文本进行反复修正,使得视频文本的制作周期过长且生成出来的视频文本与视频之间的匹配度较低。可见,提供一种能够快速生成与视频相匹配的视频文本的方法尤为重要。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种基于视频辅助的文本重构模型训练的方法及装置,不仅有利于用户通过文本重构模型快速地制作出视频文本,还有利于提高所生成的视频文本与视频之间的匹配度,从而满足用户对视频文本的制作需求。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种基于视频辅助的文本重构模型训练方法,所述方法包括:
[0006]确定目标训练样本集合;所述目标训练样本集合包括若干个目标训练样本,且每个所述目标训练样本至少包括样本文本;
[0007]根据所有所述目标训练样本,对待训练文本模型执行模型训练操作,得到训练后文本模型,并判断所述训练后文本模型是否收敛;其中,在对所述待训练文本模型执行所述模型训练操作时,对于任一所述目标训练样本,所述待训练文本模型包括的特征融合层的输入内容包括该目标训练样本中样本文本对应的文本特征向量以及预先生成的该样本文本对应的视频特征向量;
[0008]当判断结果为是时,将所述训练后文本模型确定为文本重构模型;所述文本重构模型用于对待生成文本的目标文本素材进行文本内容补充,以生成与所述目标文本素材相匹配的文本。
[0009]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所有所述目标训练样本,对待训练文本模型执行模型训练操作,得到训练后文本模型,包括:
[0010]将所有所述目标训练样本输入至待训练文本模型中,并通过所述待训练文本模型的嵌入层,对每个所述目标训练样本所包括的所述样本文本执行文本向量转换操作,得到每个所述目标训练样本对应的文本特征向量;每个所述目标训练样本对应的文本特征向量
中均存在对应的被掩码向量内容;
[0011]对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量;
[0012]对于输入的每个所述目标训练样本,通过所述待训练文本模型的预测重构层,对该目标训练样本对应的融合后特征向量中的所述被掩码向量内容进行预测重构,得到该目标训练样本对应的预测重构向量内容。
[0013]作为一种可选的实施方式,在本专利技术第一方面中,所述通过所述待训练文本模型的嵌入层,对每个所述目标训练样本所包括的所述样本文本执行文本向量转换操作,得到每个所述目标训练样本对应的文本特征向量,包括:
[0014]对于输入的每个所述目标训练样本,通过所述待训练文本模型的嵌入层,对该目标训练样本中的所述样本文本执行字拆分操作,得到所述样本文本的所有目标字,并对所述样本文本的所有所述目标字执行字向量转换操作,得到该目标训练样本对应的所有字特征向量;
[0015]对于输入的每个所述目标训练样本,对该目标训练样本对应的所有所述字特征向量执行拼接操作,得到该目标训练样本对应的所有句特征向量,并根据该目标训练样本对应的所有所述句特征向量,确定该目标训练样本对应的待定文本特征向量;
[0016]对于输入的每个所述目标训练样本,根据预设的掩码参数,对该目标训练样本对应的待定文本特征向量中与所述掩码参数相匹配的向量内容进行掩码,得到该目标训练样本对应的文本特征向量。
[0017]作为一种可选的实施方式,在本专利技术第一方面中,所述对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量,包括:
[0018]对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行拼接操作,得到该目标训练样本对应的拼接后特征向量,并对该目标训练样本对应的拼接后特征向量进行第一维度变换操作,得到目标训练样本对应的变换后特征向量;根据预先确定出的视频特征参数,对该目标训练样本对应的变换后特征向量执行向量平均操作,得到该目标训练样本对应的平均后特征向量,作为该目标训练样本对应的融合后特征向量。
[0019]作为一种可选的实施方式,在本专利技术第一方面中,在所述对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量之前,所述方法还包括:
[0020]获取由所述嵌入层预先生成的每个所述目标训练样本中样本文本所对应的视频特征向量;
[0021]根据所有所述目标训练样本中样本文本对应的文本特征向量的第一维度特征信息以及对应的所述视频特征向量的第二维度特征信息,判断所有所述目标训练样本对应的文本特征向量与分别对应的所述视频特征向量是否均相匹配;每个所述目标训练样本中样
本文本对应的文本特征向量的第一维度特征信息以及对应的所述视频特征向量的第二维度特征信息均包括对应的维度类型、维度数量以及维度顺序中的至少一种;
[0022]当判断结果为否时,从所有所述目标训练样本中样本文本所对应的视频特征向量中确定出与对应的所述文本特征向量不相匹配的所有待处理视频特征向量,并根据所有所述待处理视频特征向量对应的文本特征向量的第一维度特征信息,对所有所述待处理视频特征向量执行第二维度变换操作,得到变换后的所有所述待处理视频特征向量;变换后的所有所述待处理视频特征向量均与对应的所述文本特征向量相匹配;
[0023]根据变换后的所有所述待处理视频特征向量,更新所有所述目标训练样本中样本文本所对应的视频特征向量,并触发执行所述的对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量的操作。
[0024]作为一种可选的实施方式,在本专利技术第一方面中,所述对于输入的每个所述目标训练样本,通过所述待训练文本模型的预测重构层,对该目标训练样本对应的融合后特征向量中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频辅助的文本重构模型训练方法,其特征在于,所述方法包括:确定目标训练样本集合;所述目标训练样本集合包括若干个目标训练样本,且每个所述目标训练样本至少包括样本文本;根据所有所述目标训练样本,对待训练文本模型执行模型训练操作,得到训练后文本模型,并判断所述训练后文本模型是否收敛;其中,在对所述待训练文本模型执行所述模型训练操作时,对于任一所述目标训练样本,所述待训练文本模型包括的特征融合层的输入内容包括该目标训练样本中样本文本对应的文本特征向量以及预先生成的该样本文本对应的视频特征向量;当判断结果为是时,将所述训练后文本模型确定为文本重构模型;所述文本重构模型用于对待生成文本的目标文本素材进行文本内容补充,以生成与所述目标文本素材相匹配的文本。2.根据权利要求1所述的基于视频辅助的文本重构模型训练方法,其特征在于,所述根据所有所述目标训练样本,对待训练文本模型执行模型训练操作,得到训练后文本模型,包括:将所有所述目标训练样本输入至待训练文本模型中,并通过所述待训练文本模型的嵌入层,对每个所述目标训练样本所包括的所述样本文本执行文本向量转换操作,得到每个所述目标训练样本对应的文本特征向量;每个所述目标训练样本对应的文本特征向量中均存在对应的被掩码向量内容;对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量;对于输入的每个所述目标训练样本,通过所述待训练文本模型的预测重构层,对该目标训练样本对应的融合后特征向量中的所述被掩码向量内容进行预测重构,得到该目标训练样本对应的预测重构向量内容。3.根据权利要求2所述的基于视频辅助的文本重构模型训练方法,其特征在于,所述通过所述待训练文本模型的嵌入层,对每个所述目标训练样本所包括的所述样本文本执行文本向量转换操作,得到每个所述目标训练样本对应的文本特征向量,包括:对于输入的每个所述目标训练样本,通过所述待训练文本模型的嵌入层,对该目标训练样本中的所述样本文本执行字拆分操作,得到所述样本文本的所有目标字,并对所述样本文本的所有所述目标字执行字向量转换操作,得到该目标训练样本对应的所有字特征向量;对于输入的每个所述目标训练样本,对该目标训练样本对应的所有所述字特征向量执行拼接操作,得到该目标训练样本对应的所有句特征向量,并根据该目标训练样本对应的所有所述句特征向量,确定该目标训练样本对应的待定文本特征向量;对于输入的每个所述目标训练样本,根据预设的掩码参数,对该目标训练样本对应的待定文本特征向量中与所述掩码参数相匹配的向量内容进行掩码,得到该目标训练样本对应的文本特征向量。4.根据权利要求3所述的基于视频辅助的文本重构模型训练方法,其特征在于,所述对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练
样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量,包括:对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行拼接操作,得到该目标训练样本对应的拼接后特征向量,并对该目标训练样本对应的拼接后特征向量进行第一维度变换操作,得到目标训练样本对应的变换后特征向量;根据预先确定出的视频特征参数,对该目标训练样本对应的变换后特征向量执行向量平均操作,得到该目标训练样本对应的平均后特征向量,作为该目标训练样本对应的融合后特征向量。5.根据权利要求3或4所述的基于视频辅助的文本重构模型训练方法,其特征在于,在所述对于输入的每个所述目标训练样本,通过所述待训练文本模型的特征融合层,对该目标训练样本对应的文本特征向量与预先对应生成的视频特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量之前,所述方法还包括:获取由所述嵌入层预先生成的每个所述目标训练样本中样本文本所对应的视频特征向量;根据所有所述目标训练样本中样本文本对应的文本特征向量的第一维度特征信息以及对应的所述视频特征向量的第二维度特征信息,判断所有所述目标训练样本对应的文本特征向量与分别对应的所述视频特征向量是否均相匹配;每个所述目标...

【专利技术属性】
技术研发人员:黄于晏陈畅新
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1