视频文本任务处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:39294740 阅读:9 留言:0更新日期:2023-11-07 11:02
本申请提供了一种视频文本任务处理方法、装置、电子设备及可读存储介质,涉及人工智能领域。该方法包括:获取待处理视频文本任务中视频对应的视频帧序列,并获取每一视频帧对应的图像块序列;将视频对应的各图像块输入训练好的预设视频文本模型,通过训练好的预设视频文本模型中的视频编码器,获取混合键集合和混合值集合,并利用自注意力机制,基于混合键集合和混合值集合获取各图像块对应的视频特征;通过训练好的预设视频文本模型,基于各图像块对应的视频特征,输出待处理视频文本任务对应的处理结果。该方案仅对自主力机制中的键集合和值集合进行了修改,没有增加额外的自注意力机制,大大降低了资源计算代价。大大降低了资源计算代价。大大降低了资源计算代价。

【技术实现步骤摘要】
视频文本任务处理方法、装置、电子设备及可读存储介质


[0001]本申请涉及人工智能
,具体而言,本申请涉及一种视频文本任务处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]大多数情况下,能够用于训练模型的算力和数据都很有限,要完成一个大型神经网络的训练非常困难,因此希望能够尽量重复利用已经训练好的神经网络以节约训练和数据资源。如果在执行预测任务时,能够找到一个曾经执行过相似任务、并被训练得很好的大型架构,那就可以使用这个大型架构中位置较浅的那些层来帮助构筑自己的网络。借用已经训练好的预训练(pre

train)模型来构筑新架构的技术就叫做“迁移学习”(transfer learning)。迁移学习是训练大型模型时、用于降低数据需求以及加快训练速度的关键技术之一。
[0003]目前,为了人工智能的方式处理视频文本任务(例如,视频描述文本生成、视频搜索等任务),可以对图片文本预训练模型迁移学习进而得到能够处理视频文本任务的视频文本模型。
[0004]但是,现有技术中,在将图片文本预训练模型迁移至视频文本任务处理领域时,会带来较大的参数量,造成视频文本任务处理过程中资源计算代价高。

技术实现思路

[0005]本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
[0006]第一方面,本申请实施例提供了一种视频文本任务处理方法,包括:
[0007]获取待处理视频文本任务中视频对应的视频帧序列,并获取每一视频帧对应的图像块序列;
[0008]将视频对应的各图像块输入训练好的预设视频文本模型,通过训练好的预设视频文本模型中的视频编码器,获取混合键集合和混合值集合,并利用自注意力机制,基于混合键集合和混合值集合获取各图像块对应的视频特征,预设视频文本模型是经图像文本预训练模型迁移学习得到,混合键集合包含有视频对应的各视频帧中的图像块对应的键,混合值集合包含有视频对应的各视频帧中的图像块对应的值;
[0009]通过训练好的预设视频文本模型,基于各图像块对应的视频特征,输出待处理视频文本任务对应的处理结果。
[0010]在本申请的一种可选实施例中,该方法还包括:
[0011]在将视频对应的各图像块输入训练好的预设视频文本模型之后,对各图像块进行第一线性映射,得到各图像块对应的嵌入向量;
[0012]获取混合键集合和混合值集合,包括:
[0013]对各图像块对应的嵌入向量进行第二线性映射,得到各图像块对应的键,对各图
像块对应的嵌入向量进行第三线性映射,得到各图像块对应的值;
[0014]从每一视频帧对应的各图像块的键中选取至少一个键作为混合键集合中的元素,从每一视频帧对应的各图像块的值中选取至少一个值作为混合值集合中的元素,得到混合键集合和混合值集合。
[0015]在本申请的一种可选实施例中,从每一视频帧对应的各图像块的键中选取至少一个键作为混合键集合中的元素,从每一视频帧对应的各图像块的值中选取至少一个值作为混合值集合中的元素,得到混合键集合和混合值集合,包括:
[0016]按照各视频帧的时序,依次从每一视频帧对应的图像块中选取一个图像块对应的键作为混合键集合中的元素,重复按时序依次选取键的步骤直至得到混合键集合;
[0017]按照各视频帧的时序,依次从每一视频帧对应的图像块中选取一个图像块对应的值作为混合值集合中的元素,重复按时序依次选取值的步骤直至得到混合值集合。
[0018]在本申请的一种可选实施例中,混合键集合对应的键矩阵和混合值集合对应的值矩阵,与每一视频帧对应的图像块矩阵的尺寸相同;
[0019]依次从每一视频帧对应的图像块中选取一个图像块对应的键作为混合键集合中的元素,包括:
[0020]对于键矩阵中的任一元素位置,将相应的视频帧所对应的图像矩阵中的任一元素位置的图像块的键,作为键矩阵中任一元素位置的元素;
[0021]依次从每一视频帧对应的图像块中选取一个图像块对应的值作为混合值集合中的元素,包括:
[0022]对于值矩阵中的任一元素位置,将相应的视频帧所对应的图像矩阵中的任一元素位置的图像块的值,作为值矩阵中任一元素位置的元素。
[0023]在本申请的一种可选实施例中,利用自注意力机制,基于混合键集合和混合值集合获取各图像块对应的视频特征,包括:
[0024]对于每一图像块,对图像块对应的嵌入向量进行第四线性映射,得到图像块对应的查询;
[0025]利用自注意力机制,基于查询、混合键集合和混合值集合,获取图像块对应的视频特征。
[0026]在本申请的一种可选实施例中,待处理视频文本任务为视频描述生成任务;
[0027]基于各图像块对应的视频特征,输出待处理视频文本任务对应的处理结果,包括:
[0028]通过训练好的预设视频文本模型中的文本解码器,基于各图像块对应的视频特征,输出视频的描述文本。
[0029]在本申请的一种可选实施例中,训练好的预设视频文本模型通过以下方式训练得到:
[0030]获取至少一个第一视频文本对,每一第一视频文本对包含一个视频样本和视频样本的描述文本样本;
[0031]利用各第一视频文本对依次对预设视频文本模型进行训练,直至得到的第一损失值满足第一预设值,得到训练好的预设视频文本模型;
[0032]其中,每次训练时,将第一视频文本对中的视频样本输入视频文本模型,并基于视频文本样本输出的预测描述文本和第一视频文本对中的描述文本样本获取对应的第一损
失值,再基于第一损失值调整预设视频文本模型的第一预设参数进行调整;
[0033]其中,第一预设参数包括:预设视频文本模型中第一线性映射的参数、视频编码器的最后一个自注意力机制层的参数以及文本解码器中的文本映射任务头的参数。
[0034]在本申请的一种可选实施例中,待处理视频文本任务为视频搜索任务;
[0035]基于各图像块对应的视频特征,输出待处理视频文本任务对应的处理结果,包括:
[0036]将搜索文本输入训练好的预设视频文本模型,通过训练好的预设视频文本模型中的文本编码器,获取搜索文本中各标识符对应的文本特征;
[0037]通过训练好的预设视频文本模型中的特征匹配任务头,基于各视频特征和各文本特征,输出搜索文本与视频的匹配结果。
[0038]在本申请的一种可选实施例中,基于各视频特征和各文本特征,输出搜索文本与视频的匹配结果,包括:
[0039]基于各视频特征获取整体视频特征,基于各文本特征获取整体文本特征,并基于整体视频特征和整体文本特征获取匹配值;
[0040]若匹配值不小于预设阈值,则输出的匹配结果指示视频为搜索文本的搜索结果;
[0041]若匹配值小于预设阈值,则输出的匹配结果指示视频不为搜索文本的搜索结果。
[0042]在本申请的一种可选实施例中,训练好的预设视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频文本任务处理方法,其特征在于,包括:获取待处理视频文本任务中视频对应的视频帧序列,并获取每一视频帧对应的图像块序列;将所述视频对应的各图像块输入训练好的预设视频文本模型,通过所述训练好的预设视频文本模型中的视频编码器,获取混合键集合和混合值集合,并利用自注意力机制,基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征,所述预设视频文本模型是经图像文本预训练模型迁移学习得到,所述混合键集合包含有所述视频对应的各视频帧中的图像块对应的键,所述混合值集合包含有所述视频对应的各视频帧中的图像块对应的值;通过所述训练好的预设视频文本模型,基于各图像块对应的视频特征,输出所述待处理视频文本任务对应的处理结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在将所述视频对应的各图像块输入所述训练好的预设视频文本模型之后,对各图像块进行第一线性映射,得到各图像块对应的嵌入向量;所述获取混合键集合和混合值集合,包括:对各图像块对应的嵌入向量进行第二线性映射,得到各图像块对应的键,对各图像块对应的嵌入向量进行第三线性映射,得到各图像块对应的值;从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素,从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素,得到所述混合键集合和所述混合值集合。3.根据权利要求2所述的方法,其特征在于,所述从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素,从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素,得到所述混合键集合和所述混合值集合,包括:按照各视频帧的时序,依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素,重复按时序依次选取键的步骤直至得到所述混合键集合;按照各视频帧的时序,依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素,重复按时序依次选取值的步骤直至得到所述混合值集合。4.根据权利要求3所述的方法,其特征在于,所述混合键集合对应的键矩阵和所述混合值集合对应的值矩阵,与每一视频帧对应的图像块矩阵的尺寸相同;所述依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素,包括:对于所述键矩阵中的任一元素位置,将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的键,作为所述键矩阵中所述任一元素位置的元素;所述依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素,包括:对于所述值矩阵中的任一元素位置,将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的值,作为所述值矩阵中所述任一元素位置的元素。5.根据权利要求2所述的方法,其特征在于,所述利用自注意力机制,基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征,包括:
对于每一图像块,对所述图像块对应的嵌入向量进行第四线性映射,得到所述图像块对应的查询;利用自注意力机制,基于所述查询、所述混合键集合和所述混合值集合,获取所述图像块对应的视频特征。6.根据权利要求1所述的方法,其特征在于,所述待处理视频文本任务为视频描述生成任务;所述基于各图像块对应的视频特征,输出所述待处理视频文本任务对应的处理结果,包括:通过所述训练好的预设视频文本模型中的文本解码器,基于各图像块对应的视频特征,输出所述视频的描述文本。7.根据权利要求6所述的方法,其特征在于,所述训练好的预设视频文本模型通过以下方式训练得到:获取至少一个第一视频文本对,每一第一视频文本对包含一个视频样本和所述视频样本的描述文本样本;利用各第一视频文本对依次对所述预设视频文本模型进行训练,直至得到的第一损失值满足第一预设值,得到所述训练好的预设视频文本模型;其中,每次训练时...

【专利技术属性】
技术研发人员:刘玉琪徐鲁辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1