【技术实现步骤摘要】
视频文本任务处理方法、装置、电子设备及可读存储介质
[0001]本申请涉及人工智能
,具体而言,本申请涉及一种视频文本任务处理方法、装置、电子设备及可读存储介质。
技术介绍
[0002]大多数情况下,能够用于训练模型的算力和数据都很有限,要完成一个大型神经网络的训练非常困难,因此希望能够尽量重复利用已经训练好的神经网络以节约训练和数据资源。如果在执行预测任务时,能够找到一个曾经执行过相似任务、并被训练得很好的大型架构,那就可以使用这个大型架构中位置较浅的那些层来帮助构筑自己的网络。借用已经训练好的预训练(pre
‑
train)模型来构筑新架构的技术就叫做“迁移学习”(transfer learning)。迁移学习是训练大型模型时、用于降低数据需求以及加快训练速度的关键技术之一。
[0003]目前,为了人工智能的方式处理视频文本任务(例如,视频描述文本生成、视频搜索等任务),可以对图片文本预训练模型迁移学习进而得到能够处理视频文本任务的视频文本模型。
[0004]但是,现有技术中,在将图片文本预训练模型迁移至视频文本任务处理领域时,会带来较大的参数量,造成视频文本任务处理过程中资源计算代价高。
技术实现思路
[0005]本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
[0006]第一方面,本申请实施例提供了一种视频文本任务处理方法,包括:
[0007]获取待处理视频文本任务中视频对应的视频帧序列,并获取每一视频帧对 ...
【技术保护点】
【技术特征摘要】
1.一种视频文本任务处理方法,其特征在于,包括:获取待处理视频文本任务中视频对应的视频帧序列,并获取每一视频帧对应的图像块序列;将所述视频对应的各图像块输入训练好的预设视频文本模型,通过所述训练好的预设视频文本模型中的视频编码器,获取混合键集合和混合值集合,并利用自注意力机制,基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征,所述预设视频文本模型是经图像文本预训练模型迁移学习得到,所述混合键集合包含有所述视频对应的各视频帧中的图像块对应的键,所述混合值集合包含有所述视频对应的各视频帧中的图像块对应的值;通过所述训练好的预设视频文本模型,基于各图像块对应的视频特征,输出所述待处理视频文本任务对应的处理结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在将所述视频对应的各图像块输入所述训练好的预设视频文本模型之后,对各图像块进行第一线性映射,得到各图像块对应的嵌入向量;所述获取混合键集合和混合值集合,包括:对各图像块对应的嵌入向量进行第二线性映射,得到各图像块对应的键,对各图像块对应的嵌入向量进行第三线性映射,得到各图像块对应的值;从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素,从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素,得到所述混合键集合和所述混合值集合。3.根据权利要求2所述的方法,其特征在于,所述从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素,从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素,得到所述混合键集合和所述混合值集合,包括:按照各视频帧的时序,依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素,重复按时序依次选取键的步骤直至得到所述混合键集合;按照各视频帧的时序,依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素,重复按时序依次选取值的步骤直至得到所述混合值集合。4.根据权利要求3所述的方法,其特征在于,所述混合键集合对应的键矩阵和所述混合值集合对应的值矩阵,与每一视频帧对应的图像块矩阵的尺寸相同;所述依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素,包括:对于所述键矩阵中的任一元素位置,将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的键,作为所述键矩阵中所述任一元素位置的元素;所述依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素,包括:对于所述值矩阵中的任一元素位置,将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的值,作为所述值矩阵中所述任一元素位置的元素。5.根据权利要求2所述的方法,其特征在于,所述利用自注意力机制,基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征,包括:
对于每一图像块,对所述图像块对应的嵌入向量进行第四线性映射,得到所述图像块对应的查询;利用自注意力机制,基于所述查询、所述混合键集合和所述混合值集合,获取所述图像块对应的视频特征。6.根据权利要求1所述的方法,其特征在于,所述待处理视频文本任务为视频描述生成任务;所述基于各图像块对应的视频特征,输出所述待处理视频文本任务对应的处理结果,包括:通过所述训练好的预设视频文本模型中的文本解码器,基于各图像块对应的视频特征,输出所述视频的描述文本。7.根据权利要求6所述的方法,其特征在于,所述训练好的预设视频文本模型通过以下方式训练得到:获取至少一个第一视频文本对,每一第一视频文本对包含一个视频样本和所述视频样本的描述文本样本;利用各第一视频文本对依次对所述预设视频文本模型进行训练,直至得到的第一损失值满足第一预设值,得到所述训练好的预设视频文本模型;其中,每次训练时...
【专利技术属性】
技术研发人员:刘玉琪,徐鲁辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。