视频文本任务处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：39294740 阅读：21 留言：0更新日期：2023-11-07 11:02

本申请提供了一种视频文本任务处理方法、装置、电子设备及可读存储介质，涉及人工智能领域。该方法包括：获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列；将视频对应的各图像块输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征；通过训练好的预设视频文本模型，基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果。该方案仅对自主力机制中的键集合和值集合进行了修改，没有增加额外的自注意力机制，大大降低了资源计算代价。大大降低了资源计算代价。大大降低了资源计算代价。

全部详细技术资料下载

【技术实现步骤摘要】
视频文本任务处理方法、装置、电子设备及可读存储介质

[0001]本申请涉及人工智能
，具体而言，本申请涉及一种视频文本任务处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]大多数情况下，能够用于训练模型的算力和数据都很有限，要完成一个大型神经网络的训练非常困难，因此希望能够尽量重复利用已经训练好的神经网络以节约训练和数据资源。如果在执行预测任务时，能够找到一个曾经执行过相似任务、并被训练得很好的大型架构，那就可以使用这个大型架构中位置较浅的那些层来帮助构筑自己的网络。借用已经训练好的预训练(pre
‑
train)模型来构筑新架构的技术就叫做“迁移学习”(transfer learning)。迁移学习是训练大型模型时、用于降低数据需求以及加快训练速度的关键技术之一。
[0003]目前，为了人工智能的方式处理视频文本任务(例如，视频描述文本生成、视频搜索等任务)，可以对图片文本预训练模型迁移学习进而得到能够处理视频文本任务的视频文本模型。
[0004]但是，现有技术中，在将图...

【技术保护点】

【技术特征摘要】
1.一种视频文本任务处理方法，其特征在于，包括：获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列；将所述视频对应的各图像块输入训练好的预设视频文本模型，通过所述训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征，所述预设视频文本模型是经图像文本预训练模型迁移学习得到，所述混合键集合包含有所述视频对应的各视频帧中的图像块对应的键，所述混合值集合包含有所述视频对应的各视频帧中的图像块对应的值；通过所述训练好的预设视频文本模型，基于各图像块对应的视频特征，输出所述待处理视频文本任务对应的处理结果。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在将所述视频对应的各图像块输入所述训练好的预设视频文本模型之后，对各图像块进行第一线性映射，得到各图像块对应的嵌入向量；所述获取混合键集合和混合值集合，包括：对各图像块对应的嵌入向量进行第二线性映射，得到各图像块对应的键，对各图像块对应的嵌入向量进行第三线性映射，得到各图像块对应的值；从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素，从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素，得到所述混合键集合和所述混合值集合。3.根据权利要求2所述的方法，其特征在于，所述从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素，从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素，得到所述混合键集合和所述混合值集合，包括：按照各视频帧的时序，依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素，重复按时序依次选取键的步骤直至得到所述混合键集合；按照各视频帧的时序，依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素，重复按时序依次选取值的步骤直至得到所述混合值集合。4.根据权利要求3所述的方法，其特征在于，所述混合键集合对应的键矩阵和所述混合值集合对应的值矩阵，与每一视频帧对应的图像块矩阵的尺寸相同；所述依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素，包括：对于所述键矩阵中的任一元素位置，将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的键，作为所述键矩阵中所述任一元素位置的元素；所述依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素，包括：对于所述值矩阵中的任一元素位置，将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的值，作为所述值矩阵中所述任一元素位置的元素。5.根据权利要求2所述的方法，其特征在于，所述利用自注意力机制，基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征，包括：
对于每一图像块，对所述图像块对应的嵌入向量进行第四线性映射，得到所述图像块对应的查询；利用自注意力机制，基于所述查询、所述混合键集合和所述混合值集合，获取所述图像块对应的视频特征。6.根据权利要求1所述的方法，其特征在于，所述待处理视频文本任务为视频描述生成任务；所述基于各图像块对应的视频特征，输出所述待处理视频文本任务对应的处理结果，包括：通过所述训练好的预设视频文本模型中的文本解码器，基于各图像块对应的视频特征，输出所述视频的描述文本。7.根据权利要求6所述的方法，其特征在于，所述训练好的预设视频文本模型通过以下方式训练得到：获取至少一个第一视频文本对，每一第一视频文本对包含一个视频样本和所述视频样本的描述文本样本；利用各第一视频文本对依次对所述预设视频文本模型进行训练，直至得到的第一损失值满足第一预设值，得到所述训练好的预设视频文本模型；其中，每次训练时...

【专利技术属性】
技术研发人员：刘玉琪，徐鲁辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人