视频和文本的处理方法和装置、存储介质及电子设备制造方法及图纸

技术编号：39718785 阅读：10 留言：0更新日期：2023-12-17 23:25

本申请公开了一种视频和文本的处理方法和装置、存储介质及电子设备。其中，该方法包括：利用目标视频的原始视频特征对目标文本的原始文本特征进行重构，得到重构文本特征，其中，原始文本特征包括N1个词向量，原始视频特征包括N2个视频帧向量；利用原始文本特征对原始视频特征进行重构，得到重构视频特征，其中，重构视频特征包括N2个重构视频帧向量，N2个重构视频帧向量包括N2个视频帧的重构视频帧向量；根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量，确定目标文本与目标视频之间的语义相似度。本申请解决了相关技术中在在视频和文本的处理过程中出现的准确性较低的技术问题。准确性较低的技术问题。准确性较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
视频和文本的处理方法和装置、存储介质及电子设备

[0001]本申请涉及计算机
，具体而言，涉及一种视频和文本的处理方法和装置、存储介质及电子设备。

技术介绍

[0002]相关技术中，通常利用视频与文本的相似度评估来确定与文本匹配的目标视频、或者与视频匹配的目标文本，例如，将上述视频与本文的相似度，来实现视频检索或者标题审核等。
[0003]常见的视频与文本的相似度评估方法包括两种：第一种方法主要通过对比文件与参考文本(如视频标签)的相似程度，将跨模态相似度评估转化为文本相似度评估；第二种方法主要利用深度学习模型对视频特征和文本特征进行匹配并计算相似度。
[0004]对于上述第一种方法，其有效性依赖于参考文本的质量，而高质量的参考文本通常需要进行繁重的人力标注；对于上述第二种方法，由于视频和文本语义的丰富性，通常需要进行视频帧和单词之间的细粒度匹配来计算总体相似度，但视频帧语单词的语义粒度并不相同(例如，一帧视频可能对应多个单词，而一个单词可能对应多帧视频)。
[0005]也就是说，上述两种方法本质上都是使用视频描述数据集训练的视频文本相似度评估模型，然后将视频帧与文本之间的细粒度匹配得到的视频文本对作为训练样本，并对视频文本相似度评估模型进行训练，将模型输出的语义相似度作为相似度评估结果。然而，由于视频帧与单词的语义粒度不同，很难对视频帧和单词正确地进行匹配，无法确保训练样本的质量，导致了模型输出的语义相似度的准确率较低，从而造成了视频和文本的处理过程中出现的准确性较低的技术问题。/>[0006]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0007]本申请实施例提供了一种视频和文本的处理方法和装置、存储介质及电子设备，以至少解决在视频和文本的处理过程中出现的准确性较低的技术问题。
[0008]根据本申请实施例的一个方面，提供了一种视频和文本的处理方法，包括：利用目标视频的原始视频特征对目标文本的原始文本特征进行重构，得到重构文本特征，其中，原始文本特征包括N1个词向量，原始视频特征包括N2个视频帧向量，N1个词向量包括目标文本中的N1个词语的词向量，N2个视频帧向量包括目标视频中的N2个视频帧的视频帧向量，重构文本特征包括N1个重构词向量，N1个重构词向量包括N1个词语的重构词向量，N1为大于或等于1的正整数，N2为大于或等于1的正整数；利用原始文本特征对原始视频特征进行重构，得到重构视频特征，其中，重构视频特征包括N2个重构视频帧向量，N2个重构视频帧向量包括目标视频中的N2个视频帧的重构视频帧向量；根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量，确定目标文本与目标视频之间的语义相似度。
[0009]可选地，上述利用目标视频的原始视频特征对目标文本的原始文本特征进行重
构，得到重构文本特征，包括：根据维度为N1×
N2的第一相关性矩阵、维度为N2×
M的原始视频特征以及维度为M
×
M的第一参数矩阵，确定维度为N1×
M的重构文本特征，其中，第一相关性矩阵是根据维度为N1×
M的原始文本特征确定得到的矩阵，第一相关性矩阵用于表示N1个词语中的每个词语分别与N2个视频帧之间的相关度，N1个词语中的每个词语的词向量是维度为1
×
M的向量，N2个视频帧中的每个视频帧的视频帧向量是维度为1
×
M的向量，第一参数矩阵是预先确定的参数矩阵，M为大于或等于2的正整数。
[0010]可选地，上述根据维度为N1×
N2的第一相关性矩阵和维度为M
×
M的第一参数矩阵、维度为N2×
M的原始视频特征以及维度为M
×
M的第一参数矩阵，确定维度为N1×
M的重构文本特征，包括：将维度为N1×
N2的第一相关性矩阵、维度为N2×
M的原始视频特征以及维度为M
×
M的第一参数矩阵相乘，得到维度为N1×
M的重构文本特征。
[0011]可选地，上述方法还包括：根据维度为N1×
M的原始文本特征、维度为M
×
M的第二参数矩阵、维度为N2×
M的原始视频特征、维度为M
×
M的第三参数矩阵，确定维度为N1×
N2的第一相关性矩阵，其中，N1个词语中的每个词语的词向量是维度为1
×
M的向量，第二参数矩阵和第三参数矩阵是预先确定的参数矩阵，M为大于或等于2的正整数。
[0012]可选地，上述根据维度为N1×
M的原始文本特征、维度为M
×
M的第二参数矩阵、维度为N2×
M的原始视频特征、维度为M
×
M的第三参数矩阵，确定维度为N1×
N2的第一相关性矩阵，包括：将维度为N1×
M的原始文本特征与维度为M
×
M的第二参数矩阵相乘，得到维度为N1×
M的第一加权矩阵；将维度为M
×
M的第三参数矩阵与维度为M
×
N2的第一转置矩阵相乘，得到维度为M
×
N2的第二加权矩阵，其中，维度为M
×
N2的第一转置矩阵是对维度为N2×
M的原始视频特征进行转置所得到的矩阵；将维度为N1×
M的第一加权矩阵与维度为M
×
N2的第二加权矩阵相乘，得到维度为N1×
N2的相关性矩阵；对维度为N1×
N2的相关性矩阵进行归一化处理，得到维度为N1×
N2的第一相关性矩阵。
[0013]可选地，上述利用原始文本特征对原始视频特征进行重构，得到重构视频特征，包括：根据维度为N2×
N1的第二相关性矩阵、维度为N1×
M的原始文本特征和维度为M
×
M的第四参数矩阵，确定维度为N2×
M的重构视频特征，其中，第二相关性矩阵是根据维度为N2×
M的原始视频特征确定得到的矩阵，第二相关性矩阵用于表示N2个视频帧中的每个视频帧分别与N1个词语之间的相关度，第四参数矩阵是预先确定的参数矩阵，M为大于或等于2的正整数。
[0014]可选地，上述根据维度为N2×
N1的第二相关性矩阵、维度为N1×
M的原始文本特征和维度为M
×
M的第四参数矩阵，确定维度为N2×
M的重构视频特征，包括：将维度为N2×
N1的第二相关性矩阵、维度为N1×
M的原始文本特征以及维度为M
×
M的第四参数矩阵相乘，得到维度为N2×
M的重构视频特征。
[0015]可选地，上述方法还包括：根据维度为N2×
M的原始视频特征、维度为M
×
M的第五参数矩阵、维度为N1×
M的原始文本特征、维度为M
×
M的第六参数矩阵，确定维度为N2本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频和文本的处理方法，其特征在于，包括：利用目标视频的原始视频特征对目标文本的原始文本特征进行重构，得到重构文本特征，其中，所述原始文本特征包括N1个词向量，所述原始视频特征包括N2个视频帧向量，所述N1个词向量包括所述目标文本中的N1个词语的词向量，所述N2个视频帧向量包括所述目标视频中的N2个视频帧的视频帧向量，所述重构文本特征包括N1个重构词向量，所述N1个重构词向量包括所述N1个词语的重构词向量，N1为大于或等于1的正整数，N2为大于或等于1的正整数；利用所述原始文本特征对所述原始视频特征进行重构，得到重构视频特征，其中，所述重构视频特征包括N2个重构视频帧向量，所述N2个重构视频帧向量包括所述N2个视频帧的重构视频帧向量；根据所述N1个词向量、所述N1个重构词向量、所述N2个视频帧向量以及所述N2个重构视频帧向量，确定所述目标文本与所述目标视频之间的语义相似度。2.根据权利要求1所述的方法，其特征在于，所述利用目标视频的原始视频特征对目标文本的原始文本特征进行重构，得到重构文本特征，包括：根据维度为N1×
N2的第一相关性矩阵、维度为N2×
M的所述原始视频特征以及维度为M
×
M的第一参数矩阵，确定维度为N1×
M的所述重构文本特征，其中，所述第一相关性矩阵是根据维度为N1×
M的所述原始文本特征确定得到的矩阵，所述第一相关性矩阵用于表示所述N1个词语中的每个词语分别与所述N2个视频帧之间的相关度，所述N1个词语中的每个词语的词向量是维度为1
×
M的向量，所述N2个视频帧中的每个视频帧的视频帧向量是维度为1
×
M的向量，所述第一参数矩阵是预先确定的参数矩阵，M为大于或等于2的正整数。3.根据权利要求2所述的方法，其特征在于，所述根据维度为N1×
N2的第一相关性矩阵、维度为N2×
M的所述原始视频特征以及维度为M
×
M的第一参数矩阵，确定维度为N1×
M的所述重构文本特征，包括：将维度为N1×
N2的所述第一相关性矩阵、维度为N2×
M的所述原始视频特征以及维度为M
×
M的所述第一参数矩阵相乘，得到维度为N1×
M的所述重构文本特征。4.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据维度为N1×
M的所述原始文本特征、维度为M
×
M的第二参数矩阵、维度为N2×
M的所述原始视频特征、维度为M
×
M的第三参数矩阵，确定维度为N1×
N2的所述第一相关性矩阵，其中，所述第二参数矩阵和所述第三参数矩阵是预先确定的参数矩阵，M为大于或等于2的正整数。5.根据权利要求4所述的方法，其特征在于，所述根据维度为N1×
M的所述原始文本特征、维度为M
×
M的第二参数矩阵、维度为N2×
M的所述原始视频特征、维度为M
×
M的第三参数矩阵，确定维度为N1×
N2的第一相关性矩阵，包括：将维度为N1×
M的所述原始文本特征与维度为M
×
M的所述第二参数矩阵相乘，得到维度为N1×
M的第一加权矩阵；将维度为M
×
M的所述第三参数矩阵与维度为M
×
N2的第一转置矩阵相乘，得到维度为M
×
N2的第二加权矩阵，其中，维度为M
×
N2的第一转置矩阵是对维度为N2×
M的所述原始视频特征进行转置所得到的矩阵；将维度为N1×
M的所述第一加权矩阵与维度为M
×
N2的所述第二加权矩阵相乘，得到维
度为N1×
N2的相关性矩阵；对维度为N1×
N2的所述相关性矩阵进行归一化处理，得到维度为N1×
N2的所述第一相关性矩阵。6.根据权利要求1所述的方法，其特征在于，所述利用所述原始文本特征对所述原始视频特征进行重构，得到重构视频特征，包括：根据维度为N2×
N1的第二相关性矩阵、维度为N1×
M的所述原始文本特征和维度为M
×
M的第四参数矩阵，确定维度为N2×
M的所述重构视频特征，其中，所述第二相关性矩阵是根据维度为N2×
M的所述原始视频特征确定得到的矩阵，所述第二相关性矩阵用于表示所述N2个视频帧中的每个视频帧分别与所述N1个词语之间的相关度，所述N1个词语中的每个词语的词向量是维度为1
×
M的向量，所述N2个视频帧中的每个视频帧的视频帧向量是维度为1
×
M的向量，所述第四参数矩阵是预先确定的参数矩阵，M为大于或等于2的正整数。7.根据权利要求6所述的方法，其特征在于，所述根据维度为N2×
N1的第二相关性矩阵、维度为N1×
M的原始文本特征和维度为M
×
M的第四参数矩阵，确定维度为N2×
M的所述重构视频特征，包括：将维度为N2×
N1的所述第二相关性矩阵、维度为N1×
M的所述原始文本特征以及维度为M
×
M的所述第四参数矩阵相乘，得到维度为N2×
M的所述重构视频特征。8.根据权利要求6所述的方法，其特征在于，所述方法还包括：根据维度为N2×
M的所述原始视频特征、维度为M
×
M的第五参数矩阵、维度为N1×
M的所述原始文本特征、维度为M
×
M的第六参数矩阵，确定维度为N2×
N1的所述第二相关性矩...

【专利技术属性】
技术研发人员：陈禹昕，祁仲昂，张子琦，蒲俊福，单瀛，原春锋，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人