基于跨模态文本相关注意力的时序语言定位方法技术

技术编号：37624000 阅读：22 留言：0更新日期：2023-05-18 12:15

本发明专利技术公开了一种基于跨模态文本相关注意力的时序语言定位方法，主要解决现有技术在的文本与视频跨模态融合中缺乏语义相关性的问题。其方案为：获取训练数据集和测试数据集，并提取训练数据集的视频及文本特征；构建基于跨模态文本相关注意力的时序语言定位模型，利用文本特征与视频特征进行融合获取融合特征，使用文本语义信息与融合特征注意力的交互，实现视频的时序定位；使用训练数据集的视频及文本特征对时序语言定位模型进行训练；将测试数据集输入到训练好的时序语言定位模型得到跨模态文本相关注意力的时序语言定位结果。本发明专利技术能在各种复杂的跨模态视频中检索出丰富的相关特征信息、提高了检索精度，可用于检索视频中对应于文本的片段。频中对应于文本的片段。频中对应于文本的片段。

全部详细技术资料下载

【技术实现步骤摘要】
基于跨模态文本相关注意力的时序语言定位方法

[0001]本专利技术属于多模态视频处理
，特别涉及一种跨模态时序语言定位方法，可用于检索视频中对应于文本的片段。

技术介绍

[0002]随着近年来互联网技术的飞速发展，视频数据作为多媒体数据的重要组成部分，也呈现出了指数级增长。现有的视频理解技术已经达到了能够初步理解视频内容的水平，但随着需求的增长，时序语言定位成为了视频理解领域中及其重要并且亟需解决的问题。时序语言定位任务根据给定的文本，从一段长视频中，找到与该文本语义最为对应的一个片段，并返回该片段的开始时间和结束时间。时序语言定位任务具有广泛的应用前景，已经引起了工业界及学术界的广泛关注。
[0003]然而时序语言定位任务也具有一定的挑战。其一，检索文本和视频之间巨大的模态差异，极大地增加了检索文本与视频片段对齐的难度。其二，相互重叠的视频片段往往有相似的视频特征，这对区分不同的视频片段与检索文本的相似性带来了极大的干扰。其三，不同的人对动作发生的时刻有着不同的理解，这就导致了数据标注的不准确。
[0004]申请公布号为CN 115238130 A的专利文献中公开了一种基于模态定制协同注意力交互的时序语言定位方法及装置，其首先获取成对的未剪辑视频
‑
文本查询数据，构建时序语言定位任务的数据集，然后对视频提取视频表征，将文本提取的单词级查询表征和句子查询表征组合得到多粒度查询表征，接着将视频提取表征和多粒度查询表征共同输入模态定制协同注意力交互模块，获取视频
‑
>文本跨模态融合后已语义对齐视频表征，最后根据跨模态融合后的已语义对齐视频表征，使用包含稠密时序边界回归、语义匹配分数预测以及交并比回归的多分支任务，得到相应的时序语言定位结果。该方法利用协同注意力虽说提升了时序语言定位任务的性能，但由于在协同注意力交互中使用了存在语义局限性的文本查询表征，因而不能很好的与视频内容相对应，使得视频
‑
文本融合后的视频表征无法获取足够的跨模态信息，导致视频检索的精度较低。

技术实现思路

[0005]本专利技术的目的在于克服上述现有技术存在的缺陷，提出一种基于跨模态文本相关注意力的时序语言定位方法，以获取足够的跨模态信息，提高视频检索的精度。
[0006]为实现上述目的，本专利技术的技术方案包括如下步骤：
[0007](1)获取原始的未剪辑视频和文本查询数据，并将其按照3：1的比例分为训练数据集和测试数据集；
[0008](2)通过视频编码器提取训练数据集中视频对应的视频特征V，通过分词与词嵌入编码器提取训练集中文本对应的文本特征S；
[0009](3)构建基于跨模态文本相关注意力的时序语言定位模型；
[0010](3a)对视频特征V、文本特征S分别构建对应的全连接层L
v
、L
S
及自注意力特征提取
器N
v
、N
s
，将视频特征V依次通过L
v
及N
v
获得视频自注意力特征V
t
，将文本特征S依次通过L
S
及N
s
获得文本自注意力特征S
t
；
[0011](3b)根据视频自注意力特征V
t
和文本自注意力特征S
t
，计算跨模态文本相关注意力矩阵E；
[0012](3c)构建维度大小为300
×
384的全连接层L
E
以及跨模态融合自注意力特征提取器N
E
，将跨模态文本相关注意力矩阵E依次通过全连接层L
E
、跨模态融合自注意力特征提取器N
E
，得到跨模态相关注意力特征编码E
t
；
[0013](3d)将跨模态相关注意力特征编码E
t
输入到现有的双向门控循环单元网络得到时刻定位特征E
tg
；
[0014](3e)分别建立大小均为768
×
1的起始时刻定位全连接层L
Q
和结束时刻定位全连接层L
J
；
[0015](3f)将时刻定位特征E
tg
分别通过L
Q
、L
J
，得到对应的起始时刻定位特征E
Q
和结束时刻定位特征E
J
，再通过归一化选取出其各自对应的起始时刻和结束时刻，构成基于跨模态文本相关注意力的时序语言定位模型；
[0016](4)设置Kullback
‑
Leibler散度作为步骤3所构建的时序语言定位模型的损失函数，将训练数据集输入到已构建的时序语言定位模型中，并使用优化器进行模型参数的更新，直到损失函数收敛，得到训练好的基于跨模态文本相关注意力的时序语言定位模型；
[0017](5)将测试数据集输入到训练好的基于跨模态文本相关注意力的时序语言定位模型进行测试，输出具有最高置信度值的目标片段时序边界回归值作为所述测试数据集的时序语言定位结果。
[0018]本专利技术与现有技术相比较，具有以下优点：
[0019]本专利技术利用文本特征与视频特征进行融合获取融合特征，使用文本语义信息与融合特征注意力的交互，实现视频的时序定位，生成起始帧和结束帧，可在各种复杂的跨模态视频检索中得到丰富的相关特征信息，提高检索精度。
附图说明
[0020]图1是本专利技术的实现流程图。
[0021]图2是本专利技术跨模态文本相关注意力的时序语言定位模型的结构图。
[0022]图3是本专利技术中自注意力特征提取器的结构图。
具体实施方式
[0023]下面结合附图和具体实施例，对本专利技术作进一步详细描述。
[0024]参照图1，本实例包括如下实现步骤：
[0025]步骤1，获取原始的未剪辑视频和文本查询数据，划分练数据集和测试数据集。
[0026]本实施例中，使用的视频与文本输入来自Charades
‑
STA数据集。该数据集包含6672个日常生活中拍摄的视频，共含有16128个视频
‑
文本标注对；
[0027]将视频
‑
文本标注对按照约3：1的比例划分为训练数据集和测试数据集，其中训练集含有12408对，测试集含有3720对。
[0028]步骤2，分别提取训练数据集中视频对应的视频特征V和文本对应的文本特征S。
[0029](2.1)将训练数据集中的视频输入到现有的视频编码器中，按照每秒4个特征块的数量提取视频特征，得到长度与视频对应长度v
l
相同、维度为1024的视频特征V；
[0030](2.2)对训练数据集中的文本查询语句先进行分词，再将得到的单词输入到现有的词嵌入编码器中，得到长度与文本对应长度s
l
相同、维度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态文本相关注意力的时序语言定位方法，其特征在于，包括如下步骤：(1)获取原始的未剪辑视频和文本查询数据，并将其按照3：1的比例分为训练数据集和测试数据集；(2)通过视频编码器提取训练数据集中视频对应的视频特征V，通过分词与词嵌入编码器提取训练集中文本对应的文本特征S；(3)构建基于跨模态文本相关注意力的时序语言定位模型；(3a)对视频特征V、文本特征S分别构建对应的全连接层L
v
、L
S
及自注意力特征提取器N
v
、N
s
，将视频特征V依次通过L
v
及N
v
获得视频自注意力特征V
t
，将文本特征S依次通过L
S
及N
s
获得文本自注意力特征S
t
；(3b)根据视频自注意力特征V
t
和文本自注意力特征S
t
，计算跨模态文本相关注意力矩阵E；(3c)构建维度大小为300
×
384的全连接层L
E
以及跨模态融合自注意力特征提取器N
E
，将跨模态文本相关注意力矩阵E依次通过全连接层L
E
、跨模态融合自注意力特征提取器N
E
，得到跨模态相关注意力特征编码E
t
；(3d)将跨模态相关注意力特征编码E
t
输入到现有的双向门控循环单元网络得到时刻定位特征E
tg
；(3e)分别建立大小均为768
×
1的起始时刻定位全连接层L
Q
和结束时刻定位全连接层L
J
；(3f)将时刻定位特征E
tg
分别通过L
Q
、L
J
，得到对应的起始时刻定位特征E
Q
和结束时刻定位特征E
J
，再通过归一化选取出其各自对应的起始时刻和结束时刻，构成基于跨模态文本相关注意力的时序语言定位模型；(4)设置Kullback
‑
Leibler散度作为步骤3所构建的时序语言定位模型的损失函数，将训练数据集输入到已构建的时序语言定位模型中，并使用优化器进行模型参数的更新，直到损失函数收敛，得到训练好的基于跨模态文本相关注意力的时序语言定位模型；(5)将测试数据集输入到训练好的基于跨模态文本相关注意力的时序语言定位模型进行测试，输出具有最高置信度值的目标片段时序边界回归值作为所述测试数据集的时序语言定位结果。2.根据权利要求1所述的方法，其特征在于，所述步骤(2)通过视频编码器提取训练数据集中视频对应的视频特征V，是将未剪辑视频输入到视频编码器中，按照每秒4个特征块的数量提取视频特征，得到长度与视频对应长度v
l
相同、维度为1024的视频特征V。3.根据权利要求1所述的方法，其特征在于，所述步骤(2)通过分词与词嵌入编码器提取训练集中文本对应的文本特征S，是对文本查询语句先进行分词，将得到的单词输入到词嵌入编码器中，得到长度与文本对应长度s
l
相同、维度为300的文本特征S。4.根据权利要求1所述的方法，其特征在于，所述步骤(3a)中视频特征的全连接层L
v
和文本特征的全连接层L
S
，参数如下：所述视频特征V的全连接层L
v
大小为1024
×
128；所述文本特征S的全连接层L
S
大小为300
×
128。5.根据权利要求1所述的方法，其特征在于，所述步骤(3a)中视频特征的自注意力特征提取器N
v
和文本特征的自注意力特征提取器N
s
，其结构参数相同，即每个自注意力特征提取
器均包括依次连接的位置编码层、丢弃层、多头自注意力编码器P和归一化层；该多头自注意力编码器P，由6个依次连接的自注意力编码层T组成，每个意力编码层T包括依次连接的第一归一化层、自注意模块F、第一随即深度层、第二归一化层和前向传播层Y，且第一归一化层的输入与第一随机深度层的输出残差连接，第二归一化层的输出与前向传播层的输出残差连接；该第一随即深度层的丢弃率为0.3。6.根据权利要求5所述的方法，其特征在于：所述自注意模块F，包括顺次连接的第一线性层、注意力丢弃层、第二线性层和第一丢弃层；该第一线性层大小为128
×
384，注意力丢弃层的丢弃率为0.3，第二线性层大小为128
×
128，第一丢弃层的丢弃率为0.3；所述前向传播层Y，包括顺次连接的第三线性层、GELU激活函数、第二丢弃层、第四线性层、第三丢弃层和第二随即深度层；该第三线性层大小为128
×
128，第二丢弃层的丢弃率为0.3，第四线性层大小为128
×
128，第三丢弃层的丢弃率为0.3，第二随即深度层丢弃率为0.2。7.根据权利要求1所述的方法，其特征在于，所述步骤(3a)中获得的视频自注意力特征V
t
和文本自...

【专利技术属性】
技术研发人员：何立火，邓夏迪，黄子涵，唐杰浩，王笛，高新波，路文，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人