基于自约束动态文本特征的无监督视频描述方法技术

技术编号:37560635 阅读:10 留言:0更新日期:2023-05-15 07:42
本发明专利技术公开了基于自约束动态文本特征的无监督视频描述方法。本发明专利技术方法首先对视频均匀采样提取其视频外观和运动特征向量、目标特征向量和目标类别标记,获取随机描述语句的独热编码向量,将其和视频特征向量一起输入描述语句生成模块中;获取生成语句特征矩阵并将其输入伪标记生成模块中获取伪文本特征矩阵;将伪文本特征矩阵替换随机描述语句特征矩阵,重新输入描述语句生成模块中获取最终生成语句特征矩阵;最后通过贪心搜索算法生成对应描述语句。本发明专利技术方法无需人工标记,通过约束激活单元实现视觉信息和语言知识的匹配而缩小语义差异,并利用文本特征动态优化方式生成伪标记,有利于获得更流畅准确描述视频内容的自然语句。语句。语句。

【技术实现步骤摘要】
基于自约束动态文本特征的无监督视频描述方法


[0001]本专利技术属于计算机视觉
,尤其是视觉理解与分析领域,涉及一种基于自约束动态文本特征的无监督视频描述方法。

技术介绍

[0002]在5G时代,视频作为最能还原真实世界的内容载体,已成为互联网中主要内容表现形式。如何准确理解视频内容已成为视频标题生成、视频检索、视障辅助、人机交互等实际应用领域的迫切挑战,如何用自然语言描述视频内容已成为计算机视觉语义理解的重要研究方向。在日常生活中,视障人群由于视觉通道的缺失或不完整,外界的多媒体信息难以有效传达到大脑,使得该群体的环境感知能力较弱。例如,无法像视力正常人群实现影视内容的画面语音文字的同步理解;针对视障人群可以利用视频描述技术,将视频内容变为文字描述,再利用语音转换技术将文字转换为语音播报,帮助视障人群通过声音理解影视画面内容,从而可满足该人群的日常需求。
[0003]视频描述任务旨在对给定的视频提取特征,并将其转换为一句或一段符合正确语法的自然语句。相对图像描述任务只需捕捉静态信息,视频描述任务需要对视频数据中多样、复杂的时空特征与语义特征进行分析、处理与重新表达,因而更具挑战性。
[0004]目前,主流的视频描述方法采用编码器

解码器(Encoder

decoder)框架。其中,编码器一般采用残差网络(ResNet,Residual Network)和卷积三维神经网络(C3D,Convolutional 3D Neural Network)分别获取视频的外观特征和运动特征;解码器一般采用长短时记忆网络(LSTM,Long

Short Time Memory)用于解码视频特征生成对应的描述语句。当前视频描述方法依赖于人工手动文本标记,该文本标记与视频之间为成对关系,利用全监督方式训练模型。为了减少文本标记依赖,有必要探讨无监督视频描述模型。近年来,大型预训练语言模型发展较快,包含大量的语言知识,如语法逻辑、词性信息和时态信息等,能显著提高生成语句的语义连贯性和准确性,可用于帮助无监督模型生成准确反映视频内容的自然语句。此外,在自然语言处理领,无监督语句生成任务一般采用强化学习方式,通过设计某种学习策略,使得模型在与环境交互过程中的回报最大化。
[0005]上述方法主要存在以下不足:(1)现有的视频描述模型依赖于大量的视频

文本描述对,但文本描述需要人工标记,导致人工成本较高,甚至会产生标记错误,极大限制了视频描述模型在实际场景中的应用范围;(2)在视频描述领域,利用大型预训练语言模型时,由于预训练的语言模型并不是为视觉任务设计,因此该预训练模型与视频描述任务存在不匹配问题,将导致生成语句语义错误,如生成与视频内容无关单词;(3)在自然语言处理领域,无监督生成任务利用强化学习微调大型预训练语言模型,将带来高昂的计算开销,难以满足数据量庞大的实际任务。基于以上考虑,迫切需要一种既能平衡视觉信息和语言知识,又能自动生成监督文本的无监督视频描述方法。

技术实现思路

[0006]本专利技术的目的就是针对现有技术的不足,提出了一种基于自约束动态文本特征的无监督视频描述方法,设计约束激活单元,平衡视觉输入和语言知识,解决预训练语言模型与视频描述任务不匹配问题;利用文本特征动态优化方法,生成伪标记,解决无监督任务缺乏监督信息问题,最终生成自然流畅的视频描述语句。
[0007]本专利技术方法获取视频数据集合后,依次进行如下操作:
[0008]步骤(1)对视频均匀采样得到帧序列,利用二维和三维卷积网络分别获取外观特征和运动特征向量,并通过更快速区域卷积神经网络获取目标类别标记和目标特征向量;
[0009]步骤(2)利用约束激活单元,构建描述语句生成模块,约束激活单元由视觉约束门和语言约束门组成,输入为外观特征、运动特征以及目标特征向量,输出为生成语句特征矩阵;
[0010]步骤(3)构建伪标记生成模块,输入为生成语句特征矩阵和目标类别标记,通过对生成语句特征矩阵动态更新获得伪文本特征矩阵;
[0011]步骤(4)将伪文本特征矩阵重新输入语句生成模块,作为伪标记,利用随机梯度下降算法优化描述语句生成模块和伪标记生成模块;
[0012]步骤(5)对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。
[0013]进一步,步骤(1)具体是:
[0014](1

1)对视频均匀采样N个视频帧,获得帧序列集合三维张量x
i
为第i帧图像,C

、H

、W

分别为视频帧的通道数、高度和宽度,3≤N≤10,为实数域;随机描述语句的独热(One

hot)编码向量集合为T为描述语句长度,1≤T≤20,y
t
为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数,其中描述语句与视频为非对应关系,即随机一个自然语句都可作为该视频的描述语句;
[0015](1

2)利用残差网络提取视频的外观特征向量集合2)利用残差网络提取视频的外观特征向量集合表示第i帧的外观特征向量,d
a
表示外观特征向量的维度大小,上、下标a表示外观(appearance);利用卷积三维网络(C3D,Convolutional 3D Neural Network)提取视频的运动特征向量集合Network)提取视频的运动特征向量集合表示第i

1帧至第i+1帧提取的运动特征向量,d
m
表示运动特征向量的维度,上、下标m表示运动(motion);
[0016](1

3)对于视频帧x
i
,利用更快速区域卷积神经网络(Faster R

CNN,Fast Region

based Convolutional Neural Network)进行目标检测,获取第i帧的目标特征向量集合和整个视频中包含的目标类别标记o
i,j
表示第i帧的第j个目标的特征向量,Q表示设定的视频帧目标数量,1≤Q≤5,d
o
表示目标特征向量的维度大小,下标o表示目标(objective),c
k
表示第k个目标的类别标记向量,K为设定的目标类别数量,K≥1,d
c
表示目标类别的维度大小,
下标c表示类别(class);
[0017](1

4)对每个视频帧对应的目标特征向量进行最大池化操作,得到视频的池化目标特征向量集合其中Maxpool(
·
)表示在空间维度上进行最大池化操作,将外观特征向量运动特征向量和池化后的目标特征向量依次进行拼接,得到视频特征向量集合其中v
i
表示为第i帧的视频特征向量,视频特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自约束动态文本特征的无监督视频描述方法,其特征在于,首先获取视频数据集合,然后进行如下操作:步骤(1)对视频均匀采样得到帧序列,利用二维和三维卷积网络分别获取外观特征和运动特征向量,并通过更快速区域卷积神经网络获取目标类别标记和目标特征向量;步骤(2)利用约束激活单元,构建描述语句生成模块,约束激活单元由视觉约束门和语言约束门组成,输入为外观特征、运动特征以及目标特征向量,输出为生成语句特征矩阵;步骤(3)构建伪标记生成模块,输入为生成语句特征矩阵和目标类别标记,通过对生成语句特征矩阵动态更新获得伪文本特征矩阵;步骤(4)将伪文本特征矩阵重新输入语句生成模块,作为伪标记,利用随机梯度下降算法优化描述语句生成模块和伪标记生成模块;步骤(5)对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。2.如权利要求1所述的基于自约束动态文本特征的无监督视频描述方法,其特征在于,步骤(1)具体是:(1

1)对视频均匀采样N个视频帧,获得帧序列集合三维张量x
i
为第i帧图像,C

、H

、W

分别为视频帧的通道数、高度和宽度,3≤N≤10,为实数域;随机描述语句的独热编码向量集合为T为描述语句长度,1≤T≤20,y
t
为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数,其中描述语句与视频为非对应关系,即随机一个自然语句都可作为该视频的描述语句;(1

2)利用残差网络提取视频的外观特征向量集合2)利用残差网络提取视频的外观特征向量集合表示第i帧的外观特征向量,d
a
表示外观特征向量的维度大小;利用卷积三维网络提取视频的运动特征向量集合的运动特征向量集合表示第i

1帧至第i+1帧提取的运动特征向量,d
m
表示运动特征向量的维度;(1

3)对于视频帧x
i
,利用更快速区域卷积神经网络进行目标检测,获取第i帧的目标特征向量集合和整个视频中包含的目标类别标记o
i,j
表示第i帧的第j个目标的特征向量,Q表示设定的视频帧目标数量,1≤Q≤5,d
o
表示目标特征向量的维度大小,c
k
表示第k个目标的类别标记向量,K为设定的目标类别数量,K≥1,d
c
表示目标类别的维度大小;(1

4)对每个视频帧对应的目标特征向量进行最大池化操作,得到视频的池化目标特征向量集合其中Maxpool(
·
)表示在空间维度上进行最大池化操作,将外观特征向量运动特征向量和池化后的目标特征向量依次进行拼接,得到视频特征向量集合其中v
i
表示为第i帧的视频特征向量,视频特征向量维度d
v
=d
a
+d
m
+d
o
。3.如权利要求2所述的基于自约束动态文本特征的无监督视频描述方法,其特征在于,
步骤(2)具体是:(2

1)构造描述语句生成模块:描述语句生成模块由第二代生成式预训练转换器GPT

2和约束激活单元组成,其中GPT

2由L层转换器组成,L≥1,GPT

2为单向语言预训练模型,用于生成式任务,GPT

2已在大规模数据集上进行预训练,模型初始参数为预训练结果;约束激活单元由视觉约束门和语言约束门组成,用于平衡视觉信息和语言知识;(2

2)将视频特征向量v
i
和随机描述语句的独热编码向量y
t
,通过全连接层映射到同一维度大小d,得到映射后的视频特征矩阵和随机描述语句特征矩阵[
·
]
T
表示数学转置,矩阵的第i行矩阵的第t行和为可学习参数矩阵;(2

3)计算视频特征的位置编码矩阵Postion(
·
)为计算位置编码函数,具体操作为1≤ω≤d,表示矩阵PE
v
第i行第ω列的值,mod表示取余数运算;同理得到语句位置编码矩阵将视频位置编码矩阵PE
v
中的第i行和视频特征向量集合中第i个向量相加,语句位置编码矩阵PE
y
中的第t行和随机描述语句特征向量集合中第t个向量相加,得到加入位置编码的视频特征矩阵和随机描述语句特征矩阵矩阵的第i行矩阵的第t行的第t行表示逐元素相加;(2

4)将加入位置编码的视频特征矩阵和随机描述语句特征矩阵输入单向语言预训练模型GPT

2中第一层转换器的注意力子模块中,第二层开始将上一层转换器的输出矩阵替代位置编码的视频特征矩阵与随机描述语句特征矩阵输入单向语言预训练模型GPT

2中本层转换器的注意力子模块;注意力子模块由多头注意力层和线性层组成,计算各转换器的中间状态矩阵LayerNorm(
·
)表示层标准化操作,MultiHead(
·
)表示多头注意力操作;Concat(
·
)表示通道拼接操作,为第l层对应的可学习参数矩阵,为第h个头注意力向量,h=1,2,

,H,H表示注意力头的总数,H≥1,Attention(
·
)表示注意力操作,其中中均为第l层和第h个头对应的可学习参数矩阵;
(2

5)将中间状态矩阵输入约束激活单元得到视觉

语言输出矩阵约束激活单元由视觉约束门和语言约束门组成,活单元由视觉约束门和语言约束门组成,表示逐元素相乘;首先获取视觉约束门矩阵和语言约束门矩阵矩阵B
vis
的第t行第ω列的值矩阵B
lan
的第t行第ω列的值σ(
·
)表示Sigmoid激活...

【专利技术属性】
技术研发人员:王涛李平徐向华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1