【技术实现步骤摘要】
视频文本的相似性度量方法及系统
[0001]本专利技术属于视频
‑
文本跨模态检索
,尤其涉及视频文本的相似性度量方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]近年来,由于视频分析和自然语言处理都取得了迅速的发展,从而也将视频
‑
文本跨模态研究推向了研究的高潮。但是视频、文本模态之间的语义存在着较大的差异,在不同的模态之间缩小这种差异仍然是一个挑战性任务。视频文本跨模态检索旨在检索给定文本(视频)查询的目标视频(文本)。并根据检索相似性分数,将检索到的视频或者文本进行排序。视频
‑
文本跨模态检索与图像
‑
文本跨模态检索相比,由于视频内部含有多种模态信息并且视频特征之间存在时序信息,这对视频特征的有效表示带来了一定的困难。现有的视频
‑
文本跨模态检索方法主要集中于利用视频的单模态信息特征,没有充分的利用视频模态中包含的多模态信息。即使有相关的研究方 ...
【技术保护点】
【技术特征摘要】
1.视频文本的相似性度量方法,其特征是,包括:使用预训练的特征提取器提取视频的多模态特征,得到初始视频特征表示;将初始特征输入到粗
‑
细粒度并列注意力网络中,得到中间表示特征;将中间特征表示输入到特征融合网络得到最终的视频多模态特征表示;利用预先训练的模型对输入文本进行文本特征提取,得到文本特征表示;通过门嵌入生成对应视频不同模态特征的文本特征表示向量;对视频多模态特征表示以及文本特征表示进行相似性度量。2.如权利要求1所述的视频文本的相似性度量方法,其特征是,视频的不同模态初始特征提取的过程为:使用不同的网络提取视频的多种模态特征,得到视频中不同模态的初始特征表示;将视频中不同模态特征对齐,将特征提取时的时间信息融入到不同的特征中;将不同模态的初始特征表示和时间特征进行嵌入;利用粗细粒度并列注意力网络从局部区域特征和全局区域特征对嵌入后的特征进行处理。3.如权利要求2所述的视频文本的相似性度量方法,其特征是,所述粗细粒度并列注意力网络中粗粒度注意网络处理的过程为:通过区域池化策略将每个视频的不同模态特征进行划分;将划分后的每个部分特征输入卷积层,通过区域注意力机制实现每个部分区域之间的联系;通过对计算出的部分特征相似矩阵与嵌入的部分特征进行内积计算,得到部分特征增强矩阵;通过部分增强特征的加权组合,得到了聚合特征。4.如权利要求2所述的视频文本的相似性度量方法,其特征是,所述粗细粒度并列注意力网络中细粒度注意力网络处理过程为:将每个视频模态的初始特征转换为全局特征图;计算图中特征点之间的联系得到完整的连接图;根据图的注意机制,计算注意系数,获得节点特征;对节点特征进行了批量归一化,获得细粒度注意网络生成的特征。5.如权利要求1所述的视频文本的相似性度量方法,...
【专利技术属性】
技术研发人员:张化祥,金明,刘丽,朱磊,孙建德,聂礼强,金圣开,
申请(专利权)人:山东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。