System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种机场运控视频检索的方法技术_技高网

一种机场运控视频检索的方法技术

技术编号:40869410 阅读:4 留言:0更新日期:2024-04-08 16:35
本发明专利技术公开了一种机场运控视频检索的方法,属于机场场面运控管理及人工智能多模态领域。本发明专利技术包括:采集包含机场人体动作的视频数据并做文本描述与时序标注;对原始视频数据进行预处理生成数据集;构建基于I3D的骨干网络获取视频特征序列;构建基于自注意力的视频序列分析器;构建文本序列分析器对标注文本进行嵌入;取标注文本嵌入后特征与其对应的视频片段经过视频序列分析器得到的特征计算相似性;构建基于提示学习的文本处理方法,处理后送入文本序列分析器进行嵌入;构建基于互注意力的多模态融合模型,完成对视频流中文本描述片段的定位与检索。本发明专利技术通过上述技术方案,在减少模型计算量的前提下大幅提升了机场运控视频检索的准确度。

【技术实现步骤摘要】

本专利技术属于机场场面运控管理及人工智能多模态领域,具体涉及一种机场运控视频检索的方法


技术介绍

1、随着人工智能技术的不断发展和多模态数据的广泛应用,机场场面运控管理领域的需求日益增加,特别是在实现更高效的视频监控和信息检索方面。机场作为关键的交通枢纽,需要有效管理和监控各种运营活动,以确保安全、顺畅的运行。传统的视频监控系统能够提供大量的视觉信息,但这些信息通常需要通过人工方式进行检查和分析,这在大规模机场场面中变得非常繁重和耗时。

2、为了解决这一问题,多模态技术和人工智能方法已经被引入到机场场面运控管理中。多模态技术允许结合不同传感器和数据源的信息,例如视频、语音、文本等,从而提供更全面的场景感知。同时,机器学习和深度学习技术已经广泛应用于视频分析和文字处理,以提高监控和检索的效率。然而,在过去的研究中,多模态数据之间的关联和信息检索的准确性仍然面临挑战。

3、传统多模态通过文字进行视频检索多使用锚框和排序方法,生成大量可能区域,再使用rnn,transformer,3d卷积进行特征分析与比对,又或者使用大量的迭代夹逼开始和结束时间点。这一系列方法有着无法端到端训练、算力资源消耗大、计算时间长等问题,不适合机场场面运控管理的实例部署。


技术实现思路

1、为了解决现有技术的不足,本专利技术提供了一种机场运控视频检索的方法,在减小计算成本的情况下,使用提示学习、对比学习和互注意力方法更好地融合了图像与文本的多模态特征,大幅提升了定位和检索的准确度。p>

2、本专利技术采用的技术方案如下:

3、一种机场运控视频检索的方法,包括以下步骤:

4、步骤1,采集包含机场人体动作的视频数据,并对视频数据中的每段人体动作标注动作起始时间、结束时间,并对其进行文字描述,得到原始视频数据集及文本数据集,并对原始视频数据集中的数据进行预处理和构建训练样本;

5、步骤2:构建特征提取模块(优选基于i3d(inflated 3d convnet)的骨干网络作为特征提取模块),对原始视频数据集中的数据进行特征提取,得到人体动作特征,并基于每段人体动作所对应的视频段的人体动作特征得到整段视频特征;

6、步骤3:构建基于自注意力的视频序列分析器,分别对整段视频特征和有文字描述的特定视频片段特征进行分析;

7、步骤4:构建基于bert-base-uncased的文本序列分析器对标注文本进行嵌入;

8、步骤5:取标注文本嵌入后的class_token特征与其对应的视频片段特征在步骤3中经过视频序列分析器得到的class_token特征计算对比损失;

9、步骤6:构建基于提示学习的文本处理方式,为视频的文本描述添加提示信息,并将文本处理结果送入文本序列分析器进行嵌入,得到提示学习文本特征;

10、步骤7:构建基于互注意力的多模态融合模型,将步骤3中得到的整段视频特征和步骤6中得到的提示学习文本特征送入模型,完成对视频流中文本描述片段的定位与检索,并计算kl散度损失,最后通过降低文本序列分析器的对比损失和多模态融合模型的kl散度损失训练该端到端模型(即机场运控视频检索的端到端模型),该端到端模型包括特征提取模块、视频序列分析器、文本序列分析器和多模态融合模型。

11、本专利技术首先使用了基于i3d构建特征提取模块,预提取视频特征,在提升输入特征的语义融合度的同时降低计算成本。随后通过计算标注文本嵌入后语义特征的class_token与其对应的视频片段特征中的class_token特征对比损失,可以有效拉近视频序列分析器和文本序列分析器对同一动作的理解与表达。之后通过引入提示学习在原描述文本输入的后面加上提示信息,告诉模型要进行特定视频片段的检索与开始结束时间的定位,使基于bert-base-uncased的文本序列分析器对文本的嵌入和理解能力向具体任务倾斜。最后使用互注意力进行多模态融合,使用具有提示语义的描述文本从完整视频流中高效准确的定位检索特定片段。

12、进一步的,所述步骤1包括以下步骤:

13、步骤1.1,采集包含机场活动人体动作的视频数据,并对视频数据中的每段人体动作标注动作起始时间、结束时间,并对其进行文字描述,得到原始视频及文本数据集;

14、步骤1.2,按照预定的比例将原始视频数据集随机划分得到训练集和测试集;

15、步骤1.3:将原始视频数据集中的原始视频以指定的抽帧比例(例如32fps)进行抽帧,并将每一帧图像分辨率调整至统一尺寸,如224*224,得到rgb图像帧序列;

16、步骤1.4:对得到的rgb图像帧序列进行图像增强后进行抽光流处理,得到对应的光流图,例如采用tvl1算法进行抽光流;

17、步骤1.5:基于既定的视频块长度,将包含指定帧数(例如8帧)的rgb图像和光流图像构成一组视频块,作为动作特征提取的最小单元。

18、进一步的,所述步骤2包括以下步骤:

19、步骤2.1:基于i3d(inflated 3d convnet)构建特征提取模块,通过该特征提取模块分别提取rgb图像及光流图的特征后再进行特征融合,得到特征提取模块的输出;

20、先基于采用的数据集对特征提取模块进行预训练,再提取得到本数据集最小单元的m维特征,将提取得到的m维视频特征序列通过前馈神经网络映射到m1维,其中,m和m1为自定义参数,分别用于表征人体动作特征的初始维度和映射后的维度;

21、步骤2.2:将最小单元组合得到完整数据集视频特征,将各个完整视频中包含文字描述的特定片段分出,将每段文字描述、其对应的特定视频片段、包含该片段的完整视频流,这三部分作为整个端到端模型的一次输入。

22、进一步的,步骤3中,构建的基于自注意力的视频序列分析器包括若干层transformer模块的transformer堆叠结构(例如设置为3层的transformer模块的transformer堆叠结构堆叠结构),并在视频序列分析器的输入序列的第一位添加class_token后,再对整个序列进行可学习的位置编码,接着将位置编码结果输入transformer堆叠结构,其中,transformer模块依次包括:掩码多头注意力层(即带掩码的多头注意力层)、加法和规范化层、前馈神经网络层和加法和规范化层。

23、在视频序列分析器的训练过程中,其参数会随着训练的迭代而更新。这意味着视频序列分析器可以逐渐学习到不同位置的编码,以适应不同任务和输入数据的需求。其公式如下:

24、xwith_position_encoding=x+p

25、式中:xwith_position_encoding是加入了位置编码的输入序列,x是原始的输入序列,p是位置编码矩阵。

26、视频序列分析器模型输入为n*m1维序列{x1,x2,...,xn},输出为(n+1)*m1维序列{xcls,x本文档来自技高网...

【技术保护点】

1.一种机场运控视频检索的方法,其特征在于,包括下列步骤:

2.如权利要求1所述的方法,其特征在于,步骤1中,对原始视频数据集中的数据进行预处理包括:

3.如权利要求2所述的方法,其特征在于,步骤2包括:

4.如权利要求2所述的方法,其特征在于,步骤3中,构建的基于自注意力的视频序列分析器包括若干层transformer模块的transformer堆叠结构,并在视频序列分析器的输入序列的第一位添加class_token后,再对整个序列进行可学习的位置编码,接着将位置编码结果输入transformer堆叠结构;

5.如权利要求1所述的方法,其特征在于,步骤4中,基于Bert-base-uncased模型的前八层构建的文本序列分析。

6.如权利要求4所述的方法,其特征在于,步骤5中的对比损失具体计算方式为:

7.如权利要求1所述的方法,其特征在于,步骤6中,基于提示学习的文本处理方式为:在原描述文本输入的末端添加提示信息,该提示信息用于标识特定视频片段的检索开始时间与检索结束时间的定位,定义Yp表示基于提示学习的文本处理后的文本描述;再将文本描述Yp送入文本序列分析器进行嵌入得到特征维度m1的提示文本特征序列,记为P={pcls,p1,p2,...,pn},其中,pcls表示视频序列分析器输出的提示文本的class_token向量。

8.如权利要求1所述的方法,其特征在于,步骤7中,所述多模态融合模型包括三个融合块,每个融合块依次包括:掩码多头注意力层、加法和规范化层、掩码多头互注意力层、加法和规范化层、前馈神经网络层和加法和规范化层;

9.如权利要求1至8任一项所述的方法,其特征在于,步骤7中,基于视频定位预测结果与真实时间标签在整个视频时间段的高斯分布进行kl散度损失函数计算损失;

...

【技术特征摘要】

1.一种机场运控视频检索的方法,其特征在于,包括下列步骤:

2.如权利要求1所述的方法,其特征在于,步骤1中,对原始视频数据集中的数据进行预处理包括:

3.如权利要求2所述的方法,其特征在于,步骤2包括:

4.如权利要求2所述的方法,其特征在于,步骤3中,构建的基于自注意力的视频序列分析器包括若干层transformer模块的transformer堆叠结构,并在视频序列分析器的输入序列的第一位添加class_token后,再对整个序列进行可学习的位置编码,接着将位置编码结果输入transformer堆叠结构;

5.如权利要求1所述的方法,其特征在于,步骤4中,基于bert-base-uncased模型的前八层构建的文本序列分析。

6.如权利要求4所述的方法,其特征在于,步骤5中的对比损失具体计算方式为:

7.如权利要求1...

【专利技术属性】
技术研发人员:程建石俊豪陈子翀李晓辰夏子瀛
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1