基于音视频融合的地震幸存者识别方法及装置制造方法及图纸

技术编号:34612011 阅读:16 留言:0更新日期:2022-08-20 09:17
本申请提供一种基于音视频融合的地震幸存者识别方法及装置,方法包括:确定目标视频,所述目标视频包括N个视频片段,N为正整数;提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征;基于自注意力机制和跨模态注意力机制,融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征,确定各个视频片段对应的时序音频特征和时序视觉特征;基于所述时序音频特征和时序视觉特征,确定所述目标视频的地震幸存者识别结果,提升了幸存者识别的精度。了幸存者识别的精度。了幸存者识别的精度。

【技术实现步骤摘要】
基于音视频融合的地震幸存者识别方法及装置


[0001]本申请涉及计算机
,尤其涉及一种基于音视频融合的地震幸存者识别方法及装置。

技术介绍

[0002]在地震灾后救援过程中,如何确认坍塌建筑物的蜂窝状空穴中是否存在幸存者是救援的基础任务。例如可以基于地震场景的视频或音频数据,通过人工智能算法检测人体目标可以提升灾情救援的速度。
[0003]随着深度学习的应用,现有的目标检测任务取得了长足的发展。例如,Redmon等人将目标检测问题看作一个回归问题并利用一个单独网络进行求解,而Ren等人基于区域候选网络生成候选区域,进而通过回归器得到目标的位置信息。
[0004]但是,现有的检测方法,难以应对复杂多变和环境恶劣的地震场景。具体而言,灾后复杂多变的场景会导致单模态人体目标特征缺失有效信息,从而影响幸存者识别任务的精度。

技术实现思路

[0005]本申请提供一种基于音视频融合的地震幸存者识别方法及装置,用以解决现有技术中幸存者识别任务的精度低的缺陷,实现提升幸存者识别的精度。
[0006]本申请提供一种基于音视频融合的地震幸存者识别方法,包括:
[0007]确定目标视频,所述目标视频包括N个视频片段,N为正整数;
[0008]提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征;
[0009]基于自注意力机制和跨模态注意力机制,融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征,确定各个视频片段对应的时序音频特征和时序视觉特征;<br/>[0010]基于所述时序音频特征和时序视觉特征,确定所述目标视频的地震幸存者识别结果。
[0011]根据本申请提供的一种基于音视频融合的地震幸存者识别方法,所述提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征,包括:
[0012]确定所述N个视频片段中各个视频片段对应的音频信息和视觉信息;
[0013]提取所述音频信息和视觉信息的骨干特征,所述骨干特征包括音频骨干特征、视觉二维骨干特征和视觉三维骨干特征;
[0014]将所述骨干特征映射为所述各个视频片段对应的音频特征和视觉特征。
[0015]根据本申请提供的一种基于音视频融合的地震幸存者识别方法,所述基于自注意力机制和跨模态注意力机制,融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征,确定各个视频片段对应的时序音频特征和时序视觉特征,包括:
[0016]基于所述各个视频片段对应的音频特征和视觉特征,确定每个所述音频特征对应
的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征;
[0017]基于所述每个视频片段的音频特征、所述同模态时序音频特征和所述跨模态时序视觉特征,确定所述每个视频片段的时序音频特征,并基于所述每个视频片段的视觉特征、所述同模态时序视觉特征和所述跨模态时序音频特征,确定所述每个视频片段的时序音频特征。
[0018]根据本申请提供的一种基于音视频融合的地震幸存者识别方法,所述基于所述各个视频片段对应的音频特征和视觉特征,确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征,包括:
[0019]确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度,并基于所述音频与音频相似度,确定每个所述音频特征对应的同模态时序音频特征;
[0020]确定每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频视觉相似度,并基于所述音频视觉相似度,确定每个所述音频特征对应的跨模态时序视觉特征;
[0021]确定每个视频片段的视觉特征与所述N个视频片段的视觉特征之间的视觉与视觉相似度,并基于所述视觉与视觉相似度,确定每个所述视觉特征对应的同模态时序视觉特征;
[0022]确定每个视频片段的视觉特征与所述N个视频片段的音频特征之间的视觉音频相似度,并基于所述视觉音频相似度,确定每个所述视觉特征对应的跨模态时序音频特征。
[0023]根据本申请提供的一种基于音视频融合的地震幸存者识别方法,所述确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度,包括:
[0024]基于所述N个视频片段的音频特征和音频与音频相似度计算公式,确定每个所述音频特征与所述N个视频片段的音频特征之间的音频与音频相似度;
[0025]所述音频与音频相似度计算公式如下:
[0026][0027]其中,表示所述目标视频的第k个片段的音频特征,k为小于N的正整数,表示所述目标视频的第j个片段的音频特征,j为小于N的正整数,表示和的音频与音频相似度,T表示转置操作,d表示特征的维度,表示所述目标视频的第q个片段的音频特征,q为小于N的正整数,exp表示以自然常数e为底的指数函数;
[0028]所述基于所述音频与音频相似度,确定每个所述音频特征对应的同模态时序音频特征,包括:
[0029]基于每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度,利用同模态时序音频特征计算公式,确定每个所述音频特征对应的同模态时序音频特征;
[0030]所述同模态时序音频特征计算公式如下:
[0031][0032]其中,表示与对应的同模态时序音频特征,表示目标视频的第s个片段的音频特征,s为小于N的正整数,表示和的音频与音频相似度。
[0033]根据本申请提供的一种基于音视频融合的地震幸存者识别方法,所述确定每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频视觉相似度,包括:
[0034]基于所述N个视频片段的音频特征和音频视觉相似度计算公式,确定每个所述音频特征与所述N个视频片段的视觉特征之间的音频视觉相似度;
[0035]所述音频视觉相似度计算公式如下:
[0036][0037]其中,表示所述目标视频的第k个片段的音频特征,k为小于N的正整数,表示所述目标视频的第j个片段的视觉特征,j为小于N的正整数,表示和之间的音频视觉相似度,T表示转置操作,d表示特征的维度,表示所述目标视频的第q个片段的视觉特征,q为小于N的正整数,exp表示以自然常数e为底的指数函数;
[0038]所述基于所述音频视觉相似度,确定每个所述音频特征对应的跨模态时序视觉特征,包括:
[0039]基于每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频与音频相似度,利用跨模态时序视觉特征计算公式,确定每个所述音频特征对应的跨模态时序视觉特征;
[0040]所述跨模态时序视觉特征计算公式如下:
[0041][0042]其中,表示与对应的跨模态时序视觉特征,表示目标视频的第s个片段的视觉特征,s为小于N的正整数,表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音视频融合的地震幸存者识别方法,其特征在于,包括:确定目标视频,所述目标视频包括N个视频片段,N为正整数;提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征;基于自注意力机制和跨模态注意力机制,融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征,确定各个视频片段对应的时序音频特征和时序视觉特征;基于所述时序音频特征和时序视觉特征,确定所述目标视频的地震幸存者识别结果。2.根据权利要求1所述的基于音视频融合的地震幸存者识别方法,其特征在于,所述提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征,包括:确定所述N个视频片段中各个视频片段对应的音频信息和视觉信息;提取所述音频信息和视觉信息的骨干特征,所述骨干特征包括音频骨干特征、视觉二维骨干特征和视觉三维骨干特征;将所述骨干特征映射为所述各个视频片段对应的音频特征和视觉特征。3.根据权利要求1所述的基于音视频融合的地震幸存者识别方法,其特征在于,所述基于自注意力机制和跨模态注意力机制,融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征,确定各个视频片段对应的时序音频特征和时序视觉特征,包括:基于所述各个视频片段对应的音频特征和视觉特征,确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征;基于所述每个视频片段的音频特征、所述同模态时序音频特征和所述跨模态时序视觉特征,确定所述每个视频片段的时序音频特征,并基于所述每个视频片段的视觉特征、所述同模态时序视觉特征和所述跨模态时序音频特征,确定所述每个视频片段的时序音频特征。4.根据权利要求3所述的基于音视频融合的地震幸存者识别方法,其特征在于,所述基于所述各个视频片段对应的音频特征和视觉特征,确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征,包括:确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度,并基于所述音频与音频相似度,确定每个所述音频特征对应的同模态时序音频特征;确定每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频视觉相似度,并基于所述音频视觉相似度,确定每个所述音频特征对应的跨模态时序视觉特征;确定每个视频片段的视觉特征与所述N个视频片段的视觉特征之间的视觉与视觉相似度,并基于所述视觉与视觉相似度,确定每个所述视觉特征对应的同模态时序视觉特征;确定每个视频片段的视觉特征与所述N个视频片段的音频特征之间的视觉音频相似度,并基于所述视觉音频相似度,确定每个所述视觉特征对应的跨模态时序音频特征。5.根据权利要求4所述的基于音视频融合的地震幸存者识别方法,其特征在于,所述确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度,包括:
基于所述N个视频片段的音频特征和音频与音频相似度计算公式,确定每个所述音频特征与所述N个视频片段的音频特征之间的音频与音频相似度;所述...

【专利技术属性】
技术研发人员:徐常胜姚涵涛
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1