基于音视频融合的地震幸存者识别方法及装置制造方法及图纸

技术编号：34612011 阅读：16 留言：0更新日期：2022-08-20 09:17

本申请提供一种基于音视频融合的地震幸存者识别方法及装置，方法包括：确定目标视频，所述目标视频包括N个视频片段，N为正整数；提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征；基于自注意力机制和跨模态注意力机制，融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征，确定各个视频片段对应的时序音频特征和时序视觉特征；基于所述时序音频特征和时序视觉特征，确定所述目标视频的地震幸存者识别结果，提升了幸存者识别的精度。了幸存者识别的精度。了幸存者识别的精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于音视频融合的地震幸存者识别方法及装置

[0001]本申请涉及计算机
，尤其涉及一种基于音视频融合的地震幸存者识别方法及装置。

技术介绍

[0002]在地震灾后救援过程中，如何确认坍塌建筑物的蜂窝状空穴中是否存在幸存者是救援的基础任务。例如可以基于地震场景的视频或音频数据，通过人工智能算法检测人体目标可以提升灾情救援的速度。
[0003]随着深度学习的应用，现有的目标检测任务取得了长足的发展。例如，Redmon等人将目标检测问题看作一个回归问题并利用一个单独网络进行求解，而Ren等人基于区域候选网络生成候选区域，进而通过回归器得到目标的位置信息。
[0004]但是，现有的检测方法，难以应对复杂多变和环境恶劣的地震场景。具体而言，灾后复杂多变的场景会导致单模态人体目标特征缺失有效信息，从而影响幸存者识别任务的精度。

技术实现思路

[0005]本申请提供一种基于音视频融合的地震幸存者识别方法及装置，用以解决现有技术中幸存者识别任务的精度低的缺陷，实现提升幸存者识别的精度。
[0006]本申请提供一种基于音视频融合的地震幸存者识别方法，包括：
[0007]确定目标视频，所述目标视频包括N个视频片段，N为正整数；
[0008]提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征；
[0009]基于自注意力机制和跨模态注意力机制，融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征，确定各个视频片段对应的时序音频特征和时序视觉特征；<...

【技术保护点】

【技术特征摘要】
1.一种基于音视频融合的地震幸存者识别方法，其特征在于，包括：确定目标视频，所述目标视频包括N个视频片段，N为正整数；提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征；基于自注意力机制和跨模态注意力机制，融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征，确定各个视频片段对应的时序音频特征和时序视觉特征；基于所述时序音频特征和时序视觉特征，确定所述目标视频的地震幸存者识别结果。2.根据权利要求1所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征，包括：确定所述N个视频片段中各个视频片段对应的音频信息和视觉信息；提取所述音频信息和视觉信息的骨干特征，所述骨干特征包括音频骨干特征、视觉二维骨干特征和视觉三维骨干特征；将所述骨干特征映射为所述各个视频片段对应的音频特征和视觉特征。3.根据权利要求1所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述基于自注意力机制和跨模态注意力机制，融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征，确定各个视频片段对应的时序音频特征和时序视觉特征，包括：基于所述各个视频片段对应的音频特征和视觉特征，确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征；基于所述每个视频片段的音频特征、所述同模态时序音频特征和所述跨模态时序视觉特征，确定所述每个视频片段的时序音频特征，并基于所述每个视频片段的视觉特征、所述同模态时序视觉特征和所述跨模态时序音频特征，确定所述每个视频片段的时序音频特征。4.根据权利要求3所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述基于所述各个视频片段对应的音频特征和视觉特征，确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征，包括：确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度，并基于所述音频与音频相似度，确定每个所述音频特征对应的同模态时序音频特征；确定每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频视觉相似度，并基于所述音频视觉相似度，确定每个所述音频特征对应的跨模态时序视觉特征；确定每个视频片段的视觉特征与所述N个视频片段的视觉特征之间的视觉与视觉相似度，并基于所述视觉与视觉相似度，确定每个所述视觉特征对应的同模态时序视觉特征；确定每个视频片段的视觉特征与所述N个视频片段的音频特征之间的视觉音频相似度，并基于所述视觉音频相似度，确定每个所述视觉特征对应的跨模态时序音频特征。5.根据权利要求4所述的基于音视频融合的地震幸存者识别方法，其特征在于，所述确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度，包括：
基于所述N个视频片段的音频特征和音频与音频相似度计算公式，确定每个所述音频特征与所述N个视频片段的音频特征之间的音频与音频相似度；所述...

【专利技术属性】
技术研发人员：徐常胜，姚涵涛，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人