【技术实现步骤摘要】
基于Transformer的语义信息增强的行为识别方法
[0001]本申请涉及计算机视觉领域,具体地,涉及一种基于Transformer的语义信息增强的行为识别方法。
技术介绍
[0002]视频的理解与识别是计算机视觉的基础任务之一。在视频理解研究领域中,人类行为理解是一个充满挑战而又具有较高实际应用价值的任务;人类行为理解包括识别、定位和预测人类行为。识别视频中的人类行为的任务称为行为识别,识别人类行为有着悠久的历史,并吸引着包括心理学、生物学和计算机科学在内的各种学科。从视频监控到人机交互、零售分析、用户界面设计、机器人学习、网络视频搜索和检索、医疗诊断、老年人护理生活质量改善、体育分析等社会应用,它们的核心是能够理解人类行为的计算算法。
[0003]行为识别任务可以通过传统方法和深度学习法来实现。传统方法利用手工设计特征对行为进行表征,利用统计学习的分类方法对行为进行分类识别,这需要大量的时间,例如从视频记录中人为识别异常活动,这些任务既昂贵又困难。此外,对感兴趣的区域进行24小时监控是乏味的,并且可能引入人为 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的语义信息增强的行为识别方法,其特征在于,包括:获取待识别视频的关键帧序列,所述关键帧序列中包括多个关键帧;获取所述关键帧序列的时空信息;将所述关键帧序列的时空信息输入到卷积神经网络,提取所述关键帧序列的包含低水平信息的信息矩阵;将所述关键帧序列的包含低水平信息的信息矩阵输入到自注意力机制中,提取局部信息和全局信息,并将所述局部信息和所述全局信息进行融合,得到融合后的信息;将所述融合后的信息输入到第一前馈神经网络模块;将所述第一前馈神经网络模块的输出输入到第二前馈神经网络模块中,确定所述待识别视频的类别。2.如权利要求1所述的方法,其特征在于,其中,获取待识别视频的关键帧序列,包括:对所述待识别视频基于光流法,确定所述待识别视频中每个视频帧的总光流信息;根据所述每个视频帧的总光流信息采用聚类方法,将所有视频帧分为多个类别,并确定每个类别中的关键帧;所有关键帧构成所述关键帧序列。3.如权利要求1所述的方法,其特征在于,其中,获取所述关键帧序列的时空信息,包括:将所述关键帧序列输入到线性层,提取所述关键帧序列的空间信息;根据所述关键帧序列中每个关键帧的索引,提取所述关键帧序列的时序信息;将所述空间信息和所述时序进行融合,得到所述关键帧序列的时空信息。4.如权利要求1所述的方法,其特征在于,其中,将所述关键帧序列的包含低水平信息的信息矩阵输入到自注意力机制中,提取局部信息和全局信息,包括:将所述关键帧序列的包含低水平信息的信息矩阵进行映射,得到映射后的信息;根据所述映射后的信息,确定查询向量Q、键向量K和值向量V;采用空洞卷积对所述键向量K进行处理,得到局部信息;将所述局部信息和查询向量Q进行拼接,经过两个连续的卷积处理,得到注意力矩阵;将所述注意力矩阵和所述值向量V进行卷积,得到全局信息。5.一种基于Transformer的语义信息增强的行为识别装置,其特征在于,包括:关键帧序列获取模块,用于获取待识别视频的关键帧序列,所述关键帧序列中包括多个关键帧;时空信息获取模块,用于获取所述关键帧序列的时空信息;卷积神经网络,用于将所述关键帧序...
【专利技术属性】
技术研发人员:龚晓庆,朱文娟,郭凌,刘征奇,杨璐瑶,张媛媛,穆浩文,张鹏辉,姬明昊,郭竞,李志慧,许鹏飞,
申请(专利权)人:西北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。