一种视频识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：28421789 阅读：10 留言：0更新日期：2021-05-11 18:29

本申请公开了视频识别方法、装置、电子设备、介质和计算机程序产品，涉及人工智能领域，尤其涉及计算机视觉和深度学习技术。具体实现方案为：将待识别视频分成至少两个视频片段；从视频片段中抽取视频帧并进行特征识别，得到视频片段的初始语意特征块；对各初始语意特征块进行融合，得到融合后的目标语意特征块；基于融合后的目标语意特征块，确定待识别视频的类别。本申请实施例提升了视频识别的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频识别方法、装置、电子设备和存储介质
本申请涉及人工智能
，尤其涉及计算机视觉和深度学习技术，具体涉及一种视频识别方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
视频识别，即输入一段视频根据视频内容对其进行分类。视频识别是计算机视觉社区中最活跃的研究主题之一，这归因于其在视频监视、视频推荐、检索等方面的巨大应用潜力。
技术实现思路
本申请提供了一种视频识别方法、装置、电子设备、存储介质和计算机程序产品。根据本申请的一方面，提供了一种视频识别方法，包括：将待识别视频分成至少两个视频片段；从视频片段中抽取视频帧并进行特征识别，得到视频片段的初始语意特征块；对各初始语意特征块进行融合，得到融合后的目标语意特征块；基于融合后的目标语意特征块，确定待识别视频的类别。根据本申请的另一方面，提供了一种视频识别装置，包括：分段模块，用于将待识别视频分成至少两个视频片段；特征识别模块，用于从视频片段中抽取视频帧并进行特征识别，得到视频片段的初始语意特征块；融合模块，用于对各初始语意特征块进行融合，得到融合后的目标语意特征块；识别模块，用于基于融合后的目标语意特征块，确定待识别视频的类别。根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够...

【技术保护点】
1.一种视频识别方法，包括：/n将待识别视频分成至少两个视频片段；/n从所述视频片段中抽取视频帧并进行特征识别，得到所述视频片段的初始语意特征块；/n对各所述初始语意特征块进行融合，得到融合后的目标语意特征块；/n基于融合后的目标语意特征块，确定所述待识别视频的类别。/n

【技术特征摘要】
1.一种视频识别方法，包括：
将待识别视频分成至少两个视频片段；
从所述视频片段中抽取视频帧并进行特征识别，得到所述视频片段的初始语意特征块；
对各所述初始语意特征块进行融合，得到融合后的目标语意特征块；
基于融合后的目标语意特征块，确定所述待识别视频的类别。

2.根据权利要求1所述的方法，其中，将得到的所述初始语意特征块进行融合，得到融合后的目标语意特征，包括：
基于动态移动策略，将各所述初始语意特征块的不同通道的特征信息进行融合，得到融合后的目标语意特征块。

3.根据权利要求2所述的方法，其中，基于动态移动策略，将各所述初始语意特征块的不同通道的特征信息进行融合，包括：
将当前初始语意特征块的第一通道的特征信息，移动到时序排在所述当前初始语意特征块之前且与所述当前初始语意特征块相邻的初始语意特征块中；
将所述当前初始语意特征块的第二通道的特征信息，移动到时序排在所述当前初始语意特征块之后且与所述当前初始语意特征块相邻的初始语意特征块中。

4.根据权利要求3所述的方法，所述方法还包括：
若所述当前初始语意特征块为时序排在首位的初始语意特征块，则对所述当前初始语意特征块的第二通道进行信息填充；或
若所述当前初始语意特征块为时序排在末尾的初始语意特征块，则对所述当前初始语意特征块的第一通道进行信息填充。

5.根据权利要求1所述的方法，其中，从所述视频片段中抽取视频帧并进行特征识别，得到所述视频片段的初始语意特征块，包括：
从所述视频片段中抽取预设数量的视频帧；
利用预先训练的视频识别网络中的特征提取子网络，对抽取到的视频帧进行特征识别，得到所述视频片段的初始语意特征块。

6.根据权利要求1所述的方法，其中，将待识别视频分成至少两个视频片段，包括：
对所述待识别视频进行平均分段，得到长度相同的至少两个视频片段。

7.一种视频识别装置，包括：
分段模块，用于将待识别视频分成至少两个视频片段；
特征识别模块，用于从所述视频片段中抽取视频帧并进行特征识别，得到所述视频片段的初始语意特征块；
融合模块，用于对各所述初始语意特征块进行融合，得到融合后的目标语意特征块；

【专利技术属性】
技术研发人员：吴文灏，赵禹翔，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人