识别方法、模型训练、系统及设备技术方案

技术编号：28050173 阅读：19 留言：0更新日期：2021-04-14 13:07

本申请实施例提供一种识别方法、模型训练、系统及设备。其中，方法包括如下的步骤：获取待识别视频；其中，待识别视频中包括多帧图像；将待识别视频输入训练好的神经网络模型，获得识别结果；其中，所述神经网络模型用于：分别对多帧图像进行特征提取，得到多个帧特征；根据多个帧特征，确定出多个帧特征中每一个元素对应的注意力权重；将多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合多个加权后帧特征，得到所述识别结果。本申请实施例提供的技术方案可有效抑制多个帧特征中的杂讯，增强有效特征，进而可有效提高视频识别的准确率。效提高视频识别的准确率。效提高视频识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
识别方法、模型训练、系统及设备

[0001]本申请涉及计算机
，尤其涉及一种识别方法、模型训练、系统及设备。

技术介绍

[0002]目前，很多终端设备都具有拍照、拍摄和/或录音功能。在某些应用场景中，需要对终端设备拍照得到的图片、拍摄得到的视频和/或录音得到的音频数据进行识别，例如：对图片、视频或音频进行分类等。
[0003]以智能监控摄像头为例，用户可将该智能监控摄像头设置在家中以实现看家护院或宠物精彩瞬间抓拍功能。该智能监控摄像头拍摄到的视频或图片的数据量是非常巨大的，因此需要对该智能监控摄像头拍摄的视频或图像进行分析，过滤掉用户不感兴趣的数据。
[0004]现有技术中，存在利用人工智能算法(例如：神经网络模型)来对图片、视频或音频进行识别的技术方案，而这些算法的识别准确率都较差。

技术实现思路

[0005]鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的识别方法、模型训练、系统及设备。
[0006]于是，在本申请的一个实施例中，提供了一种视频识别方法。该方法包括：
[0007]获取待识别视频；其中，所述待识别视频中包括多帧图像；
[0008]将所述待识别视频输入训练好的神经网络模型，获得识别结果；
[0009]其中，所述神经网络模型用于：分别对所述多帧图像进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法，其特征在于，包括：获取待识别视频；其中，所述待识别视频中包括多帧图像；将所述待识别视频输入训练好的神经网络模型，获得识别结果；其中，所述神经网络模型用于：分别对所述多帧图像进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合所述多个加权后帧特征，得到所述识别结果。2.根据权利要求1所述的方法，其特征在于，根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重，包括：对由所述多个帧特征堆叠而成的视频特征进行时空卷积，得到时空特征；根据所述时空特征，确定出所述视频特征中每一个元素对应的注意力权重。3.根据权利要求2所述的方法，其特征在于，对由所述多个帧特征堆叠而成的视频特征进行时空卷积，得到时空特征，包括：采用二维空间卷积与一维时间卷积的组合方式，对所述视频特征进行时空卷积，得到初始时空特征；根据所述初始时空特征，确定所述时空特征。4.根据权利要求3所述的方法，其特征在于，根据所述初始时空特征，确定所述时空特征，包括：将所述视频特征与所述初始时空特征按元素相加，得到所述时空特征。5.根据权利要求2至4中任一项所述的方法，其特征在于，综合所述多个加权后帧特征，得到所述识别结果，包括：对由所述多个加权后帧特征堆叠而成的加权后视频特征进行时空上的加总池化处理，得到融合特征；根据所述融合特征，得到所述识别结果。6.根据权利要求5所述的方法，其特征在于，根据所述时空特征，确定出所述视频特征中每一个元素对应的注意力权重，包括：对所述时空特征中每一个所述加总池化窗口内各元素进行归一化指数处理，得到包含有所述视频特征中每一个元素对应的注意力权重的权重特征。7.根据权利要求5所述的方法，其特征在于，所述加总池化为全局加总池化。8.根据权利要求5所述的方法，其特征在于，根据所述融合特征，得到所述识别结果，包括：将所述融合特征作为所述神经网络模型中至少一个全连接层的输入，得到全连接结果；根据所述全连接结果，确定所述识别结果。9.根据权利要求1至4中任一项所述的方法，其特征在于，综合所述多个加权后帧特征，得到所述识别结果，包括：分别对所述多个加权后帧特征进行卷积处理，得到多个新的帧特征；根据所述多个新的帧特征，确定出所述多个新的帧特征中每一个元素对应的注意力权重；
将所述多个新的帧特征中每一个元素与其对应的注意力权重相乘，得到多个新的加权后帧特征；综合所述多个新的加权后帧特征，得到所述识别结果。10.一种模型训练方法，其特征在于，包括：获取样本视频；其中，所述样本视频中包括多帧图像；将所述样本视频输入神经网络模型，获得预测识别结果；根据所述预测识别结果与所述样本视频对应的期望识别结果，对所述神经网络模型进行参数优化；其中，所述神经网络模型用于：分别对所述多帧图像进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合所述多个加权后帧特征，得到所述预测识别结果。11.一种神经网络系统，其特征在于，包括：至少一个第一网络层、至少一个第二网络层以及至少一个第三网络层；其中，所述至少一个第一网络层，用于分别对待识别视频的多帧图像进行特征提取，得到多个帧特征；所述至少一个第二网络层，用于根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；还用于将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；所述至少一个第三网络层，用于综合所述多个加权后帧特征，得到识别结果。12.根据权利要求11所述的系统，其特征在于，所述至少一个第三网络层中包括池化层；所述池化层，用于对由所述多个加权后帧特征堆叠而成的加权后视频特征进行时空上的加总池化处理，得到融合特征；所述至少一个第三网络层中除所述池化层以外的其他网络层，用于根据所述融合特征，得到所述识别结果。13.根据权利要求12所述的系统，其特征在于，所述其他网络层中包括至少一个全连接层和输出层。14.一种时序数据识别方法，其特征在于，包括：获取待识别时序数据；其中，所述待识别时序数据中包括多帧数据；将所述待识别时序数据输入训练好的神经网络模型，获得识别结果；其中，所述神经网络模型用于：分别对所述多帧数据进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合所述多个加权后帧特征，得到所述识别结果。15.根据权利要求14所述的方法，其特征在于，根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重，包括：对由所述多个帧特征堆叠而成的时序数据特征进行帧内和帧间的卷积处理，得到卷积特征；
根据所述卷积特征，确定出包含有所述时序数据特征中每一个元素对应的注意力权重。16.根据权利要求14或15所述的方法，其特征在于，综合所述多个加权后帧特征，得到所述识别结果，包括：对由所述多个加权后帧特征堆叠而成的加权后时序数据特征进行帧内和帧间的加总池化处理，得到融合特征；根据所述融合特征，得到所述识别结果。17.一种时序数据识别方法，其特征在于，包括：分别对待识别时序数据的多帧数据进行特征...

【专利技术属性】
技术研发人员：杨攸奕，武元琪，李名杨，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人