识别方法、训练方法、装置、设备及存储介质制造方法及图纸

技术编号：33290370 阅读：45 留言：0更新日期：2022-05-01 00:07

本公开提供了识别方法、训练方法、装置、设备及存储介质，涉及人工智能领域，尤其涉及计算机视觉、视频分析和深度学习技术。具体实现方案为：基于待识别视频中的目标视频帧，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息；从表征所述第一识别决策信息的决策值及表征所述第一区块特征信息的特征值中，选取出第一目标值；在所述第一目标值表征区块的特征值的情况下，将所述第一目标值对应的区块作为第一目标区块。如此，快速识别得到待识别视频中的显著区块，也即第一目标区块。也即第一目标区块。也即第一目标区块。

全部详细技术资料下载

【技术实现步骤摘要】
识别方法、训练方法、装置、设备及存储介质

[0001]本公开涉及人工智能领域，尤其涉及计算机视觉、视频分析和深度学习技术。

技术介绍

[0002]高效视频识别，即要求视频识别准确率的同时限制视频识别所需要的计算资源。高效视频识别广泛用于自动驾驶、视频监控等场景，正在成为计算机视觉社区中越发重要的话题。

技术实现思路

[0003]本公开提供了一种识别方法、训练方法、装置、设备以及存储介质。
[0004]根据本公开的一方面，提供了一种识别方法，包括：
[0005]基于待识别视频中的目标视频帧，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息；
[0006]从表征所述第一识别决策信息的决策值及表征所述第一区块特征信息的特征值中，选取出第一目标值；
[0007]在所述第一目标值表征区块的特征值的情况下，将所述第一目标值对应的区块作为第一目标区块。
[0008]根据本公开的另一方面，提供了一种模型训练方法，包括：
[0009]将样本视频中的目标样本帧输入至待训练区块模型，得到所述目标样本帧所包含区块的第二区块特征信息，以及针对所述目标样本帧的第二识别决策信息；
[0010]从表征所述第二识别决策信息的决策值及表征所述第二区块特征信息的特征值中，选取出第二目标值；
[0011]在所述第二目标值表征区块的特征值的情况下，将所述第二目标值对应的区块作为第二目标区块，并输入至预设分类模型进行分类，得到分类结果；/>[0012]基于所述分类结果、所述目标样本帧对应的标签信息及识别决策信息的控制参数确定的损失函数，对所述待训练区块模型以及预设分类模型进行联合训练，得到所述目标区块模型和目标分类模型。
[0013]根据本公开的再一方面，提供了一种识别装置，包括：
[0014]视频帧处理单元，用于基于待识别视频中的目标视频帧，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息；
[0015]目标值确定单元，用于从表征所述第一识别决策信息的决策值及表征所述第一区块特征信息的特征值中，选取出第一目标值；
[0016]目标区块确定单元，用于在所述第一目标值表征区块的特征值的情况下，将所述第一目标值对应的区块作为第一目标区块。
[0017]根据本公开的再一方面，提供了一种模型训练装置，包括：
[0018]第一模型处理单元，用于将样本视频中的目标样本帧输入至待训练区块模型，得
到所述目标样本帧所包含区块的第二区块特征信息，以及针对所述目标样本帧的第二识别决策信息；
[0019]结果处理单元，用于从表征所述第二识别决策信息的决策值及表征所述第二区块特征信息的特征值中，选取出第二目标值；
[0020]第二模型处理单元，用于在所述第二目标值表征区块的特征值的情况下，将所述第二目标值对应的区块作为第二目标区块，并输入至预设分类模型进行分类，得到分类结果；
[0021]模型训练单元，用于基于所述分类结果、所述目标样本帧对应的标签信息及识别决策信息的控制参数确定的损失函数，对所述待训练区块模型以及预设分类模型进行联合训练，得到所述目标区块模型和目标分类模型。
[0022]根据本公开的再一方面，提供了一种电子设备，包括：
[0023]至少一个处理器；以及
[0024]与所述至少一个处理器通信连接的存储器；其中，
[0025]所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上所述的识别方法；或者，执行以上所述的训练方法。
[0026]根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行以上所述的识别方法；或者，执行以上所述的训练方法。
[0027]根据本公开的再一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据以上所述的识别方法；或者，执行以上所述的训练方法。
[0028]这样，能够提高识别效率，降低识别成本。
[0029]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案，不构成对本公开的限定。其中：
[0031]图1是根据本公开实施例识别方法的实现流程示意图；
[0032]图2是根据本公开实施例在一具体示例中分块处理后的目标视频帧的示意图；
[0033]图3是根据本公开实施例模型训练方法的实现流程示意图；
[0034]图4是根据本公开实施例模型识别方法在一具体示例中的采样示意图；
[0035]图5(a)和图5(b)是根据本公开实施例模型识别方法在一具体示例中的识别流程示意图；
[0036]图6是根据本公开实施例识别装置的结构示意图；
[0037]图7是根据本公开实施例模型识别装置的结构示意图；
[0038]图8是用来实现本公开实施例的识别方法或模型训练方法的电子设备的框图。
具体实施方式
[0039]以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种
细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
[0040]在实际应用场景中，准确率已不再是视频识别的主要问题，而如何在极少的计算资源条件下完成识别，已成为视频识别所需重点关注的问题。本专利技术要解决的问题是通过对待识别视频进行采样，并将采样得到目标视频帧(比如显著帧)的显著空间区块(也即第一目标区块)进行后续识别分类，从而使得计算量远少于现有识别完整帧的方式，如此，在不降低识别精度的同时，大幅度减少了计算成本。
[0041]具体地，本公开方案提供了一种识别方法，如图1所示，包括：
[0042]步骤S101：基于待识别视频中的目标视频帧，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息。
[0043]这里，如图2所示，所述目标视频帧可以包含有多个区块，比如9个区块，基于此，即可得到每个区块的第一区块特征信息，比如，所述第一区块特征信息可以具体为当前区块所在目标视频帧的位置，以及该当前区块的特征值，该特征值可以具体表征当前区块区别于其他区块的显著值。
[0044]举例来说，以图2所示的9个区块为例，以从上至下，从左至右的顺序编号，第5个区块即可为显著区块。
[0045]该示例中，所述第一识别决策信息用于表征对该目标视频帧继续识别，或停止识别的识别决策信息。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种识别方法，包括：基于待识别视频中的目标视频帧，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息；从表征所述第一识别决策信息的决策值及表征所述第一区块特征信息的特征值中，选取出第一目标值；在所述第一目标值表征区块的特征值的情况下，将所述第一目标值对应的区块作为第一目标区块。2.根据权利要求1所述的方法，还包括：对所述第一目标区块进行分类，得到目标分类结果。3.根据权利要求2所述的方法，其中，所述对所述第一目标区块进行分类，得到目标分类结果，包括：将所述第一目标区块输入至目标分类模型，得到目标分类结果。4.根据权利要求1至3任一项所述的方法，还包括：在所述第一目标值表征决策值的情况下，停止针对所述待识别视频的识别流程。5.根据权利要求1至4任一项所述的方法，其中，所述基于待识别视频中的目标视频帧，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息，包括：将待识别视频中的目标视频帧输入至目标区块模型，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息。6.根据权利要求5所述的方法，其中，所述将待识别视频中的目标视频帧输入至目标区块模型，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息，包括：将待识别视频中的目标视频帧输入至目标区块模型中的第一目标网络，得到所述目标视频帧的全局特征信息；将所述目标视频帧的全局特征信息以及所述目标视频帧的相关联帧的关键特征信息，输入至所述目标区块模型中的第二目标网络，得到所述目标视频帧的关键特征信息；将所述目标视频帧的关键特征信息，输入至所述目标区块模型中的第三目标网络，得到所述目标视频帧所包含区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息。7.根据权利要求6所述的方法，其中，所述目标视频帧的相关联帧为所述目标视频帧的上一视频帧。8.根据权利要求6或7所述的方法，其中，所述第一目标网络为轻量级网络；和/或，所述第三目标网络为全连接神经网络；所述轻量级网络所提取的特征维度小于所述全连接神经网络所提取的特征维度。9.根据权利要求6至8任一项所述的方法，其中，所述第二目标网络为门控循环网络，其中，所述门控循环网络是基于视频样本帧的关键特征信息及与视频样本帧的相关联视频帧的关键特征信息训练得到的。10.根据权利要求1至9任一项所述的方法，还包括：对待识别视频进行分组处理，得到至少两组子视频；
从至少一组所述子视频中选取出视频帧作为目标视频帧。11.根据权利要求10所述的方法，还包括：在得到多个目标视频帧的情况下，将得到的所述多个目标视频帧组合成视频帧集合；从所述视频帧集合中选取出针对所述待识别视频的目标视频帧。12.一种模型训练方法，包括：将样本视频中的目标样本帧输入至待训练区块模型，得到所述目标样本帧所包含区块的第二区块特征信息，以及针对所述目标样本帧的第二识别决策信息；从表征所述第二识别决策信息的决策值及表征所述第二区块特征信息的特征值中，选取出第二目标值；在所述第二目标值表征区块的特征值的情况下，将所述第二目标值对应的区块作为第二目标区块，并输入至预设分类模型进行分类，得到分类结果；基于所述分类结果、所述目标样本帧对应的标签信息及识别决策信息的控制参数确定的损失函数，对所述待训练区块模型以及预设分类模型进行联合训练，得到所述目标区块模型和目标分类模型。13.根据权利要求12所述的方法，其中，所述识别决策信息的控制参数与以下至少之一信息有关：在所述第二目标值表征决策值的情况下的所述决策值；所述目标样本帧的数量；预设值。14.根据权利要求12或13所述的方法，其中，所述将样本视频中的目标样本帧输入至待训练区块模型，得到所述目标样本帧所包含区块的第二区块特征信息，以及针对所述目标样本帧的第二识别决策信息，包括：将样本视频中的目标样本帧输入至待训练区块模型中的第一待训练网络，得到所述目标样本帧的全局特征信息；将所述目标样本帧的全局特征信息以及所述目标样本帧的相关联帧的关键特征信息，输入至所述待训练区块模型中的第二待训练网络，得到所述目标样本帧的关键特征信息；将所述目标样本帧的关键特征信息，输入至所述待训练区块模型中的第三待训练网络，得到所述目标样本帧所包含区块的第二关键特征信息，以及针对所述目标样本帧的第二识别决策信息。15.根据权利要求14所述的方法，其中，所述目标样本帧的相关联帧为所述目标样本帧的上一视频帧。16.根据权利要求14或15所述的方法，其中，所述第一待训练网络为待训练轻量级网络；和/或，所述第三待训练网络为待训练全连接神经网络；其中，所述待训练轻量级网络所提取的特征维度小于所述待训练全连接神经网络所提取的特征维度。17.根据权利要求14至16任一项所述的方法，其中，所述第二待训练网络为待训练门控循环网络。18.一种识别装置，包括：视频帧处理单元，用于基于待识别视频中的目标视频帧，得到所述目标视频帧所包含
区块的第一区块特征信息，以及针对所述目标视频帧的第一识别决策信息；目标值确定单元，用于从表征所述第一识别决策信息的决策值及表征所述第一区块特征信息的特征值中，选取出第一目标值；目标区块确定单元，用于在所述第一目标值表征区块的特征值的情况下，将所述第一目标值对应的区块作为第一目标区块。19.根据权利要求18所述的识别装...

【专利技术属性】
技术研发人员：吴文灏，夏博洋，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人