识别方法及装置、设备、计算机可读存储介质制造方法及图纸

技术编号:34619098 阅读:19 留言:0更新日期:2022-08-20 09:26
本申请的实施例揭示了一种识别方法及装置、设备、计算机可读存储介质。方法包括:提取视频流中的待识别图像帧;将待识别图像帧输入至训练好的识别模型,得到识别模型输出的目标对象的信息和目标场景信息;识别模型包括用于识别提取待识别图像帧的图像特征的图像特征提取网络,用于输出图像帧中对象的检测信息的检测任务分支,用于输出图像帧中像素点的语义信息的语义分割任务分支,以及输出图像帧中的场景类型信息的分类任务分支,根据检测信息和语义信息确定出目标对象的信息,根据场景类型信息和语义信息确定出目标场景信息。同时针对同一图像特征进行多任务处理,节省了数据处理时间,任务分支输出的结果相互参考,使输出的信息更加精确。信息更加精确。

【技术实现步骤摘要】
识别方法及装置、设备、计算机可读存储介质


[0001]本申请涉及计算机
,具体涉及一种识别方法及装置、设备、计算机可读存储介质。

技术介绍

[0002]视频流由连续的多个图像帧组成,现有技术通过对图像帧进行特征提取,得到图像特征,根据提取到的图像特征对图像帧进行识别分析,例如识别图像帧中的目标对象等。
[0003]随着图像帧信息需求种类的增多,会增加图像帧信息的总量,从而致使图像帧中图像特征的识别、获取过程的时间增加。特别地,现有技术中不能同时识别图像帧中目标对象和目标场景,无法保证整个识别过程时间不会增加,并且同时进行多任务地识别步骤,无法保证识别结果的准确度。
[0004]因此,亟需一种同时识别出图像帧中的目标对象信息和目标场景信息的识别方法,以解决上述问题,在不增加时延的情况下保证识别信息的准确性。

技术实现思路

[0005]为解决上述技术问题,本申请的实施例分别提供了识别方法及装置、设备、计算机可读存储介质,在不增加时延的前提下,同时识别出图像帧中目标对象信息和目标场景信息。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0007]根据本申请实施例的一个方面,提供了一种识别方法,包括:提取视频流中的待识别图像帧;将待识别图像帧输入至训练好的识别模型,得到所述识别模型输出的目标对象的信息和目标场景信息;其中,所述识别模型包括用于识别提取所述待识别图像帧的图像特征的图像特征提取网络,用于输出所述图像帧中对象的检测信息的检测任务分支,用于输出所述图像帧中像素点的语义信息的语义分割任务分支,以及输出所述图像帧中的场景类型信息的分类任务分支,根据所述检测信息和所述语义信息确定出所述目标对象的信息,根据所述场景类型信息和所述语义信息确定出所述目标场景信息。
[0008]进一步地,所述识别方法还包括:构建初始识别模型,所述初始识别模型包括图像特征提取网络、所述检测任务分支、所述语义分割任务分支和所述分类任务分支;将待训练的待识别图像帧输入至所述初始识别模型,所述图像特征提取网络对所述待训练的待识别图像帧进行识别并进行特征提取,得到待训练图像特征;所述检测任务分支输出所述待训练图像特征对应图像帧中的对象的第一检测信息,所述语义分割任务分支输出所述待训练图像特征对应图像帧中的像素点的第一语义信息,以及所述分类任务分支输出所述图像特征对应图像帧中的第一场景类型信息;根据所述第一检测信息、所述第一语义信息、所述第一场景信息对所述初始识别模型进行修正,得到所述训练好的识别模型。
[0009]进一步地,所述根据所述第一检测信息、所述第一语义信息、所述第一场景信息对
所述初始识别模型进行修正,得到所述训练好的识别模型,包括:根据所述第一检测信息和第一标准检测信息确定出检测信息损失函数值;根据所述第一语义信息和第一语义标准信息确定出语义信息损失函数值;据所述第一场景类型信息和第一标准场景类型信息确定出场景类型信息损失函数值;基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正,得到所述训练好的识别模型。
[0010]进一步地,所述基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正,得到所述训练好的识别模型,包括:基于所述检测信息损失函数值和所述检测任务分支对应的第一动态调制因子计算得到第一反向传播值;基于所述语义信息损失函数值和所述语义分割任务分支对应的第二动态调制因子计算得到第二反向传播值;基于所述场景类型信息损失函数值和所述分类任务分支对应的第三动态调制因子计算得到第三反向传播值;根据所述第一反向传播值、所述第二反向传播值、所述第三反向传播值更新所述初始识别模型中的配置参数,得到所述训练好的识别模型。
[0011]进一步地,所述检测信息包括所述图像帧中的检测回归框的位置和预测对象的类别,所述语义信息包括所述图像帧中的所述预测对象对应的像素点数量和位置,以及所述图像帧中像素点对应的语义类型,所述目标对象的信息包括所述目标对象的类别和位置,所述根据所述检测信息和所述语义信息确定出所述目标对象的信息,包括:根据所述检测回归框的位置确定所述检测回归框内的所述预测对象对应的像素点数量;若所述预测对象对应的像素点数量大于所述预测对象的类别所对应的预设类别对象的像素点数量,则确定所述检测回归框的位置为所述目标对象的位置,所述预测对象的类别为所述目标对象的类别。
[0012]进一步地,所述语义类型包括:场景类型和对象类型;所述场景类型信息包括所述图像帧中场景类型以及所述场景类型对应的场景概率值,所述根据所述场景类型信息和所述语义信息确定出所述目标场景信息,包括:若所述语义类型中的场景类型与所述场景类型信息中的场景类型相同,则确定所述场景类型信息中的场景类型为所述目标场景的场景类型;若所述语义类型中的场景类型与所述场景类型信息中的场景类型不同,且所述场景类型对应的场景概率值大于预设场景概率阈值,则确定所述场景类型信息中的场景类型为所述目标场景的场景类型;若所述语义类型中的场景类型与所述场景类型信息中的场景类型不同,且所述场景类型对应的场景概率值小于或等于所述预设场景概率阈值,则确定所述图像特征中像素点对应的语义类型中的场景类型为所述目标场景的场景类型。
[0013]进一步地,所述提取视频流中的待识别图像帧,包括:获取视频流,所述视频流包括多个图像帧;分别检测每个图像帧中是否存在所述目标对象,并将检测到所述目标对象的图像帧确定为所述待识别图像帧。进一步地,在所述得到所述训练好的识别模型之前,所述方法还包括:对所述初始识别模型进行修正,得到修正后的识别模型;针对所述修正后的识别模型进行INT8边缘计算模块的量化感知训练,得到训练好的识别模型。
[0014]进一步地,所述根据所述第一反向传播值、所述第二反向传播值、所述第三反向传播值更新所述初始识别模型中的配置参数,得到所述训练好的识别模型,包括:根据所述第一反向传播值对所述检测任务分支中的参数进行训练,得到训练好的检测任务分支;所述第二反向传播值对所述语义分割任务分支中的参数进行训练,得到训练好的语义分割任务
分支;所述第三反向传播值对所述分类任务分支中的参数进行训练,得到训练好的分类任务分支;得到所述训练好的识别模型。
[0015]根据本申请实施例的一个方面,提供了一种识别装置,包括:提取模块,被配置为提取待识别图像帧的图像特征;输出模块,被配置为将所述图像特征输入至训练好的识别模型,得到所述识别模型输出的目标对象的信息和目标场景信息;其中,所述识别模型包括用于输出所述图像特征中对象的检测信息的检测任务分支,用于输出所述图像特征中像素点的语义信息的语义分割任务分支,以及输出所述图像特征中的场景类型信息的分类任务分支,根据所述检测信息和所述语义信息确定出所述目标对象的信息,根据所述场景类型信息和所述语义信息确定出所述目标场景信息。
[0016本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别方法,其特征在于,所述识别方法包括:提取视频流中的待识别图像帧;将待识别图像帧输入至训练好的识别模型,得到所述识别模型输出的目标对象的信息和目标场景信息;其中,所述识别模型包括用于识别提取所述待识别图像帧的图像特征的图像特征提取网络,用于输出所述图像帧中对象的检测信息的检测任务分支,用于输出所述图像帧中像素点的语义信息的语义分割任务分支,以及输出所述图像帧中的场景类型信息的分类任务分支,根据所述检测信息和所述语义信息确定出所述目标对象的信息,根据所述场景类型信息和所述语义信息确定出所述目标场景信息。2.根据权利要求1所述的识别方法,其特征在于,所述识别方法还包括:构建初始识别模型,所述初始识别模型包括所述图像特征提取网络、所述检测任务分支、所述语义分割任务分支和所述分类任务分支;将待训练的待识别图像帧输入至所述初始识别模型,所述图像特征提取网络对所述待训练的待识别图像帧进行识别并进行特征提取,得到待训练图像特征;所述检测任务分支输出所述待训练图像特征对应图像帧中的对象的第一检测信息,所述语义分割任务分支输出所述待训练图像特征对应图像帧中的像素点的第一语义信息,以及所述分类任务分支输出所述图像特征对应图像帧中的第一场景类型信息;根据所述第一检测信息、所述第一语义信息、所述第一场景信息对所述初始识别模型进行修正,得到所述训练好的识别模型。3.根据权利要求2所述的识别方法,其特征在于,所述根据所述第一检测信息、所述第一语义信息、所述第一场景信息对所述初始识别模型进行修正,得到所述训练好的识别模型,包括:根据所述第一检测信息和第一标准检测信息确定出检测信息损失函数值;根据所述第一语义信息和第一语义标准信息确定出语义信息损失函数值;据所述第一场景类型信息和第一标准场景类型信息确定出场景类型信息损失函数值;基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正,得到所述训练好的识别模型。4.根据权利要求3所述的识别方法,其特征在于,所述基于所述检测信息损失函数值、所述语义信息损失函数值、所述场景类型信息损失函数值对所述初始识别模型进行修正,得到所述训练好的识别模型,包括:基于所述检测信息损失函数值和所述检测任务分支对应的第一动态调制因子计算得到第一反向传播值;基于所述语义信息损失函数值和所述语义分割任务分支对应的第二动态调制因子计算得到第二反向传播值;基于所述场景类型信息损失函数值和所述分类任务分支对应的第三动态调制因子计算得到第三反向传播值;根据所述第一反向传播值、所述第二反向传播值、所述第三反向传播值更新所述初始识别模型中的配置参数,得到所述训练好的识别模型。5.根据权利要求1所述的识别方法,其特征在于,所述检测信息包括所述图像帧中的检测回归框的位置和预测...

【专利技术属性】
技术研发人员:杜松显卢江涛唐伟王家奇林锦河王静
申请(专利权)人:杭州野乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1