解码器的训练方法、目标检测方法、装置以及存储介质制造方法及图纸

技术编号:34960530 阅读:18 留言:0更新日期:2022-09-17 12:40
本公开提供了一种编码器的训练方法、目标检测方法、装置以及存储介质,其中的训练方法包括:使用关系注意力模块并基于查询特征,生成与查询特征相对应的显著查询特征集合,用以进行更新处理;使用跨越注意力模块并基于更新后的查询特征,获取与更新后的查询特征相对应的预测片段质量信息,并构建片段质量损失函数;获取与查询特征相对应的预测视频片段之间的片段关系特征,构建片段关系损失函数;根据片段质量损失函数和片段关系损失函数进行调整处理。本公开能够减少无效查询特征对预测的干扰,可以抑制冗余的预测结果,提升检测结果的准确性。的准确性。的准确性。

【技术实现步骤摘要】
解码器的训练方法、目标检测方法、装置以及存储介质


[0001]本公开涉及人工智能
,尤其涉及一种解码器的训练方法、目标检测方法、装置以及存储介质。

技术介绍

[0002]随着视频数据量的日益增长,对于视频数据的分析和处理的需求日渐提升。例如,在直播内容安全性检测、短视频危险动作检测等场景,需要使用视频动作检测方法识别视频数据中的风险动作。目前,在进行动作检测时,通常使用DETR(Bidirectional Encoder Representations from Transformer,基于transformer结构的双向编码器表征)模型进行目标检测。DETR模型利用Transformer的结构,实现了基于查询的二维图像目标检测。Transformer结构是一种基于注意力(Attention)机制的网络结构,通过Transformer构建模型,能够有效地提升视频动作检测方法的性能。在实现本专利技术的过程中,专利技术人发现DETR模型通过编码器

解码器的方式预测出固定数量的检测目标,在解码器中通常采用密集的自注意力机制确定查询特征之间的相关关系,由于没有考虑到与每个查询特征对应的视频片段之间的语义关系,则无效的查询特征能够干扰查询特征预测的结果,并且,对于查询特征的预测存在预测结果不准确的情况。

技术实现思路

[0003]有鉴于此,本专利技术要解决的一个技术问题是提供一种解码器的训练方法、目标检测方法、装置以及存储介质。
[0004]根据本公开的第一方面,提供一种解码器的训练方法,其中,解码器包括:关系注意力模块和跨越注意力模块;所述训练方法包括:使用所述关系注意力模块并基于查询特征,生成与所述查询特征相对应的显著查询特征集合,用以使用所述关系注意力模块并基于所述显著查询特征集合对所述查询特征进行更新处理;使用所述跨越注意力模块并基于更新后的查询特征,获取与所述更新后的查询特征相对应的预测片段质量信息,并根据所述预测片段质量信息构建片段质量损失函数;获取与所述查询特征相对应的预测视频片段之间的片段关系特征,构建片段关系损失函数;根据所述片段质量损失函数和所述片段关系损失函数,对所述关系注意力模块和所述跨越注意力模块进行调整处理。
[0005]可选地,所述生成与所述查询特征相对应的显著查询特征集合包括:使用所述关系注意力模块并基于查询特征,获取各个查询特征之间的相似度信息、与各个查询特征对应的视频片段之间的片段关系特征信息;根据所述相似度信息,生成与所述查询特征相对应的相似特征集合;根据所述片段关系特征信息,生成与所述查询特征相对应的关系特征集合;基于所述相似特征集合、所述关系特征集合以及所述查询特征自身,生成所述显著查询特征集合。
[0006]可选地,所述根据所述相似度信息,生成与所述查询特征相对应的相似特征集合包括:根据所述相似度信息获取所述查询特征的相似查询特征;其中,所述查询特征与所述
相似查询特征之间的相似度大于预设的相似度阈值;基于所述相似查询特征生成所述相似特征集合。
[0007]可选地,所述片段关系特征信息包括:片段交并比;所述根据所述片段关系特征信息,生成与所述查询特征相对应的关系特征集合包括:根据所述片段交并比获取所述查询特征的关系查询特征;其中,所述查询特征与所述关系查询特征之间的片段交并比大于预设的交并比阈值;基于所述关系查询特征生成所述关系特征集合。
[0008]可选地,所述基于所述相似特征集合、所述关系特征集合以及所述查询特征自身,生成所述显著查询特征集合包括:获取所述相似特征集合关于所述关系特征集合的相对补集;将所述相对补集与所述查询特征自身的并集,作为所述显著查询特征集合。
[0009]可选地,所述预测片段质量信息包括:预测片段质量得分;所述使用所述跨越注意力模块并基于更新后的查询特征,获取与所述更新后的查询特征相对应的预测片段质量信息包括:确定与所述更新后的查询特征相对应的预测片段,并获取与所述预测片段相对应的视频片段;确定所述预测片段的中点与所述视频片段的中点之间的预测距离、所述预测片段与所述视频片段之间的预测交并比;基于所述预测距离和所述预测交并比,生成所述预测片段质量得分。
[0010]可选地,所述根据所述预测片段质量信息构建片段质量损失函数包括:确定所述预测片段中点与所述视频片段中点之间的片段距离、所述预测片段与所述视频片段之间的片段交并比;根据所述预测距离、所述预测交并比与对应的片段距离、片段交并比之间的偏差信息,构建所述片段质量损失函数。
[0011]可选地,所述片段关系特征包括:预测片段交并比;所述获取与所述查询特征相对应的预测视频片段之间的片段关系特征,构建片段关系损失函数包括:确定与所述更新后的查询特征相对应的预测片段之间的预测片段交并比;根据所述预测片段交并比的累计信息,构建所述片段关系损失函数。
[0012]可选地,所述使用所述关系注意力模块并基于所述显著查询特征集合,对所述查询特征进行更新处理包括:使用所述关系注意力模块对所述显著查询特征集合内的特征进行自注意力计算处理,用以对所述查询特征进行更新处理。
[0013]可选地,所述解码器模块包括:基于Transformer结构的解码器。
[0014]根据本公开的第二方面,提供一种目标检测方法,包括:获取训练好的解码器;其中,所述解码器是通过如上所述的训练方法训练得到;使用所述解码器并基于查询特征,生成分类置信度、用于表征目标位置的回归信息和预测片段质量得分;基于所述分类置信度和预测片段质量得分,确定预测得分。
[0015]根据本公开的第三方面,提供一种解码器的训练装置,其中,解码器包括:关系注意力模块和跨越注意力模块;所述训练装置包括:查询集合获取模块,用于使用所述关系注意力模块并基于查询特征,生成与所述查询特征相对应的显著查询特征集合;查询特征更新模块,用于使用所述关系注意力模块并基于所述显著查询特征集合,对所述查询特征进行更新处理;片段质量确定模块,用于使用所述跨越注意力模块并基于更新后的查询特征,获取与所述更新后的查询特征相对应的预测片段质量信息,并根据所述预测片段质量信息构建片段质量损失函数;预测损失确定模块,用于确定获取与所述查询特征相对应的预测视频片段之间的片段关系特征,构建片段关系损失函数;模块调整模块,用于根据所述片段
质量损失函数和所述片段关系损失函数,对所述关系注意力模块和所述跨越注意力模块进行调整处理。
[0016]可选地,所述查询集合获取模块,包括:特征信息获取单元,用于使用所述关系注意力模块并基于查询特征,获取各个查询特征之间的相似度信息、与各个查询特征对应的视频片段之间的片段关系特征信息;相似集合获取单元,用于根据所述相似度信息,生成与所述查询特征相对应的相似特征集合;关系集合获取单元,用于根据所述片段关系特征信息,生成与所述查询特征相对应的关系特征集合;显著集合获取单元,用于基于所述相似特征集合、所述关系特征集合以及所述查询特征自身,生成所述显著查询特征集合。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解码器的训练方法,其中,解码器包括:关系注意力模块和跨越注意力模块;所述训练方法包括:使用所述关系注意力模块并基于查询特征,生成与所述查询特征相对应的显著查询特征集合,用以使用所述关系注意力模块并基于所述显著查询特征集合对所述查询特征进行更新处理;使用所述跨越注意力模块并基于更新后的查询特征,获取与所述更新后的查询特征相对应的预测片段质量信息,并根据所述预测片段质量信息构建片段质量损失函数;获取与所述查询特征相对应的预测视频片段之间的片段关系特征,构建片段关系损失函数;根据所述片段质量损失函数和所述片段关系损失函数,对所述关系注意力模块和所述跨越注意力模块进行调整处理。2.如权利要求1所述的方法,所述生成与所述查询特征相对应的显著查询特征集合包括:使用所述关系注意力模块并基于查询特征,获取各个查询特征之间的相似度信息、与各个查询特征对应的视频片段之间的片段关系特征信息;根据所述相似度信息,生成与所述查询特征相对应的相似特征集合;根据所述片段关系特征信息,生成与所述查询特征相对应的关系特征集合;基于所述相似特征集合、所述关系特征集合以及所述查询特征自身,生成所述显著查询特征集合。3.如权利要求2所述的方法,所述根据所述相似度信息,生成与所述查询特征相对应的相似特征集合包括:根据所述相似度信息获取所述查询特征的相似查询特征;其中,所述查询特征与所述相似查询特征之间的相似度大于预设的相似度阈值;基于所述相似查询特征生成所述相似特征集合。4.如权利要求2所述的方法,所述片段关系特征信息包括:片段交并比;所述根据所述片段关系特征信息,生成与所述查询特征相对应的关系特征集合包括:根据所述片段交并比获取所述查询特征的关系查询特征;其中,所述查询特征与所述关系查询特征之间的片段交并比大于预设的交并比阈值;基于所述关系查询特征生成所述关系特征集合。5.如权利要求2所述的方法,所述基于所述相似特征集合、所述关系特征集合以及所述查询特征自身,生成所述显著查询特征集合包括:获取所述相似特征集合关于所述关系特征集合的相对补集;将所述相对补集与所述查询特征自身的并集,作为所述显著查询特征集合。6.如权利要求1所述的方法,所述预测片段质量信息包括:预测片段质量得分;所述使用所述跨越注意力模块并基于更新后的查询特征,获取与所述更新后的查询特征相对应的预测片段质量信息包括:确定与所述更新后的查询特征相对应的预测片段,并获取与所述预测片段相对应的视频片段;确定所述预测片段的中点与所述视频片段的中点之间的预测距离、所述预测片段与所
述视频片段之间的预测交并比;基于所述预测距离和所述预测交并比,生成所述预测片段质量得分。7.如权利要求6所述的方法,所述根据所述预测片段质量信息构建片段质量损失函数包括:确定所述预测片段中点与所述视频片段中点之间的片段距离、所述预测片段与所述视频片段之间的片段交并比;根据所述预测距离、...

【专利技术属性】
技术研发人员:曹琼石鼎丰陶大程
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1