实体交互检测方法、建立实体交互检测模型的方法及装置制造方法及图纸

技术编号:35908419 阅读:9 留言:0更新日期:2022-12-10 10:47
本申请实施例公开了一种实体交互检测方法、建立实体交互检测模型的方法及装置,涉及人工智能技术领域。包括:对待检测图像进行嵌入处理,得到待检测图像的嵌入特征;将待检测图像的嵌入特征输入实体交互检测模型;由实体交互检测模型中的共享编码网络进行编码处理,得到待检测图像的特征表示;实体解码网络利用待检测图像的特征表示预测待检测图像所包含第一实体和第二实体的位置信息;交互解码网络利用待检测图像的特征表示预测待检测图像包含的交互类型信息以及存在该类型交互关系的指针表示;关联匹配网络将实体解码网络和交互解码网络的预测结果进行关联,得到第一实体与第二实体之间的交互信息。本申请能够提高实体交互检测的准确性。交互检测的准确性。交互检测的准确性。

【技术实现步骤摘要】
实体交互检测方法、建立实体交互检测模型的方法及装置


[0001]本申请涉及人工智能
,特别是涉及一种实体交互检测方法、建立实体交互检测模型的方法及装置。

技术介绍

[0002]各种服务场景产生了海量的图像数据,这些图像数据能够很好地反映服务状况。其中一种图像分析需求是检测图像中实体与实体之间的交互关系,例如人物交互(HOI,human object interaction)检测是检测人和物体之间的交互关系,从而为后续的数据挖掘提供有效的信息。因此,需要一种能够准确实现实体交互检测的方式。

技术实现思路

[0003]有鉴于此,本申请提供了一种高准确性的实体交互检测方法、建立实体交互检测模型的方法及装置。
[0004]本申请提供了如下方案:
[0005]第一方面,提供了一种实体交互检测方法,所述方法包括:
[0006]对待检测图像进行嵌入处理,得到待检测图像的嵌入特征;
[0007]将所述待检测图像的嵌入特征输入实体交互检测模型,得到所述待检测图像中第一实体和第二实体之间的交互信息;
[0008]其中所述实体交互检测模型包括:共享编码网络、实体解码网络、交互解码网络和关联匹配网络;所述共享编码网络对所述待检测图像的嵌入特征进行编码处理,得到所述待检测图像的特征表示;所述实体解码网络利用所述待检测图像的特征表示预测所述待检测图像所包含第一实体和第二实体的位置信息;所述交互解码网络利用所述待检测图像的特征表示预测所述待检测图像包含的交互类型信息以及存在该类型交互关系的指针表示;所述关联匹配网络将所述实体解码网络和交互解码网络的预测结果进行关联,得到第一实体和第二实体之间的交互信息。
[0009]根据本申请实施例中一可实现的方式,所述对待检测图像进行嵌入处理,得到待检测图像的嵌入特征包括:对待检测图像中的图像块分别进行基于内容的嵌入和基于位置的嵌入,得到待检测图像的内容嵌入特征和位置嵌入特征;
[0010]所述共享编码网络基于多层转换Transformer实现,所述Transformer包括自注意力层和前向反馈网络FFN层;
[0011]所述自注意力层利用所述内容嵌入特征和位置嵌入特征的拼接结果得到查询向量query和键向量key,利用所述内容嵌入特征得到值向量value,利用query、key和value进行注意力处理后,将处理结果输出至所述FFN层。
[0012]根据本申请实施例中一可实现的方式,所述交互解码网络包括多层解码器和映射层;
[0013]所述多层解码器利用所述待检测图像的特征表示和第一交互查询进行解码处理,
得到所述待检测图像的第二特征表示,所述第一交互查询是所述实体交互模型在训练过程中学习到的;
[0014]所述映射层利用所述待检测图像的第二特征表示进行映射,得到交互类型信息以及存在该类型交互关系的指针表示。
[0015]根据本申请实施例中一可实现的方式,所述多层解码器中的各解码器包括自注意力层、交叉注意力层和FFN层;
[0016]所述交叉注意力层利用自注意力层的输出和第二交互查询的拼接结果得到query,利用共享编码网络的输出和所述位置嵌入特征的拼接结果得到key和value,利用query、key和value进行注意力处理后,将处理结果输出至FFN层;
[0017]其中所述第二交互查询由交互参考点和上一层解码器的输出得到,所述交互参考点由第一实体的参考点和第二实体的参考点确定,所述第一实体的参考点和第二实体的参考点依据所述第一交互查询预测得到。
[0018]根据本申请实施例中一可实现的方式,所述交互解码网络的第一层解码器中的自注意力层利用所述共享编码器的输出和第一交互查询的拼接结果得到query和key,利用所述共享编码器的输出得到value,利用query、key和value进行注意力处理后,将处理结果输出至交叉注意力层;
[0019]所述交互解码网络的其他层解码器中的自注意力层利用上一层解码器的输出和第一交互查询的拼接结果得到query和key,利用上一层解码器的输出得到value,利用query、key和value进行注意力处理后,将处理结果输出至交叉注意力层。
[0020]根据本申请实施例中一可实现的方式,所述关联匹配网络将所述实体解码网络和交互解码网络的预测结果进行关联,得到第一实体和第二实体之间的交互信息包括:
[0021]所述关联匹配网络将所述第一实体和第二实体的位置信息与存在交互关系的指针表示进行匹配,若存在匹配的指针表示,则确定所述第一实体和第二实体存在交互,且交互类型为匹配到的指针表示对应的类型。
[0022]第二方面,提供了一种建立实体交互检测模型的方法,所述方法包括:
[0023]获取训练数据,所述训练数据包括图像样本以及对图像样本中第一实体与第二实体之间的交互信息标注的标签;
[0024]对所述训练数据中的图像样本进行嵌入处理,得到图像样本的嵌入特征;
[0025]将所述图像样本的嵌入特征作为实体交互检测模型的输入,训练所述实体交互检测模型,训练目标包括最小化所述实体交互检测模型输出的第一实体与第二实体之间的交互信息与图像样本在训练数据中的标签之间的差异;
[0026]其中所述实体交互检测模型包括:共享编码网络、实体解码网络、交互解码网络和关联匹配网络;所述共享编码网络对所述图像样本的嵌入特征进行编码处理,得到所述图像样本的特征表示;所述实体解码网络利用所述图像样本的特征表示预测所述图像样本所包含第一实体和第二实体的位置信息;所述交互解码网络利用所述图像样本的特征表示预测所述图像样本包含的交互类型信息以及存在该类型交互关系的指针表示;所述关联匹配网络将所述实体解码网络和交互解码网络的预测结果进行关联,得到第一实体与第二实体之间的交互信息。
[0027]根据本申请实施例中一可实现的方式,对所述训练数据中的图像样本进行嵌入处
理,得到图像样本的嵌入特征包括:对图像样本中的图像块分别进行基于内容的嵌入和基于位置的嵌入,得到所述图像样本的内容嵌入特征和位置嵌入特征;
[0028]所述共享编码网络基于多层Transformer实现,所述Transformer包括自注意力层和FFN层;
[0029]所述自注意力层利用所述内容嵌入特征和位置嵌入特征的拼接结果得到query和key,利用所述内容嵌入特征得到value,利用query、key和value进行注意力处理后,将处理结果输出至所述FFN层。
[0030]根据本申请实施例中一可实现的方式,所述交互解码网络包括多层解码器和映射层;
[0031]所述多层解码器利用所述图像样本的特征表示和第一交互查询进行解码处理,得到所述图像样本的第二特征表示,所述第一交互查询初始化后随着所述训练过程进行更新;
[0032]所述映射层利用所述图像样本的第二特征表示进行映射,得到交互信息,所述交互信息包括交互类型信息以及存在该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体交互检测方法,其特征在于,所述方法包括:对待检测图像进行嵌入处理,得到待检测图像的嵌入特征;将所述待检测图像的嵌入特征输入实体交互检测模型,得到所述待检测图像中第一实体和第二实体之间的交互信息;其中所述实体交互检测模型包括:共享编码网络、实体解码网络、交互解码网络和关联匹配网络;所述共享编码网络对所述待检测图像的嵌入特征进行编码处理,得到所述待检测图像的特征表示;所述实体解码网络利用所述待检测图像的特征表示预测所述待检测图像所包含第一实体和第二实体的位置信息;所述交互解码网络利用所述待检测图像的特征表示预测所述待检测图像包含的交互类型信息以及存在该类型交互关系的指针表示;所述关联匹配网络将所述实体解码网络和交互解码网络的预测结果进行关联,得到第一实体和第二实体之间的交互信息。2.根据权利要求1所述的方法,其特征在于,所述对待检测图像进行嵌入处理,得到待检测图像的嵌入特征包括:对待检测图像中的图像块分别进行基于内容的嵌入和基于位置的嵌入,得到待检测图像的内容嵌入特征和位置嵌入特征;所述共享编码网络基于多层转换Transformer实现,所述Transformer包括自注意力层和前向反馈网络FFN层;所述自注意力层利用所述内容嵌入特征和位置嵌入特征的拼接结果得到查询向量query和键向量key,利用所述内容嵌入特征得到值向量value,利用query、key和value进行注意力处理后,将处理结果输出至所述FFN层。3.根据权利要求1所述的方法,其特征在于,所述交互解码网络包括多层解码器和映射层;所述多层解码器利用所述待检测图像的特征表示和第一交互查询进行解码处理,得到所述待检测图像的第二特征表示,所述第一交互查询是所述实体交互模型在训练过程中学习到的;所述映射层利用所述待检测图像的第二特征表示进行映射,得到交互类型信息以及存在该类型交互关系的指针表示。4.根据权利要求3所述的方法,其特征在于,所述多层解码器中的各解码器包括自注意力层、交叉注意力层和FFN层;所述交叉注意力层利用自注意力层的输出和第二交互查询的拼接结果得到query,利用共享编码网络的输出和所述位置嵌入特征的拼接结果得到key和value,利用query、key和value进行注意力处理后,将处理结果输出至FFN层;其中所述第二交互查询由交互参考点和上一层解码器的输出得到,所述交互参考点由第一实体的参考点和第二实体的参考点确定,所述第一实体的参考点和第二实体的参考点依据所述第一交互查询预测得到。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述关联匹配网络将所述实体解码网络和交互解码网络的预测结果进行关联,得到第一实体和第二实体之间的交互信息包括:所述关联匹配网络将所述第一实体和第二实体的位置信息与存在交互关系的指针表示进行匹配,若存在匹配的指针表示,则确定所述第一实体和第二实体存在交互,且交互类
型为匹配到的指针表示对应的类型。6.一种建立实体交互检测模型的方法,其特征在于,所述方法包括:获取训练数据,所述训练数据包括图像样本以及对图像样本中第一实体与第二实体之间的交互信息标注的标签;对所述训练数据中的图像样本进行嵌入处理,得到图像样本的嵌入特征;将所述图像样本的嵌入特征作为实体交互检测模型的输入,训练所述实体交互检测模型,训练目标包括最小化所述实体交互检测模型输出的第一实体与第二实体之间的交互信息与图像样本在训练数据中的标签之间的差异;其中所述实体交互检测模型包括:共享编码网络、实体解码网络、交互解码网络和关联匹配网络;所述共享编码网络对所述图像样本的嵌入特征进行编码处理,得到所述图像样本的特征表示;所述实体解码网络利用所述图像样本的特征表示预测所述图像样本所包含第一实体和第二实体的位置信息;所述交互解码网络利用所述图像样本的特征表示预测所述图像样本包含的交互类型信息以及存在该类型交互关系的指针表示;所述关联匹配网络将所述实体解码网络和交互解码网络的预测结果进行关联,得到第一实体与第二实体之间的交互信息。7.根据权利要求6所述的方法,其特征在于,对所述训练数据中的图像样本进行嵌入处理,得到图像样本的嵌入特征包括:对图像样本中的图像块分别进行基于内容的嵌入和基于位置的嵌入,得到所述图像样本的内容嵌入特征和位置嵌入特征;所述共享编码网络基于多层T...

【专利技术属性】
技术研发人员:于开丞
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1