【技术实现步骤摘要】
训练关系识别模型、进行图分析的方法及装置
[0001]本说明书一个或多个实施例涉及人工智能中的图像数据处理,尤其涉及一种训练关系识别模型,基于关系识别模型进行图分析的方法及装置。
技术介绍
[0002]图像识别和分析已经广泛应用于各种技术场景。为了更好地理解图像中的语义信息,已经提出一些技术方案,在识别出图像中物体的基础上,进一步识别物体之间的关系,从而更好地解读图像的内容。这又称为场景图生成。场景图生成的任务是,检测给定图像中所有的对象(即物体)类别以及物体之间的成对关系,并以检出的物体为结点,成对对象间关系为边,进一步组织成可以高度概括图中视觉信息的语义化图结构数据。
[0003]场景图生成是一种中游的计算机视觉任务,它下承底层的物体识别任务,如目标检测、语义识别等;同时上启高级的视觉
‑
语义任务,如视觉问答,图像描述等。因此,场景图生成任务具有重要的串联作用,它有机的将图像检测与图像理解结合起来,是实现更高级图像理解的重要助力。
[0004]因此,希望能有改进的方案,可以提升场景图中物体关系识别的准确性。
技术实现思路
[0005]鉴于上述问题,本说明书提供了一种训练关系识别模型的方法,图分析的方法和对应装置,以便提升物体关系识别的准确性。
[0006]根据第一方面,提供一种训练关系识别模型的方法,所述关系识别模型包括编码网络和分类网络,所述编码网络用于识别图片中包含的多个物体,并对其编码;所述分类网络用于从预设的关系类别集中,识别所述多个物体之间的关系 ...
【技术保护点】
【技术特征摘要】
1.一种训练关系识别模型的方法,所述关系识别模型包括编码网络和分类网络,所述编码网络用于识别图片中包含的多个物体,并对其编码;所述分类网络用于从预设的关系类别集中,识别所述多个物体之间的关系类别,所述方法包括:将所述关系类别集划分为K个分组,并对应设置K个分类器构成所述分类网络;所述K个分类器中的首个分类器的分类空间对应于首个分组中的关系类别,后续任意的第k分类器对应的第k分类空间,由前一分类器对应的分类空间叠加第k分组中的关系类别构成;从图片样本全集中,分别针对K个分类器进行采样,得到K个样本子集;将各个样本子集中的样本图片经由所述编码网络输入对应的各分类器,得到样本图片中物体之间的关系类别预测结果;基于K个分类器各自的分类损失确定第一损失,其中任意分类器的分类损失基于该分类器得出的关系类别预测结果与对应的类别标签确定;基于K个分类器中不同分类器针对同一对物体的关系类别预测结果之间的相似度确定第二损失;根据第一损失和第二损失确定总预测损失,根据所述总预测损失,更新所述编码网络和K个分类器。2.根据权利要求1所述的方法,其中,将所述关系类别集划分为K个分组,包括:根据所述关系类别集中各个关系类别对应的样本量估计值,对所述各个关系类别进行排序;按照所述排序形成所述K个分组,使得每个分组中,样本量最大的关系类别和样本量最小的关系类别之间的样本量差异指标低于预设阈值。3.根据权利要求2所述的方法,其中,所述样本量估计值,通过对所述图片样本全集中包含的所有关系类别进行统计而得到。4.根据权利要求2所述的方法,其中,所述按照所述排序形成所述K个分组,包括:按照所述排序遍历各个关系类别,其中对于遍历的当前关系类别,判断其与已形成的最新分组中的第一个关系类别的样本量差异指标是否低于预设阈值;若低于预设阈值,将该当前关系类别添加到所述最新分组中;若不低于预设阈值,新生成一个分组,将所述当前关系类别作为该新生成分组中的第一个关系类别,并将该新生成分组作为已形成的最新分组。5.根据权利要求1所述的方法,其中,所述K个样本子集包括任意的第k样本子集,所述第k样本子集中针对第k分类空间中各个关系类别的采样分布符合与均衡分布有关的预定条件。6.根据权利要求1所述的方法,其中,从图片样本全集中,分别针对K个分类器进行采样,包括:对于任意的第k分类器,根据第k分类空间中各个关系类别的样本量估计值,确定目标值;所述目标值为所述各个关系类别的样本量估计值的平均值或中位数;根据所述目标值,确定针对各个关系类别的采样率;其中包括,确定第一关系类别对应的第一采样率,使得第一采样率小于1,其中所述第一关系类别的样本量估计值大于所述目标值;根据各个关系类别的采样率,针对各个关系类别进行采样。
7.根据权利要求6所述的方法,其中,确定针对各个关系类别的采样率还包括,确定第二关系类别对应的第二采样率为1,其中所述第二关系类别的样本量估计值小于等于所述目标值。8.根据权利要求6所述的方法,其中,确定第一关系类别对应的第一采样率,包括:将所述第一采样率确定为,所述目标值与所述第一关系类别的样本量估计值的比值。9.根据权利要求6所述的方法,其中,根据各个关系类别的采样率,针对各个关系类别进行采样,包括:从所述图片样本全集中获取符合所述第一关系类别的第一样本;生成小于1的正数随机数;若所述正数随机数小于所述第一采样率,将所述第一样本采样为所述第一关系类别对应的样本;否则,丢弃该第一样本。10.根据权利要求1所述的方法,其中,基于K个分类器各自的分类损失确定第一损失,包括:根据第k分类器对第k样本子集中样本的关系类别预测结果与对应的类别标签,确定第k分类器的分类损失;将所述K个分类器各自的分类损失之和,确定为所述第一损失。11.根据权利要求1所述的方法,其中,基于K个分类器中不同分类器针对同一对物体的关系类别预测结果之间的相似度确定第二损失,包括:分别获取K个分类器中第一分类器针对某个物体对在第一分类空间预测的第一预测结果,以及第二分类器针对所述某个物体对在第二分类空间预测的第二预测结果,所述第二分类空间的维度大于第一分类空间;从第二预测结果中,截取出与第一预测结果维度相对应的部分,得到第二截断结果;确定所述第一预测结果和第二截断结果之间的第一相似度;至少根据所述第一相似度,确定所述第二损失。12.根据权利要求11所述的方法,其中,所述某个物体对,是所述第一分类器对应的第一样本子集和第二分类器对应的第二样本子集中共同的样本图片中的物体对。13.根据权利要求11所述的方法,其中,所述确定所述第一预测结果和第二截断结果之间的第一相似度,包括:确定所述第一预测结果和第二截断结果之间的KL散度,作为第一相似度。14.根据权利要求1所述的方法,其中,根据第一损失和第二损失确定总预测损失,包括:根据预设的权重因子,对所述第一损失和第二损失加权求和,得到所述总预测损失。15.根据权利要求1所述的方法,其中,所述编码网络包括检测子网络和第一编码器;将各个样本子集中的样本图片经由所述编码网络输入对应的各分类器,包括:将第一样本图片输入所述检测子网络,得到所述第一样本图片中包含的若干第一物体的图像特征,边框信息以及初始物体类别;通过所述第一编码器,基于各个第一物体的图像特征、边框信息和初始物体类别进行基于注意力的编码操作,得到各个第一物体的第一编码特征。16.根据权利要求15所述的方法,其中,所述第一编码器包括若干混合注意力层,各混
合注意力层包括针对两类特征的每一类分别设置的自注意力模块和跨注意力模块;所述基于注意力的编码操作包括,在单个混合注意力层中:通过所述两类特征中任意一类特征对应的自注意力模块,对输入的该任意一类特征进行基于自注意力的变换,得到第一变换特征;通过该任意一类特征对应的跨注意力模块,基于两类特征中另一类特征相对于该任意一类特征的注意力,对该两类特征进行组合变换,得到第二变换特征;将所述第一变换特征和第二变换特征组合,作为输出的该任意一类特征;其中,输入所述第一编码器的两类特征包括,基于各个第一物体的图像特征和边框信息得到的第一类特征,和基于各个第一物体的初始物体类别得到的第二类特征。17.根据权利要求15所述的方法,其中,所述编码网络还包括第一解码器...
【专利技术属性】
技术研发人员:董兴宁,程远,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。