System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机视觉领域,更具体的说涉及一种多步推理策略的图谱校正方法、电子设备、存储介质。
技术介绍
1、在计算机视觉领域,图谱构建和语义识别是两个重要而核心的任务。图谱构建可以帮助我们理解和描述图像中存在的各种信息,而语义识别可以帮助我们理解图片中的内容。
2、在传统的图谱构建和语义识别方法中,大多是通过单步预测的模式进行处理。例如,通过一个深度学习模型提取图片的特征,然后直接进行分类或标记,生成图谱信息。这种方法虽然简单直观,但存在一定的局限性。一个主要的问题是,由于缺乏对识别结果的校验和修正,可能导致预测结果的不准确。另一个问题是,这种方法往往忽略了语义特征之间的关联性,导致在处理复杂场景时的效果不佳。
技术实现思路
1、提出了基于多步推理策略的图谱校正方法。该方法主要是通过将低置信度的语义特征进行掩码,并利用高置信度的语义特征构建场景上下文信息,进行多步推理优化,不断校正和优化预测结果。这种方法在一定程度上改进了语义识别和图谱构建的效果,但还有待进一步优化和改进。
2、为了实现上述目的,本专利技术是采用以下方案实现的:所述的方法包括:
3、视觉目标特征提取;
4、直观训练阶段its,检测图像的直观语义信息,并将其作为先验知识引导并完成后续的多步推理过程;
5、理性训练阶段rts,通过多步推理将直观训练阶段生成的预测结果逐步优化为更详细的理性语义描述。
6、在一个方案中,所述的视觉目标特征提取,给定
7、然后区域框特征被映射为特征图p用于roialign特征v={v1,v2,...,vn}的提取;之后通过目标分类器得到初步的视觉目标类别l={li|l1,l2,...,ln},n代表一张图片中视觉目标的总数。
8、在一个方案中,所述的直观训练阶段,给定提取的视觉目标特征,采用标准的transformer模块实现视觉目标与关系上下文信息的传递,并通过映射层进一步将其解码完成直观语义的预测,分为以下几步:
9、(1)视觉目标上下文学习;
10、(2)视觉目标检测;
11、(3)视觉关系上下文学习;
12、(4)视觉关系检测。
13、在一个方案中,所述的理性训练阶段,在直观训练阶段的基础上额外引入了多步推理的步骤,分为以下几步:
14、(1)视觉目标多步推理;
15、(2)视觉关系多步推理。
16、在一个方案中,所述的视觉目标上下文学习,以空间特征,视觉目标类别以及视觉特征的串联为输入xi,将其输入至transformer编码器;同时将索引q,键k,值v设定为x={xi}ni=1,并采用多头注意力方法得到编码结果h0。
17、在一个方案中,所述的视觉目标检测,transformer解码器的输出将直接用于视觉目标类别预测,同时将transformer解码器改为并行输出的方式,进而transformer的解码器关注到所有的输入特征并学习预测每个视觉目标的类别。
18、在一个方案中,所述的视觉关系上下文学习通过transformer编码器模块构建视觉关系上下文表征,并以公式transformer解码器输出,以及预测的视觉目标类别嵌入特征为输入;
19、所述的视觉关系检测以视觉关系上下文表征以及roialign特征ui,j的串接特征为输入,并经过softmax预测分类器完成视觉目标关系类别预测。
20、在一个方案中,所述的视觉目标多步推理,首先执行掩码操作,而后再次对上下文表征进行解码完成视觉关系预测;其中,在迭代时首先从结果{c(obj)i}ni=1中提取k个低置信度的特征执行掩码操作。
21、再一方面,一种电子设备,包括处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现所述的一种多步推理策略的图谱校正方法。
22、又一方面,一种计算机存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时实现所述的一种多步推理策略的图谱校正方法。
23、本专利技术有益效果:
24、本专利技术的基于多步推理策略的图谱校正方法,能够有效改进和优化传统单步预测模式的语义识别和图谱构建结果。具体来说,该方法通过将低置信度的语义特征进行掩码,利用高置信度的语义特征构建场景上下文信息作为先验知识,优化掩码的语义特征并再次预测。“掩码-预测”迭代过程能够不断地校正和优化低置信度的预测结果,从而大大提高了语义识别的精度和图谱构建的质量。因此,本专利技术的方法具有高精度、高效率等优点,对于计算机视觉领域的图谱构建和语义识别具有重要的实用价值。
本文档来自技高网...【技术保护点】
1.一种多步推理策略的图谱校正方法,其特征在于:所述的方法包括:
2.根据权利要求1所述的一种多步推理策略的图谱校正方法,其特征在于:所述的视觉目标特征提取,给定一张图片I,通过预训练的卷积神经网络(CNN)提取图片的卷积图特征P,其中区域提议网络(RPN)网络生成一组候选框B={bi|b1,b2,...,bN},代表每个视觉目标区域的空间特征;
3.根据权利要求1所述的一种多步推理策略的图谱校正方法,其特征在于:所述的直观训练阶段,给定提取的视觉目标特征,采用标准的transformer模块实现视觉目标与关系上下文信息的传递,并通过映射层进一步将其解码完成直观语义的预测,分为以下几步:
4.根据权利要求1所述的一种多步推理策略的图谱校正方法,其特征在于:所述的理性训练阶段,在直观训练阶段的基础上额外引入了多步推理的步骤,分为以下几步:
5.根据权利要求3所述的一种多步推理策略的图谱校正方法,其特征在于:所述的视觉目标上下文学习,以空间特征,视觉目标类别以及视觉特征的串联为输入xi,将其输入至transformer编码器;同时将索引
6.根据权利要求3所述的一种多步推理策略的图谱校正方法,其特征在于:所述的视觉目标检测,transformer解码器的输出将直接用于视觉目标类别预测,同时将transformer解码器改为并行输出的方式,进而transformer的解码器关注到所有的输入特征并学习预测每个视觉目标的类别。
7.根据权利要求3所述的一种多步推理策略的图谱校正方法,其特征在于:所述的视觉关系上下文学习通过transformer编码器模块构建视觉关系上下文表征,并以公式transformer解码器输出,以及预测的视觉目标类别嵌入特征为输入;
8.根据权利要求4所述的一种多步推理策略的图谱校正方法,其特征在于:所述的视觉目标多步推理,首先执行掩码操作,而后再次对上下文表征进行解码完成视觉关系预测;其中,在迭代时首先从结果{c(obj)i}Ni=1中提取k个低置信度的特征执行掩码操作。
9.一种电子设备,其特征在于:包括处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至8中任一项所述的一种多步推理策略的图谱校正方法。
10.一种计算机存储介质,其特征在于:其上存储有计算机程序,所述的计算机程序被处理器执行时实现如权利要求1至8中任一项所述的一种多步推理策略的图谱校正方法。
...【技术特征摘要】
1.一种多步推理策略的图谱校正方法,其特征在于:所述的方法包括:
2.根据权利要求1所述的一种多步推理策略的图谱校正方法,其特征在于:所述的视觉目标特征提取,给定一张图片i,通过预训练的卷积神经网络(cnn)提取图片的卷积图特征p,其中区域提议网络(rpn)网络生成一组候选框b={bi|b1,b2,...,bn},代表每个视觉目标区域的空间特征;
3.根据权利要求1所述的一种多步推理策略的图谱校正方法,其特征在于:所述的直观训练阶段,给定提取的视觉目标特征,采用标准的transformer模块实现视觉目标与关系上下文信息的传递,并通过映射层进一步将其解码完成直观语义的预测,分为以下几步:
4.根据权利要求1所述的一种多步推理策略的图谱校正方法,其特征在于:所述的理性训练阶段,在直观训练阶段的基础上额外引入了多步推理的步骤,分为以下几步:
5.根据权利要求3所述的一种多步推理策略的图谱校正方法,其特征在于:所述的视觉目标上下文学习,以空间特征,视觉目标类别以及视觉特征的串联为输入xi,将其输入至transformer编码器;同时将索引q,键k,值v设定为x={xi}ni=1,并采用多头注意力方法得到编码结果h0。
6.根据权利要求3所述的一种多步推理策...
【专利技术属性】
技术研发人员:李瑞琪,韩丽,郭楠,焦国涛,程雨航,贾仕齐,胡琳,何宏宏,
申请(专利权)人:中国电子技术标准化研究院工业和信息化部电子工业标准化研究院工业和信息化部电子第四研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。