【技术实现步骤摘要】
一种基于对偶强化学习的弱监督短语定位方法
[0001]本专利技术涉及多媒体
,特别涉及一种基于对偶强化学习的弱监督短语定位方法。
技术介绍
[0002]短语定位是多媒体领域的一项重要研究内容,在人机交互领域也有十分重要的应用。用户输入一段短语描述,要求机器人能够在该场景下定位出用户所描述的目标。目前,尽管全监督方法已经取得了令人满意的结果,但是这些方法极大的依赖于大量的图像区域
‑
文本对数据,这不仅带来了极大的人工标注成本,而且还受限于标注数据的规模和质量。
[0003]为了减轻人工成本,弱监督方法旨在给定图像
‑
文本对的情况下(不包含区域层级的标注),训练短语定位模型。由于标注数据的缺失,现有的一些方法通过构建额外的代理任务进行优化,例如去重建输入的短语或者在对齐空间中对齐短语特征以及图像层级的视觉特征。但是,在这些方法中,短语定位任务可以看成是代理任务的中间任务,并且是以一种隐式的方式进行优化。代理任务和目标任务之间优化目标存在的巨大的鸿沟使得现有的方法无法保证代理任务的 ...
【技术保护点】
【技术特征摘要】
1.一种基于对偶强化学习的弱监督短语定位方法,其特征在于,包括以下步骤:步骤S1,设计一个短语定位模型,用于在图像中定位出短语描述所指代的图像区域;设计一个短语生成模型,用于为图像中的某一区域生成自然语言层级的短语描述;步骤S2,使用预训练的目标检测器提取图像的候选框以及每个候选框的类别和属性名称;计算每个候选框和短语描述的语义相似度,得到各个短语描述的伪候选框,即伪图像区域
‑
短语对数据;利用这些数据热启动短语定位模型和短语生成模型;步骤S3、利用短语定位和短语生成任务之间的对偶性,为彼此提供反馈信号以衡量模型的优劣,并设计两个奖励函数量化反馈信号并利用强化学习协同训练短语定位模型和短语生成模型;步骤S4,利用训练好的短语定位模型完成短语定位任务。2.根据权利要求1所述的一种基于对偶强化学习的弱监督短语定位方法,其特征在于:步骤S1中所述的短语定位模型是一个视觉
‑
语言双分支模型;该模型将视觉特征和语言特征映射到一个共同的语义空间,从而能够直接比较这两个模态之间的特征;短语定位模型最终输出和短语描述q相似度最高的目标区域r
j
,计算公式如下:其中r表示目标区域,j表示相似度最高的目标区域的索引,i表示候选目标区域的索引,v
i
′
表示目标区域r
i
的视觉特征,h表示短语描述q的文本特征,T为向量转置符号;所述的短语生成模型采用编码器
‑
解码器的结构;该模型使用卷积神经网络CNN对图像区域特征进行编码,然后使用循环神经网络LSTM对编码的特征进行解码操作,输出自然语言层级的短语描述。3.根据权利要求1所述的一种基于对偶强化学习的弱监督短语定位方法,其特征在于:步骤S2中,使用预训练的目标检测器提取图像的候选框其中i表示候选目标区域的索引,N表示提取图像候选框的总数,并提取每个候选框的类别名称c
i
以及属性名称a
i
,并根据候选框在图像中所处的空间位置,为每个候选框分配了一些预定义的空间信息词;通过计算候选框和短语描述的类别、属性、位置的相似度,并将三个相似度进行求和得到总的匹配得分,并选取分数最高的候选框r
pseudo
作为输入短语描述q的匹配结果;计算公式如下:SIM=∑SIM
x
,x∈(cat,attr,loc)r
pseudo
=argmax(SIM)其中,cat、attr、loc分为表示类别,属性和位置信息;SIM
cat
、SIM
attr
、SIM
loc
分别表示类别匹配分数,属性匹配分数,位置匹配分数;pseudo表示相似度更高的候选目标区域的索引。类别匹配分数SIM
cat
的计算方式为两个类别名称的词嵌入向量的余弦相似度(Cos);其中词向量选择的是Glove词嵌入,计算方式如下:emb
n
=Glove(W
n
)emb
c
=...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。