【技术实现步骤摘要】
一种基于混合聚焦注意力机制的图文匹配方法及系统
[0001]本专利技术属于计算机视觉和自然语言处理的交叉领域,具体涉及一种计算图像和文本匹配的方法。
技术介绍
[0002]图像和文本作为互联网传播信息的主要媒体,已经充斥了人们的日常生活,图像作为一种视觉数据,本质上与文本这类自然语言数据有着天然的差异,虽然这两种数据在模态上存在差异,但是很多场景下,图像和文本传播的内容是息息相关的,一幅图像与一句自然语言描述通常会存在内部的语义关联,如何挖掘这种关联,对实现图像和自然语言之间的语义对齐有很大的应用前景及价值。通过挖掘图像和自然语言文本之间的相似性分数,找到语义匹配的图文对,能极大的促进当下文字检索图像/图像检索文字的发展,从而帮助使用者在互联网中检索到更有价值的信息,这就是图文匹配的研究价值及意义。
[0003]图文匹配方法需要对给定的图像和自然语言描述对进行匹配程度的打分,因此,理解图像和自然语言描述的内容是决定匹配分数的关键,只有图文匹配方法能理解图像与文本中的内容,才能更加准确和全面的判断两者的匹配程度。传统的 ...
【技术保护点】
【技术特征摘要】
1.一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,包括以下步骤:步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征;步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数,从而区分有效和无效的区域特征,实现区域级和单词级的特征的跨模态上下文抽取以及融合;步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合,通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征,掩盖噪声和冗余的区域,增强不同区域特征和单词特征的区分度;步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。2.根据权利要求1所述的一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,还包括:步骤S5. 利用三元组损失函数对步骤S1
‑
步骤S4中所有线性层进行优化,优化后再执行步骤S1
‑
步骤S4。3.根据权利要求1或2所述的一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,在步骤S1中,包括两个子步骤:步骤S11.采用预训练的Faster R
‑
CNN目标检测器检测图像中最显著的个区域,并抽取每个区域对应的特征,然后通过线性层将特征映射到维隐空间,将得到的区域特征记为,其中,特征向量中的每个元素都是实数,表示特征向量的维度,表示实数域,表示维的实数向量;步骤S12.对于包含个单词的自然语言描述,采用双向门控循环单元Bi
‑
GRU来抽取每个单词的特征,Bi
‑
GRU的前向过程从第一个单词读到最后一个单词,并记录读到每个单词时的隐状态:,其中,表示前向过程的隐状态,表示第个单词的独热码,表示Bi
‑
GRU的前向过程;Bi
‑
GRU的后向过程从最后一个单词读到第一个单词,并记录读到每个单词时的隐状态:,其中,表示后向过程的隐状态,表示Bi
‑
GRU的后向过程;单词特征由前向过程的隐状态和后向过程的隐状态求平均得到,即:,通过线性层将其特征映射到维隐空间,记为,代表特征向量的维度。4.根据权利要求3所述的一种基于混合聚焦注意力机制的图文匹配方法,其特征在于,
在步骤S2中,包括两个子步骤;步骤S21、给定图像区域特征和描述的单词特征,分别求取平均特征,记为图像区域平均特征和单词平均特征,以图像区域平均特征和单词平均特征为查询对象,分别算出对每个区域、单词的注意力分数:,,其中,表示图像区域平均特征对第个图像区域特征的注意力分数,表示单词平均特征对第个单词特征的注意力分数,、和、分别为参数矩阵一、参数矩阵二、参数矩阵三、参数矩阵四,和为参数向量,表示元素乘法,通过注意力分数对区域、单词特征进行加权和,即可得到图像和文本的全局特征,即:,其中,表示图像的全局特征;表示句子描述的全局特征;对于大小为的批量图像,计算当前文本描述对其中第张图像的聚焦程度,即:,其中,为参数向量,表示两个特征向量的拼接操作,为sigmoid激活函数,由此得到当前文本描述对张图像的聚焦程度;步骤S22、在得到第张图像的区域特征和文本描述的单词特征以及其对第张图像的聚焦分数后,通过局部的单词和区域交互,计算出每个单词对每个区域的相似性分数,即:,其中,表示转置,对相似性分数进行L2归一化处理得到归一化相似程度,表示第个单词与第个区域的相似程度;注意力分数由下式得到:,通...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。