图像文本匹配模型的训练方法、双向搜索方法及相关装置制造方法及图纸

技术编号:18459080 阅读:22 留言:0更新日期:2018-07-18 12:49
本申请涉及人工智能技术领域,尤其涉及图像文本匹配模型的训练方法、双向搜索方法及相关装置。该训练方法包括:提取图像样本和文本样本的全局表示和局部表示,后训练预先构建的匹配模型,该匹配模型将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间,全局表示的相似度和局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定图像和文本的匹配度。本申请得到的匹配度是基于将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。

Training method, bidirectional search method and related device of image text matching model

The application relates to the field of artificial intelligence technology, in particular to the training method, bidirectional search method and related device of the image text matching model. The training methods include: extracting the global representation and local representation of the image samples and text samples, and then training the pre built matching model. The matching model maps the global representation and local representation of the image samples and the text samples to the specified semantic space, and the similarity degree of the global representation and the similarity of the local representation. According to the presupposition weights of the similarity of the global representation and the presupposition weights of the similarity of the local representation, the matching degree of the image and text is determined by the method of weighted sum. The matching degree obtained from this application is based on considering the detail features of the image to the global features, and the matching degree obtained is more accurate and comprehensive.

【技术实现步骤摘要】
图像文本匹配模型的训练方法、双向搜索方法及相关装置
本申请涉及人工智能
,尤其涉及图像文本匹配模型的训练方法、搜索方法及相关装置。
技术介绍
图像与文本的理解一直是人工智能中最为重要的研究方向之一。其中一个重要的研究就是发掘图像和文本的关联关系。例如网页新闻中新闻文本内容和新闻图像表达的是相同的主题思想。也即,图像和文本之间并非绝对独立存在的,图像和文本之间存在匹配关系。故此,如何找到与给定图像匹配的文本,或者找到与给定文本匹配的图像成为业内关注的话题。专利技术人发现,相关技术中通常通过以下两种方法实现图像与文本的匹配:方法一、提取图像和文本各自的全局表示,将全局表示映射到相同的语义空间,在该语义空间建立图像和文本的全局表示之间的匹配关系,进而实现图像和文本的匹配。其中,全局表示反映了图像的全局特性,用于描述图像的整体特征,全局表示例如是颜色特征、形状特征和纹理特征等方法二、通过卷积神经网络得到图像的局部信息的局部表示。通过语法树信息得到文本的局部表示,进而学习图像与文本的局部表示的匹配关系。其中,局部表示反映了图像的局部表示,用于描述图像局部的细节特征。与全局表示相比,局部表示具有在图像中蕴含数量丰富,特征间相关度小,遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等的特点。然而,以上两种方法中均采用单一方面的信息来进行图像和文本的匹配,即要么单独采用全局表示,要么单独采用局部表示。无论采用局部表示还是全局表示进行图像和文本的匹配,仅能从一个层面反映图像和文本之间的匹配度。对于内容丰富的图像,全局表示也许仅能够提取颜色特征、形状特征和纹理特征等,却无法展现局部表示的细节特征,故此能够反映的特征有限。而局部表示仅能从局部考量图像文本的匹配关系、无法体现出全局表示的特征。故此,以上两种方法都无法全面衡量图像和文本之间的匹配度。
技术实现思路
本申请实施例提供图像文本匹配模型的训练方法、搜索方法及相关装置,用以解决现有技术中存在的无法全面衡量图像和文本之间的匹配度等的问题。第一方面,本申请实施例提供的一种图像文本匹配模型的训练方法,所述方法包括:提取图像样本的全局表示和局部表示;以及,提取文本样本的全局表示和局部表示;根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。第二方面,本申请实施例提供一种图像文本双向搜索方法,所述方法包括:接收参考样本,该参考样本为文本或图像;提取该参考样本的全局表示和局部表示;将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。第三方面,本申请实施例提供一种图像文本匹配模型的训练装置,所述装置包括:图像特征提取模块,用于提取图像样本的全局表示和局部表示;文本特征提取模块,用于提取文本样本的全局表示和局部表示;训练模块,用于根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。第四方面,本申请实施例提供一种图像文本双向搜索装置,所述装置包括:参考样本接收模块,用于接收参考样本,该参考样本为文本或图像;参考样本特征提取模块,用于提取该参考样本的全局表示和局部表示;搜索模块,用于将参考样本的全局表示和局部输入给匹配模型,以使该匹配模型计算参考参考样本与相应素材的匹配度;其中,若参考样本为文本,则相应素材为图像;若参考样本为图像,则相应素材为文本;该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;选择模块,用于选取匹配度大于指定匹配度的相应素材,作为与参考样本匹配的素材。第五方面,本申请实施例提供一种计算设备,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行本申请实施例任一所述的图像文本匹配模型的训练方法。第六方面、本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如如本申请实施例任一所述的图像文本匹配模型的训练方法。第七方面,本申请实施例提供一种计算设备,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如本申请实施例所述的图像文本双向搜索方法。第八方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如本申请实施例所述的图像文本双向搜索方法。本申请实施例中,得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内,得到的匹配度更加准确和全面。故此,基于本申请实施例提供的匹配模型进行图像文本双向搜索时,搜索结果也会更加准确。附图说明图1所示为本申请实施例提供的应用场景示意图;图2所示为本申请实施例一提供的图像文本匹配模型的训练方法的流程示意图;图3所示为本申请实施例一提供的匹配模型的框图;图4所示为本申请实施例一提供的计算图像特征的相似度的模型的框图;图5所示为本申请实施例一提供的对图像信息的类别的示意图;图6所示为本申请实施例一提取文本的全局表示的框图;图7所示为本申请实施例二提供的图像文本匹配模型的训练方法的流程示意图;图8所示为本申请实施例提供的图像文本双向搜索方法的流程示意图;图9所示为本申请实施例提供的图像文本匹配模型的训练装置的结构示意图;图10所示为本申请实施例提供的图像文本双向搜索装置的结构示意图;图11为本申请实施例提供的计算设备的结构示意图。具体实施方式为了便于理解本申请实施例提供的技术方案,下面结合说明书附图对本申请实施例作进一步详细描述。为了能够全面的对图像和文本进行匹配,得到更加准确的匹配度,本申请实施例中,根据以下方法训练图像文本匹配模型,具体的:提取图像样本的全局表示和局部表示;以及,提取文本样本的全局表示和局部表示;根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将本文档来自技高网
...

【技术保护点】
1.一种图像文本匹配模型的训练方法,其特征在于,所述方法包括:提取图像样本的全局表示和局部表示;以及,提取文本样本的全局表示和局部表示;根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。

【技术特征摘要】
1.一种图像文本匹配模型的训练方法,其特征在于,所述方法包括:提取图像样本的全局表示和局部表示;以及,提取文本样本的全局表示和局部表示;根据提取的全局表示和局部表示,训练预先构建的匹配模型,以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度;其中,该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间,计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度;以及,将图像样本和文本样本各自的局部表示映射到指定语义空间,计算异构样本对之间的局部表示的相似度;并,根据全局表示的相似度的预设权值,以及局部表示的相似度的预设权值,采用加权求和的方式,确定异构样本对的匹配度。2.根据权利要求1所述的方法,其特征在于,将图像样本和文本样本各自的全局表示映射到指定语义空间,具体包括:分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;将图像样本和文本样本各自的局部表示映射到指定语义空间,具体包括:分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作,映射到指定语义空间;其中,全连接层的参数根据预置目标函数训练获得,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度;或者,该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。3.根据权利要求2所述的方法,其特征在于,若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度,该预置目标函数为:其中,表示预置目标函数;表示文本样本;表示图像样本;当确定全局表示的相似度时,d()表示文本样本和图像样本的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本和图像样本的局部表示的相似度;λ1和λ2均表示预置系数;表示语义关联的异构样本对的相似度;和均表示非语义关联的异构样本对的相似度;u1和u2均表示预设阈值。4.根据权利要求2所述的方法,其特征在于,要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为:L(Si,Sl,Sj)=max(0,u3+d(Si,Sl)-d(Si,Sj))其中,L(Si,Sl,Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数;Si,Sl表示同一图像样本语义关联的文本样本;Si,Sj表示不同图像样本关联的文本样本;当确定全局表示的相似度时,d()表示文本样本之间的的全局表示的相似度;当确定局部表示的相似度时,d()表示文本样本之间的局部表示的相似度;u3表示预设阈值。5.根据权利要求1所述的方法,其表示在于,提取图像样本的局部表示,具体包括:将图像样本划分为指定数量的图像块,针对每个图像块,计算该图像块中包含指定类别的图像信息的概率;并,选取指定数量的图像块中各指定类别的图像信息的最大概率;由各指定类别的图像信息的最大概率构成图像样本的局部表示。6.根据权利要求1所述的方法,其特征在于,提取文本样本的全局表示,具体包括:对文本样本进...

【专利技术属性】
技术研发人员:马林姜文浩刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1