图像文本匹配模型的训练方法、双向搜索方法及相关装置制造方法及图纸

技术编号：18459080 阅读：22 留言：0更新日期：2018-07-18 12:49

本申请涉及人工智能技术领域，尤其涉及图像文本匹配模型的训练方法、双向搜索方法及相关装置。该训练方法包括：提取图像样本和文本样本的全局表示和局部表示，后训练预先构建的匹配模型，该匹配模型将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间，全局表示的相似度和局部表示的相似度；并，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定图像和文本的匹配度。本申请得到的匹配度是基于将图像的细节特征到全局特征都考量在内，得到的匹配度更加准确和全面。

Training method, bidirectional search method and related device of image text matching model

The application relates to the field of artificial intelligence technology, in particular to the training method, bidirectional search method and related device of the image text matching model. The training methods include: extracting the global representation and local representation of the image samples and text samples, and then training the pre built matching model. The matching model maps the global representation and local representation of the image samples and the text samples to the specified semantic space, and the similarity degree of the global representation and the similarity of the local representation. According to the presupposition weights of the similarity of the global representation and the presupposition weights of the similarity of the local representation, the matching degree of the image and text is determined by the method of weighted sum. The matching degree obtained from this application is based on considering the detail features of the image to the global features, and the matching degree obtained is more accurate and comprehensive.

全部详细技术资料下载

【技术实现步骤摘要】
图像文本匹配模型的训练方法、双向搜索方法及相关装置
本申请涉及人工智能
，尤其涉及图像文本匹配模型的训练方法、搜索方法及相关装置。
技术介绍
图像与文本的理解一直是人工智能中最为重要的研究方向之一。其中一个重要的研究就是发掘图像和文本的关联关系。例如网页新闻中新闻文本内容和新闻图像表达的是相同的主题思想。也即，图像和文本之间并非绝对独立存在的，图像和文本之间存在匹配关系。故此，如何找到与给定图像匹配的文本，或者找到与给定文本匹配的图像成为业内关注的话题。专利技术人发现，相关技术中通常通过以下两种方法实现图像与文本的匹配：方法一、提取图像和文本各自的全局表示，将全局表示映射到相同的语义空间，在该语义空间建立图像和文本的全局表示之间的匹配关系，进而实现图像和文本的匹配。其中，全局表示反映了图像的全局特性，用于描述图像的整体特征，全局表示例如是颜色特征、形状特征和纹理特征等方法二、通过卷积神经网络得到图像的局部信息的局部表示。通过语法树信息得到文本的局部表示，进而学习图像与文本的局部表示的匹配关系。其中，局部表示反映了图像的局部表示，用于描述图像局部的细节特征。与全局表示相比，局部表示具有在图像中蕴含数量丰富，特征间相关度小，遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等的特点。然而，以上两种方法中均采用单一方面的信息来进行图像和文本的匹配，即要么单独采用全局表示，要么单独采用局部表示。无论采用局部表示还是全局表示进行图像和文本的匹配，仅能从一个层面反映图像和文本之间的匹配度。对于内容丰富的图像，全局表示也许仅能够提取颜色特征、形状特征和纹理...

【技术保护点】
1.一种图像文本匹配模型的训练方法，其特征在于，所述方法包括：提取图像样本的全局表示和局部表示；以及，提取文本样本的全局表示和局部表示；根据提取的全局表示和局部表示，训练预先构建的匹配模型，以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；其中，该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间，计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度；以及，将图像样本和文本样本各自的局部表示映射到指定语义空间，计算异构样本对之间的局部表示的相似度；并，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

【技术特征摘要】
1.一种图像文本匹配模型的训练方法，其特征在于，所述方法包括：提取图像样本的全局表示和局部表示；以及，提取文本样本的全局表示和局部表示；根据提取的全局表示和局部表示，训练预先构建的匹配模型，以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；其中，该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间，计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度；以及，将图像样本和文本样本各自的局部表示映射到指定语义空间，计算异构样本对之间的局部表示的相似度；并，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。2.根据权利要求1所述的方法，其特征在于，将图像样本和文本样本各自的全局表示映射到指定语义空间，具体包括：分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作，映射到指定语义空间；将图像样本和文本样本各自的局部表示映射到指定语义空间，具体包括：分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作，映射到指定语义空间；其中，全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度；或者，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。3.根据权利要求2所述的方法，其特征在于，若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，该预置目标函数为：其中，表示预置目标函数；表示文本样本；表示图像样本；当确定全局表示的相似度时，d()表示文本样本和图像样本的全局表示的相似度；当确定局部表示的相似度时，d()表示文本样本和图像样本的局部表示的相似度；λ1和λ2均表示预置系数；表示语义关联的异构样本对的相似度；和均表示非语义关联的异构样本对的相似度；u1和u2均表示预设阈值。4.根据权利要求2所述的方法，其特征在于，要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为：L(Si，Sl，Sj)＝max(0，u3+d(Si，Sl)-d(Si，Sj))其中，L(Si，Sl，Sj)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数；Si，Sl表示同一图像样本语义关联的文本样本；Si，Sj表示不同图像样本关联的文本样本；当确定全局表示的相似度时，d()表示文本样本之间的的全局表示的相似度；当确定局部表示的相似度时，d()表示文本样本之间的局部表示的相似度；u3表示预设阈值。5.根据权利要求1所述的方法，其表示在于，提取图像样本的局部表示，具体包括：将图像样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成图像样本的局部表示。6.根据权利要求1所述的方法，其特征在于，提取文本样本的全局表示，具体包括：对文本样本进...

【专利技术属性】
技术研发人员：马林，姜文浩，刘威，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人