图文匹配方法、装置及存储介质制造方法及图纸

技术编号:21454162 阅读:44 留言:0更新日期:2019-06-26 04:51
本申请实施例提供一种图文匹配方法、装置及存储介质,本申请可以线下训练好用来估计图片与文本信息相关度的图文匹配预估模型,该图文匹配预估模型能够建立文本与图片之间更加可靠的关联,这样,在需要线上为某文章配图的情况下,可以向服务器上传相应的待配图文本,以使服务器先从图库中筛选与待配图文本关联的多个候选图片,之后,再利用该图文匹配模型,从这多个候选图片中,精确选择与待配图文本相关度较高的第一数量个候选图片,并反馈至客户端进行展示,此时,用户只需要从服务器反馈的有限个与待发布文章相关度较高的候选图片中,选择所需图片即可,不需要从大量图片中进行选择,极大减小了配图工作量,且提高了图文匹配正确率。

【技术实现步骤摘要】
图文匹配方法、装置及存储介质
本申请涉及通信
,具体涉及一种图文匹配方法、装置及存储介质。
技术介绍
随着信息技术的快速发展以及网络的全球化,用户对多媒体的需求越来越高。例如,用户在新闻平台阅读新闻,更希望阅读图文并茂的新闻,而不仅仅是纯文本的新闻;或者用户在互动问答平台搜索问题时,更愿意选择具有配图的问答查看。因此,为了提高阅读量,更好地为用户服务,这些应用平台在发布文本信息时,通常会为其配置图片,这使得图文匹配成为技术人员重要研究方向之一。在图文匹配任务中,图片与文本的相关度往往是核心工作,现有技术中,通常是由用户从图片数据集合中,人工挑选与待配图文本相关度较高的图片,工作量非常大,且图文匹配准确率较低,不利于配图文本的推广。
技术实现思路
本申请实施例提供一种图文匹配方法、装置及存储介质,实现了图文自动匹配,无需人工筛选,大大降低了工作量,提高了图文匹配准确率。为实现上述目的,本申请实施例提供如下技术方案:一种图文匹配方法,所述方法包括:获取客户端发送的待配图文本;筛选与所述待配图文本关联的多个候选图片;将所述多个候选图片及所述待配图文本输入图文匹配模型,得到相应候选图片与所述待配图文本的相关度,所述图文匹配模型是依据注意力机制及三元组损失函数,利用样本图片中物体区域的视觉特征和位置特征,以及样本文件的单词特征和/或文本特征,进行深度学习网络训练得到的;将相关度较大的第一数量个候选图片反馈至所述客户端进行展示一种图文匹配装置,所述装置包括:第一获取模块,用于获取客户端发送的待配图文本;候选图片筛选模块,用于筛选与所述待配图文本关联的多个候选图片;模型处理模块,用于将所述多个候选图片及所述待配图文本输入图文匹配模型,得到相应候选图片与所述待配图文本的相关度,所述图文匹配模型是依据注意力机制及三元组损失函数,利用样本图片中物体区域的视觉特征和位置特征,以及样本文件的单词特征和/或文本特征,进行深度学习网络训练得到的;数据传输模块,用于将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器加载并执行,实现如上所述的图文匹配方法的各步骤。基于上述技术方案,本申请实施例提供的一种图文匹配方法、装置及存储介质,本申请可以线下训练好用来估计图片与文本信息相关度的图文匹配预估模型,该图文匹配预估模型能够建立文本与图片之间更加可靠的关联,这样,在需要线上为某文章配图的情况下,可以向服务器上传相应的待配图文本,以使服务器先从图库中筛选与待配图文本关联的多个候选图片,之后,再利用该图文匹配模型,从这多个候选图片中,精确选择与待配图文本相关度较高的第一数量个候选图片,并反馈至客户端进行展示,此时,用户只需要从服务器反馈的有限个与待发布文章相关度较高的候选图片中,选择所需图片即可,不需要从大量图片中进行选择,极大减小了配图工作量,且提高了图文匹配正确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的一种图文匹配系统的结构示意图图2为本申请实施例提供的一种图文匹配方法的信令流程图;图3为本申请实施例提供的一种图文匹配方法中所用图文匹配模型的训练方法流程图;图4为本申请实施例提供的一种图文匹配方法的流程示意图;图5为本申请实施例提供的一种图文匹配方法的应用场景示意图;图6为本申请实施例提供的一种图文匹配装置的结构示意图;图7为本申请实施例提供的另一种图文匹配装置的结构示意图;图8为本申请实施例提供的另一种图文匹配装置的结构示意图;图9为本申请实施例提供的又一种图文匹配装置的结构示意图;图10为本申请实施例提供的一种计算机设备的硬件结构示意图。具体实施方式为了提高图文匹配效率及准确性,本申请的专利技术人提出利用两分支网络结合三元组损失的策略,计算图片与文本的相关度,并利用困难样本(包括困难样本图片及困难样本文本)来实现网络的快速收敛,学习得到一个嵌入网络,之后,用户可以将待配图文本输入该嵌入网络,得到待配图文本与各图片的相关度,进而筛选出相关度较高的若干图片反馈给用户,以使用户快速完成图文匹配工作。然而,专利技术人注意到,这种利用三元组损失函数进行网络学习的过程中,是利用注意力机制,学习图片中区域与文本中的单词之间的相关度,即为文本中的词语寻找一个相关度较大的图像区域(即物体区域)。其中,该注意力机制是从图片和文本两方面考虑进行设计。具体的,在图片方面,可以检测图片中的物体区域,从每个物体区域出发,确定文本中与该物体区域最相关的单词,进而得到该物体区域的语义特征。同理,在文本方面,可以从每个单词出发,获取图片中与该单词最相关的物体区域,进而得到该单词的视觉特征,之后,累积物体区域视觉与语义特征的相似度,文本的单词语义和单词视觉特征相似度,定义两种不同的图片-文本相似度,再结合三元组损失函数进行嵌入网络训练,提高了训练所得图片匹配模型的输出结果的准确性,进而提高了图文匹配的可靠性及准确性。进一步地,考虑到利用如图片的物体区域或文本的词语等局部信息,设计注意力机制不充分,影响模型输出结果的准确性,专利技术人还提出结合文本和图片的全局信息和局部信息进行嵌入网络学习,实现过程与上文描述的过程类似,本申请不再详述。然而,对于上文提出的各种图文匹配模型的训练过程,都只考虑了图片中物体区域的视觉特征,忽略了物体区域的位置特征,导致图文匹配的错误率较大,如对于一则待发布新闻来说,将得到的候选图片进行排序的结果,往往无法令用户满意,即用户(本文指文本编辑者,如新闻编辑者等)不能直接得到与该新闻相关度较高的图片。所以,为了进一步改善模型输出结果的准确性,本申请提出在模型训练过程中,引入图片物体区域的位置特征,即结合物体区域的位置特征和视觉特征,来高效且准确表达该物体区域的区域特征,并在设计基于位置的注意力机制期间,可以建立物体区域与文本单词之间的对应关系,同时,还可以结合上文提出的各种模型训练方式的优点,如考虑加入图片与文本的全局信息,但其并不是简单地将局部信息和全局信息融合,可以设计更加高效的机制,充分利用文本和图片的全局信息和局部信息,以增强视觉-语义共享空间的学习。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。参照图1,为本申请提供的实现图文匹配方法的系统结构示意图,该系统可以包括服务器11、客户端12及数据存储设备13,应该理解,图1所呈现的服务器11、客户端12及数据存储设备13仅是示例性说明,并不会两者的实现形式做限定。在实际应用中,服务器11与客户端12、服务器12与数据存储设备之间可以是有线或无线网络连接,如GSM、GPRS、WIFI等方式。服务器11可以是为用户提供服务的服务设备,具体可以是独立的应用服务设本文档来自技高网...

【技术保护点】
1.一种图文匹配方法,其特征在于,所述方法包括:获取客户端发送的待配图文本;筛选与所述待配图文本关联的多个候选图片;将所述多个候选图片及所述待配图文本输入图文匹配模型,得到相应候选图片与所述待配图文本的相关度,所述图文匹配模型是依据注意力机制及三元组损失函数,利用样本图片中物体区域的视觉特征和位置特征,以及样本文件的单词特征和/或文本特征,进行深度学习网络训练得到的;将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。

【技术特征摘要】
1.一种图文匹配方法,其特征在于,所述方法包括:获取客户端发送的待配图文本;筛选与所述待配图文本关联的多个候选图片;将所述多个候选图片及所述待配图文本输入图文匹配模型,得到相应候选图片与所述待配图文本的相关度,所述图文匹配模型是依据注意力机制及三元组损失函数,利用样本图片中物体区域的视觉特征和位置特征,以及样本文件的单词特征和/或文本特征,进行深度学习网络训练得到的;将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。2.根据权利要求1所述的方法,其特征在于,所述图文匹配模型的训练过程包括:获取样本图片及样本文本;利用循环神经网络,获取所述样本文本的单词特征;确定所述样本图片中的物体区域,并获取所述物体区域的视觉特征及位置特征;依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征,计算相应单词与所述物体区域的相关度;利用所述样本文本的各单词与各物体区域的相关度,得到所述样本文本与所述样本图片的相关度;基于三元组损失函数,对所述样本文本与所述样本图片的相关度、困难样本图片与所述样本文本的相关度、困难样本文本与所述样本图片的相关度进行网络训练,得到图文匹配模型;其中,所述困难样本图片是所述样本图片所在图片数据集中,除所述样本图片外,与所述样本文本相关度最高的图片;所述困难样本文本是所述样本文本所在文本数据集中,除所述样本文本外,与所述样本图片相关度最高的文本。3.根据权利要求2所述的方法,其特征在于,所述获取所述物体区域的位置特征,包括:将所述样本图片划分成多个大小相同的图片块,并为所述多个大小相同的图片块分配索引号;采用位置嵌入方式,利用各图片块的索引号,得到图片块的位置向量;计算各物体区域与所述图片块的重叠面积,并选择重叠面积较大的第一数量个图片块为相应物体区域的候选图片块;利用候选图片块的位置向量,得到相应物体区域的位置特征。4.根据权利要求3所述的方法,其特征在于,所述获取所述物体区域的位置特征,还包括:利用候选图片块的位置向量及相应物体区域的视觉特征,得到该物体区域的候选图片块对于该物体区域的重要度;基于注意力机制,利用所述候选图片块对于该物体区域的重要度,对所述物体区域的位置特征进行更新,得到所述物体区域的目标位置特征。5.根据权利要求2~4任一项所述的方法,其特征在于,所述依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征,计算相应单词与所述物体区域的相关度,包括:对所述物体区域的位置特征和视觉特征进行拼接,得到所述物体区域的视觉-位置联合特征;对所述视觉-位置联合特征进行编码处理,得到所述物体区域的视觉编码向量;利用所述物体区域的视觉编码向量及所述样本文本的单词特征,得到所述样本文本的视觉向量;利用...

【专利技术属性】
技术研发人员:杨皓卢菁李彪王亚雄
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1