训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置制造方法及图纸

技术编号:21629385 阅读:33 留言:0更新日期:2019-07-17 11:14
本发明专利技术实施例提供了训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置,训练特征提取模型的方法包括:采集训练样本,所述训练样本包括样本图片与样本查询词;从所述样本图片中提取图像特征;从所述样本查询词中提取文本特征;根据所述图像特征与所述文本特征训练特征提取模型。提供将文本与图片分别抽取特征向量映射到一个空间的功能,可以直接确定文本与图片之间的相关性,随着特征提取模型的自动学习、持续学习,可以提高特征提取模型的准确率,从而提高相关性计算的准确性。

Training Feature Extraction Model and Method and Related Device for Calculating Relevance Coefficient between Pictures and Query Words

【技术实现步骤摘要】
训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置
本专利技术涉及计算机处理的
,特别是涉及一种训练特征提取模型的方法、一种基于特征提取模型计算图片与查询词相关性系数的方法、一种训练特征提取模型的装置、一种基于特征提取模型计算图片与查询词相关性系数的装置、一种用于训练特征提取模型的装置、一种用于基于特征提取模型计算图片与查询词相关性系数的装置。
技术介绍
随着网络的迅速发展,网络信息急剧增加。用户为了在海量的网络信息中寻找所需的网络信息,通常使用搜索引擎进行搜索。这些网络信息中包含了大量的图片,用户在搜索引擎中输入查询词(即query),意图搜索相关的图片,搜索引擎计算查询词与图片数据之间的相关性,返回搜索到的图片给用户。为了计算查询词与图片之间的相关性,目前是搜索图片的相关文本,包括图片所在网页的标题、文章标题、替换文本、描述文本和环绕文本等,通过索引和检索图片的相关文本,实现图片搜索的功能。但是,从网页上提取图片的相关文本难以保证质量,甚至很多情况下,网页里没有图片的相关文本,导致难以根据查询词查找到相关的图片。
技术实现思路
鉴于上述问题,为了解决上述图片的相关文本质量低引起查找文本相关图片困难的问题,本专利技术实施例提出了一种训练特征提取模型的方法、一种基于特征提取模型计算相关性系数的方法、一种训练特征提取模型的装置、一种基于特征提取模型计算相关性系数的装置、一种用于训练特征提取模型的装置、一种用于基于特征提取模型计算相关性系数的装置。为了解决上述问题,本专利技术实施例公开了一种训练特征提取模型的方法,包括:采集训练样本,所述训练样本包括样本图片与样本查询词;从所述样本图片中提取图像特征;从所述样本查询词中提取文本特征;根据所述图像特征与所述文本特征训练特征提取模型。可选地,所述训练样本包括正训练样本、负训练样本;所述正训练样本中的样本图片与样本查询词具有相关性;所述负训练样本中的样本图片与样本查询词不具有相关性。可选地,所述采集训练样本,包括:获取输入的查询词,将所述查询词作为所述正训练样本的样本查询词;获取所述查询词对应的图片数据;基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片。可选地,所述基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片,包括:查询所述图片数据基于所述查询词进行点击的点击率和/或进行展现的展现率;查询所述查询词所属的词类别,确定所述词类别对应的点击阈值和/或展现阈值;判断所述点击率和/或所述展现率是否大于所述点击阈值和/或所述展现阈值;若是,则确定所述样本图片数据为所述正训练样本的样本图片。可选地,所述采集训练样本,包括:将所述正训练样本的样本查询词设置为所述负训练样本的样本查询词;将所述正训练样本中、除所述样本查询词对应的样本图片之外其他样本图片,设置为所述负训练样本中的样本图片。可选地,所述根据所述图像特征与所述文本特征训练特征提取模型,包括:设置损失函数;将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值;判断所述损失值是否满足预设的迭代条件;若是,则确定所述特征提取模型训练完成;若否,则更新所述特征提取模型的参数,执行所述将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值。本专利技术实施例还公开了一种基于特征提取模型计算图片与查询词相关性系数的方法,包括:获取目标查询词和目标图片;将所述目标图片输入至预设的特征提取模型中,以输出图像特征;将所述目标查询词输入至所述特征提取模型中,以输出文本特征;根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数。可选地,所述根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数,包括:对所述图像特征进行二进制转换,获得第一目标特征;对所述文本特征进行二进制转换,获得第二目标特征;计算所述第一目标特征与所述第二目标特征之间的汉明距离,作为所述目标图片与所述目标查询词之间的相关性系数。可选地,还包括:根据所述相关性系数确定所述目标图片与所述目标查询词之间的相关性。本专利技术实施例还公开了一种基于特征提取模型的图片搜索方法,包括:接收图片搜索请求,所述图片搜索请求中包括查询词;将所述查询词输入至所述训练特征提取模型的方法所训练的特征提取模型中,以输出所述查询词的文本特征;将图片数据库中的图片输入至所述特征提取模型中,以输出所述图片的图像特征;根据所述查询词的文本特征和所述图片的图像特征确定图片数据库中与所述查询词相关的目标图片,将所述目标图片作为所述图片搜索请求的搜索结果。本专利技术实施例还公开了一种训练特征提取模型的装置,包括:训练样本采集模块,用于采集训练样本,所述训练样本包括样本图片与样本查询词;图像特征提取模块,用于从所述样本图片中提取图像特征;文本特征提取模块,用于从所述样本查询词中提取文本特征;特征提取模型训练模块,用于根据所述图像特征与所述文本特征训练特征提取模型。可选地,所述训练样本包括正训练样本、负训练样本;所述正训练样本中的样本图片与样本查询词具有相关性;所述负训练样本中的样本图片与样本查询词不具有相关性。可选地,所述训练样本采集模块包括:查询词获取子模块,用于获取输入的查询词,作为所述正训练样本的样本查询词;图片数据获取子模块,用于获取所述查询词对应的图片数据;正样本图片设置子模块,用于基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片。可选地,所述正样本图片设置子模块包括:搜索数据查询单元,用于查询所述图片数据基于所述查询词进行点击的点击率和/或进行展现的展现率;阈值设置单元,用于查询所述查询词所属的词类别,确定所述词类别对应的点击阈值和/或展现阈值;阈值判断单元,用于判断所述点击率和/或所述展现率是否大于所述点击阈值和/或所述展现阈值;若是,则调用样本图片确定单元;样本图片确定单元,用于确定所述样本图片数据为所述正训练样本的样本图片。可选地,所述训练样本采集模块包括:样本查询词设置子模块,用于将所述正训练样本的样本查询词设置为所述负训练样本的样本查询词;负样本图片设置子模块,用于将所述正训练样本中、除所述样本查询词对应的样本图片之外其他样本图片,设置为所述负训练样本中的样本图片。可选地,所述特征提取模型训练模块包括:损失函数设置子模块,用于设置损失函数;损失值计算子模块,用于将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值;迭代条件判断子模块,用于判断所述损失值是否满足预设的迭代条件;若是,则调用训练完成确定子模块,若否,则调用参数更新子模块;训练完成确定子模块,用于确定所述特征提取模型训练完成;参数更新子模块,用于更新所述特征提取模型的参数,调用所述损失值计算子模块。本专利技术实施例还公开了一种基于特征提取模型计算图片与查询词相关性系数的装置,包括:目标数据获取模块,用于获取目标查询词和目标图片目标查询词;图像特征输出模块,用于将所述目标图片输入至预设的特征提取模型中,以输出图像特征;文本特征输出模块,用于将所述目标查询词输入至所述特征提取模型中,以输本文档来自技高网...

【技术保护点】
1.一种训练特征提取模型的方法,其特征在于,包括:采集训练样本,所述训练样本包括样本图片与样本查询词;从所述样本图片中提取图像特征;从所述样本查询词中提取文本特征;根据所述图像特征与所述文本特征训练特征提取模型。

【技术特征摘要】
1.一种训练特征提取模型的方法,其特征在于,包括:采集训练样本,所述训练样本包括样本图片与样本查询词;从所述样本图片中提取图像特征;从所述样本查询词中提取文本特征;根据所述图像特征与所述文本特征训练特征提取模型。2.根据权利要求1所述的方法,其特征在于,所述训练样本包括正训练样本、负训练样本;所述正训练样本中的样本图片与样本查询词具有相关性;所述负训练样本中的样本图片与样本查询词不具有相关性。3.根据权利要求2所述的方法,其特征在于,所述采集训练样本,包括:获取输入的查询词,将所述查询词作为所述正训练样本的样本查询词;获取所述查询词对应的图片数据;基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片。4.根据权利要求3所述的方法,其特征在于,所述基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片,包括:查询所述图片数据基于所述查询词进行点击的点击率和/或进行展现的展现率;查询所述查询词所属的词类别,确定所述词类别对应的点击阈值和/或展现阈值;判断所述点击率和/或所述展现率是否大于所述点击阈值和/或所述展现阈值;若是,则确定所述样本图片数据为所述正训练样本的样本图片。5.根据权利要求2所述的方法,其特征在于,所述采集训练样本,包括:将所述正训练样本的样本查询词设置为所述负训练样本的样本查询词;将所述正训练样本中、除所述样本查询词对应的样本图片之外其他样本图片,设置为所述负训练样本中的样本图片。6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述图像特征与所述文本特征训练特征提取模型,包括:设置损失函数;将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值;判断所述损失值是否满足预设的迭代条件;若是,则确定所述特征提取模型训练完成;若否,则更新所述特征提取模型的参数,执行所述将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值。7.一种基于特征提取模型计算图片与查询词相关性系数的方法,其特征在于,包括:获取目标查询词和目标图片;将所述目标图片输入至预设的特征提取模型中,以输出图像特征;将所述目标查询词输入至所述特征提取模型中,以输出文本特征;根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数。8.根据权利要求7所述的方法,其特征在于,所述根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数,包括:对所述图像特征进行二进制转换,获得第一目标特征;对所述文本特征进行二进制转换,获得第二目标特征;计算所述第一目标特征与所述第二目标特征之间的汉明距离,作为所述目标图片与所述目标查询词之间的相关性系数。9.根据权利要求7或8所述的方法,其特征在于,还包括:根据所述相关性系数确定所述目标图片与所述目标查询词之间的相关性。10.一种基于特征提取模型的图片搜索方法,其特征在于,包括:接收图片搜索请求,所述图片搜索请求中包括查询词;将所述查询词输入至所述权利要求1-7任一所述的训练特征提取模型的方法所训练的特征提取模型中,以输出所述查询词的文本特征;将图片数据库中的图片输入至所述特征提取模型中,以输出所述图片的图像特征;根据所述查询词的文本特征和所述图片的图像特征确定图片数据库中与所述查询词相关的目标图片,将所述目标图片作...

【专利技术属性】
技术研发人员:董国盛周泽南苏雪峰佟子健
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1