【技术实现步骤摘要】
训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置
本专利技术涉及计算机处理的
,特别是涉及一种训练特征提取模型的方法、一种基于特征提取模型计算图片与查询词相关性系数的方法、一种训练特征提取模型的装置、一种基于特征提取模型计算图片与查询词相关性系数的装置、一种用于训练特征提取模型的装置、一种用于基于特征提取模型计算图片与查询词相关性系数的装置。
技术介绍
随着网络的迅速发展,网络信息急剧增加。用户为了在海量的网络信息中寻找所需的网络信息,通常使用搜索引擎进行搜索。这些网络信息中包含了大量的图片,用户在搜索引擎中输入查询词(即query),意图搜索相关的图片,搜索引擎计算查询词与图片数据之间的相关性,返回搜索到的图片给用户。为了计算查询词与图片之间的相关性,目前是搜索图片的相关文本,包括图片所在网页的标题、文章标题、替换文本、描述文本和环绕文本等,通过索引和检索图片的相关文本,实现图片搜索的功能。但是,从网页上提取图片的相关文本难以保证质量,甚至很多情况下,网页里没有图片的相关文本,导致难以根据查询词查找到相关的图片。
技术实现思路
鉴于上述问题,为了解决上述图片的相关文本质量低引起查找文本相关图片困难的问题,本专利技术实施例提出了一种训练特征提取模型的方法、一种基于特征提取模型计算相关性系数的方法、一种训练特征提取模型的装置、一种基于特征提取模型计算相关性系数的装置、一种用于训练特征提取模型的装置、一种用于基于特征提取模型计算相关性系数的装置。为了解决上述问题,本专利技术实施例公开了一种训练特征提取模型的方法,包括:采集训练样本,所述训练样本包 ...
【技术保护点】
1.一种训练特征提取模型的方法,其特征在于,包括:采集训练样本,所述训练样本包括样本图片与样本查询词;从所述样本图片中提取图像特征;从所述样本查询词中提取文本特征;根据所述图像特征与所述文本特征训练特征提取模型。
【技术特征摘要】
1.一种训练特征提取模型的方法,其特征在于,包括:采集训练样本,所述训练样本包括样本图片与样本查询词;从所述样本图片中提取图像特征;从所述样本查询词中提取文本特征;根据所述图像特征与所述文本特征训练特征提取模型。2.根据权利要求1所述的方法,其特征在于,所述训练样本包括正训练样本、负训练样本;所述正训练样本中的样本图片与样本查询词具有相关性;所述负训练样本中的样本图片与样本查询词不具有相关性。3.根据权利要求2所述的方法,其特征在于,所述采集训练样本,包括:获取输入的查询词,将所述查询词作为所述正训练样本的样本查询词;获取所述查询词对应的图片数据;基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片。4.根据权利要求3所述的方法,其特征在于,所述基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片,包括:查询所述图片数据基于所述查询词进行点击的点击率和/或进行展现的展现率;查询所述查询词所属的词类别,确定所述词类别对应的点击阈值和/或展现阈值;判断所述点击率和/或所述展现率是否大于所述点击阈值和/或所述展现阈值;若是,则确定所述样本图片数据为所述正训练样本的样本图片。5.根据权利要求2所述的方法,其特征在于,所述采集训练样本,包括:将所述正训练样本的样本查询词设置为所述负训练样本的样本查询词;将所述正训练样本中、除所述样本查询词对应的样本图片之外其他样本图片,设置为所述负训练样本中的样本图片。6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述图像特征与所述文本特征训练特征提取模型,包括:设置损失函数;将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值;判断所述损失值是否满足预设的迭代条件;若是,则确定所述特征提取模型训练完成;若否,则更新所述特征提取模型的参数,执行所述将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值。7.一种基于特征提取模型计算图片与查询词相关性系数的方法,其特征在于,包括:获取目标查询词和目标图片;将所述目标图片输入至预设的特征提取模型中,以输出图像特征;将所述目标查询词输入至所述特征提取模型中,以输出文本特征;根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数。8.根据权利要求7所述的方法,其特征在于,所述根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数,包括:对所述图像特征进行二进制转换,获得第一目标特征;对所述文本特征进行二进制转换,获得第二目标特征;计算所述第一目标特征与所述第二目标特征之间的汉明距离,作为所述目标图片与所述目标查询词之间的相关性系数。9.根据权利要求7或8所述的方法,其特征在于,还包括:根据所述相关性系数确定所述目标图片与所述目标查询词之间的相关性。10.一种基于特征提取模型的图片搜索方法,其特征在于,包括:接收图片搜索请求,所述图片搜索请求中包括查询词;将所述查询词输入至所述权利要求1-7任一所述的训练特征提取模型的方法所训练的特征提取模型中,以输出所述查询词的文本特征;将图片数据库中的图片输入至所述特征提取模型中,以输出所述图片的图像特征;根据所述查询词的文本特征和所述图片的图像特征确定图片数据库中与所述查询词相关的目标图片,将所述目标图片作...
【专利技术属性】
技术研发人员:董国盛,周泽南,苏雪峰,佟子健,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。