语义相似度匹配模型的训练方法及装置制造方法及图纸

技术编号:25042280 阅读:19 留言:0更新日期:2020-07-29 05:32
本发明专利技术公开了一种语义相似度匹配模型的训练方法及装置,该方法包括:从历史搜索点击日志中获取多个样本数据;针对任一样本数据,查询搜索结果对象所属类目的类目信息,生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量;根据类目向量和标题向量矩阵融合得到搜索结果对象的对象向量;将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据,将搜索结果对象的点击执行数据确定为匹配输出数据,对神经网络模型进行训练,构建语义相似度匹配模型。本发明专利技术方案,将搜索结果对象所属的类目的类目信息融入到对象向量进行训练,使对象向量中携带类目信息,进而可以提高训练结果的准确性,有利于用于进行准确的搜索响应。

【技术实现步骤摘要】
语义相似度匹配模型的训练方法及装置
本专利技术涉及互联网
,具体涉及一种语义相似度匹配模型的训练方法及装置。
技术介绍
在各大互联网平台上,搜索是用户获取信息最直接的方式,通过输入搜索词可获取到与该搜索词相关的对象信息,例如,在本地生活平台中输入“汉堡”,则可获取到平台召回的汉堡店铺的店铺信息。在传统的对象召回过程中,通常基于文本匹配召回与相关的对象,而无法做到语义层面的准确召回。例如,输入搜索词“汉堡”,只能召回“香辣汉堡”的店铺,而不能召回“香辣鸡腿堡”的店铺。与此同时,使用上述基于文本匹配的召回方式,在一些实际的场景中,由于与搜索词匹配的对象较少或为零,会导致搜索结果的数量太少,因此,基于语义相似度匹配的召回方式则显得尤为重要。然而,现有基于语义相似度匹配的召回方式中,仅仅只是通过将搜索词和待匹配对象的对象名称或描述等信息进行语义近似度匹配,匹配结果不够准确;尤其是对于名称或描述中包含的词语不常用、或者不能反映真实语义的情况,会极大地降低匹配准确度。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语义相似度匹配模型的训练方法及装置。根据本专利技术实施例的一个方面,提供了一种语义相似度匹配模型的训练方法,包括:根据历史搜索点击日志获取多个样本数据,其中,任一样本数据包括搜索词以及与所述搜索词对应的搜索结果对象的标题信息;针对任一样本数据,查询所述搜索结果对象所属类目的类目信息,生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量;根据所述类目向量和标题向量矩阵融合得到所述搜索结果对象的对象向量;将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据,将对多个样本数据中的搜索结果对象的点击执行数据确定为匹配输出数据,利用所述匹配输入数据和匹配输出数据对神经网络模型进行训练,根据训练结果构建语义相似度匹配模型。可选的,所述方法还包括:将单用户在预设时间段内的连续多次搜索的搜索词进行拼接处理,形成长文本训练样本;和/或,针对任一类目,将所述类目的类目信息和属于所述类目的至少两个对象的标题信息进行拼接处理,形成长文本训练样本;将所述长文本训练样本输入至词向量计算模型中训练得到词向量表。可选的,所述生成类目信息的类目向量进一步包括:对所述类目信息进行分词处理,根据分词结果确定类目分词,根据所述词向量表查询类目分词的类目分词向量;若所述类目分词向量为一个,则将该一个类目分词向量确定为类目向量;若所述类目分词向量为多个,则对多个类目分词向量进行均值池化处理,生成所述类目信息的类目向量。可选的,所述根据所述类目向量和标题向量矩阵融合得到所述搜索结果对象的对象向量进一步包括:计算所述类目向量与构成标题向量矩阵的各个标题分词向量的第一乘积,根据所述第一乘积生成标题分词权重向量;其中,所述标题分词权重向量的每一个元素为一个标题分词的分词权重;根据所述标题分词权重向量和所述标题向量矩阵融合得到所述搜索结果对象的对象向量。可选的,所述根据所述标题分词权重向量和所述标题向量矩阵融合得到所述搜索结果对象的对象向量进一步包括:计算所述标题分词权重向量与标题向量矩阵的第二乘积,将所述第二乘积确定为所述搜索结果对象的对象向量。可选的,所述将搜索结果对象的点击执行数据确定为匹配输出数据进一步包括:当所述搜索结果对象为用户点击的对象时,则确定匹配输出数据为第一数据;当所述搜索结果对象为用户未点击的对象时,则确定匹配输出数据为第二数据。可选的,所述方法还包括:构建所述搜索结果对象的展示位特征,所述搜索结果对象的距离特征和/或搜索用户的用户活跃度特征;所述对神经网络模型进行训练进一步包括:根据所述展示位特征、距离特征和/或用户活跃度特征对所述神经网络模型进行训练。可选的,所述展示位特征为搜索结果对象在搜索结果中的排序位置特征;所述距离特征为搜索结果对象的对象位置与搜索位置之间的间隔特征;和/或,所述用户活跃度特征为搜索用户的搜索点击频次特征。根据本专利技术实施例的另一方面,提供了一种搜索请求的响应方法,包括:响应于实时搜索请求,生成实时搜索词的搜索词向量;根据语义相似度匹配模型计算所述搜索词向量与对象库中多个待匹配对象的对象向量的相似度;其中,所述对象向量由待匹配对象所属类目的类目信息的类目向量和所述待匹配对象的标题信息的标题向量矩阵融合得到;根据相似度计算结果从多个待匹配对象中筛选出目标相似对象,并将所述目标相似对象的标题信息发送给请求端。可选的,所述语义相似度匹配模型通过上述任一项所述的语义相似度匹配模型的训练方法训练得到。根据本专利技术实施例的又一方面,提供了一种语义相似度匹配模型的训练装置,包括:获取模块,适于根据历史搜索点击日志获取多个样本数据,其中,任一样本数据包括搜索词以及与所述搜索词对应的搜索结果对象的标题信息;向量生成模块,适于针对任一样本数据,查询所述搜索结果对象所属类目的类目信息,生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量;融合模块,适于根据所述类目向量和标题向量矩阵融合得到所述搜索结果对象的对象向量;训练模块,适于将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据,将对多个样本数据中的搜索结果对象的点击执行数据确定为匹配输出数据,利用所述匹配输入数据和匹配输出数据对神经网络模型进行训练,根据训练结果构建语义相似度匹配模型。可选的,所述装置还包括:词向量表生成模块,适于将单用户在预设时间段内的连续多次搜索的搜索词进行拼接处理,形成长文本训练样本;和/或,针对任一类目,将所述类目的类目信息和属于所述类目的至少两个对象的标题信息进行拼接处理,形成长文本训练样本;将所述长文本训练样本输入至词向量计算模型中训练得到词向量表。可选的,所述向量生成模块进一步适于:对所述类目信息进行分词处理,根据分词结果确定类目分词,根据所述词向量表查询类目分词的类目分词向量;若所述类目分词向量为一个,则将该一个类目分词向量确定为类目向量;若所述类目分词向量为多个,则对多个类目分词向量进行均值池化处理,生成所述类目信息的类目向量。可选的,所述融合模块进一步适于:计算所述类目向量与构成标题向量矩阵的各个标题分词向量的第一乘积,根据所述第一乘积生成标题分词权重向量;其中,所述标题分词权重向量的每一个元素为一个标题分词的分词权重;根据所述标题分词权重向量和所述标题向量矩阵融合得到所述搜索结果对象的对象向量。可选的,所述融合模块进一步适于:计算所述标题分词权重向量与标题向量矩阵的第二乘积,将所述第二乘积确定为所述搜索结果对象的对象向量。可选的,所述训练模块进一步适于:当所述搜索结果对象为用户点击的对象时,则确定匹配输出数据为第一数据;当所述搜索结果对象为用户未点击的对象时,则确定匹配输出数据为第二数据。可选的,所述装置还包括:误差特征构建模块,适于构建所述搜索结本文档来自技高网...

【技术保护点】
1.一种语义相似度匹配模型的训练方法,包括:/n根据历史搜索点击日志获取多个样本数据,其中,任一样本数据包括搜索词以及与所述搜索词对应的搜索结果对象的标题信息;/n针对任一样本数据,查询所述搜索结果对象所属类目的类目信息,生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量;根据所述类目向量和标题向量矩阵融合得到所述搜索结果对象的对象向量;/n将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据,将对多个样本数据中的搜索结果对象的点击执行数据确定为匹配输出数据,利用所述匹配输入数据和匹配输出数据对神经网络模型进行训练,根据训练结果构建语义相似度匹配模型。/n

【技术特征摘要】
1.一种语义相似度匹配模型的训练方法,包括:
根据历史搜索点击日志获取多个样本数据,其中,任一样本数据包括搜索词以及与所述搜索词对应的搜索结果对象的标题信息;
针对任一样本数据,查询所述搜索结果对象所属类目的类目信息,生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量;根据所述类目向量和标题向量矩阵融合得到所述搜索结果对象的对象向量;
将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据,将对多个样本数据中的搜索结果对象的点击执行数据确定为匹配输出数据,利用所述匹配输入数据和匹配输出数据对神经网络模型进行训练,根据训练结果构建语义相似度匹配模型。


2.根据权利要求1所述的方法,其中,所述方法还包括:
将单用户在预设时间段内的连续多次搜索的搜索词进行拼接处理,形成长文本训练样本;和/或,针对任一类目,将所述类目的类目信息和属于所述类目的至少两个对象的标题信息进行拼接处理,形成长文本训练样本;
将所述长文本训练样本输入至词向量计算模型中训练得到词向量表。


3.根据权利要求2所述的方法,其中,所述生成类目信息的类目向量进一步包括:
对所述类目信息进行分词处理,根据分词结果确定类目分词,根据所述词向量表查询类目分词的类目分词向量;
若所述类目分词向量为一个,则将该一个类目分词向量确定为类目向量;
若所述类目分词向量为多个,则对多个类目分词向量进行均值池化处理,生成所述类目信息的类目向量。


4.一种搜索请求的响应方法,包括:
响应于实时搜索请求,生成实时搜索词的搜索词向量;
根据语义相似度匹配模型计算所述搜索词向量与对象库中多个待匹配对象的对象向量的相似度;其中,所述对象向量由待匹配对象所属类目的类目信息的类目向量和所述待匹配对象的标题信息的标题向量矩阵融合得到;
根据相似度计算结果从多个待匹配对象中筛选出目标相似对象,并将所述目标相似对象的标题信息发送给请求端。


5.一种语义相似度匹配模型的训练装置,包括:
获取模块,适于根据历史搜索点击日志获取多个样本数据,其中,任一样本数据包括搜索词以及与所述搜索...

【专利技术属性】
技术研发人员:邓哲宇王磊苑爱泉王宇昊何旺贵朱培源
申请(专利权)人:口口相传北京网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1