语义相似度匹配模型的训练方法及装置制造方法及图纸

技术编号：25042280 阅读：19 留言：0更新日期：2020-07-29 05:32

本发明专利技术公开了一种语义相似度匹配模型的训练方法及装置，该方法包括：从历史搜索点击日志中获取多个样本数据；针对任一样本数据，查询搜索结果对象所属类目的类目信息，生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量；根据类目向量和标题向量矩阵融合得到搜索结果对象的对象向量；将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据，将搜索结果对象的点击执行数据确定为匹配输出数据，对神经网络模型进行训练，构建语义相似度匹配模型。本发明专利技术方案，将搜索结果对象所属的类目的类目信息融入到对象向量进行训练，使对象向量中携带类目信息，进而可以提高训练结果的准确性，有利于用于进行准确的搜索响应。

全部详细技术资料下载

【技术实现步骤摘要】
语义相似度匹配模型的训练方法及装置
本专利技术涉及互联网
，具体涉及一种语义相似度匹配模型的训练方法及装置。
技术介绍
在各大互联网平台上，搜索是用户获取信息最直接的方式，通过输入搜索词可获取到与该搜索词相关的对象信息，例如，在本地生活平台中输入“汉堡”，则可获取到平台召回的汉堡店铺的店铺信息。在传统的对象召回过程中，通常基于文本匹配召回与相关的对象，而无法做到语义层面的准确召回。例如，输入搜索词“汉堡”，只能召回“香辣汉堡”的店铺，而不能召回“香辣鸡腿堡”的店铺。与此同时，使用上述基于文本匹配的召回方式，在一些实际的场景中，由于与搜索词匹配的对象较少或为零，会导致搜索结果的数量太少，因此，基于语义相似度匹配的召回方式则显得尤为重要。然而，现有基于语义相似度匹配的召回方式中，仅仅只是通过将搜索词和待匹配对象的对象名称或描述等信息进行语义近似度匹配，匹配结果不够准确；尤其是对于名称或描述中包含的词语不常用、或者不能反映真实语义的情况，会极大地降低匹配准确度。
技术实现思路
鉴于上述问题，提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语义相似度匹配模型的训练方法及装置。根据本专利技术实施例的一个方面，提供了一种语义相似度匹配模型的训练方法，包括：根据历史搜索点击日志获取多个样本数据，其中，任一样本数据包括搜索词以及与所述搜索词对应的搜索结果对象的标题信息；针对任一样本数据，查询所述搜索结果对象所属类目的类目信息，生成类目信息的类...

【技术保护点】
1.一种语义相似度匹配模型的训练方法，包括：/n根据历史搜索点击日志获取多个样本数据，其中，任一样本数据包括搜索词以及与所述搜索词对应的搜索结果对象的标题信息；/n针对任一样本数据，查询所述搜索结果对象所属类目的类目信息，生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量；根据所述类目向量和标题向量矩阵融合得到所述搜索结果对象的对象向量；/n将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据，将对多个样本数据中的搜索结果对象的点击执行数据确定为匹配输出数据，利用所述匹配输入数据和匹配输出数据对神经网络模型进行训练，根据训练结果构建语义相似度匹配模型。/n

【技术特征摘要】
1.一种语义相似度匹配模型的训练方法，包括：
根据历史搜索点击日志获取多个样本数据，其中，任一样本数据包括搜索词以及与所述搜索词对应的搜索结果对象的标题信息；
针对任一样本数据，查询所述搜索结果对象所属类目的类目信息，生成类目信息的类目向量、标题信息的标题向量矩阵以及搜索词的搜索词向量；根据所述类目向量和标题向量矩阵融合得到所述搜索结果对象的对象向量；
将多个样本数据对应的对象向量和搜索词向量确定为匹配输入数据，将对多个样本数据中的搜索结果对象的点击执行数据确定为匹配输出数据，利用所述匹配输入数据和匹配输出数据对神经网络模型进行训练，根据训练结果构建语义相似度匹配模型。

2.根据权利要求1所述的方法，其中，所述方法还包括：
将单用户在预设时间段内的连续多次搜索的搜索词进行拼接处理，形成长文本训练样本；和/或，针对任一类目，将所述类目的类目信息和属于所述类目的至少两个对象的标题信息进行拼接处理，形成长文本训练样本；
将所述长文本训练样本输入至词向量计算模型中训练得到词向量表。

3.根据权利要求2所述的方法，其中，所述生成类目信息的类目向量进一步包括：
对所述类目信息进行分词处理，根据分词结果确定类目分词，根据所述词向量表查询类目分词的类目分词向量；
若所述类目分词向量为一个，则将该一个类目分词向量确定为类目向量；
若所述类目分词向量为多个，则对多个类目分词向量进行均值池化处理，生成所述类目信息的类目向量。

4.一种搜索请求的响应方法，包括：
响应于实时搜索请求，生成实时搜索词的搜索词向量；
根据语义相似度匹配模型计算所述搜索词向量与对象库中多个待匹配对象的对象向量的相似度；其中，所述对象向量由待匹配对象所属类目的类目信息的类目向量和所述待匹配对象的标题信息的标题向量矩阵融合得到；
根据相似度计算结果从多个待匹配对象中筛选出目标相似对象，并将所述目标相似对象的标题信息发送给请求端。

5.一种语义相似度匹配模型的训练装置，包括：
获取模块，适于根据历史搜索点击日志获取多个样本数据，其中，任一样本数据包括搜索词以及与所述搜索...

【专利技术属性】
技术研发人员：邓哲宇，王磊，苑爱泉，王宇昊，何旺贵，朱培源，
申请(专利权)人：口口相传北京网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人