基于Trans-dssm模型的向量搜索方法及系统技术方案

技术编号:35265833 阅读:20 留言:0更新日期:2022-10-19 10:27
本发明专利技术提供了一种基于Trans

【技术实现步骤摘要】
基于Trans

dssm模型的向量搜索方法及系统


[0001]本专利技术涉及网络搜索
,特别是涉及一种基于Trans

dssm模型 的向量搜索方法及系统。

技术介绍

[0002]针对酒店搜索无结果或少结果问题,目前采用了一种舍弃一些搜索条 件的产品策略。在酒店搜索出现无结果或少结果时,通过推荐和酒店搜索 条件相似的结果作为无结果或少结果的推荐结果。推荐的方法是通过舍弃 一些不重要的搜索条件,使相对精确的搜索条件变成相对宽泛的搜索条件。 例如当用户搜索“北京市+丰台区+电动床”时,因为“电动床”搜索相对 精确,在区域范围内没有“电动床”酒店,所能通过舍弃“电动床”搜索, 变成“北京市+丰台区”搜索条件,这相对于原三个条件的搜索相对宽泛, 将宽泛搜索条件的搜索结果作为原精确条件搜索的推荐结果,即将“北京 +丰台区”的搜索结果作为“北京市+丰台区+电动床”无结果或少结果时的 推荐结果,并提示为“为您推荐”。
[0003]虽然通过制订一个舍弃搜索条件的产品策略,在一定程度上也能解决 无结果或少结果问题,但实际上这种策略还有很多问题。首先搜索条件舍 弃的顺序是很难定义,往往只能根据经验和个人对产品的理解制定,并不 客观。即使定义出合适的搜索条件舍弃顺序,其效果也是比较差强人意。 以“北京市+朝阳区+1km内+5星级”这样的搜索条件结果为无结果为例: 假如按固定的“星级

距离

我的位置

目的地

市”顺序舍弃搜索条件, 就变成“北京市+朝阳区+1km内”搜索条件推荐,显然低端的酒店就会被大 量搜索推荐出来,不是理想的召回推荐结果;假如按固定的“距离

星级
‑ꢀ
附近

目的地

城市”顺序舍弃搜索条件,就变成“北京市+朝阳区+5星级
”ꢀ
搜索条件推荐,10km以外的5星级酒店甚至被召回推荐出来,距离10公里 以外的酒店,显然基于当前位置,被预订的可能性很小。理想结果应该是 推荐和搜索条件相似的酒店,所谓与搜索条件相似,就是酒店与搜索条件 近似匹配。假如用户搜索条件是“北京市+朝阳区+1km内+5星级”,相似 召回推荐的酒店如果是“北京市+朝阳区+1km内+4星级”或“北京市+朝阳 区+2km内+5星级”,对于用户来说应该是更加理想的召回推荐结果。
[0004]在酒店搜索无结果或少结果时,通过产品策略推荐与搜索条件相似的 酒店存在很多问题,因此可以考虑基于构建在搜索条件下的语义向量搜索 模型。语义向量搜索模型把复杂的搜索条件压缩成语义搜索向量,同时把 酒店相关属性信息压缩成酒店向量。在酒店搜索无结果或少结果时,使用 语义搜索向量与酒店向量进行相似度计算,取得与语义搜索向量最相似的 酒店向量。因为语义搜索向量是搜索条件信息的压缩,酒店向量是酒店相 关属性信息的压缩,与语义搜索向量最相似的酒店向量,即是与搜索条件 最相似的酒店。构建酒店语义检索模型,是解决酒店搜索无结果或少结果 召回推荐问题的关键。

技术实现思路

[0005]本专利技术要解决的技术问题是提供一种基于Trans

dssm模型的向量搜索 方法及系
统,能够解决酒店搜索无结果或少结果的问题。
[0006]为解决上述技术问题,本专利技术提供了一种基于Trans

dssm模型的向量 搜索方法,所述方法包括:将搜索条件输入至Trans

dssm模型的搜索侧DNN, 通过搜索侧DNN压缩成搜索向量;将酒店属性信息输入至Trans

dssm模型 的酒店侧DNN,通过酒店侧DNN压缩成酒店向量;通过转换矩阵将搜索向量 及酒店向量转换至相同的矩阵空间;计算转换后搜索向量与酒店向量之间 的余弦相似度;利用计算得到的余弦相似度对不同的酒店向量进行排序; 将排序中前N个酒店向量所对应的酒店作为搜索结果召回推荐。
[0007]在一些实施方式中,将搜索条件输入至Trans

dssm模型的搜索侧DNN, 通过搜索侧DNN压缩成搜索向量,包括:将搜索条件通过特征工程转化为 特征向量;将特征向量拼接在一起构成搜索侧DNN的输入特征,搜索侧DNN 将输入的搜索条件特征压缩输出搜索向量。
[0008]在一些实施方式中,将搜索条件通过特征工程转化为特征向量,包括: 对经纬度参数进行归一化,计算纬度特征值在[400,5400]范围,经度特征 值在[7300,12500]范围。
[0009]在一些实施方式中,将搜索条件通过特征工程转化为特征向量,还包 括:对关键词参数进行单字分词、归一化,使用单字分词,每一个字是独 立的向量,并将单字序列转化成向量表示。
[0010]在一些实施方式中,Trans

dssm模型的训练数据是用户的搜索日志。
[0011]在一些实施方式中,在Trans

dssm模型的训练过程中,对三元组损失 函数的Margin参数进行了精确调参。
[0012]在一些实施方式中,在Trans

dssm模型的训练过程中,保存了模型的 检查点。
[0013]在一些实施方式中,检查点保存了模型参数、模型的权重、模型的网 络结构。
[0014]在一些实施方式中,搜索侧DNN及酒店侧DNN均采用三层神经元结构, DNN网络采用了Dropout参数设置,DNN神经元的输出值使用了Relu的激 活函数。
[0015]此外,本专利技术还提供了一种基于Trans

dssm模型的向量搜索系统,所 述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多 个处理器实现根据前文所述的基于Trans

dssm模型的向量搜索方法。
[0016]采用这样的设计后,本专利技术至少具有以下优点:
[0017]1)Trans

dssm模型输出的向量相似推荐模型,只是相对的相似,并没 有严格的搜索边界,因此不会存在搜索无结果情况;
[0018]2)模型改进优化相较规则及双塔模型在HR指标上有了显著的提升, 有了较好准确率及召回率;
[0019]3)向量搜索模型更加智能,不是简单的是否匹配。
附图说明
[0020]上述仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术 手段,以下结合附图与具体实施方式对本专利技术作进一步的详细说明。
[0021]图1是Trans

dssm模型的结构图;
[0022]图2是检索预测过程的流程图。
具体实施方式
[0023]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描 述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。...

【技术保护点】

【技术特征摘要】
1.一种基于Trans

dssm模型的向量搜索方法,其特征在于,包括:将搜索条件输入至Trans

dssm模型的搜索侧DNN,通过搜索侧DNN压缩成搜索向量;将酒店属性信息输入至Trans

dssm模型的酒店侧DNN,通过酒店侧DNN压缩成酒店向量;通过转换矩阵将搜索向量及酒店向量转换至相同的矩阵空间;计算转换后搜索向量与酒店向量之间的余弦相似度;利用计算得到的余弦相似度对不同的酒店向量进行排序;将排序中前N个酒店向量所对应的酒店作为搜索结果召回推荐。2.根据权利要求1所述的基于Trans

dssm模型的向量搜索方法,其特征在于,将搜索条件输入至Trans

dssm模型的搜索侧DNN,通过搜索侧DNN压缩成搜索向量,包括:将搜索条件通过特征工程转化为特征向量;将特征向量拼接在一起构成搜索侧DNN的输入特征,搜索侧DNN将输入的搜索条件特征压缩输出搜索向量。3.根据权利要求3所述的基于Trans

dssm模型的向量搜索方法,其特征在于,将搜索条件通过特征工程转化为特征向量,包括:对经纬度参数进行归一化,计算纬度特征值在[400,5400]范围,经度特征值在[7300,12500]范围。4.根据权利要求3所述的基于Trans

dssm模型的向量搜索方法,其特征在于,将搜索条件通过特征工程转化为特征向量,还包括:对关键词参数进行单字分词、归一化,使用单字分词,每一个字是独立的向...

【专利技术属性】
技术研发人员:种法芹郑富德杜巍
申请(专利权)人:艺龙网信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1