一种检索意图转移识别方法及装置制造方法及图纸

技术编号:26171351 阅读:19 留言:0更新日期:2020-10-31 13:43
本申请提供了一种检索意图转移识别方法及装置,包括:获取多组样本数据;确定多组样本数据中每组样本数据分别在多个检索意图转移影响特征下的特征值;将每组样本数据分别在多个检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组样本数据分别对应的检索意图转移识别结果;基于各组样本数据分别对应的检索意图转移识别结果以及检索意图转移真实结果,对基础识别模型进行训练,得到检索意图转移识别模型,以便基于检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。该实施例能够识别出对于目标检索信息发生了检索意图转移的关键字。

【技术实现步骤摘要】
一种检索意图转移识别方法及装置
本申请涉及数据处理
,具体而言,涉及一种检索意图转移识别方法及装置。
技术介绍
信息检索在很多领域占据着重要的地位。在很多应用场景中,会根据用户输入的样本检索信息为用户检索获取和展示多个检索结果。例如在网约车领域,用户会通过客户端的人机交互界面输入用于描述其目的地的样本检索信息,客户端会根据用户输入的样本检索信息进行兴趣点(PointofInterest,POI)的获取。用户通过网约车的客户端进行兴趣点检索时,需要在客户端的人机交互界面分多次输入关键词;用户多次输入的关键词按照输入的先后顺序构成关键词序列;用户每输入一次关键词,客户端都会根据当前已经输入的所有关键词进行检索。为了能够从海量的POI中召回用户想要的POI,当前一般采用机器学习算法对召回的POI进行排序,将用户选择概率更高的POI排在更靠前的位置以供用户选择,以减少用户输入,提升人机交互效率。该机器学习算法在进行训练时,需要大量的样本数据。每一个样本数据都由检索时所输入的关键词序列,以及最终选择POI构成。但是实际中,在样本中存在了很多在关键词输入过程中改变了检索意图的情况。例如用户第一次输入的检索关键词为“北京”、第二次输入的检索关键词为“三元桥”;然后将“三元桥”删除,并在第三次输入了检索关键词“海淀桥”,最终所选择的POI为“北京海淀桥南”。使用这种在检索过程中出现了意图转移的样本对机器学习模型进行训练,会造成机器学习模型的精度降低。进而,一种能够识别检索关键词相对于POI是否发生了意图转移的方法成为当前亟待解决的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种检索意图转移识别方法及装置,以识别对于目标检索信息发生了检索意图转移的关键字。第一方面,本申请实施例提供了一种检索意图转移识别方法,包括:获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。一种可能的实施方式中,所述意图转移影响特征包括下述一种或者多种:编辑距离特征、N元模型特征、词汇特征、以及语义特征。一种可能的实施方式中,针对所述意图转移影响特征包括所述编辑距离特征的情况,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:确定所述样本关键词与所述样本检索信息之间的编辑距离;将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。一种可能的实施方式中,确定所述样本关键词与所述检索关键词之间的编辑距离,包括:确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。一种可能的实施方式中,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;所述确定所述样本关键词与所述样本检索信息之间的编辑距离,包括:确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。一种可能的实施方式中,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;采用下述方式获取所述样本数据在所述N元模型特征下的特征值:使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。一种可能的实施方式中,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:将所述样本关键词进行分词处理,得到第一词汇组;以及将所述样本检索信息进行分词处理,得到第二词汇组;基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;将所述重合度确定为所述词汇特征下的特征值。一种可能的实施方式中,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。一种可能的实施方式中,针对所述意图转移影响特征包括语义特征的情况,采用下述方式获取所述样本数据在所述语义特征下的特征值:基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。一种可能的实施方式中,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。第二方面,本申请实施例提供了一种检索意图转移识别装置,包括:获取模块,用于获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;确定模块,用于确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;识别模块,用于将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;训练模块,用于基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。一本文档来自技高网
...

【技术保护点】
1.一种检索意图转移识别方法,其特征在于,包括:/n获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;/n确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;/n将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;/n基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。/n

【技术特征摘要】
1.一种检索意图转移识别方法,其特征在于,包括:
获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;
基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。


2.根据权利要求1所述的方法,其特征在于,所述意图转移影响特征包括下述一种或者多种:
编辑距离特征、N元模型特征、词汇特征、以及语义特征。


3.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括所述编辑距离特征的情况,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:
确定所述样本关键词与所述样本检索信息之间的编辑距离;
将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。


4.根据权利要求3所述的方法,其特征在于,所述确定所述样本关键词与所述样本检索信息之间的编辑距离,包括:
确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。


5.根据权利要求3所述的方法,其特征在于,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;
所述确定所述样本关键词与所述样本检索信息之间的编辑距离,包括:
确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;
将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。


6.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;
采用下述方式获取所述样本数据在所述N元模型特征下的特征值:
使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;
使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;
针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;
将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。


7.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
将所述样本关键词进行分词处理,得到第一词汇组;以及
将所述样本检索信息进行分词处理,得到第二词汇组;
基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;
将所述重合度确定为所述词汇特征下的特征值。


8.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;
将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。


9.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括语义特征的情况,采用下述方式获取所述样本数据在所述语义特征下的特征值:
基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;
以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;
根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;
将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。


10.根据权利要求1所述的方法,其特征在于,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。


11.一种检索意图转移识别装置,其特征在于,包括:
获取模块,用于获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定模块,用于确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
识别模块,用...

【专利技术属性】
技术研发人员:陶言祺陈欢
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1