基于语义相似度与时效性频率的查询推荐排序方法与装置制造方法及图纸

技术编号:16128981 阅读:44 留言:0更新日期:2017-09-01 20:56
本发明专利技术公开了一种基于语义相似度与时效性频率的查询推荐排序方法与装置包括:获取用户查询记录数据集并采集查询词前缀;根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。本发明专利技术考虑到了查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。

Query recommendation sorting method and device based on semantic similarity and timeliness frequency

The invention discloses a device and a recommended ranking method of semantic similarity and timeliness of frequency based query includes: acquiring user query log data set and collect the query prefix; according to the query prefix query recommendation list and to determine the effectiveness of a query word frequency ranking; according to the user query log data set and training text data sets semantic similarity query words in the first query and other query words, and determine the semantic similarity query term ranking; according to the time frequency sorting, semantic similarity and word order to obtain trade-off parameter query recommendation ranking, and according to the query recommendation to sort the query recommendation in each list query term ranking display. The present invention takes into account the Semantic Relevancy between query words and the frequency of query changes with time, thereby improving the prediction accuracy of information retrieval.

【技术实现步骤摘要】
基于语义相似度与时效性频率的查询推荐排序方法与装置
本专利技术涉及搜索领域,特别是指一种基于语义相似度与时效性频率的查询推荐排序方法与装置。
技术介绍
信息检索能够帮助用户获取想要的信息,在用户提交一个查询后,返回用户一组相关的文档,解决用户的信息需求。查询推荐则是在用户进行信息检索过程中,当用户输入查询时,在只输入部分查询字符的情况下,系统预测用户的查询意图,推荐给用户一组查询候选词供其选择,从而帮助用户完成查询词的构建。这有利于用户节省用户输入查询的时间,同时帮助用户构建一个好的查询词,有利于获取准确的信息,进而实现信息系统的精准服务,提高用户的满意度。现有的查询推荐排序模型主要基于查询推荐在过去一段时间内的查询频率来排序,这类方法虽能预测绝大部分用户的查询意图,使得查询推荐准确率较高,但该类方法忽略了查询词内部查询字之间的语义相似度。当用户构建一个查询词时,语义相似的查询字更容易被用户整合在一起构成一个查询词。换言之,语义相似度高的查询字构成的查询短语更符合用户构造查询短语的习惯。同时,用户在使用信息检索系统进行信息检索时,经常在输入完一个完整的查询字时,选择系统推荐的查询词,因此,查询字特别是查询词中的第一个查询字的频率可以反映当前信息检索用户普遍关注的问题,从而可以影响查询推荐的排序位置。另外,查询推荐的查询频率会随着时间的变化呈现比如周期性、急剧上升或者下降等趋势,这些信息将影响查询推荐排序的算法性能,但现有技术也没有予以考虑。针对现有技术中忽略查询词内部查询字之间的语义相似度、查询推荐的查询频率会随着时间的变化而变化的问题,目前尚未有有效的解决方案。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种基于语义相似度与时效性频率的查询推荐排序方法与装置,能够考虑查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。基于上述目的,本专利技术实施例的一方面提供了一种基于语义相似度与时效性频率的查询推荐排序方法,包括:获取用户查询记录数据集并采集查询词前缀;根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。在一些实施方式中,所述确定时效性频率的查询字排序包括:提取查询推荐列表所有查询词中的第一查询字;从用户查询记录数据集中获取每个查询字在指定时间内的出现频率;根据所有查询词的第一查询字与每个查询字在指定时间内的出现频率确定时效性频率的查询字排序。在一些实施方式中,所述根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度包括:根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度;根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度;根据基于用户查询记录数据集的第一查询字、其他查询字之间的语义相似度与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度与语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度。在一些实施方式中,所述根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度包括:使用用户查询记录数据集训练skip‐gram模型;根据用户查询记录数据集训练的skip‐gram模型获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度。在一些实施方式中,所述根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度包括:使用训练用文本数据集分别训练skip‐gram模型;根据训练用文本数据集训练的skip‐gram模型获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度。在一些实施方式中,所述训练skip‐gram模型包括:挖掘用户查询记录数据集与训练用文本数据集,获取每个查询字在指定长度窗口内出现的次数;生成用户查询记录数据集与训练用文本数据集中每个查询字的向量表征;根据提取的文字向量表示衡量查询字之间的语义相似度。在一些实施方式中,所述根据基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度、基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度、以及语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度,为使用语义整合权衡参数调整基于用户查询记录数据集的、与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度二者所占权重获得查询词中第一查询字与其他查询字的语义相似度。在一些实施方式中,所述确定语义相似度的查询词排序,为根据所有查询词的第一查询字与其他查询字的语义相似度的连积确定语义相似度的查询词排序。在一些实施方式中,所述根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,为根据时效性频率排序与语义相似度排序的积获得查询推荐排序,其中,语义相似度排序受到字词权衡参数的修正影响。基于上述目的,本专利技术实施例的另一方面还提供了一种电子设备,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。从上面所述可以看出,本专利技术实施例提供的基于语义相似度与时效性频率的查询推荐排序方法与装置获取用户查询记录数据集并采集查询词前缀,生成查询推荐列表并确定时效性频率的查询字排序,计算查询词中第一查询字与其他查询字的语义相似度并确定语义相似度的查询词排序,获得查询推荐排序并对查询推荐列表中的每个查询词排序显示的技术手段,考虑到了查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的基于语义相似度与时效性频率的查询推荐排序方法的流程图;图2为本专利技术提供的执行所述基于语义相似度与时效性频率的查询推荐排序方法的电子设备的一个实施例的硬件结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。基于上述目的,本专利技术实施例的第一个方面提出了一种能够针对不同用户或不同类型的节点进行基于语义相似度与时效性频率的查询推荐排序的基于语义相似度与时效性频率的查询推荐排序方法。图1示出的是本专利技术提供的基于语义相似度与时效性频率的查询推荐排序方法的第一个实施例的流程示意图。如图1所示,基于语义相似度本文档来自技高网
...
基于语义相似度与时效性频率的查询推荐排序方法与装置

【技术保护点】
一种基于语义相似度与时效性频率的查询推荐排序方法,其特征在于,包括:获取用户查询记录数据集并采集查询词前缀;根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。

【技术特征摘要】
1.一种基于语义相似度与时效性频率的查询推荐排序方法,其特征在于,包括:获取用户查询记录数据集并采集查询词前缀;根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。2.根据权利要求1所述的方法,其特征在于,所述确定时效性频率的查询字排序包括:提取查询推荐列表所有查询词中的第一查询字;从用户查询记录数据集中获取每个查询字在指定时间内的出现频率;根据所有查询词的第一查询字与每个查询字在指定时间内的出现频率确定时效性频率的查询字排序。3.根据权利要求1所述的方法,其特征在于,所述根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度包括:根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度;根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度;根据基于用户查询记录数据集的第一查询字、其他查询字之间的语义相似度与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度与语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度。4.根据权利要求3所述的方法,其特征在于,所述根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度包括:使用用户查询记录数据集训练skip‐gram模型;根据用户查询记录数据集训练的skip‐gram模型获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度。5.根据权利要求3所述的方法,其特征在于,所述根据训练用文本数据集获得基...

【专利技术属性】
技术研发人员:蔡飞陈洪辉陈皖玉刘俊先罗爱民陈涛舒振罗雪山郭昱普
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1