The invention discloses a device and a recommended ranking method of semantic similarity and timeliness of frequency based query includes: acquiring user query log data set and collect the query prefix; according to the query prefix query recommendation list and to determine the effectiveness of a query word frequency ranking; according to the user query log data set and training text data sets semantic similarity query words in the first query and other query words, and determine the semantic similarity query term ranking; according to the time frequency sorting, semantic similarity and word order to obtain trade-off parameter query recommendation ranking, and according to the query recommendation to sort the query recommendation in each list query term ranking display. The present invention takes into account the Semantic Relevancy between query words and the frequency of query changes with time, thereby improving the prediction accuracy of information retrieval.
【技术实现步骤摘要】
基于语义相似度与时效性频率的查询推荐排序方法与装置
本专利技术涉及搜索领域,特别是指一种基于语义相似度与时效性频率的查询推荐排序方法与装置。
技术介绍
信息检索能够帮助用户获取想要的信息,在用户提交一个查询后,返回用户一组相关的文档,解决用户的信息需求。查询推荐则是在用户进行信息检索过程中,当用户输入查询时,在只输入部分查询字符的情况下,系统预测用户的查询意图,推荐给用户一组查询候选词供其选择,从而帮助用户完成查询词的构建。这有利于用户节省用户输入查询的时间,同时帮助用户构建一个好的查询词,有利于获取准确的信息,进而实现信息系统的精准服务,提高用户的满意度。现有的查询推荐排序模型主要基于查询推荐在过去一段时间内的查询频率来排序,这类方法虽能预测绝大部分用户的查询意图,使得查询推荐准确率较高,但该类方法忽略了查询词内部查询字之间的语义相似度。当用户构建一个查询词时,语义相似的查询字更容易被用户整合在一起构成一个查询词。换言之,语义相似度高的查询字构成的查询短语更符合用户构造查询短语的习惯。同时,用户在使用信息检索系统进行信息检索时,经常在输入完一个完整的查询字时,选择系统推荐的查询词,因此,查询字特别是查询词中的第一个查询字的频率可以反映当前信息检索用户普遍关注的问题,从而可以影响查询推荐的排序位置。另外,查询推荐的查询频率会随着时间的变化呈现比如周期性、急剧上升或者下降等趋势,这些信息将影响查询推荐排序的算法性能,但现有技术也没有予以考虑。针对现有技术中忽略查询词内部查询字之间的语义相似度、查询推荐的查询频率会随着时间的变化而变化的问题,目前尚未有有效的解 ...
【技术保护点】
一种基于语义相似度与时效性频率的查询推荐排序方法,其特征在于,包括:获取用户查询记录数据集并采集查询词前缀;根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。
【技术特征摘要】
1.一种基于语义相似度与时效性频率的查询推荐排序方法,其特征在于,包括:获取用户查询记录数据集并采集查询词前缀;根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。2.根据权利要求1所述的方法,其特征在于,所述确定时效性频率的查询字排序包括:提取查询推荐列表所有查询词中的第一查询字;从用户查询记录数据集中获取每个查询字在指定时间内的出现频率;根据所有查询词的第一查询字与每个查询字在指定时间内的出现频率确定时效性频率的查询字排序。3.根据权利要求1所述的方法,其特征在于,所述根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度包括:根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度;根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度;根据基于用户查询记录数据集的第一查询字、其他查询字之间的语义相似度与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度与语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度。4.根据权利要求3所述的方法,其特征在于,所述根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度包括:使用用户查询记录数据集训练skip‐gram模型;根据用户查询记录数据集训练的skip‐gram模型获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度。5.根据权利要求3所述的方法,其特征在于,所述根据训练用文本数据集获得基...
【专利技术属性】
技术研发人员:蔡飞,陈洪辉,陈皖玉,刘俊先,罗爱民,陈涛,舒振,罗雪山,郭昱普,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。