The invention discloses a large data query recommendation method and a system thereof. Among them, the method includes: the user query requests to the historical record, the construction of user query feedback operation model; output feedback and user query set according to the operation, the elements of the collection for the weight of the highest K key words set; according to the weights of the key words set, the calculation of indexing request set the similarity between the standard deviation of the historical record; the user query requests the standard deviation of clustering, the formation of a number of query concepts; obtaining user queries and determine the query concept with the user query, the query; the cluster center, and the concept of cluster center distance before K recommended to the user query.
【技术实现步骤摘要】
大数据查询推荐方法及其系统
本专利技术涉及数据处理
,尤其涉及一种大数据查询推荐方法及其系统。
技术介绍
大数据的分析和处理已经成为企业重要的IT能力。因为大数据的体量大、速度快、种类多,具有大量异构非结构化数据,使得大数据分析处理后的利用也存在巨大的困难。传统数据分析的结果,可以很方便地通过查询这一服务得到利用,而在大数据的场景下,简单的查询目的会带来大量无关的结果,导致用户无法通过查询得到想要的结果。造成上述大数据查询困难的主要原因在于用户很难精确的描述自己的查询目的,对于查询目的的限定或者陈述过于宽松,导致无法过滤出有效的查询结果。由于查询结果宽泛,导致用户在查询操作后依然要处理大量无关信息。因此,为了降低这些处理操作,和电子商务领域的平台商品推荐机制一样,在大数据的用户查询过程中,也可以使用推荐的方式,帮助用户快速筛选出有效的查询得到想要的结果。常规的推荐系统,比如电子商务领域的商品推荐系统,会基于产品的内容或特性进行匹配和推荐。但由于大数据查询本身难以描述不具备实物商品的特性。因此,查询操作之间无进行商品匹配那样的对比。虽然一些搜索引擎使用的查询推 ...
【技术保护点】
一种大数据查询推荐方法,其特征在于,所述方法包括:通过用户查询请求的历史记录,构建用户查询反馈操作模型;输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合;根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差;对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。
【技术特征摘要】
1.一种大数据查询推荐方法,其特征在于,所述方法包括:通过用户查询请求的历史记录,构建用户查询反馈操作模型;输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合;根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差;对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。2.根据权利要求1所述的方法,其特征在于,所述构建用户查询反馈操作模型,具体包括:将用户查询反馈操作划分为若干个队列;将一个队列中每次查询反馈操作相关的资料集组合为主题词集合;计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重;输出与所述队列对应的集合及其权重。3.根据权利要求2所述的方法,其特征在于,所述计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重,具体包括:基于词频统计,通过如下算式计算所述权重:其中,为所述权重,为对应资料集的主题词的权重,为Qi所有子集构成的集合,Qi={f1,f2,...,fj,...}为一个队列,其中,fi为用户i的第j次反馈操作。4.根据权利要求1所述的方法,其特征在于,所述根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差,具体包括:通过计算主题词之间的相似性,获得两次查询请求对应的主题词集合之间相似性的标准差;用所述标准差表示两次查询请求的相似性。5.根据权利要求4所述的方法,其特征在于,所述计算主题词之间的相似性,具体包括:通过如下算式计算所述主题词集合之间的相似性:其中,和分别为第一和第二主题词集合,和分别为属于第一主题词集合的主题...
【专利技术属性】
技术研发人员:姜可平,江有归,封雷,刘东升,
申请(专利权)人:杭州泰一指尚科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。