一种基于TFIDF的迭代查询扩展方法技术

技术编号:14875750 阅读:45 留言:0更新日期:2017-03-23 23:20
本发明专利技术公开了一种基于TFIDF的迭代查询扩展方法,包括原始数据的输入、数据分析和数据特征提取以及数据的迭代,本发明专利技术的有益效果是:发明专利技术目的是给出一种查询扩展方法,可以更好的理解用户查询意图,返回给用户相关合理的微博查询结果,在微博系统中,查询词通常很短,而一篇微博的字数通常在20~40之间,这很容易造成相关的微博由于没有包含查询词而丢失,因此查询扩展的目的是提高查询的召回率。

【技术实现步骤摘要】

本专利技术涉及一种迭代查询方法,具体为一种基于TFIDF的迭代查询扩展方法
技术介绍
目前,查询扩展可以分为以下几种,基于用户反馈,基于关键词排名,基于全局分析和基于搜素引擎日志。基于用户反馈的查询扩展是根据用户反馈来分析查询意图。用户使用搜索功能时,系统会返回相关的所有文档,根据用户的标记来分析返回结果,根据用户的标记可以从文档中选出用户认为相关的文档,作为用户查询词的扩展。基于局部分析的查询扩展是根据搜索引擎搜索査询词的返回结果来进行扩展,和基于用户反馈的查询扩展相似。基于全局分析的査询扩展是根据所有网络资源来做查询扩展,局部査询扩展是利用局部文档来做查询扩展。基于全局分析的查询扩展主要有两种:基于相似词典的査询扩展和基于统计词典的查询扩展。基于搜索引擎日志的查询扩展是根据搜索引擎日志进行査询扩展。基于搜索引擎日志的査询扩展与其他几种査询扩展方法相比更直接,更能很好的反映用户的需求,因为搜索引擎中的查询词都是搜索引擎用户查询时使用的关键词。基于局部分析的查询扩展在现有的研究中取得了较好的结果,因此本专利技术也是基于局部分析的查询扩展。基于局部分析的查询扩展虽然取得了较好的结果,但是对搜索结果进行处理时不能很好的处理噪音,不能区分相关结果和相关结果,这对产生的扩展词的准确度有不好的影响。
技术实现思路
本专利技术的目的在于提供一种基于TFIDF的迭代查询扩展方法及其制作方法,以解决上述
技术介绍
中提出的问题。本专利技术的目的是通过下述技术方案予以实现:一种基于TFIDF的迭代查询扩展方法,包括原始数据的输入、数据分析和数据特征提取以及数据的迭代,具体步骤如下:(1)定义用户原查询词为Q,用户通过输入装置输入查询词Q;(2)通过微博搜索功能搜索查询词Q;(3)随后查询装置对搜索结果进行聚类、标记;(4)随后统计聚类、标记中的每个词的TFIDF值,选取TFIDF值最大的前N个词作为扩展次Qt1。在本专利技术一个较佳的实施例中,具体步骤如下:(1)将上步骤得出的Qt1当作新的查询搜索词,重复以上的步骤,并的到新的查询词Qt2,得出Qt2后经搜索引擎判断是否满足迭代条件;(2)上述搜索引擎进行迭代终止的条件是Qt1与Qt2相同,或者是迭代次数达到最大,最终得出Qtn。在本专利技术一个较佳的实施例中,上述得出的Qtn为用户查询关键词最终的准确结果,随后检索引擎会根据Qtn扩展出若干个相似的结果,作为推荐查询结果。本专利技术的有益效果是:专利技术目的是给出一种查询扩展方法,可以更好的理解用户查询意图,返回给用户相关合理的微博查询结果,在微博系统中,查询词通常很短,而一篇微博的字数通常在20~40之间,这很容易造成相关的微博由于没有包含查询词而丢失,因此查询扩展的目的是提高查询的召回率。附图说明图1为本专利技术实施例所公开的一种基于TFIDF的迭代查询扩展方法及其制作方法的整体流程图;图2为本专利技术实施例所公开的一种基于TFIDF的迭代查询扩展方法及其制作方法的推特数据流示意图。具体实施方式下面结合具体实施方式进一步的说明,但是下文中的具体实施方式不应当做被理解为对本体专利技术的限制。本领域普通技术人员能够在本专利技术基础上显而易见地作出的各种改变和变化,应该均在专利技术的范围之内。实施例1一种基于TFIDF的迭代查询扩展方法,包括原始数据的输入、数据分析和数据特征提取以及数据的迭代,具体步骤如下:(1)定义用户原查询词为Q,用户通过输入装置输入查询词Q;(2)通过微博搜索功能搜索查询词Q;(3)随后查询装置对搜索结果进行聚类、标记;(4)随后统计聚类、标记中的每个词的TFIDF值,选取TFIDF值最大的前N个词作为扩展次Qt1。在本专利技术一个较佳的实施例中,具体步骤如下:(1)将上步骤得出的Qt1当作新的查询搜索词,重复以上的步骤,并的到新的查询词Qt2,得出Qt2后经搜索引擎判断是否满足迭代条件;(2)上述搜索引擎进行迭代终止的条件是Qt1与Qt2相同,或者是迭代次数达到最大,最终得出Qtn。在本专利技术一个较佳的实施例中,上述得出的Qtn为用户查询关键词最终的准确结果,随后检索引擎会根据Qtn扩展出若干个相似的结果,作为推荐查询结果。上述得出的Qtn为用户查询关键词最终的准确结果,随后检索引擎会根据Qtn扩展出若干个相似的结果,作为推荐查询结果。应用第一次迭代的查询的准确度为46.95%,应用最后一次迭代的查询的准确度为56.3%。迭代的查询扩展方法取得了较好的结果。以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的专利技术范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述专利技术构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。本文档来自技高网...
一种基于TFIDF的迭代查询扩展方法

【技术保护点】
一种基于TFIDF的迭代查询扩展方法,其特征在于:包括原始数据的输入、数据分析和数据特征提取以及数据的迭代,具体步骤如下:(1)定义用户原查询词为Q,用户通过输入装置输入查询词Q;(2)通过微博搜索功能搜索查询词Q;(3)随后查询装置对搜索结果进行聚类、标记;(4)随后统计聚类、标记中的每个词的TFIDF值,选取TFIDF值最大的前N个词作为扩展次Qt1。

【技术特征摘要】
1.一种基于TFIDF的迭代查询扩展方法,其特征在于:包括原始数据的输入、数据分析和数据特征提取以及数据的迭代,具体步骤如下:(1)定义用户原查询词为Q,用户通过输入装置输入查询词Q;(2)通过微博搜索功能搜索查询词Q;(3)随后查询装置对搜索结果进行聚类、标记;(4)随后统计聚类、标记中的每个词的TFIDF值,选取TFIDF值最大的前N个词作为扩展次Qt1。2.根据权利要求1所述的一种基于TFIDF的迭代查询扩展方法,其特征在...

【专利技术属性】
技术研发人员:范科峰刘贤刚姚相振王凯周睿康高林李琳
申请(专利权)人:中国电子技术标准化研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1