The invention discloses an expansion method of multi-source information query based on positive and negative external feedback, by introducing the regularization constraint on the process integration of external information in the query can effectively reduce the expansion risk; build a new query, which makes the search results more in line with the needs of users. Compared with the traditional feedback retrieval method, the technical proposal of the invention has obvious effect of improving performance.
【技术实现步骤摘要】
一种基于多源正负外部反馈信息的查询扩展方法
本专利技术属于文字信息处理领域,尤其涉及一种基于多源正负外部反馈信息的查询扩展方法。
技术介绍
社交媒体(例如Twitter,Facebook,Google+)的出现深刻地改变了人们的生产和消费信息的方式,他和主流新闻媒体网站(如CNN或nytimes)最大的不同是社交网络中的人即是信息的消费者也是信息的生产者,由于社交网络中的信息不仅来源多样并且杂乱无章,这增加了用户获取信息的难度。传统方法查询扩展方法按照扩展源的不同主要分为两种:1)以本地查询文档集为扩展源的本地查询扩展方法2)以外部知识基为扩展源的全局扩展方法。第一种方法多采用文本聚类、潜语义索引(latentsemanticindexing,简称LSI)和相似性词典等方法扩展查询,但由于本地语料集构成相对固定,规模较小,不能很好的反应用户真实查询意图。第二种方法常使用WordNet、Wiki-pedia等公共数据资源作为外部扩展源,能更加详尽的表述用户查询,但在引入外部信息的过程中不可避免的会引入歧义错误的信息,增加查询扩展的风险。
技术实现思路
本专利技术要解决的 ...
【技术保护点】
一种基于多源正负外部反馈信息的查询扩展方法,其特征在于,包括以下步骤:步骤(1)、获取Tweets博文步骤(2)、获得用户兴趣词步骤(3)、Tweets预处理步骤(4)、构建本地检索引擎使用Apache开源检索框架Lucene作为本地检索引擎主程序,以预处理后的Tweets博文作为索引内容,Tweets id为索引目标,构建本地搜索引擎;步骤(5)、扩展查询,其包括以下步骤:步骤(5.1)使用用户兴趣词得到第一次查询反馈使用Q表示用户查询兴趣词,将Q放入本地搜索引擎,得到前100条反馈结果,作为第一次查询反馈,构建词项文档矩阵L,L的行代表词,列代表一条反馈文档,矩阵的值表 ...
【技术特征摘要】
1.一种基于多源正负外部反馈信息的查询扩展方法,其特征在于,包括以下步骤:步骤(1)、获取Tweets博文步骤(2)、获得用户兴趣词步骤(3)、Tweets预处理步骤(4)、构建本地检索引擎使用Apache开源检索框架Lucene作为本地检索引擎主程序,以预处理后的Tweets博文作为索引内容,Tweetsid为索引目标,构建本地搜索引擎;步骤(5)、扩展查询,其包括以下步骤:步骤(5.1)使用用户兴趣词得到第一次查询反馈使用Q表示用户查询兴趣词,将Q放入本地搜索引擎,得到前100条反馈结果,作为第一次查询反馈,构建词项文档矩阵L,L的行代表词,列代表一条反馈文档,矩阵的值表示词在文档中出现次数;步骤(5.2)获取外部信息利用爬虫技术,将Q放入多个外部搜索引擎,得到前100条反馈结果作为外部反馈信息可以将每个搜索引擎获取文档集合表示为E1,E2,E3…En,取第n个外部反馈信息的前m条反馈结果作为正向反馈,构建词项文档矩阵Pn,取第n个外部反馈信息的前2m~3m条反馈结果作为负向反馈,构建词项文档矩阵Nn;其中m和n均为自然整数,取值为1到正无穷;步骤(5.3)对反馈外部信息聚类分别将稀疏矩阵L、Pn、Nn分解为两个稠密矩阵相乘的形式,如公式1所示,其中分解后的矩阵U、An,Bn表示反馈结果的分布情况,矩阵U表示用户查询意图;由于期望原始反馈L的分布情况和正向反馈Pn的分布尽可能相似,和负向反馈Nn的分布尽可能远离,同时在分解过程中使用相同的聚类中心矩阵H对分解过程进行约束,保证分解的稳定性和有效性,因此,多源信息查询扩展建模最终的稀疏学习优化目标为公式(1),其中,αβγ表示对正则项约束程度调节参数;针对此优化目标应用KKT(Karush-Kuhn-Tucker)条件,在保证矩阵非负的情况下,得到迭代条件如下,公式2-5中,i和j分别代表矩阵的第i行和第j列,
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。