一种基于多层次的微博查询扩展方法技术

技术编号:12080818 阅读:97 留言:0更新日期:2015-09-19 18:07
本发明专利技术公开了一种基于多层次的微博查询扩展方法,其特点是将原微博查询词对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,将候选查询扩展词与原始微博查询语句合并作为标签集对PRF层中的文档进行标注,并利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与微博查询词语义无关的候选扩展词,组成新的微博查询词进行更为精准的查询和检索。本发明专利技术与现有技术相比具有查询漂移少,检索效率高,准确性好,尤其将扩展词进行有效的整合,以达到最优的扩展效果,使查询结果能符合用户真实的信息需求。

【技术实现步骤摘要】

本专利技术涉及互联网信息搜索
,尤其是一种基于多层次的微博查询扩展方 法。
技术介绍
随着社交网络的兴起,微博已成为人们分享实时信息的一个重要平台。面对每天 发布涉及各个方面的海量微博,用户要想找到自己感兴趣的内容,通常采用检索的方式。然 而,一方面由于用户输入的查询词较少,且不够准确,另一方面由于微博本身有字数限制, 文本较短,常常导致查询结果不符合用户真实的信息需求。为了解决这一问题,通常在检索 过程中会对用户查询进行扩展,用户查询的扩展主要分为基于查询语料库本身的扩展和基 于外部源的扩展两大类。最常用的基于查询语料库本身的扩展方法是伪相关反馈(pseudo relevance feedback),其主要思想是初步检索后排在前面k个的文档中含有一些与查询相 关的词,可以提取出来加入到原始的查询中,用于下一次查询。这样反复迭代多次,得到最 终的查询结果。基于外部源的扩展主要利用相关的一些外部资源来扩充原始的查询,如web 搜索结果和wikipedia语料库。由于人们经常在web中搜索微博上的一些实时热点以便进 一步了解事件的发展,所以web检索结果常被用来作微博本文档来自技高网...

【技术保护点】
一种基于多层次的微博查询扩展方法,其特征在于将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注,利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与原微博查询词语义无关的候选扩展词,作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求,微博查询的具体扩展按下述步骤进行: (一)、基于PRF层的候选...

【技术特征摘要】

【专利技术属性】
技术研发人员:胡琴敏陈琴贺樑
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1