当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于观点检索的信息检索文档的评分方法技术

技术编号:2820793 阅读:436 留言:0更新日期:2012-04-11 18:40
一种基于观点检索的信息检索文档的评分方法属于信息处理领域。其特征在于:它首先建立情感词列表,在列表中指定要在检索系统中使用的所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在系统中计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数,计算出系统中每篇文档的主客观性评分;再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;最后检索系统根据文档的最终评分对系统中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。该技术具有计算机自动完成,能够返回既具有高相关性又带有强烈主观意见的检索结果的优点。

【技术实现步骤摘要】

本专利技术属于信息处理领域,特别是涉及信息检索系统,具体说是在信息检索系统中 对文档进行评分的方法,最终得到与用户査询相关的且带有主观意见的检索结果。
技术介绍
信息检索系统是以一定的策略收集信息(例如互联网上的网页文档,或数字图书馆 中的数字文档等),对信息进行组织和处理后为用户提供检索服务的计算机系统,它包 括计算机硬件系统以及在硬件系统上运行的软件程序两个部分。它的主要作用是帮助用户快捷、高效的获取那些能够满足用户需求的有用信息。信息检索系统通过查询服务器与用户进行交互。 一方面査询服务器提供一个可供用 户输入或选择自己的查询需求的页面,通常査询需求由一个或几个关键词构成。另一方 面査询服务器针对用户提交的査询,在系统内所有的文档中进行检索,返回排序后的相 关结果列表,并在结果页面中按顺序展示给用户。其中对系统内文档的排序依据就是文 档与用户査询之间的相关性评分,评分越高,排序越靠前。因此査询服务器中的一个关 键技术是如何计算文档的相关性,得到可供排序的相关性评分,从而使得用户想要的页 面排在返回结果的前列位置,相关信息更容易被用户访问到。随着信息检索系统的发展,人们也开始提本文档来自技高网...

【技术保护点】
一种基于观点检索的信息检索文档的评分方法,其特征在于,所述方法是在一个计算机信息检索系统中依次按以下步骤实现的: 步骤(1).在所述系统的观点检索服务器中建立一个中、英文对照的情感词列表,所述情感词至少包括下列所有属性中的一个属性:好、良、美、伟、坏、莠以及伪; 步骤(2).针对用户输入的至少一个查询词w↓[i],所述系统通过信息检索把所有带有用户查询中任一查询词w↓[i]的文档d自动挑选出来,作为候选文档集合,所述候选文档简称为文档d,并建立文档索引,统计所有被索引的文档总数N,计算平均每篇文档中所包含的词数avdl;同时,对用户的每一个查询词w↓[i],统计所述候选文档集合中所有出现了该查...

【技术特征摘要】

【专利技术属性】
技术研发人员:张敏马少平茹立云佟子健
申请(专利权)人:清华大学北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1