基于情感相关度的观点检索方法技术

技术编号:8593974 阅读:252 留言:0更新日期:2013-04-18 07:08
本发明专利技术公开了一种基于情感相关度的观点检索方法,包括如下步骤:在文档集合中,用基于概率检索模型算法计算文档与查询主题的文本相关度;采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度;采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。本发明专利技术在观点抽取技术的基础上,计算主题在文档中的倾向性强弱,通过综合文档与主题的情感相关度以及文档与主题的文本相关度来计算文档与查询的整体相关性。另外,本发明专利技术使用通用知识网络对查询主题进行扩展,并计算了查询扩展词和查询主题之间的相关度,可以进一步改善观点检索的效果。

【技术实现步骤摘要】

本专利技术涉及一种观点检索方法,尤其涉及一种, 属于计算机信息数据处理

技术介绍
互联网的迅速发展和广泛普及,在很大程度上改变了人们的生活方式。人们不仅 能够被动地接受信息,还能与外界进行交互。越来越多的用户在互联网上分享自己的观点 或者体验,人们可以通过BBS、Blogs等网络媒介发表对各种事物的评论。这些评论信息数 量庞大,具有强烈的主观性,表达方式相当自由,而且不规范。2010年7月由中国互联网信 息中心发布的《中国互联网络发展状况统计报告》表明博客应用、论坛/BBS的使用率均处 于网络应用的前列。这些观点信息的迅速增长,为科研人员提供了广泛的应用和研究对象, 并引起了产业界和研究者的广泛关注。互联网中主观性的评论包含着大量具有情感倾向的信息。这些信息,无论对于普 通的网络用户,还是对于生产商以及其他机构组织都有很重要的价值。如何从互联网的海 量数据中高效快捷地检索出针对某一主题的主观评论性信息至关重要。观点检索是主题检 索与文本倾向性分析相结合的工作,是指利用信息检索与情感分析的技术,寻找针对主题 的观点评论等信息。观点检索的目标是互联网用户发表的带有情感倾向的评论信息。观点 检索可以分为两个相关联的内容一是主题检索,二是文本倾向性分析。文本的倾向性分析 着眼于分析文本中说话者对某些特定主题的态度,主要研究文本中不同粒度的倾向性类别 及强度。现有技术中包括基于语义的以及基于机器学习的文本倾向性研究,目前很多研究 都是二者的结合。目前,国内外针对观点检索的研究较多,而大部分的研究往往是把观点检索的过 程分成两个独立的步骤首先根据给定的查询相关的文章并得到主题相关性分数,然后对 这些文章进行倾向性分析,并得到这些文章的倾向性得分,最后通过线性拟合融合两部分 分数得到最终评分。针对观点检索的研究主要有两种方法,即目前通常使用的线性拟合方 法和基于生成时语目模型的观点检索方法。通常使用的线性拟合方法是将观点检索过程分为主题的相关文档检索和基于情 感的文档重排序两个阶段。然后将上述两个阶段得到的相关分数进行一个线性拟合的过 程。文本的倾向性强弱并不一定是针对查询主题的倾向性强弱。所以,这种仅仅基于文本 倾向性和主题相关度的融合计算方法得到的检索结果并不能够准确地反映出查询结果针 对查询主题的倾向性强弱。另一种研究思路主要基于生成语言模型,将上述观点检索的两个阶段通过二次拟 合或一次查询的过程合并为一个阶段。例如,利用生成语言模型进行针对主题的情感查询 扩展等。但是,基于生成语言模型的方法也有一定的不足。对于词语之间的共现并不能够 很好地反映查询主题与情感之间的紧密程度,尤其是当窗口很大的时候,这种问题则越发 明显。在专利号为ZL200810118668. O的中国专利技术专利中,公开了ー种基于观点检索的 信息检索文档的评分方法。它首先建立情感词列表,在列表中指定要在检索系统中使用的 所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在系统中 计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询 词在一定距离范围内共同出现的情感词的次数,计算出系统中每篇文档的主客观性评分; 再将ー篇文档的相关性评分和主客观性评分进行基于二次函数(即相乗)的合并,得到合 并后的文档最终评分;最后检索系统根据文档的最终评分对系统中的所有候选文档进行排 序,并按照评分从大到小的次序显示给用户。
技术实现思路
针对现有技术所存在的不足,本专利技术所要解决的技术问题在于提供一种基于情感 相关度的观点检索方法。该方法结合查询扩展词与主题的相关度,计算出文档与主题的文 本相关度和情感相关度。为实现上述的专利技术目的,本专利技术采用下述的技术方案一种,包括采用基于概率检索模型算法计算文档与查询主题的文本相关度;采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关 度;采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情 感相关度确定文档与查询的最终相关性。其中较优地,文本相关度由下式计算本文档来自技高网
...

【技术保护点】
一种基于情感相关度的观点检索方法,其特征在于包括:采用基于概率检索模型算法计算文档与查询主题的文本相关度;采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度;采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。

【技术特征摘要】
1.一种基于情感相关度的观点检索方法,其特征在于包括 采用基于概率检索模型算法计算文档与查询主题的文本相关度; 采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度; 采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。2.如权利要求1所述的观点检索方法,其特征在于 所述文档与查询主题的文本相关度由下式计算3.如权利要求1所述的观点检索方法,其特征在于 所述查询主题由原始查询主题queryOTigin (用户输入的查询词或者语句)和抽取的与其相关的扩展词集合Queryexp构成,Query = {queryorigin} U Queryexp,具体方法包括 a.采用查询扩展词的抽取算法对原始查询主题queryOTigin进行扩展,得到查询扩展词集合; b.对原始查询主题进行检索,判断查询扩展词是否存在于返回结果的前10篇文档,如果不存在去除查询扩展词,得到第一类查询扩展词集合; c.判断原始查询主题的长度,如果为长查询,对所述原始查询主题进行分词,并将分词后的各词语作为第二类查询扩展词集合; d.计算第一类查询扩展词集合中每个扩展词与原始查询主题的相关度; e.计算第二类查询扩展词集合中每个扩展词在第二类查询扩展词集合中的权重,并计算与原始查询主题的相关度; f.合并第一查询扩展词集合和第二查询扩展词集合得到Query-。4.如权利要求3所述的观点检索方法,其特征在于 所述查询扩展词的抽取算法包括 1)针对给定的查询词利用程序从通用知识网络搜索相关网页; 2)如果查询词过长则需先进行分词,然后返回步骤I)继续搜索; 3)从得到的网页中抽...

【专利技术属性】
技术研发人员:刘瑞安翼陈君龙宋浪
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1