当前位置: 首页 > 专利查询>北京大学专利>正文

一种情感特征词提取系统技术方案

技术编号:3853190 阅读:422 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种情感特征词提取系统,其特征在于:它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表;特征选取模块利用评论所针对的文章集合中的文章内容和评论集合中的评论内容,分别提取评论内容全体的候选情感特征词和分类的候选情感特征词;关系提取模块根据文章内容,通过模板构建一个词与词的语义关系图;通过全体的候选情感特征词和语义关系图建立广义情感特征词表;通过分类的候选情感特征词和语义关系图建立狭义情感特征词表。本发明专利技术获取情感特征词的方法既适用于较大主题的通用情感分析,也能在细化的主题中进行更加深入的情感分析。本发明专利技术的情感特征词提取系统可广泛应用于对新闻、论坛和博客等评论进行情感分析。

【技术实现步骤摘要】
专利说明一种情感特征词提取系统 技术主题 本专利技术涉及一种特征提取系统,特别是关于一种情感特征词提取系统。
技术介绍
随着网络的普及,网络上的数据以指数级的速度增长。特别是Web2.0的兴起和发展,网络上用户生成内容越来越多,比如博客、评论、论坛帖子等,它们在网络中占据越来越重要的地位。用户生成的内容中除了包含很多事实性的内容之外,也包含大量与情感因素相关的内容,并且后者的影响也越来越大。比如用户在购买商品时会很自然的去网上搜索其要购买商品的相关信息,其他用户对于该商品的评论信息很可能直接影响到用户的购买。因此厂家也越来越关注于消费者对其商品的反馈,利用这些反馈信息可以用来理解用户需求和满意度,从而改善产品质量以及提高服务质量。此外,政府机关、政治团体也越来越关注网络平台的作用,例如政府会关注其政策法规在网络中的反响,关注网上的舆情信息,特别是热点事件的舆情信息。 传统的网络信息处理主要是基于事实性的文本进行处理,比如基于关键字的检索,文本的分类、聚类等,很少关注其中包含的情感信息。与传统文本处理方式不同的是,情感分析主要用来分析和挖掘用户的情感倾向,来弥补传统搜索引擎等工具的不足。在情感分析工作中,情感的特征选取不仅是进行情感分类的主要基础,还是影响情感分析结果的重要因素。与传统的分类方法不同的是,情感分析很难采用传统的基于词频等简单的统计信息来提取特征,因为情感分类所需的特征最好应该是能够直接代表情感特征词的词;而且不同主题有不同的情感特征词,比如“布什是中国人民的老朋友”和“老布什越老越糊涂”。“老”这个词在这三个地方中有三种不同的情感特征词。由于情感特征词分析的特殊性,传统文本分析方法不能满足其要求。 在情感分析中,特征选取的方法是其中的最重要的一个部分,其效果直接决定了情感分析的效果。目前的研究发现,利用机器学习的方法比直接进行人工选取的方法还要有效。现在情感的特征提取方式主要有手动选取情感特征词,基于搜索引擎来计算少量的其它特征词和选定特征词的逐点互信息量值(Pointwise Mutual Information,PMI)来确定;在大规模语料中,找出同义共现的模式去匹配;使用更多的种子词,使用对数似然率(log likelihood ratio,LLR);基于字典的方法,从一些核心词典出发,利用WordNet(英文),HowNet(中文)提供的关系去扩展。但是这些方法对评论的召回率都存在着偏低的现象,即很多评论没有对应的情感特征词去分析其情感倾向。
技术实现思路
针对上述问题,本专利技术的目的是提供一种能有效改进评论语句少、评论对象相对分散内容的情感分析效果,并且能在细化的主题中进行细致情感分析的情感特征词提取系统。 为实现上述目的,本专利技术采取以下技术方案一种情感特征词提取系统,其特征在于它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表;所述特征选取模块利用文章集合中的文章内容和评论集合中的评论内容,分别提取评论内容全体的候选情感特征词和分类的候选情感特征词;所述关系提取模块根据所述文章内容,通过模板构建一个词与词的语义关系图;通过所述全体的候选情感特征词和语义关系图建立广义情感特征词表;通过所述分类的候选情感特征词和语义关系图建立狭义情感特征词表。 所述特征选取模块中候选情感特征词的提取方法为利用评论集合与文章集合的词频信息差异,用打分法选取候选情感特征词,计算方程为 Score1(Term)=(R_DF(Term)/(N_DF(Term)+1) (1) Score2(Term)=(R_TF(Term)/(N_TF(Term)+1) (2) 其中Score1表示通过方程(1)计算得到的分值,Score2表示通过方程(2)计算得到的分值;Term表示词;R_DF(Term)表示词出现在所述评论集合的不同评论内容中的次数;N_DF(Term)表示词出现在所述文章集合的不同文章内容中的次数;R_TF(Term)表示词在所述评论集合中出现的总次数;N_TF(Term)表示词在所述文章集合中出现的总次数;之后按分值对词进行排序,选取一定数目得分较高的词作为候选情感特征词;排序规则是先按Score1进行比较,如果Score1一样,再按Score2进行比较。 建立所述广义情感特征词表时,在所述特征验证模块中,在全体的候选情感特征词中选取部分进行正负向标注,形成基础情感特征词表,所述基础情感特征词表根据其中的词性,分为正向表和负向表两部分;在所述语义关系图中找出基础情感特征词表中已标注的情感特征词的所有的同位词,将这些同位词扩充入所述基础情感特征词表中的正向表和负向表中;最后结合所述语义关系图,使用半监督学习的方法对扩充的同位词进行倾向标注和过滤,得到所述广义情感特征词表。 建立所述狭义情感特征词表时,在所述特征验证模块中,针对所有的分类的候选情感特征词,结合所述扩充后的正向表和负向表,对各类候选情感特征词进行半监督学习的正负向判定。 所述半监督学习方法为在语义关系图中寻找某个词的同位词,如果某个词的同位词落在正向表中的数目大于落在负向表中的数目,并且落在正向表中的同位词数目超过预先设定的最小阈值,那么该词的词性就标识为正向;如果某个词的同位词落在负向表中的数目大于落在正向表中的数目,并且落在负向表中的同位词数目超过预先设定的最小阈值,那么该词就标识为负向;如果某个词的同位词落在正向表和落在负向表中的数目均达不到预先设定的最小阈值,则过滤掉该词。 本专利技术由于采取以上技术方案,其具有以下优点1、本专利技术的系统由于使用评论对象和评论之间差异获取情感特征词的方法,对于评论语句少、评论对象相对分散的新闻、论坛和博客等评论,进行情感分析的效果有较大的改进。2、本专利技术获取情感特征词的方法既适用于较大主题的通用情感分析,也能在细化的主题中进行更加深入的情感分析,在通用的情感分析中,评论的情感分析召回率提高了34.8%~40.9%;在特定类别的情感分析中,召回率提高了91%~105%。本专利技术的情感特征词提取系统可广泛应用于对新闻、论坛和博客等评论进行情感分析。 附图说明 图1是本专利技术产生广义情感特征词表的流程示意图 图2是本专利技术产生狭义情感特征词表的流程示意图 图3是本专利技术系统应用于新闻评论情感分析的流程示意图 具体实施例方式 下面结合附图和实施例对本专利技术进行详细的描述。 如图1所示,本专利技术基于多层次的情感特征词提取系统,通过评论与评论所针对的文章之间的用词差异性进行建模,按词与词的层次关系找出评论内容中常用的情感特征词,以及特定领域的情感特征词。本专利技术的系统包括特征选取模块1、特征验证模块2、关系提取模块3、广义情感特征词表4和狭义情感特征词表5。一方面,在特征选取模块1中分别计算评论集合R中的评论内容及其针对的文章集合N中的文章内容的统计信息,再利用评论内容的词的特征信息与评论内容所针对的文章内容的特征信息的差异信息,来得出评论内容的候选情感特征词。在特征验证模块2中,根据评论集合R所针对的文章集合N的文章内容中的词与词的同位关系和词性信息,先采用人工方法或人机混合方法对候选情感特征词进行初步正负向判定和有效性过滤,得出部分候选情感特本文档来自技高网
...

【技术保护点】
一种情感特征词提取系统,其特征在于:它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表;所述特征选取模块利用文章集合中的文章内容和评论集合中的评论内容,分别提取评论内容全体的候选情感特征词和分类的候选情感特征词;所述关系提取模块根据所述文章内容,通过模板构建一个词与词的语义关系图;通过所述全体的候选情感特征词和语义关系图建立广义情感特征词表;通过所述分类的候选情感特征词和语义关系图建立狭义情感特征词表。

【技术特征摘要】

【专利技术属性】
技术研发人员:陶富民高军王腾蛟杨冬青
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1