一种基于词汇语义和句法依存的情感关键句识别方法技术

技术编号:10906531 阅读:175 留言:0更新日期:2015-01-14 15:21
本发明专利技术涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。

【技术实现步骤摘要】
一种基于词汇语义和句法依存的情感关键句识别方法
本专利技术涉及一种情感关键句识别方法,特别涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用

技术介绍
随着我国互联网事业的迅速发展,网络作为一种新型媒体不但成为各种社会思潮、利益诉求和意识形态较量的场所,而且也成为民众评议时政、谈论是非、交流观点的集散地。有关网络舆情监测和分析的研究由此引起研究人员的重视。抽取出一篇文章的情感关键句,对了解社会动态和舆情状况有着重要的作用。但在如今这个大数据时代,海量信息层出不穷,同时处理这么多信息无疑是件费时费力的事情。因此,我们需要一种情感关键句抽取技术来帮助我们自动从海量信息中抽取出与主题相关的情感关键句,这是一项既有学术意义又有实用意义的研究课题。情感关键句又叫主题情感句,情感关键句需要包含两个要素:主题关键词和情感关键词。主题关键词用来概括篇章的主题;情感关键词用来概括情感倾向。目前,关于情感关键句抽取方面的研究并不多。总的来说,情感关键句抽取的研究尚不系统和成熟,目前还处于起步阶段。而中文语言的灵活性及表达的多样性,也使情感关键句抽取的研究相对更加困难。目前情感关键句抽取的方法大多是基于规则或基于统计的,鲜有两者结合的方法。而且在抽取过程中只进行了浅层语义分析,没有挖掘句子的深层信息。
技术实现思路
本专利技术的目的是为解决以往在情感关键句识别中不能有效利用词汇语义和句法依存信息的问题,尽可能发挥不同层级的语义、句法信息特征,提出一种基于词汇语义和句法依存的情感关键句识别方法。为实现上述目的,本专利技术所采用的技术方案如下:本专利技术技术方案的思想是首先对语料及其分词结果进行规范化处理,然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存特征,利用这四种特征构造SVM分类器,找到使性能达到最优的特征形式完成情感关键句的识别。本专利技术的具体技术方案如下:一种基于词汇语义和句法依存的中文情感关键句识别方法,该方法包括以下步骤:步骤一、语料预处理:对语料集S的每一个句子进行分词、词性标注得到带有词性标注的语料集合T;分词以及词性标注可以手工进行,也可以使用现有的工具,本专利技术使用中科院的分词工具ICTCLAS对S自动分词以及词性标注;步骤二、情感词典扩建:通过分别计算基础情感词典与候选词集合之间的点间互信息PMI,为每个基础情感词典中的词语选取至多5个PMI最高的候选词作为扩展词,加入基础情感词典,用这些词加上其在语料集合中的出现概率生成最终的领域相关的情感词典DEL;步骤三、关键词词典构建:对于语料集S中的每一篇文章,通过LDA与textrank相结合的方法,同时采用一种全新的加权方法PCFO为该文章在各主题建立对应的图模型,最后利用textrank为图中每个节点,即词语打分,选择得分较高的词语作为本篇文章的关键词,加入关键词词典KL;步骤四、依存知识库构建:对语料集S中的每一个句子进行依存分析,然后通过依存模板提取算法获取依存模板,加入依存知识库DB;步骤五、候选情感关键句生成:分别将语料集T中的每一个句子与上文已经构建好的领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;步骤六、SVM分类:将集合A置于经过训练的SVM分类器中进行分类,得到情感关键句集合Y和非情感关键句集合N,SVM分类器的训练特征为:情感词特征(emotionalfeature),关键词特征(key-wordfeature),依存模板特征(dependencyfeature)和位置特征(positionfeature)这四种;步骤七、识别完成:输出识别结果Y。有益效果本专利技术对比现有技术,通过采用规则与统计相结合的策略,先通过DEL和KL筛选出候选情感关键句,然后再利用SVM分类器进行分类,这样就弥补了基于概率统计的机器学习方法导致的错判,两种方法相互补充,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。附图说明图1为本专利技术方法的处理流程图。具体实施方式在介绍实施例以前,先做如下定义:情感关键句是指一篇文章中既能表现文章主题又能表现情感倾向的句子,需要包含两个要素:主题关键词和情感关键词。主题关键词用来彰显篇章主题;情感关键词用来表明情感倾向。下面结合实施例对本专利技术做进一步说明。本实施例首先介绍情感词典的扩展方法,关键词词典的构建方法,依存知识库的形成方法以及SVM分类器的特征选择方法,最后介绍中文情感关键句的识别方法。本实施例选取第六届中文倾向性分析评测(TheSixthChineseOpinionAnalysisEvaluation,简称COAE2014)任务一:面向新闻的情感关键句抽取与判定提供的数据集作为实验语料集,用于情感词典的扩展,关键词词典的构建,依存知识库的形成以及SVM分类器的训练。该语料集含有多篇文章,每篇文章由多个句子组成,每个句子含有类别标注(Y:表示是情感关键句/N:表示不是情感关键句)。以下文档为语料集S中的一篇文章:一、情感词典的扩展方法,实现步骤如下:(1)采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基础情感词典(BasicEmotionLexicon);(2)在预处理过的语料集合T中,按词性筛选出名词、动词和形容词作为候选词;(3)分别计算上文构建的BasicEmotionLexicon中每个词与这些候选词之间的点间互信息,关于两个词语w1和w2之间的点间互信息PMI(w1,w2)的计算公式如下(计算过程中过滤掉P(w1&w2),P(w1),P(w2)为零的情况):其中P(w1&w2)表示w1和w2在同一个句子中共同出现的概率,P(w1)和P(w2)分别表示两个词语单独出现的概率;P(w1&w2)、P(w1)和P(w2)都可以通过对语料集合T的统计得到,其计算公式如下:P(w1&w2)=numsen(w1&w2)/NP(w1)=numsen(w1)/NP(w2)=numsen(w2)/N其中,numsen(w1&w2)表示集合中即出现w1又出现w2的句子数,numsen(w1)表示出现w1的句子数,numsen(w2)表示出现w2的句子数,N表示语料集合T的全部句子数;(4)对于BasicEmotionLexicon中的每个词,选取至多前5个与之点间互信息最高的候选词作为扩展词,与其在语料集合T中的出现频率一起加入BasicEmotionLexicon,并对BasicEmotionLexicon中的每个情感词也分别计算其在语料集合T中的出现概率,生成最终的领域相关的情感词典DEL;因此,以以上文档为例,生成的最终领域相关的情感词及其出现频率如下表:二、关键词词典KL的构建方法,实现步骤如下:(1)设置语料集合T的主题个数为n,某个主题用z本文档来自技高网...
一种基于词汇语义和句法依存的情感关键句识别方法

【技术保护点】
一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,包括以下步骤:步骤一、语料预处理:对待识别的语料集的每一个句子进行分词、词性标注得到带有词性标注的语料集合T;步骤二、候选情感关键句生成:分别将T中的每一个句子与领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;步骤三、SVM分类器分类:从情感词特征、关键词特征、依存模板特征和位置特征四个方面对集合A的每个句子提取特征向量,并将特征向量置于经过训练的SVM分类器中进行分类,得到情感关键句集合Y和非情感关键句集合N;步骤四、识别完成:输出识别结果Y。

【技术特征摘要】
1.一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,包括以下步骤:步骤一、语料预处理:对待识别的语料集的每一个句子进行分词、词性标注得到带有词性标注的语料集合T;步骤二、候选情感关键句生成:分别将T中的每一个句子与领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;步骤三、SVM分类器分类:从情感词特征、关键词特征、依存模板特征和位置特征四个方面对集合A的每个句子提取特征向量,并将特征向量置于经过训练的SVM分类器中进行分类,得到情感关键句集合Y和非情感关键句集合N;步骤四、识别完成:输出识别结果Y;所述领域相关的情感词典DEL构建方法包括以下步骤:步骤一、采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基础情感词典(BasicEmotionLexicon);步骤二、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,按词性筛选出名词、动词和形容词作为候选词;步骤三、分别计算上文构建的BasicEmotionLexicon中每个词与这些候选词之间的点间互信息,关于两个词语w1和w2之间的点间互信息PMI(w1,w2)的计算公式如下:其中P(w1&w2)表示w1和w2在同一个句子中共同出现的概率,P(w1)和P(w2)分别表示两个词语单独出现的概率;计算过程中过滤掉P(w1&w2),P(w1),P(w2)为零的情况;P(w1&w2)、P(w1)和P(w2)都可以通过对语料集合T的统计得到,其计算公式如下:P(w1&w2)=numsen(w1&w2)/NP(w1)=numsen(w1)/NP(w2)=numsen(w2)/N其中,numsen(w1&w2)表示集合中即出现w1又出现w2的句子数,numsen(w1)表示出现w1的句子数,numsen(w2)表示出现w2的句子数,N表示语料集合T的全部句子数;步骤四、对于BasicEmotionLexicon中的每个词,选取至多前5个与之点间互信息最高的候选词作为扩展词,与其在语料集合T中的出现频率一起加入BasicEmotionLexicon,并对BasicEmotionLexicon中的每个情感词也分别计算其在语料集合T中的出现概率,生成最终的领域相关的情感词典DEL;所述关键词词典的构建方法包括以下步骤:步骤一、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,设置语料集合T的主题个数为n,某个主题用Zt表示,其中t为1到n之间的自然数,通过LDA模型求出文档-主题分布P(Zt|d)和主题-词分布P(w|Zt);计算随机跳转概率P(Zt|w),计算公式如下:其中,m表示语料集合T中的文档个数,w表示一个词,di表示语料集合T的第i篇文章,i∈{1,2,3......,m},P(di)表示文章di在语料集合T中的出现概率;步骤二、对语料集合T中的每一篇文章按词性选择名词和形容词作为候选关键词,并以这些词为节点,分别在每一个主题下构建图模型:图G=(V,E),节点集合V={v1,v2,v3......vk},连接从节点vi到节点vj的边得到边集(vi,vj)∈E,其中k表示候选关键词的个数,i,j∈{1,2,3......,k},i≠j;确定两个节点之间是否存在边以及边的方向的方法如下:在原文中设置一个大小为window的滑动窗口,分别按照顺序从第一个词性为名词或形容词的词语指向窗口内与第一个词不同的其他词性为名词或形容词的词语,由此得到边集E,依次遍历集合E中的每条边,按以下方法对每条边设置权重:权重设置主要考虑四个因素:位置重要性的影响力、覆盖重要性的影响力、频度重要性的影响力和共现重要性的影响力;对于任意两个结点vi和vj,结点vi对vj的影响力通过其有向边e=<vi,vj>传递,边的权重wij决定了vj最终所获得vi部分的分值大小,令wij表示结点vi和vj的整体影响力权重,α,β,γ,δ分别表示这四类不同的影响力所占的比重,且α+β+γ+δ=1,则两节点之间的权值wij可以根据下式计算:wij=αwpos(vi,vj)+βwcov(vi,vj)+γwfreq(vi,vj)+δwco-occur(vi,vj)a)wpos(vi,vj)表示节点vi的位置影响力传递到vj的权重,计算公式如下:其中,Out(vi)表示以vi为起点所指向的节点的集合,P(vj)表示节点vj的位置重要性得分,具体赋值方式如下:其中,λ是一个比1大的数字,值为1.5;b)wcov(vi,vj)表示节点vi的覆盖影响力传递到vj的权重,计算公式如下:其中,|Out(vi)|表示节点vi的出度;c)wfreq(vi,vj)表示节点vi的频度影响力传递到vj的权重,计算公式如下:其中,Out(vi)表示以vi为起点所指向的节点的集合,f(vj)表示节点vj所代表的词语在文章中出现的次数;d)wco-occur(vi,vj)表示节点vi的共现影响力传递到vj的权重,计算公式如下:

【专利技术属性】
技术研发人员:冯冲廖纯刘至润黄河燕
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1