【技术实现步骤摘要】
一种基于词汇语义和句法依存的情感关键句识别方法
本专利技术涉及一种情感关键句识别方法,特别涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用
技术介绍
随着我国互联网事业的迅速发展,网络作为一种新型媒体不但成为各种社会思潮、利益诉求和意识形态较量的场所,而且也成为民众评议时政、谈论是非、交流观点的集散地。有关网络舆情监测和分析的研究由此引起研究人员的重视。抽取出一篇文章的情感关键句,对了解社会动态和舆情状况有着重要的作用。但在如今这个大数据时代,海量信息层出不穷,同时处理这么多信息无疑是件费时费力的事情。因此,我们需要一种情感关键句抽取技术来帮助我们自动从海量信息中抽取出与主题相关的情感关键句,这是一项既有学术意义又有实用意义的研究课题。情感关键句又叫主题情感句,情感关键句需要包含两个要素:主题关键词和情感关键词。主题关键词用来概括篇章的主题;情感关键词用来概括情感倾向。目前,关于情感关键句抽取方面的研究并不多。总的来说,情感关键句抽取的研究尚不系统和成熟,目前还处于起步阶段。而中文语言的灵活性及表达的多样性,也使情感关键句抽取的研究相对更加困难。目前情感关键句抽取的方法大多是基于规则或基于统计的,鲜有两者结合的方法。而且在抽取过程中只进行了浅层语义分析,没有挖掘句子的深层信息。
技术实现思路
本专利技术的目的是为解决以往在情感关键句识别中不能有效利用词汇语义和句法依存信息的问题,尽可能发挥不同层级的语义、句法信息特征,提出一种基于词汇语义和句法依存的情感关键句识别方法。为实现上述目的,本专利技术所采用的技术方案如下:本专利技术 ...
【技术保护点】
一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,包括以下步骤:步骤一、语料预处理:对待识别的语料集的每一个句子进行分词、词性标注得到带有词性标注的语料集合T;步骤二、候选情感关键句生成:分别将T中的每一个句子与领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;步骤三、SVM分类器分类:从情感词特征、关键词特征、依存模板特征和位置特征四个方面对集合A的每个句子提取特征向量,并将特征向量置于经过训练的SVM分类器中进行分类,得到情感关键句集合Y和非情感关键句集合N;步骤四、识别完成:输出识别结果Y。
【技术特征摘要】
1.一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,包括以下步骤:步骤一、语料预处理:对待识别的语料集的每一个句子进行分词、词性标注得到带有词性标注的语料集合T;步骤二、候选情感关键句生成:分别将T中的每一个句子与领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;步骤三、SVM分类器分类:从情感词特征、关键词特征、依存模板特征和位置特征四个方面对集合A的每个句子提取特征向量,并将特征向量置于经过训练的SVM分类器中进行分类,得到情感关键句集合Y和非情感关键句集合N;步骤四、识别完成:输出识别结果Y;所述领域相关的情感词典DEL构建方法包括以下步骤:步骤一、采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基础情感词典(BasicEmotionLexicon);步骤二、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,按词性筛选出名词、动词和形容词作为候选词;步骤三、分别计算上文构建的BasicEmotionLexicon中每个词与这些候选词之间的点间互信息,关于两个词语w1和w2之间的点间互信息PMI(w1,w2)的计算公式如下:其中P(w1&w2)表示w1和w2在同一个句子中共同出现的概率,P(w1)和P(w2)分别表示两个词语单独出现的概率;计算过程中过滤掉P(w1&w2),P(w1),P(w2)为零的情况;P(w1&w2)、P(w1)和P(w2)都可以通过对语料集合T的统计得到,其计算公式如下:P(w1&w2)=numsen(w1&w2)/NP(w1)=numsen(w1)/NP(w2)=numsen(w2)/N其中,numsen(w1&w2)表示集合中即出现w1又出现w2的句子数,numsen(w1)表示出现w1的句子数,numsen(w2)表示出现w2的句子数,N表示语料集合T的全部句子数;步骤四、对于BasicEmotionLexicon中的每个词,选取至多前5个与之点间互信息最高的候选词作为扩展词,与其在语料集合T中的出现频率一起加入BasicEmotionLexicon,并对BasicEmotionLexicon中的每个情感词也分别计算其在语料集合T中的出现概率,生成最终的领域相关的情感词典DEL;所述关键词词典的构建方法包括以下步骤:步骤一、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,设置语料集合T的主题个数为n,某个主题用Zt表示,其中t为1到n之间的自然数,通过LDA模型求出文档-主题分布P(Zt|d)和主题-词分布P(w|Zt);计算随机跳转概率P(Zt|w),计算公式如下:其中,m表示语料集合T中的文档个数,w表示一个词,di表示语料集合T的第i篇文章,i∈{1,2,3......,m},P(di)表示文章di在语料集合T中的出现概率;步骤二、对语料集合T中的每一篇文章按词性选择名词和形容词作为候选关键词,并以这些词为节点,分别在每一个主题下构建图模型:图G=(V,E),节点集合V={v1,v2,v3......vk},连接从节点vi到节点vj的边得到边集(vi,vj)∈E,其中k表示候选关键词的个数,i,j∈{1,2,3......,k},i≠j;确定两个节点之间是否存在边以及边的方向的方法如下:在原文中设置一个大小为window的滑动窗口,分别按照顺序从第一个词性为名词或形容词的词语指向窗口内与第一个词不同的其他词性为名词或形容词的词语,由此得到边集E,依次遍历集合E中的每条边,按以下方法对每条边设置权重:权重设置主要考虑四个因素:位置重要性的影响力、覆盖重要性的影响力、频度重要性的影响力和共现重要性的影响力;对于任意两个结点vi和vj,结点vi对vj的影响力通过其有向边e=<vi,vj>传递,边的权重wij决定了vj最终所获得vi部分的分值大小,令wij表示结点vi和vj的整体影响力权重,α,β,γ,δ分别表示这四类不同的影响力所占的比重,且α+β+γ+δ=1,则两节点之间的权值wij可以根据下式计算:wij=αwpos(vi,vj)+βwcov(vi,vj)+γwfreq(vi,vj)+δwco-occur(vi,vj)a)wpos(vi,vj)表示节点vi的位置影响力传递到vj的权重,计算公式如下:其中,Out(vi)表示以vi为起点所指向的节点的集合,P(vj)表示节点vj的位置重要性得分,具体赋值方式如下:其中,λ是一个比1大的数字,值为1.5;b)wcov(vi,vj)表示节点vi的覆盖影响力传递到vj的权重,计算公式如下:其中,|Out(vi)|表示节点vi的出度;c)wfreq(vi,vj)表示节点vi的频度影响力传递到vj的权重,计算公式如下:其中,Out(vi)表示以vi为起点所指向的节点的集合,f(vj)表示节点vj所代表的词语在文章中出现的次数;d)wco-occur(vi,vj)表示节点vi的共现影响力传递到vj的权重,计算公式如下:
【专利技术属性】
技术研发人员:冯冲,廖纯,刘至润,黄河燕,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。