当前位置: 首页 > 专利查询>山西大学专利>正文

一种用于中文微博情感分类的特定情感词典的生成方法技术

技术编号:20425367 阅读:39 留言:0更新日期:2019-02-23 08:34
本发明专利技术公开了一种用于中文微博情感分类的特定情感词典的生成方法,首先对微博语料进行预处理,选取多个情感单元,接着使用其构建情感传播图,并计算其的标准中心度,根据标准中心度选取种子情感单元,并通过通用情感词典和人工标注对种子情感单元进行情感标签标注。最后,通过情感传播算法完成带标签的种子情感单元集合向不带标签的情感单元的情感传播,并获取每个情感单元中每个情感词的情感分,得到包含显式情感特征和隐式情感特征的微博特定情感词典,进而根据微博特定情感词典对微博语料的情感进行分类。与同类代表性方法相比,其总体计算准确度更高,具有更高的稳定性,可以有效地构建领域特定的情感词典,准确抽取显式和隐式情感特征。

【技术实现步骤摘要】
一种用于中文微博情感分类的特定情感词典的生成方法
本专利技术涉及计算机社会媒体文本情感分析领域,提出了一种用于中文微博情感分类的特定情感词典的生成方法。
技术介绍
情感词典的构建是情感分析任务的一个基本和重要的方面。其中,词或短语是表达积极或消极情感的基本元素。目前,微博已成为互联网上一种时尚的交流方式。个人用户可以通过新浪微博等媒介自由、方便、即时地表达他们对产品和公共事件的看法。由于微博的长度特别短和丰富的词汇量,微博表示的向量空间模型非常稀疏。因此,词典方法更适合于微博情感分析。但不同领域使用的情感词汇是不同的,在不同的领域中出现的同一个词可能表达不同的观点,这就导致了情感表达的多样性和情感词汇的语义多变性。由于词或短语的情感往往取决于一个特定的领域,并且,在一个特定领域中,使用通用情感词典对情感词汇的人工标注是耗时耗力的,因此,通用情感词典并不能很好的对特定领域的情感进行分类,不能满足特定领域情感分类的需求。现有技术中提出了诸如基于语言规则的方法、基于语料库的方法和基于词典的方法来自动地构建领域特定的情感词典。但是,由于微博的语法的表达形式多样,用户在组织微博时没有按照语法规则,因此,基于语言规则的方法并不能适微博所有情况;基于语料库的方法又严重依赖于语料库的规模,基于词典的方法与通用的情感词典的质量密切相关。因此,上述三种方法均不适应于微博特定领域情感词典的构建。另外,已有的情感分析研究往往关注于类似“美好”、“厌恶”和“喜欢”等显式的情感特征(ExplicitSentimentFeatures)。这些情感特征的一个明显要素是有明显的情感指示。这些直接在实体或者方面上表达情感的情感词、短语和习语被称作显式情感特征。事实上,许多用户使用语言修辞或事实的语句来表达含蓄间接地情感。隐式情感特征(ImplicitSentimentFeatures)通常是指表达正面或负面情感而不具有明显情感指示词的特征。这些特征往往陈述了一个事实或者间接地表达了情感。包含了隐式情感特征“油老虎”、“洪荒之力”、“水军”和“五毛特效”的四个微博如图3所示。因为没有任何的情感指示,隐式情感特征的识别一直是一个有挑战性的问题。
技术实现思路
本专利技术旨在通过提取显性和隐性的情感特征来构建微博特定的情感词典,并根据情感特征的情感极性(正面、负面和中性)对微博进行情感分类。为达到上述目的,针对微博特定情感词汇的构建和所提到的隐式情感特征特点,本专利技术提出了一种用于中文微博情感分类的特定情感词典的生成方法,包括以下步骤:S1,对微博语料D={d1,d2,…dl}进行预处理,通过词法分析和句法分析抽取多个情感单元Ti,并将多个所述情感单元Ti作为情感单元集合T={T1,T2,…Tn},其中,i,n为正整数,1≤i≤n,定义Ti=(N,D,E,P),N为负面指示词,D为程度副词,E为评价词,P为情感极性;S2,基于所述情感单元集合T构建情感传播图G=(V,E,W),V是情感单元的集合,E是边的集合,W是情感单元之间的权重矩阵,计算所述情感单元Ti的标准中心度H(Ti),并根据所述标准中心度H(Ti)降序对多个所述情感单元Ti进行排序,选取前M个作为种子情感单元集合Ts,并使用通用情感词典和人工标注对所述种子情感单元进行情感标签标注,其中,M<n,且M/n≥20%,M、n为正整数;S3,运用情感传播算法完成带标签的种子情感单元集合Ts向不带标签的n-M个情感单元的情感传播,分别获取n-M个所述情感单元中每个情感单元的情感分;S4,根据每个情感单元的情感分获取所述情感单元中每个情感词的情感分,得到包含显式情感特征和隐式情感特征的微博特定情感词典Lspe;S5,根据微博特定情感词典Lspe对微博语料的情感进行分类。根据本专利技术实施例提出的用于中文微博情感分类的特定情感词典的生成方法,首先对微博语料进行预处理,并选取多个情感单元,接着使用多个情感单元构建情感传播图,并计算情感单元的标准中心度,进而通过标准中心度的又大到小对情感单元进行排列,选取前M个情感单元作为种子情感单元,接着,通过通用情感词典和人工标注对种子情感单元进行情感标签标注,最后,通过情感传播算法完成带标签的种子情感单元集合向不带标签的情感单元的情感传播,并获取每个情感单元中每个情感单元的情感分,得到包含显式情感特征和隐式情感特征的微博特定情感词典,进而根据微博特定情感词典对微博语料的情感进行分类。根据本专利技术的一个实施例,所述步骤S1包括:S11,使用规则的方法过滤掉微博数据集D={d1,d2,…dl}中链接、停用词、重复词和噪音信息;S12,使用词性标注工具对D={d1,d2,…dl}进行词法分析,且使用依存语法分析工具对D={d1,d2,…dl}进行句法分析;S13,抽取D={d1,d2,…dl}中的形容词、动词、副词和名词作为候选情感特征W={w1,w2,…wn},并过滤掉低频词;S14,并且抽取依存句法分析结果中的负面修饰关系和程度修饰关系;S15,将抽取的所述候选情感特征、所述负面修饰关系和所述程度修饰关系作为情感单元Ti,多个所述情感单元组成情感单元集合T={T1,T2,…TN}。根据本专利技术的一个实施例,标准中心度其中,n为语料中情感单元的总数量,ni为Ti在图G中的度,hits(Ti)为语料中Ti出现的次数,hits(Tj)为语料中Tj出现的次数,hits(Ti,Tj)为Ti和Tj在局部和社会上下文下出现在同一个窗口下的次数,情感单元之间的关系矩阵记为Pij。根据本专利技术的一个实施例,步骤S3还包括:S31,将情感单元的初始情感分向量记为score(T):score(T)=[score(T1),score(T2),…score(Tn)]对score(T)进行归一化:其中,为Tpos正面的情感单元的集合,Tneg为负面的情感单元的集合;S32,去除图G的较小的连接边来进行剪枝操作,其中,对矩阵P′的每一行保留k个较大的值,其余赋值为0,以确定每个情感单元的k个较大的单元作为其情感邻居,其中,P′为概率转移矩阵;S33,定义情感传播的概率转移矩阵如下:其中,β∈[0,1]为适应性参数,A为部分行为1/n,其余行全为0的矩阵,J为所有元素为1/n的矩阵。加入矩阵A的目的是保证矩阵P′没有非0行;S34,情感标签传播的过程定义如下:其中score(Tit+1)为Ti在t+1迭代下的情感分,α∈[0,1]为权重参数,为矩阵的第i行,score(Tt)为T在第t次迭代下的情感分向量;在每次迭代时,我们按照i=1:n的顺序计算每得到一个新的便更新score(Tit+1);S35,当迭代停止时,根据对score(T)进行归一化:根据本专利技术的一个实施例,步骤S4还包括:S41,根据情感单元的情感分来计算情感特征的情感分:其中,n(wi)为词wi在语料中的出现频次,N在情感单元Ti的负面指示词,为在情感单元Ti中的程度副词S42,获取包含显式情感特征和隐式情感特征的微博特定情感词典Lspe。根据本专利技术的一个实施例,步骤S5还包括:将所述微博特定的情感词典Lspe应用到情感分类中,其中,考虑了显式和隐式的情感特征、中文微博领域的20条语义合成规则,并且微博di的情感分score(d本文档来自技高网
...

【技术保护点】
1.一种用于中文微博情感分类的特定情感词典生成方法,其特征在于,包括以下步骤:S1,对微博语料D={d1,d2,…dl}进行预处理,通过词法分析和句法分析抽取多个情感单元Ti,并将多个所述情感单元Ti作为情感单元集合T={T1,T2,…Tn},其中,i,n为正整数,1≤i≤n,定义Ti=(N,D,E,P),N为负面指示词,D为程度副词,E为评价词,P为情感极性;S2,基于所述情感单元集合T构建情感传播图G=(V,E,W),V是情感单元的集合,E是边的集合,W是情感单元之间的权重矩阵,计算所述情感单元Ti的标准中心度H(Ti),并根据所述标准中心度H(Ti)对多个所述情感单元Ti进行排序,选取前M个作为种子情感单元集合Ts,并使用通用情感词典和人工标注对所述种子情感单元进行情感标签标注,其中,M

【技术特征摘要】
1.一种用于中文微博情感分类的特定情感词典生成方法,其特征在于,包括以下步骤:S1,对微博语料D={d1,d2,…dl}进行预处理,通过词法分析和句法分析抽取多个情感单元Ti,并将多个所述情感单元Ti作为情感单元集合T={T1,T2,…Tn},其中,i,n为正整数,1≤i≤n,定义Ti=(N,D,E,P),N为负面指示词,D为程度副词,E为评价词,P为情感极性;S2,基于所述情感单元集合T构建情感传播图G=(V,E,W),V是情感单元的集合,E是边的集合,W是情感单元之间的权重矩阵,计算所述情感单元Ti的标准中心度H(Ti),并根据所述标准中心度H(Ti)对多个所述情感单元Ti进行排序,选取前M个作为种子情感单元集合Ts,并使用通用情感词典和人工标注对所述种子情感单元进行情感标签标注,其中,M<n,且M/n≥20%,M、n为正整数;S3,运用情感传播算法完成带标签的种子情感单元集合Ts向不带标签的n-M个情感单元的情感传播,分别获取n-M个所述情感单元中每个情感单元的情感分;S4,根据每个情感单元的情感分获取所述情感单元中每个情感词的情感分,得到包含显式情感特征和隐式情感特征的微博特定情感词典Lspe;S5,根据微博特定情感词典Lspe对微博语料的情感进行分类。2.根据权利要求1所述的用于中文微博情感分类的特定情感词典的生成方法,其特征在于,所述步骤S1包括:S11,使用规则的方法过滤掉微博数据集D={d1,d2,…dl}中链接、停用词、重复词和噪音信息;S12,使用词性标注工具对D={d1,d2,…dl}进行词法分析,且使用依存语法分析工具对D={d1,d2,…dl}进行句法分析;S13,抽取D={d1,d2,…dl}中的形容词、动词、副词和名词作为候选情感特征W={w1,w2,…wn},并过滤掉低频词;S14,并且抽取依存句法分析结果中的负面修饰关系和程度修饰关系;S15,将抽取的所述候选情感特征、所述负面修饰关系和所述程度修饰关系作为情感单元Ti,多个所述情感单元组成情感单元集合T={T1,T2,…TN}。3.根据权利要求1所述的用于中文微博情感分类的特定情感词典的生成方法,其特征在于,其中,n为语料中情感单元的总数量,ni为Ti在图G中的度,h...

【专利技术属性】
技术研发人员:赵传君王素格李德玉
申请(专利权)人:山西大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1