一种用于中文微博情感分类的特定情感词典的生成方法技术

技术编号：20425367 阅读：39 留言：0更新日期：2019-02-23 08:34

本发明专利技术公开了一种用于中文微博情感分类的特定情感词典的生成方法，首先对微博语料进行预处理，选取多个情感单元，接着使用其构建情感传播图，并计算其的标准中心度，根据标准中心度选取种子情感单元，并通过通用情感词典和人工标注对种子情感单元进行情感标签标注。最后，通过情感传播算法完成带标签的种子情感单元集合向不带标签的情感单元的情感传播，并获取每个情感单元中每个情感词的情感分，得到包含显式情感特征和隐式情感特征的微博特定情感词典，进而根据微博特定情感词典对微博语料的情感进行分类。与同类代表性方法相比，其总体计算准确度更高，具有更高的稳定性，可以有效地构建领域特定的情感词典，准确抽取显式和隐式情感特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于中文微博情感分类的特定情感词典的生成方法
本专利技术涉及计算机社会媒体文本情感分析领域，提出了一种用于中文微博情感分类的特定情感词典的生成方法。
技术介绍
情感词典的构建是情感分析任务的一个基本和重要的方面。其中，词或短语是表达积极或消极情感的基本元素。目前，微博已成为互联网上一种时尚的交流方式。个人用户可以通过新浪微博等媒介自由、方便、即时地表达他们对产品和公共事件的看法。由于微博的长度特别短和丰富的词汇量，微博表示的向量空间模型非常稀疏。因此，词典方法更适合于微博情感分析。但不同领域使用的情感词汇是不同的，在不同的领域中出现的同一个词可能表达不同的观点，这就导致了情感表达的多样性和情感词汇的语义多变性。由于词或短语的情感往往取决于一个特定的领域，并且，在一个特定领域中，使用通用情感词典对情感词汇的人工标注是耗时耗力的，因此，通用情感词典并不能很好的对特定领域的情感进行分类，不能满足特定领域情感分类的需求。现有技术中提出了诸如基于语言规则的方法、基于语料库的方法和基于词典的方法来自动地构建领域特定的情感词典。但是，由于微博的语法的表达形式多样，用户在组织微博时没有按照语法规则，因此，基于语言规则的方法并不能适微博所有情况；基于语料库的方法又严重依赖于语料库的规模，基于词典的方法与通用的情感词典的质量密切相关。因此，上述三种方法均不适应于微博特定领域情感词典的构建。另外，已有的情感分析研究往往关注于类似“美好”、“厌恶”和“喜欢”等显式的情感特征(ExplicitSentimentFeatures)。这些情感特征的一个明显要素是有明显的情感指示。这...

【技术保护点】
1.一种用于中文微博情感分类的特定情感词典生成方法，其特征在于，包括以下步骤：S1，对微博语料D＝{d1,d2,…dl}进行预处理，通过词法分析和句法分析抽取多个情感单元Ti，并将多个所述情感单元Ti作为情感单元集合T＝{T1,T2,…Tn}，其中，i，n为正整数，1≤i≤n，定义Ti＝(N,D,E,P)，N为负面指示词，D为程度副词，E为评价词，P为情感极性；S2，基于所述情感单元集合T构建情感传播图G＝(V,E,W)，V是情感单元的集合，E是边的集合，W是情感单元之间的权重矩阵，计算所述情感单元Ti的标准中心度H(Ti)，并根据所述标准中心度H(Ti)对多个所述情感单元Ti进行排序，选取前M个作为种子情感单元集合Ts，并使用通用情感词典和人工标注对所述种子情感单元进行情感标签标注，其中，M

【技术特征摘要】
1.一种用于中文微博情感分类的特定情感词典生成方法，其特征在于，包括以下步骤：S1，对微博语料D＝{d1,d2,…dl}进行预处理，通过词法分析和句法分析抽取多个情感单元Ti，并将多个所述情感单元Ti作为情感单元集合T＝{T1,T2,…Tn}，其中，i，n为正整数，1≤i≤n，定义Ti＝(N,D,E,P)，N为负面指示词，D为程度副词，E为评价词，P为情感极性；S2，基于所述情感单元集合T构建情感传播图G＝(V,E,W)，V是情感单元的集合，E是边的集合，W是情感单元之间的权重矩阵，计算所述情感单元Ti的标准中心度H(Ti)，并根据所述标准中心度H(Ti)对多个所述情感单元Ti进行排序，选取前M个作为种子情感单元集合Ts，并使用通用情感词典和人工标注对所述种子情感单元进行情感标签标注，其中，M<n，且M/n≥20％，M、n为正整数；S3，运用情感传播算法完成带标签的种子情感单元集合Ts向不带标签的n-M个情感单元的情感传播，分别获取n-M个所述情感单元中每个情感单元的情感分；S4，根据每个情感单元的情感分获取所述情感单元中每个情感词的情感分，得到包含显式情感特征和隐式情感特征的微博特定情感词典Lspe；S5，根据微博特定情感词典Lspe对微博语料的情感进行分类。2.根据权利要求1所述的用于中文微博情感分类的特定情感词典的生成方法，其特征在于，所述步骤S1包括：S11，使用规则的方法过滤掉微博数据集D＝{d1,d2,…dl}中链接、停用词、重复词和噪音信息；S12，使用词性标注工具对D＝{d1,d2,…dl}进行词法分析，且使用依存语法分析工具对D＝{d1,d2,…dl}进行句法分析；S13，抽取D＝{d1,d2,…dl}中的形容词、动词、副词和名词作为候选情感特征W＝{w1,w2,…wn}，并过滤掉低频词；S14，并且抽取依存句法分析结果中的负面修饰关系和程度修饰关系；S15，将抽取的所述候选情感特征、所述负面修饰关系和所述程度修饰关系作为情感单元Ti，多个所述情感单元组成情感单元集合T＝{T1,T2,…TN}。3.根据权利要求1所述的用于中文微博情感分类的特定情感词典的生成方法，其特征在于，其中，n为语料中情感单元的总数量，ni为Ti在图G中的度，h...

【专利技术属性】
技术研发人员：赵传君，王素格，李德玉，
申请(专利权)人：山西大学，
类型：发明
国别省市：山西,14

全部详细技术资料下载我是这个专利的主人