【技术实现步骤摘要】
一种面向中文评论的情感多倾向分类方法
本专利技术涉及情感倾向性分类,具体讲的是一种面向中文评论的情感多倾向分类方法。
技术介绍
随着博客、微博、点评等应用的快速推广和发展,网络中各种评论已成为用户表达意见和在线交流的重要途径。网络中评论信息通常以短文本的形式表达用户对事物的看法,例如对新闻事件的评价、对商品性能的评论等等。所有这些评论信息是由大量用户发布,从不同的侧面和不同的角度对事物提出了自己的看法和主张。这些评价信息随着日积月累,形成了一种结构复杂、内容多样、多种情感交合的数据集合。用户对感兴趣的事物所发表的相关评论是反映用户对事物属性和特征看法的重要方式。用户通过评论表达他们对事件的态度、商品的性能、服务的质量等多方面的态度。现有的评论情感倾向性分类研究中主要将情感倾向性划分为正面情感、负面情感和中性情感,有些研究将情感倾向性划分成了几个等级,如:非常赞成、赞成、中性、不赞成、非常不赞成等,这些分类都是将情感倾向性划分成几个固定的类型,难以处理更为复杂的情感分类情况。由于用户对事件的了解、事物的理解、服务的体验等都可能存在较大差异,不同的用户对事件、事物和服务等会有不同的感受。这种不同的感受体现在他们的评论中就可能表达出各种各样的情感和态度。同时,用户在对某个对象(事件、事物、服务等)的单个评论中,有时候表达的是单一的态度,例如赞成或反对,这种态度是关于对象的整体评价,表达了情感的某种倾向性。但是,由于人类情感的丰富性和复杂性,用户通常会对目标的不同方面进行分别评论和评价,例如,评价商品的时候会 ...
【技术保护点】
1.一种面向中文评论的情感多倾向分类方法,其特征在于:包括如下步骤:/nS1,提取语素情感变量;根据中文语素词库和情感语料词库对评论文本中关于被评论对象的各种语素词和情感词进行提取,采用皮尔逊相关系数方法计算语素词与情感词之间的关联系数,通过关联系数组成语素情感变量;/nS2,构建语素情感变量之间的相似性关系;采用条件互信息计算公式计算两个语素情感变量的近似关系,对语素情感变量之间的关系进行描述;/nS3,计算语素情感紧密路径;将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,在语素情感节点之间构建有向加权关系连接,作为有向加权链接边,在这些有向加权链接边基础上,基于有向加权无环图模型设计改进的最短路径搜索算法,搜索满足一定权值条件的有效路径,每个路径都是一种情感倾向性分类。/n
【技术特征摘要】
1.一种面向中文评论的情感多倾向分类方法,其特征在于:包括如下步骤:
S1,提取语素情感变量;根据中文语素词库和情感语料词库对评论文本中关于被评论对象的各种语素词和情感词进行提取,采用皮尔逊相关系数方法计算语素词与情感词之间的关联系数,通过关联系数组成语素情感变量;
S2,构建语素情感变量之间的相似性关系;采用条件互信息计算公式计算两个语素情感变量的近似关系,对语素情感变量之间的关系进行描述;
S3,计算语素情感紧密路径;将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,在语素情感节点之间构建有向加权关系连接,作为有向加权链接边,在这些有向加权链接边基础上,基于有向加权无环图模型设计改进的最短路径搜索算法,搜索满足一定权值条件的有效路径,每个路径都是一种情感倾向性分类。
2.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S1中,将中文语素划分为名词类语素和情感类语素两种类型,两类语素按照联合、偏正、支配、陈述、补充中的一种或多种复合方式进行组合,通过有监督的机器学习方法提取评论文本中的语素,采用语素与情感之间的皮尔逊相关系数作为关联系数将语素和情感对应起来,构建语素情感变量。
3.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S2中,对那些存在相似性的两个语素情感节点之间使用有向边连接起来,形成一种有向链接;有向链接的方向是根据语素情感变量在评论中出现的先后顺序确定的,这种顺序确定了链接边的连接方向。
4.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S3中,当获得所有的语素情感节点之间的有向链接边之后,找出某个开始节点到所有终止节点的最短路径,每一条最短路径上的语素情感节点组成了最强情感倾向集合,代表了一个情感倾向性,通过设定合理的最大路径长度经验阈值,找到那些符合情感强度要求的路径,这些路径上的语素情感节点和有向加权边就构成了有效情感倾向性分类。
5.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S1中,语素情感变量的提取包括如下步骤:
a1,选取评论训练样本集合,参考现有汉语语素库,搜索所有中文名词性语素,记入语素集合M;
a2,选取评论训练样本集合,参考现有情感语料库,搜索所有中文情感型语素,记入情感集合S;
a3,语素集合M中的语素元素与情感集合S中的情感元素构成一个独立的语素情感变量vi,计算每个语素元素与情感元素之间的皮尔逊相关系数r;设定阈值rθ,将满足r≥rθ的语素情感变量vi记入有效语素情感变量集合V,记为
其中,公式(1)中的n为有效语素情感变量的数目;
a4,循环执行a3,直到处理完所有的语素集合和情感集合中的元素。
6.根据权利要求5所述的一种面向中文评论的情感多倾向分类方法,其特征在于:语素与情感之间的皮尔逊相关系数r的计算公式为:
其中,公式(2)中的和σM分别是对Mi的标准分数、平均值和标准差,n为评论训练样本的数量。
7.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S2中,将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,计算语素情感节点的近似关系包括如下步骤:
b1,找出每个语素情感节点的子节点集合,构建语素情感节点的有向无环图;
首先初始化子节点集合,先将所有语...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。