一种面向中文评论的情感多倾向分类方法技术

技术编号:28673427 阅读:28 留言:0更新日期:2021-06-02 02:49
本发明专利技术提供一种面向中文评论的情感多倾向分类方法,包括如下步骤:首先,提取语素词和情感词;其次,构建语素情感变量之间的相似性关系;最后,计算语素情感紧密路径;将语素情感变量看成是有向加权无环图中的节点,在语素情感节点之间构建有向加权关系连接,作为有向加权链接边,在这些有向加权链接边基础上,搜索满足一定权值条件的有效路径。本发明专利技术将有向加权无环图模型与情感倾向性分析相结合,通过提取评论的各种语素情感、分析语素情感之间的相似性关系、计算语素情感紧密路径三个步骤实现评论的情感多倾向分类,更准确区分用户对事物所表达出来的多种态度,反映出用户对事物属性和特征看法。

【技术实现步骤摘要】
一种面向中文评论的情感多倾向分类方法
本专利技术涉及情感倾向性分类,具体讲的是一种面向中文评论的情感多倾向分类方法。
技术介绍
随着博客、微博、点评等应用的快速推广和发展,网络中各种评论已成为用户表达意见和在线交流的重要途径。网络中评论信息通常以短文本的形式表达用户对事物的看法,例如对新闻事件的评价、对商品性能的评论等等。所有这些评论信息是由大量用户发布,从不同的侧面和不同的角度对事物提出了自己的看法和主张。这些评价信息随着日积月累,形成了一种结构复杂、内容多样、多种情感交合的数据集合。用户对感兴趣的事物所发表的相关评论是反映用户对事物属性和特征看法的重要方式。用户通过评论表达他们对事件的态度、商品的性能、服务的质量等多方面的态度。现有的评论情感倾向性分类研究中主要将情感倾向性划分为正面情感、负面情感和中性情感,有些研究将情感倾向性划分成了几个等级,如:非常赞成、赞成、中性、不赞成、非常不赞成等,这些分类都是将情感倾向性划分成几个固定的类型,难以处理更为复杂的情感分类情况。由于用户对事件的了解、事物的理解、服务的体验等都可能存在较大差异,不同的用户对事件、事物和服务等会有不同的感受。这种不同的感受体现在他们的评论中就可能表达出各种各样的情感和态度。同时,用户在对某个对象(事件、事物、服务等)的单个评论中,有时候表达的是单一的态度,例如赞成或反对,这种态度是关于对象的整体评价,表达了情感的某种倾向性。但是,由于人类情感的丰富性和复杂性,用户通常会对目标的不同方面进行分别评论和评价,例如,评价商品的时候会涉及价格、性能、外观等不同的细节和方面,并表达对这些细节和方面的不同态度。这就导致了在同一评论中用户所表达的情感倾向性并不总是单一的情感类型。在许多情况下,用户可能会同意或者否定同一事物的某些部分,而不是肯定或否定整个事物。因此,这些不同的态度是用户对某个对象的更全面的描述,表达了多方面的情感倾向性。为了更准确区分用户对事物所表达出来的多种态度,有必要对用户的评论进行更细致的情感多倾向分类。
技术实现思路
本专利技术要解决的技术问题是,克服以上现有技术的缺陷,提供一种更准确区分用户对事物所表达出来的多种态度的面向中文评论的情感多倾向分类方法。本专利技术公开了一种面向中文评论的情感多倾向分类方法,包括如下步骤:S1,提取语素情感变量;根据中文语素词库和情感语料词库对评论文本中关于被评论对象的各种语素词和情感词进行提取,采用皮尔逊相关系数方法计算语素词与情感词之间的关联系数,通过关联系数组成语素情感变量;S2,构建语素情感变量之间的相似性关系;采用条件互信息计算公式计算两个语素情感变量的近似关系,对语素情感变量之间的关系进行描述;S3,计算语素情感紧密路径;将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,在语素情感节点之间构建有向加权关系连接,作为有向加权链接边,在这些有向加权链接边基础上,基于有向加权无环图模型设计改进的最短路径搜索算法,搜索满足一定权值条件的有效路径,每个路径都是一种情感倾向性分类。作为优选,步骤S1中,将中文语素划分为名词类语素和情感类语素两种类型,两类语素按照联合、偏正、支配、陈述、补充中的一种或多种复合方式进行组合,通过有监督的机器学习方法提取评论文本中的语素,采用语素与情感之间的皮尔逊相关系数作为关联系数将语素和情感对应起来,构建语素情感变量。作为优选,步骤S2中,对那些存在相似性的两个语素情感节点之间使用有向边连接起来,形成一种有向链接;有向链接的方向是根据语素情感变量在评论中出现的先后顺序确定的,这种顺序确定了链接边的连接方向。作为优选,步骤S3中,当获得所有的语素情感节点之间的有向链接边之后,找出某个开始节点到所有终止节点的最短路径,每一条最短路径上的语素情感节点组成了最强情感倾向集合,代表了一个情感倾向性,通过设定合理的最大路径长度经验阈值,找到那些符合情感强度要求的路径,这些路径上的语素情感节点和有向加权边就构成了有效情感倾向性分类。作为优选,步骤S1中,语素情感变量的提取包括如下步骤:a1,选取评论训练样本集合,参考现有汉语语素库,搜索所有中文名词性语素,记入语素集合M;a2,选取评论训练样本集合,参考现有情感语料库,搜索所有中文情感型语素,记入情感集合S;a3,语素集合M中的语素元素与情感集合S中的情感元素构成一个独立的语素情感变量vi,计算每个语素元素与情感元素之间的皮尔逊相关系数r;设定阈值rθ,将满足r≥rθ的语素情感变量vi记入有效语素情感变量集合V,记为其中,公式(1)中的n为有效语素情感变量的数目;a4,循环执行a3,直到处理完所有的语素集合和情感集合中的元素。作为优选,语素与情感之间的皮尔逊相关系数r的计算公式为:其中,公式(2)中的和σM分别是对Mi的标准分数、平均值和标准差,n为评论训练样本的数量。作为优选,步骤S2中,将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,计算语素情感节点的近似关系包括如下步骤:b1,找出每个语素情感节点的子节点集合,构建语素情感节点的有向无环图;首先初始化子节点集合,先将所有语素情感节点的子节点集合置空;然后计算每对语素情感节点vi和语素情感节点vj的条件互信息,当条件互信息大于预设经验值时,将语素情感节点vj看成是语素情感节点vi的子节点;最后,输出所有语素情感节点的子节点集合和有向无环图,有向无环图表示为G=(V,D);其中,vi、vj为语素情感节点,G为有向无环图,V为有效语素情感节点集合,D为父节点到子节点的有向边集合;计算每对语素情感节点的条件互信息:其中,公式(3)中的f(G)为条件互信息,p(vi,vj)为联合概率密度函数,Chirld(vi)为节点vi的子节点集合;i的取值范围为[1,n-1],j的取值范围为[i+1,n];b2,计算语素情感节点之间的相似性权值,循环执行直到遍历所有语素情感节点;其中,公式(4)中,Wi,j为具有父子关系的两个语素情感节点的相似性关系的权值,N(vi)和N(vj)为节点在相同评论文本中各自出现的次数,N(vi,vj)为两者在相同评论文本中同时出现的次数。作为优选,步骤S3中,语素情感紧密路径的计算包括如下步骤:c1,计算有向加权无环图的有向链接边长度,将相似性权值转换为有向边长度,Li,j=-lnWi,j,其中,Li,j为有向边长度;c2,计算情感倾向分类路径,变量初始化,顺序执行以下步骤:c21,从语素情感变量集合V中选取一个没有父节点的语素情感节点变量作为开始节点,记为vs;c22,将开始节点的子节点初始化为自身,语素情感变量集合V中其他语素情感节点的子节点初始化为空;c23,将语素情感节点vi到语素情感节点vj的路径长度记为Di,j,开始节点到自身路径长度为0,开始节点到其他语素情感本文档来自技高网
...

【技术保护点】
1.一种面向中文评论的情感多倾向分类方法,其特征在于:包括如下步骤:/nS1,提取语素情感变量;根据中文语素词库和情感语料词库对评论文本中关于被评论对象的各种语素词和情感词进行提取,采用皮尔逊相关系数方法计算语素词与情感词之间的关联系数,通过关联系数组成语素情感变量;/nS2,构建语素情感变量之间的相似性关系;采用条件互信息计算公式计算两个语素情感变量的近似关系,对语素情感变量之间的关系进行描述;/nS3,计算语素情感紧密路径;将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,在语素情感节点之间构建有向加权关系连接,作为有向加权链接边,在这些有向加权链接边基础上,基于有向加权无环图模型设计改进的最短路径搜索算法,搜索满足一定权值条件的有效路径,每个路径都是一种情感倾向性分类。/n

【技术特征摘要】
1.一种面向中文评论的情感多倾向分类方法,其特征在于:包括如下步骤:
S1,提取语素情感变量;根据中文语素词库和情感语料词库对评论文本中关于被评论对象的各种语素词和情感词进行提取,采用皮尔逊相关系数方法计算语素词与情感词之间的关联系数,通过关联系数组成语素情感变量;
S2,构建语素情感变量之间的相似性关系;采用条件互信息计算公式计算两个语素情感变量的近似关系,对语素情感变量之间的关系进行描述;
S3,计算语素情感紧密路径;将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,在语素情感节点之间构建有向加权关系连接,作为有向加权链接边,在这些有向加权链接边基础上,基于有向加权无环图模型设计改进的最短路径搜索算法,搜索满足一定权值条件的有效路径,每个路径都是一种情感倾向性分类。


2.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S1中,将中文语素划分为名词类语素和情感类语素两种类型,两类语素按照联合、偏正、支配、陈述、补充中的一种或多种复合方式进行组合,通过有监督的机器学习方法提取评论文本中的语素,采用语素与情感之间的皮尔逊相关系数作为关联系数将语素和情感对应起来,构建语素情感变量。


3.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S2中,对那些存在相似性的两个语素情感节点之间使用有向边连接起来,形成一种有向链接;有向链接的方向是根据语素情感变量在评论中出现的先后顺序确定的,这种顺序确定了链接边的连接方向。


4.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S3中,当获得所有的语素情感节点之间的有向链接边之后,找出某个开始节点到所有终止节点的最短路径,每一条最短路径上的语素情感节点组成了最强情感倾向集合,代表了一个情感倾向性,通过设定合理的最大路径长度经验阈值,找到那些符合情感强度要求的路径,这些路径上的语素情感节点和有向加权边就构成了有效情感倾向性分类。


5.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S1中,语素情感变量的提取包括如下步骤:
a1,选取评论训练样本集合,参考现有汉语语素库,搜索所有中文名词性语素,记入语素集合M;
a2,选取评论训练样本集合,参考现有情感语料库,搜索所有中文情感型语素,记入情感集合S;
a3,语素集合M中的语素元素与情感集合S中的情感元素构成一个独立的语素情感变量vi,计算每个语素元素与情感元素之间的皮尔逊相关系数r;设定阈值rθ,将满足r≥rθ的语素情感变量vi记入有效语素情感变量集合V,记为
其中,公式(1)中的n为有效语素情感变量的数目;
a4,循环执行a3,直到处理完所有的语素集合和情感集合中的元素。


6.根据权利要求5所述的一种面向中文评论的情感多倾向分类方法,其特征在于:语素与情感之间的皮尔逊相关系数r的计算公式为:



其中,公式(2)中的和σM分别是对Mi的标准分数、平均值和标准差,n为评论训练样本的数量。


7.根据权利要求1所述的一种面向中文评论的情感多倾向分类方法,其特征在于:步骤S2中,将语素情感变量看成是有向加权无环图中的节点,称为语素情感节点或语素情感节点变量,计算语素情感节点的近似关系包括如下步骤:
b1,找出每个语素情感节点的子节点集合,构建语素情感节点的有向无环图;
首先初始化子节点集合,先将所有语...

【专利技术属性】
技术研发人员:张少中
申请(专利权)人:浙江万里学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1