情感数据分类方法和系统技术方案

技术编号:10747103 阅读:82 留言:0更新日期:2014-12-10 18:38
本发明专利技术提供了一种情感数据分类方法和系统,所述方法包括:构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项;对所述目标函数进行优化处理,输出文档-情感矩阵;获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。采用该方法和系统,能够提高情感分类精度。

【技术实现步骤摘要】
情感数据分类方法和系统
本专利技术涉及自然语言处理技术,特别是涉及一种情感数据分类方法和系统。
技术介绍
随着Web2.0的发展,越来越多的用户在网页中产生具有情感的数据,这些数据通常以网络中的评论、博客数据的形式存在。情感分类指的是自动预测用户产生的情感数据的情感倾向,比如,预测一条评论是积极的还是消极的。近期,情感分类在自然语言处理中获得了普遍关注,情感分类方法可分为有监督的情感分析和无监督的情感分析。有监督的情感分析依赖于人工标注的训练数据,而在一些情况下,标注工作是费时和昂贵的,这促使了无监督或半监督的情感分析。传统的无监督(或半监督)的情感分析的方法是基于词典的方法。基于词典的方法采用情感词汇来确定文档的整体情感倾向。然而,很难去界定一个普适的最佳情感词汇来涵盖从不同领域的所有单词。此外,大多数半自动的基于词典的方法,都得不到令人满意的结果。传统的较为先进的基于词典的方法是基于约束的非负矩阵三因子分解(ConstrainedNon-negativeMatrixTri-factorization,简称CNMTF)的情感分类方法,其将与领域无关的情感词汇作为先验知识进行情感分类,然而实验表明,基于CNMTF的情感分类方法的情感分类精度仍有待于提高。
技术实现思路
基于此,有必要针对上述问题,提供一种能提高分类精度的情感数据分类方法和系统。一种情感数据分类方法,所述方法包括:构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项;对所述目标函数进行优化处理,输出文档-情感矩阵;获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。一种情感数据分类系统,所述系统包括:图构造模块,用于构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边属性表示词之间的相关度;正则化项构造模块,用于根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项;优化处理模块,用于对所述目标函数进行优化处理,输出文档-情感矩阵;情感倾向确定模块,用于获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。上述情感数据分类方法和系统,通过构造训练数据集对应的两个图,即文档-文档图和词-词图,在构造目标函数时,充分考虑到了文档空间和词空间中的几何信息,利用了邻近的词或文档往往有着相同的情感倾向的原理,对目标函数进行优化处理后,输出的文档-情感矩阵更加精确,使得对于测试数据集中的文档,确定对应的情感倾向更加准确,从而提高了情感数据的分类精度。附图说明图1为一个实施例中情感数据分类方法的流程示意图;图2为一个实施例中情感数据分类系统的结构框图;图3为在两个不同的数据集上的不同参数下的情感分类精度的对比示意图;图4为在两个不同数据集上的不同最邻近值下的情感分类精度的对比示意图;图5为在两个数据集上的GNMTF的参数分析的对比示意图;图6为半监督模式下具有不同百分比标记文件下的情感分类精度的对比示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例所提供的情感数据分类方法,可以对测试数据集中的文档,确定其对应的情感倾向。测试数据集可以是用户在互联网中所产生的情感数据所组成的集合,比如,互联网中存在的评论数据、博客数据等。情感数据分类方法则可对诸如评论的文档确定其对应的情感倾向,比如确定是积极的还是消极的。具体的,先对训练数据集中的数据进行训练,训练数据集可以是互联网中已经存在的大量的情感数据所组成的集合,对这些数据进行训练可以得到文档-情感矩阵,该文档-情感矩阵则为最优的文档-情感矩阵,使用最优的文档-情感数据对测试数据集中的文档确定其对应的情感倾向,能够获得更为准确的分类结果。在训练过程中,考虑到邻近的词或文档往往有着相同的情感倾向,因此对训练数据集构造两个图,即文档-文档图和词-词图,这两个图具有密切关系,且分别包含了文档空间和词空间中的几何信息。将这两个图作为非负矩阵三因子分解的正则化,从而构造出目标函数中的基于图的正则化项,再对目标函数进行优化处理,从而可以得到最优的文档-情感矩阵。由于构造了两个图,且构造的目标函数中除了非负矩阵三因子分解项外,还包含了基于图的正则化项,因此本专利技术实施例所采用的算法也称之为基于图正则化的非负矩阵三因子分解(GraphCo-regularizedNon-negativeMatrixTri-factorization,简称GNMTF)算法,本专利技术实施例提出了一种基于图正则化非负矩阵三因子分解的情感数据分类方法。如图1所示,在一个实施例中,提供了一种情感数据分类方法,包括:步骤102,构造训练数据集对应的文档-文档图和词-词图。训练数据集是用来进行训练的数据集合,可选取互联网中已存在的大量的情感数据作为训练样本,这些训练样本也可包含一些进行了人工标注的文档。本实施例中,文档-文档图中,节点表示训练数据集中的文档,边的几何信息表示文档之间的相关度。词-词图中,节点表示训练数据集中的词,边属性表示词之间的相关度。因此,构造的这两个图中分别保留了文档空间和词空间中的几何信息。步骤104,根据文档-文档图和词-词图的几何信息构造目标函数的基于图的正则化项。本实施例中,在构造目标函数时,在CNMTF基础上增加基于图的正则化项。CNMTF是指约束的非负矩阵三因子分解,其构造的目标函数包含非负矩阵三因子分解项和词汇先验知识项。具体的,可根据文档-文档图获取对应的相关度矩阵,根据词-词图获取对应的相关度矩阵,根据这两个相关度矩阵获取对应图的拉普拉斯矩阵,再根据拉普拉斯矩阵构造目标函数中的基于图的正则化项,从而保留了文档空间和词空间中的几何信息。步骤106,对目标函数进行优化处理,输出文档-情感矩阵。具体的,单调减少所构造的目标函数直至收敛,最终得到使得目标函数最小化对应的参数,这些参数中包含文档-情感矩阵。该文档-情感矩阵即为最优的文档-情感矩阵,标识了一个文档所对应的情感(即情感倾向)。步骤108,获取测试数据集中的文档,根据输出的文档-情感矩阵获取与测试数据集中的文档对应的情感倾向。测试数据集是指需要确定其中文档对应的情感倾向的数据组成的集合。对于测试数据集中的一个文档,根据输出的文档-情感矩阵可找到该文档对应的行,根据该行找到取最大值的情感倾向,即为该文档对应的情感倾向。情感倾向为正,则表明该文档对应的情感是积极的,情感倾向为负,表明该文档对应的情感是消极的,以此实现对文档的情感分类。本实施例中,通过构造训练数据集对应的两个图,即文档-文档图和词-词图,在构造目标函数时,充分考虑到了文档空间和词空间中的几何信息,利用了邻近的词或文档本文档来自技高网...
情感数据分类方法和系统

【技术保护点】
一种情感数据分类方法,所述方法包括:构造训练数据集对应的文档‑文档图和词‑词图,所述文档‑文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词‑词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;根据所述文档‑文档图和词‑词图的几何信息构造目标函数中的基于图的正则化项;对所述目标函数进行优化处理,输出文档‑情感矩阵;获取测试数据集中的文档,根据所述文档‑情感矩阵获取与所述测试数据集中的文档对应的情感倾向。

【技术特征摘要】
1.一种情感数据分类方法,所述方法包括:构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;构造所述训练数据集对应的文档-情感矩阵和词-情感矩阵;获取所述文档-文档图的拉普拉斯矩阵和所述词-词图的拉普拉斯矩阵;根据所述训练数据集对应的文档-情感矩阵和所述文档-文档图的拉普拉斯矩阵构造目标函数中基于文档-文档图的正则化项,以及根据所述训练数据集对应的词-情感矩阵和所述词-词图的拉普拉斯矩阵构造所述目标函数中基于词-词图的正则化项;对所述目标函数进行优化处理,输出文档-情感矩阵;获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。2.根据权利要求1所述的方法,其特征在于,所述文档-文档图的相关度矩阵定义为:如果两个文档,其中任何一个文档为另外一个文档的最近邻居,则这两个文档的相关度为这两个文档之间的余弦,否则相关度为0;所述词-词图的相关度矩阵定义为:如果两个词,其中任何一个词为另外一个词的最近邻居,则这两个词的相关度为这两个词之间的余弦,否则相关度为0。3.根据权利要求1所述的方法,其特征在于,所述基于文档-文档图的正则化项为预设的文档空间的控制参数与第一踪迹的乘积,所述基于词-词图的正则化项为预设的词空间的控制参数与第二踪迹的乘积;所述基于图的正则化项为预设的文档空间的控制参数与第一踪迹的乘积和预设的词空间的控制参数与第二踪迹的乘积之和;其中,所述第一踪迹为将所述文档-情感矩阵、文档-情感矩阵的转置矩阵、文档-文档图的拉普拉斯矩阵相乘得到的矩阵的踪迹,所述第二踪迹为将所述词-情感矩阵、词-情感矩阵的转置矩阵、词-词图的拉普拉斯矩阵相乘得到的矩阵的踪迹。4.根据权利要求1所述的方法,其特征在于,所述对目标函数进行优化处理,输出文档-情感矩阵的步骤,包括:按照预设次数进行迭代运算,不断更新文档-情感矩阵、词-情感矩阵和文档情感矩阵与词-情感矩阵之间的关联矩阵,根据更新的文档-情感矩阵、词-情感那矩阵和所述关联矩阵单调减少所述目标函数直到收敛,输出使得所述目标函数最小化的文档-情感矩阵。5.根据权利要求1所述的方法,其特征在于,所述根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向的步骤为:对于所述测试数据集中的一个文档,获取该文档在所述文档-情感矩阵中所处的行,获取所述行中对应的取最大值的情感倾向作为所述文档对应的情感倾向...

【专利技术属性】
技术研发人员:周光有王巨宏蒋杰薛伟管刚赵军
申请(专利权)人:中国科学院自动化研究所腾讯科技深圳有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1