情感数据分类方法和系统技术方案

技术编号：10747103 阅读：82 留言：0更新日期：2014-12-10 18:38

本发明专利技术提供了一种情感数据分类方法和系统，所述方法包括：构造训练数据集对应的文档-文档图和词-词图，所述文档-文档图中，节点表示所述训练数据集中的文档，边的几何信息表示文档之间的相关度，所述词-词图中，节点表示所述训练数据集中的词，边的几何信息表示词之间的相关度；根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项；对所述目标函数进行优化处理，输出文档-情感矩阵；获取测试数据集中的文档，根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。采用该方法和系统，能够提高情感分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
情感数据分类方法和系统
本专利技术涉及自然语言处理技术，特别是涉及一种情感数据分类方法和系统。
技术介绍
随着Web2.0的发展，越来越多的用户在网页中产生具有情感的数据，这些数据通常以网络中的评论、博客数据的形式存在。情感分类指的是自动预测用户产生的情感数据的情感倾向，比如，预测一条评论是积极的还是消极的。近期，情感分类在自然语言处理中获得了普遍关注，情感分类方法可分为有监督的情感分析和无监督的情感分析。有监督的情感分析依赖于人工标注的训练数据，而在一些情况下，标注工作是费时和昂贵的，这促使了无监督或半监督的情感分析。传统的无监督(或半监督)的情感分析的方法是基于词典的方法。基于词典的方法采用情感词汇来确定文档的整体情感倾向。然而，很难去界定一个普适的最佳情感词汇来涵盖从不同领域的所有单词。此外，大多数半自动的基于词典的方法，都得不到令人满意的结果。传统的较为先进的基于词典的方法是基于约束的非负矩阵三因子分解(ConstrainedNon-negativeMatrixTri-factorization，简称CNMTF)的情感分类方法，其将与领域无关的情感词汇作为先验知识进行情感分类，然而实验表明，基于CNMTF的情感分类方法的情感分类精度仍有待于提高。
技术实现思路
基于此，有必要针对上述问题，提供一种能提高分类精度的情感数据分类方法和系统。一种情感数据分类方法，所述方法包括：构造训练数据集对应的文档-文档图和词-词图，所述文档-文档图中，节点表示所述训练数据集中的文档，边的几何信息表示文档之间的相关度，所述词-词图中，节点表示所述训练数据集中的词，边的几何...
情感数据分类方法和系统

【技术保护点】
一种情感数据分类方法，所述方法包括：构造训练数据集对应的文档‑文档图和词‑词图，所述文档‑文档图中，节点表示所述训练数据集中的文档，边的几何信息表示文档之间的相关度，所述词‑词图中，节点表示所述训练数据集中的词，边的几何信息表示词之间的相关度；根据所述文档‑文档图和词‑词图的几何信息构造目标函数中的基于图的正则化项；对所述目标函数进行优化处理，输出文档‑情感矩阵；获取测试数据集中的文档，根据所述文档‑情感矩阵获取与所述测试数据集中的文档对应的情感倾向。

【技术特征摘要】
1.一种情感数据分类方法，所述方法包括：构造训练数据集对应的文档-文档图和词-词图，所述文档-文档图中，节点表示所述训练数据集中的文档，边的几何信息表示文档之间的相关度，所述词-词图中，节点表示所述训练数据集中的词，边的几何信息表示词之间的相关度；构造所述训练数据集对应的文档-情感矩阵和词-情感矩阵；获取所述文档-文档图的拉普拉斯矩阵和所述词-词图的拉普拉斯矩阵；根据所述训练数据集对应的文档-情感矩阵和所述文档-文档图的拉普拉斯矩阵构造目标函数中基于文档-文档图的正则化项，以及根据所述训练数据集对应的词-情感矩阵和所述词-词图的拉普拉斯矩阵构造所述目标函数中基于词-词图的正则化项；对所述目标函数进行优化处理，输出文档-情感矩阵；获取测试数据集中的文档，根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。2.根据权利要求1所述的方法，其特征在于，所述文档-文档图的相关度矩阵定义为：如果两个文档，其中任何一个文档为另外一个文档的最近邻居，则这两个文档的相关度为这两个文档之间的余弦，否则相关度为0；所述词-词图的相关度矩阵定义为：如果两个词，其中任何一个词为另外一个词的最近邻居，则这两个词的相关度为这两个词之间的余弦，否则相关度为0。3.根据权利要求1所述的方法，其特征在于，所述基于文档-文档图的正则化项为预设的文档空间的控制参数与第一踪迹的乘积，所述基于词-词图的正则化项为预设的词空间的控制参数与第二踪迹的乘积；所述基于图的正则化项为预设的文档空间的控制参数与第一踪迹的乘积和预设的词空间的控制参数与第二踪迹的乘积之和；其中，所述第一踪迹为将所述文档-情感矩阵、文档-情感矩阵的转置矩阵、文档-文档图的拉普拉斯矩阵相乘得到的矩阵的踪迹，所述第二踪迹为将所述词-情感矩阵、词-情感矩阵的转置矩阵、词-词图的拉普拉斯矩阵相乘得到的矩阵的踪迹。4.根据权利要求1所述的方法，其特征在于，所述对目标函数进行优化处理，输出文档-情感矩阵的步骤，包括：按照预设次数进行迭代运算，不断更新文档-情感矩阵、词-情感矩阵和文档情感矩阵与词-情感矩阵之间的关联矩阵，根据更新的文档-情感矩阵、词-情感那矩阵和所述关联矩阵单调减少所述目标函数直到收敛，输出使得所述目标函数最小化的文档-情感矩阵。5.根据权利要求1所述的方法，其特征在于，所述根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向的步骤为：对于所述测试数据集中的一个文档，获取该文档在所述文档-情感矩阵中所处的行，获取所述行中对应的取最大值的情感倾向作为所述文档对应的情感倾向...

【专利技术属性】
技术研发人员：周光有，王巨宏，蒋杰，薛伟，管刚，赵军，
申请(专利权)人：中国科学院自动化研究所，腾讯科技深圳有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人