基于关联规则的多标记中文情感分类方法技术

技术编号：16079885 阅读：39 留言：0更新日期：2017-08-25 15:27

本发明专利技术提供一种基于关联规则的多标记中文情感分类方法，包括以下步骤：步骤1，利用关联规则算法寻找各种中文情感标记之间的频繁项集；步骤2，根据频繁项集推导出情感标记之间的关联规则；步骤3，将多标记数据集使用关联规则进行修改获得新数据；步骤4，对获得的新数据集使用Rank‑SVM算法进行分类学习获得新模型；步骤5，使用新模型对测试数据集进行预测。

全部详细技术资料下载

【技术实现步骤摘要】
基于关联规则的多标记中文情感分类方法
本专利技术涉及一种标记分类技术，特别是一种基于关联规则的多标记中文情感分类方法。
技术介绍
在传统的监督学习框架中每个示例仅仅对应于一个类别标记，这类问题被称为单标记学习问题。然而，在许多现实环境中，一个示例可能并不仅仅同时拥有单个标记，而是同时拥有多个类别标记。例如，在医疗诊断中，一个病人可能同时患有糖尿病和癌症；在基因功能分类中，每一个基因都可能与一系列的功能相关，如代谢、转录和蛋白质的合成；在场景分类中，每一个场景都可能属于几个语义类别，如沙滩和城市。以上例子中的每个示例都与一个标记集合相对应，且标记集合大小不确定，这类问题被称为多标记学习问题。多标记学习主要研究当一个示例同时拥有多个类别标记时，如何构建分类器来准确预测未知样本的标记集合。现阶段多标记学习方法可以分为问题转换和算法适应两种策略：(1)问题转换。问题转换策略的主要思路是将多标记数据集预处理成传统的单标记数据集，然后对预处理后的数据集使用传统的监督学习算法(如C4.5，朴素贝叶斯等)学习一个单标记分类模型。(2)算法适应。算法适应策略的主要思路是对常用监督学习算法进行改进并将其用于多标记学习框架下，从而用来解决多标记数据的分类问题。代表算法如Rank-SVM，BP-MLL。因此，现有的多标记学习算法较少将关联规则应用于多标记分类中，导致多标记学习算法分类效果不好。本专利将关联规则用于多标记学习中，并应用于中文情感分类领域。
技术实现思路
本专利技术的目的在于提供一种基于关联规则的多标记中文情感分类方法，包括以下步骤：步骤1，利用关联规则算法寻找各种中文情...

【技术保护点】
一种基于关联规则的多标记中文情感分类方法，其特征在于，包括以下步骤：步骤1，利用关联规则算法寻找各种中文情感标记之间的频繁项集；步骤2，根据频繁项集推导出情感标记之间的关联规则；步骤3，将多标记数据集使用关联规则进行修改获得新数据；步骤4，对获得的新数据集使用Rank‑SVM算法进行分类学习获得新模型；步骤5，使用新模型对测试数据集进行预测。

【技术特征摘要】
1.一种基于关联规则的多标记中文情感分类方法，其特征在于，包括以下步骤：步骤1，利用关联规则算法寻找各种中文情感标记之间的频繁项集；步骤2，根据频繁项集推导出情感标记之间的关联规则；步骤3，将多标记数据集使用关联规则进行修改获得新数据；步骤4，对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型；步骤5，使用新模型对测试数据集进行预测。2.根据权利要求1所述的方法，其特征在于，步骤1的具体过程在于：步骤S100，设中文情感标记集合[y1,y2,...,yn]，数据集中第i个示例对应的情感标记集合li，生成行向量v＝[v1,v2,...,vn]用于存储不同的情感标记名称，定义最小支持度minsup，构建布尔矩阵M，其中矩阵中的每项采用如下方式定义n为M的列数，m为M的行数；步骤S101，按列分块布尔矩阵M＝(M1,M2,…,Mn)，统计M每列元素中零的个数，若M的每列元素中均为非0元素则跳转到步骤S106执行，否则执行步骤S102；步骤S102，交换矩阵M的第t列与第n列，并同时交换行向量v的第t位和第n位，其中第t列为含0元素最多的一列；步骤S103，对矩阵M进行初等变换，使得第n列先出现0后出现1；步骤S104，对矩阵M进行分治，设第n列1的个数为∑iMin，若满足m＞1，得到分割子矩阵Mn[:，1:n-1]以及行向量Nn{1:n-1}；步骤S104，对矩阵M进行分治，设第n列含有1的个数为∑iMin，若满足m＞1，对矩阵M和行向量v取前n-1列，按列分割成子...

【专利技术属性】
技术研发人员：贾修一，刘军煜，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人