基于关联规则的多标记中文情感分类方法技术

技术编号:16079885 阅读:39 留言:0更新日期:2017-08-25 15:27
本发明专利技术提供一种基于关联规则的多标记中文情感分类方法,包括以下步骤:步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;步骤2,根据频繁项集推导出情感标记之间的关联规则;步骤3,将多标记数据集使用关联规则进行修改获得新数据;步骤4,对获得的新数据集使用Rank‑SVM算法进行分类学习获得新模型;步骤5,使用新模型对测试数据集进行预测。

【技术实现步骤摘要】
基于关联规则的多标记中文情感分类方法
本专利技术涉及一种标记分类技术,特别是一种基于关联规则的多标记中文情感分类方法。
技术介绍
在传统的监督学习框架中每个示例仅仅对应于一个类别标记,这类问题被称为单标记学习问题。然而,在许多现实环境中,一个示例可能并不仅仅同时拥有单个标记,而是同时拥有多个类别标记。例如,在医疗诊断中,一个病人可能同时患有糖尿病和癌症;在基因功能分类中,每一个基因都可能与一系列的功能相关,如代谢、转录和蛋白质的合成;在场景分类中,每一个场景都可能属于几个语义类别,如沙滩和城市。以上例子中的每个示例都与一个标记集合相对应,且标记集合大小不确定,这类问题被称为多标记学习问题。多标记学习主要研究当一个示例同时拥有多个类别标记时,如何构建分类器来准确预测未知样本的标记集合。现阶段多标记学习方法可以分为问题转换和算法适应两种策略:(1)问题转换。问题转换策略的主要思路是将多标记数据集预处理成传统的单标记数据集,然后对预处理后的数据集使用传统的监督学习算法(如C4.5,朴素贝叶斯等)学习一个单标记分类模型。(2)算法适应。算法适应策略的主要思路是对常用监督学习算法进行改进并将其用于多标记学习框架下,从而用来解决多标记数据的分类问题。代表算法如Rank-SVM,BP-MLL。因此,现有的多标记学习算法较少将关联规则应用于多标记分类中,导致多标记学习算法分类效果不好。本专利将关联规则用于多标记学习中,并应用于中文情感分类领域。
技术实现思路
本专利技术的目的在于提供一种基于关联规则的多标记中文情感分类方法,包括以下步骤:步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;步骤2,根据频繁项集推导出情感标记之间的关联规则;步骤3,将多标记数据集使用关联规则进行修改获得新数据;步骤4,对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型;步骤5,使用新模型对测试数据集进行预测。本专利技术将关联规则考虑到多标记学习当中,提出基于关联规则的多标记中文情感分类方法,在不同的数据集上实验,可以得出本专利技术提出的方法具有较高的分类精度的结论。另外,本专利技术提出的关联规则算法寻找频繁项集所产生的子矩阵之间的关联性非常低,适合应用于分布式计算中进一步提高关联规则的挖掘性能。下面结合说明书附图对本专利技术做进一步描述。附图说明图1为本专利技术的方法流程图。具体实施方式结合图1,一种基于关联规则的多标记中文情感分类方法,包括以下步骤:步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;步骤2,根据频繁项集推导出情感标记之间的关联规则;步骤3,将多标记数据集使用关联规则进行修改获得新数据;步骤4,对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型;步骤5,使用新模型对测试数据集进行预测。在步骤1中,利用关联规则算法寻找各种中文情感标记之间的频繁项集的具体过程如下:步骤S100,设中文情感标记集合[y1,y2,...,yn],数据集中第i个示例对应的情感标记集合li,生成行向量v=[v1,v2,...,vn]用于存储不同的情感标记名称,定义最小支持度minsup,构建布尔矩阵M,其中矩阵中的每项采用如下方式定义:步骤S101,按列分块布尔矩阵M=(M1,M2,…,Mn),统计M每列元素中零的个数,不妨设含零元素最多的一列为第t列,若该列非0元素总和∑iMit满足∑iMit=m,即矩阵不含零则跳转到步骤S106执行,否则执行步骤S102);步骤S102,交换矩阵M的第t列与第n列,并同时交换行向量v的第t位和第n位;步骤S103,对矩阵M进行初等变换,使得第n列先出现0后出现1,即0出现完了再出现1,即第n列的值前几个是0,下面的都是1;步骤S104,对矩阵M进行分治,设第n列含有1的个数为∑iMin,若满足m>1,对矩阵M和行向量v取前n-1列,按列分割成子矩阵Mn[:,1:n-1]以及行向量vn{1:n-1};若满足条件∑iMin≥m×minsup,对矩阵M选取从m-∑iMin到m行,按行分割成子矩阵Mm×minsup[m-∑iMin:m,:]和行向量vm×minsup{1:n};步骤S105,对步骤S104中得到的分割子矩阵跳转到步骤S102直到不能进行子矩阵分割为止;步骤S106,存下此时所有的M和v,其中v是中文情感频繁项集的名称,M的行数m表示的是其频率(此频繁项集在矩阵M中出现的频率)。在步骤2中根据步骤1得到的频繁项集推导出情感标记之间的关联规则,具体过程如下:步骤S200,找出v中所有的非空非满子集,即该子集不为空集且元素个数小于v的个数。举例来说,如果v代表的是惊讶,悲伤,生气三种情感,那么v所有满足条件的子集为v1{惊讶},v2{悲伤},v3{生气},v4{惊讶,悲伤},v5{惊讶,生气},v6{悲伤,生气};步骤S201,将步骤S200得到的每个子集分别作为该关联规则的前项,该子集在全集v下的补集作为后项,构成的关联规则如vi→(v-vi),i为非空非满子集的索引值,若以步骤S200中的6个子集为例,i=1,2,…,6;步骤S202,将步骤S201得到的每条关联规则计算置信度,置信度表示数据中同时包含vi、v-vi的个数与包含vi的个数之比,计算公式为:步骤S203,给定参数最小置信度minconf,将步骤S202中每条关联规则计算出的置信度与minconf比较,并将置信度大于minconf的情感标记关联规则留下,并舍去其余的规则。步骤3中将多标记数据集使用步骤2得到的关联规则进行修改,具体过程为:如果vi的值为1(有该情感),而v-vi的值为0(无该情感),修改方式是将v-vi的值改为1。步骤5中采用多标记常用的五种评价准则来评价新模型的效果,评价准则包括海明损失,1-错误率,覆盖率,排序损失,平均准确率。本文档来自技高网...
基于关联规则的多标记中文情感分类方法

【技术保护点】
一种基于关联规则的多标记中文情感分类方法,其特征在于,包括以下步骤:步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;步骤2,根据频繁项集推导出情感标记之间的关联规则;步骤3,将多标记数据集使用关联规则进行修改获得新数据;步骤4,对获得的新数据集使用Rank‑SVM算法进行分类学习获得新模型;步骤5,使用新模型对测试数据集进行预测。

【技术特征摘要】
1.一种基于关联规则的多标记中文情感分类方法,其特征在于,包括以下步骤:步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;步骤2,根据频繁项集推导出情感标记之间的关联规则;步骤3,将多标记数据集使用关联规则进行修改获得新数据;步骤4,对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型;步骤5,使用新模型对测试数据集进行预测。2.根据权利要求1所述的方法,其特征在于,步骤1的具体过程在于:步骤S100,设中文情感标记集合[y1,y2,...,yn],数据集中第i个示例对应的情感标记集合li,生成行向量v=[v1,v2,...,vn]用于存储不同的情感标记名称,定义最小支持度minsup,构建布尔矩阵M,其中矩阵中的每项采用如下方式定义n为M的列数,m为M的行数;步骤S101,按列分块布尔矩阵M=(M1,M2,…,Mn),统计M每列元素中零的个数,若M的每列元素中均为非0元素则跳转到步骤S106执行,否则执行步骤S102;步骤S102,交换矩阵M的第t列与第n列,并同时交换行向量v的第t位和第n位,其中第t列为含0元素最多的一列;步骤S103,对矩阵M进行初等变换,使得第n列先出现0后出现1;步骤S104,对矩阵M进行分治,设第n列1的个数为∑iMin,若满足m>1,得到分割子矩阵Mn[:,1:n-1]以及行向量Nn{1:n-1};步骤S104,对矩阵M进行分治,设第n列含有1的个数为∑iMin,若满足m>1,对矩阵M和行向量v取前n-1列,按列分割成子...

【专利技术属性】
技术研发人员:贾修一刘军煜
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1