一种基于异构分类器的堆叠泛化方法技术

技术编号:33652902 阅读:50 留言:0更新日期:2022-06-02 20:31
本发明专利技术公开了一种基于异构分类器的堆叠泛化方法,包括如下步骤:首先构建堆叠泛化框架、循环神经网络个体分类器和基于浅层学习的NB

【技术实现步骤摘要】
一种基于异构分类器的堆叠泛化方法


[0001]本专利技术涉及自然语言处理技术应用领域,尤其涉及到一种基于异构分类器的堆叠泛化方法。

技术介绍

[0002]集成技术是机器学习应用领域中提高分类器性能的一种常用方法。常用的集成算法有随机森林、AdaBoost、梯度提升树和极限梯度提升树等,由于它们从模型偏差或方差的角度对弱分类器进行了组合,在一些应用领域取得了较好的性能。然而,随着应用场景的变化,例如,如果具有主观性评论文本中如果包含非常特殊和罕见的词汇,则上述算法的性能会显著降低,其原因在于:
[0003]1)忽视了一篇主观性评论可能同时属于多个类别,导致单个机器学习模型的检测精度不稳定;
[0004]2)boosting集成在处理含有特殊和罕见词汇的主观性评论文本的分类时F1值低于80%。
[0005]利用机器学习算法对主观性评论进行分类是自然语言处理的一项重要应用。分类器对文本的分类效果直接影响了评论者对被评论对象的看法,进而影响到产品销售或舆情传播,所以设计一种能提高对主观性评论文本分析性能的技术方案尤为重要。

技术实现思路

[0006]本专利技术的目的是为了解决现有技术中单个分类器实现主观性评论检测时模型精度不稳定、boosting集成模型精度较低的问题,提供一种基于异构分类器的堆叠泛化方法,其采用深度循环神经网络将多标签的主观性评论分类问题转变为二类分类,防止模型精度不稳定;通过堆叠泛化集成时单个分类器GRU(Gated Recurrent Unit)和NB

SVM(Bayes

Support Vector Machine)在模型结构和分类偏差上的差异性,改善模型精度。
[0007]本专利技术的上述技术目的是通过以下技术方案实现的:
[0008]一种基于异构分类器的堆叠泛化方法,包括如下步骤:
[0009]1)构建堆叠泛化框架;
[0010]2)构建循环神经网络个体分类器和基于浅层学习的NB

SVM个体分类器;
[0011]3)基于堆叠泛化框架,用算法的形式描述循环神经网络个体分类器和基于浅层学习的NB

SVM个体分类器的集成过程;
[0012]4)根据上述两种异构个体分类器集成过程,学习四种不同的基于深度学习的个体分类器和一种浅层分类器;然后将每种基于深度学习的个体分类器与所述浅层分类器集成,最终得四个不同的集成分类器。
[0013]进一步的,所述构建堆叠泛化框架的步骤如下:
[0014]先利用原始数据集训练出0级的个体学习器,然后生成一个新数据集训练1级元分类器;新数据的获得过程如下:
[0015]1)首先,将原始训练集D={(x1,y1),(x2,y2),

,(x
m
,y
m
)}随机划分为k个大小相似的集合{D1,D2,

,D
k
};令D
j
和分别表示第k折的测试集和训练集;
[0016]2)对于T个不同的个体学习算法,表示使用第个个体学习算法在训练集上学得的个体分类器;对于D
j
中的每个样本x
i
,令表示第t个个体学习器在第i个样本上的预测,则由x
i
所产生的用于元学习器的训练样本为z
i
={z
i1
,z
i2


,z
iT
},z
i
中的每一个样本的标记为y
i

[0017]3)交叉验证过程结束之后,从这T个个体学习器中产生的、用于元学习器学习的训练集为学得元分类器h

之后,利用它对0级d的个体学习器的预测结果进行集成。
[0018]进一步的,所述循环神经网络个体分类器的构建过程如下:
[0019]选用4种不同的LSTM、双向LSTM、双向GRU和带有注意层的GRU;LSTM将输入的主观性评论作为一个词序列,利用嵌入层将词的独热编码转换为嵌入表示,设置dropout为0.1随机丢弃输入词,以提高网络的鲁棒性;为处理词嵌入序列,使用的LSTM层包含50个单元;使用2个全连接层,一个使用ReLU激活函数实现多标签分类,另一个使用softmax激活函数实现二类分类;
[0020]采用双向的LSTM和GRU的目的是弥补相距较远的词依赖可能发生的错误;与标准的LSTM相比,双向的LSTM使用了2个LSTM层以处理正确的输入序列和反相的输入序列;然后,求两层输出的平均值;所述双向GRU也由两个堆叠的GRU层构成;为每一个GRU层设置64个单元;网络结构中dropout的设置、全连接层的设置与LSTM相同。
[0021]进一步的,所述基于浅层学习的NB

SVM个体分类器的是朴素贝叶斯模型NB和支持向量机模型SVM的融合;
[0022]设f
i
∈R
|V|
是训练样本(x
i
,y
i
)的特征计数向量,其中,y
i
∈{

1+1},V是特征集;表示在训练样例i中特征V
j
出现的次数;为平滑参数α定义计数向量和于是log

count率计算如公式(1)所示;
[0023][0024]定义线性分类器为y
k
=sign(W
T
x
k
+b);对于模型NB,设定x
k
=f
k
,w=r,b=log(N
+
/N

);
[0025]其中,N
+
和N

表示训练集中正例样本数量与负例样本数量;在NB

SVM模型中,取I为指示函数,并且和均用计算;
[0026]对于NB

SVM模型,设定表示点积运算,w和b的求解需要最小化公式(2)所示的目标函数;
[0027][0028]进一步的,所述基于堆叠泛化框架,用算法的形式描述两种异构个体分类器集成过程如下:
[0029]输入:训练集D={(x1,y1),(x2,y2),

,(x
m
,y
m
)};
[0030]0级学习算法L1(LSTM),L2(双向LSTM),L3(双向GRU),L4(具有注意力层的双向
GRU),L5(NB

SVM);
[0031]1级学习算法l(多响应线性回归);
[0032][0033][0034]综上所述,本专利技术具有以下有益效果:
[0035]针对浅层学习与特征工程方法应用于主观性评论分类的模型精度不稳定、boosting集成方法应用于恶意评分分类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异构分类器的堆叠泛化方法,其特征在于,包括如下步骤:1)构建堆叠泛化框架;2)构建循环神经网络个体分类器和基于浅层学习的NB

SVM个体分类器;3)基于堆叠泛化框架,用算法的形式描述循环神经网络个体分类器和基于浅层学习的NB

SVM个体分类器的集成过程;4)根据上述两种异构个体分类器集成过程,学习四种不同的基于深度学习的个体分类器和一种浅层分类器;然后将每种基于深度学习的个体分类器与所述浅层分类器集成,最终得四个不同的集成分类器。2.根据权利要求1所述的基于异构分类器的堆叠泛化方法,其特征在于,所述构建堆叠泛化框架的步骤如下:先利用原始数据集训练出0级的个体学习器,然后生成一个新数据集训练1级元分类器;新数据的获得过程如下:1)首先,将原始训练集D={(x1,y1),(x2,y2),

,(x
m
,y
m
)}随机划分为k个大小相似的集合{D1,D2,

,D
k
};令D
j
和分别表示第k折的测试集和训练集;2)对于T个不同的个体学习算法,表示使用第个个体学习算法在训练集上学得的个体分类器;对于D
j
中的每个样本x
i
,令表示第t个个体学习器在第i个样本上的预测,则由x
i
所产生的用于元学习器的训练样本为z
i
={z
i1
,z
i2


,z
iT
},z
i
中的每一个样本的标记为y
i
;3)交叉验证过程结束之后,从这T个个体学习器中产生的、用于元学习器学习的训练集为学得元分类器h

之后,利用它对0级d的个体学习器的预测结果进行集成。3.根据权利要求1所述的基于异构分类器的堆叠泛化方法,其特征在于,所述循环神经网络个体分类器的构建过程如下:选用4种不同的LSTM、双向LSTM、双向GRU和带有注意层的GRU;LSTM将输入的主观性评论作为一个词序列,利用嵌入层将词的独热编码转换为嵌入表示,设置dropout为0.1随机丢弃输入词,以提高网络的鲁棒性;为处理词嵌入序列,使用的LSTM层包含50个单元;使用2个全连接层,一个使用ReLU激活函数实现多标签分类,另一个使用softmax激活函数实...

【专利技术属性】
技术研发人员:李华盛
申请(专利权)人:中云开源数据技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1