【技术实现步骤摘要】
一种基于异构分类器的堆叠泛化方法
[0001]本专利技术涉及自然语言处理技术应用领域,尤其涉及到一种基于异构分类器的堆叠泛化方法。
技术介绍
[0002]集成技术是机器学习应用领域中提高分类器性能的一种常用方法。常用的集成算法有随机森林、AdaBoost、梯度提升树和极限梯度提升树等,由于它们从模型偏差或方差的角度对弱分类器进行了组合,在一些应用领域取得了较好的性能。然而,随着应用场景的变化,例如,如果具有主观性评论文本中如果包含非常特殊和罕见的词汇,则上述算法的性能会显著降低,其原因在于:
[0003]1)忽视了一篇主观性评论可能同时属于多个类别,导致单个机器学习模型的检测精度不稳定;
[0004]2)boosting集成在处理含有特殊和罕见词汇的主观性评论文本的分类时F1值低于80%。
[0005]利用机器学习算法对主观性评论进行分类是自然语言处理的一项重要应用。分类器对文本的分类效果直接影响了评论者对被评论对象的看法,进而影响到产品销售或舆情传播,所以设计一种能提高对主观性评论文本分析性能的技术方案尤为重要。
技术实现思路
[0006]本专利技术的目的是为了解决现有技术中单个分类器实现主观性评论检测时模型精度不稳定、boosting集成模型精度较低的问题,提供一种基于异构分类器的堆叠泛化方法,其采用深度循环神经网络将多标签的主观性评论分类问题转变为二类分类,防止模型精度不稳定;通过堆叠泛化集成时单个分类器GRU(Gated Recurrent Unit)和NB
‑ ...
【技术保护点】
【技术特征摘要】
1.一种基于异构分类器的堆叠泛化方法,其特征在于,包括如下步骤:1)构建堆叠泛化框架;2)构建循环神经网络个体分类器和基于浅层学习的NB
‑
SVM个体分类器;3)基于堆叠泛化框架,用算法的形式描述循环神经网络个体分类器和基于浅层学习的NB
‑
SVM个体分类器的集成过程;4)根据上述两种异构个体分类器集成过程,学习四种不同的基于深度学习的个体分类器和一种浅层分类器;然后将每种基于深度学习的个体分类器与所述浅层分类器集成,最终得四个不同的集成分类器。2.根据权利要求1所述的基于异构分类器的堆叠泛化方法,其特征在于,所述构建堆叠泛化框架的步骤如下:先利用原始数据集训练出0级的个体学习器,然后生成一个新数据集训练1级元分类器;新数据的获得过程如下:1)首先,将原始训练集D={(x1,y1),(x2,y2),
…
,(x
m
,y
m
)}随机划分为k个大小相似的集合{D1,D2,
…
,D
k
};令D
j
和分别表示第k折的测试集和训练集;2)对于T个不同的个体学习算法,表示使用第个个体学习算法在训练集上学得的个体分类器;对于D
j
中的每个样本x
i
,令表示第t个个体学习器在第i个样本上的预测,则由x
i
所产生的用于元学习器的训练样本为z
i
={z
i1
,z
i2
,
…
,z
iT
},z
i
中的每一个样本的标记为y
i
;3)交叉验证过程结束之后,从这T个个体学习器中产生的、用于元学习器学习的训练集为学得元分类器h
′
之后,利用它对0级d的个体学习器的预测结果进行集成。3.根据权利要求1所述的基于异构分类器的堆叠泛化方法,其特征在于,所述循环神经网络个体分类器的构建过程如下:选用4种不同的LSTM、双向LSTM、双向GRU和带有注意层的GRU;LSTM将输入的主观性评论作为一个词序列,利用嵌入层将词的独热编码转换为嵌入表示,设置dropout为0.1随机丢弃输入词,以提高网络的鲁棒性;为处理词嵌入序列,使用的LSTM层包含50个单元;使用2个全连接层,一个使用ReLU激活函数实现多标签分类,另一个使用softmax激活函数实...
【专利技术属性】
技术研发人员:李华盛,
申请(专利权)人:中云开源数据技术上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。