基于集成学习的多标签文本分类计算方法技术

技术编号:23704902 阅读:41 留言:0更新日期:2020-04-08 11:11
本发明专利技术属于计算机文本分类技术领域,尤其涉及一种基于集成学习的多标签文本分类计算方法,包括:步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;步骤2:采用词频‑逆文本频率的方式对文本进行特征提取向量化处理;步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;步骤4:采用集成学习算法对标签进行分类。本发明专利技术降低了时间复杂度,提高了训练速度,提高了弱学习器的泛化能力,降低了过拟合的风险,增加模型的鲁棒性。

Multi label text classification calculation method based on Integrated Learning

【技术实现步骤摘要】
基于集成学习的多标签文本分类计算方法
本专利技术属于计算机文本分类
,尤其涉及一种基于集成学习的多标签文本分类计算方法。
技术介绍
分类技术作为一种数据分析挖掘的形式,它可以抽取能够描述重要数据集合的模型,用于预测数据对象的类别。而根据分类预测后的样本类别标签个数不同,分类问题又可分为单标签分类问题和多标签分类问题。多标签分类的目的是预测与多个类相关联的示例中,某些标签是否与此示例存在关联。多标签学习算法大体上可以分为两个流派:一类是问题转化的方法,另一类是算法适应的方法。第一组方法是算法独立的。它们将多标签的分类任务转换为一个或多个单标签分类、回归或标签排序任务。通过把多标签学习问题转化为其他学习场景来解决多标签学习问题。代表性的算法包括BinaryRelevance(BR)、ClassifierChain(CC),这些算法将多标签学习任务转化为二元分类任务,CalibratedLabelRanking将多标签学习任务转换为标签排序任务的二阶方法校准标签排序,以及Randomk-labelsets将多标签任务转化为多类分类任务。本文档来自技高网...

【技术保护点】
1.一种基于集成学习的多标签文本分类计算方法,其特征在于,包括:/n步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;/n步骤2:采用词频-逆文本频率的方式对文本进行特征提取向量化处理;/n步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;/n步骤4:采用集成学习算法对标签进行分类。/n

【技术特征摘要】
1.一种基于集成学习的多标签文本分类计算方法,其特征在于,包括:
步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;
步骤2:采用词频-逆文本频率的方式对文本进行特征提取向量化处理;
步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;
步骤4:采用集成学习算法对标签进行分类。


2.根据权利要求1所述多标签文本分类计算方法,其特征在于,所述非关键词包括:代词、介词、连词。


3.根据权利要求1所述多标签文本分类计算方法,其特征在于,所述步骤2包括:统计单词在文本中出现的次数和出现在...

【专利技术属性】
技术研发人员:马应龙闫君璐李莉敏张冰陈亮王乔木张大伟王玮郗子月
申请(专利权)人:华北电力大学国家电网有限公司信息通信分公司国网山东省电力公司信息通信公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1