【技术实现步骤摘要】
基于集成学习的多标签文本分类计算方法
本专利技术属于计算机文本分类
,尤其涉及一种基于集成学习的多标签文本分类计算方法。
技术介绍
分类技术作为一种数据分析挖掘的形式,它可以抽取能够描述重要数据集合的模型,用于预测数据对象的类别。而根据分类预测后的样本类别标签个数不同,分类问题又可分为单标签分类问题和多标签分类问题。多标签分类的目的是预测与多个类相关联的示例中,某些标签是否与此示例存在关联。多标签学习算法大体上可以分为两个流派:一类是问题转化的方法,另一类是算法适应的方法。第一组方法是算法独立的。它们将多标签的分类任务转换为一个或多个单标签分类、回归或标签排序任务。通过把多标签学习问题转化为其他学习场景来解决多标签学习问题。代表性的算法包括BinaryRelevance(BR)、ClassifierChain(CC),这些算法将多标签学习任务转化为二元分类任务,CalibratedLabelRanking将多标签学习任务转换为标签排序任务的二阶方法校准标签排序,以及Randomk-labelsets将多标签任务 ...
【技术保护点】
1.一种基于集成学习的多标签文本分类计算方法,其特征在于,包括:/n步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;/n步骤2:采用词频-逆文本频率的方式对文本进行特征提取向量化处理;/n步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;/n步骤4:采用集成学习算法对标签进行分类。/n
【技术特征摘要】
1.一种基于集成学习的多标签文本分类计算方法,其特征在于,包括:
步骤1:对原始数据集进行预处理,将句子分段成为一个个独立的单词,删除非关键词;
步骤2:采用词频-逆文本频率的方式对文本进行特征提取向量化处理;
步骤3:采用二元关联法将多标签学习问题分解为多个独立的二元分类问题,每个二元分类问题对应于标签空间中的一个标签;
步骤4:采用集成学习算法对标签进行分类。
2.根据权利要求1所述多标签文本分类计算方法,其特征在于,所述非关键词包括:代词、介词、连词。
3.根据权利要求1所述多标签文本分类计算方法,其特征在于,所述步骤2包括:统计单词在文本中出现的次数和出现在...
【专利技术属性】
技术研发人员:马应龙,闫君璐,李莉敏,张冰,陈亮,王乔木,张大伟,王玮,郗子月,
申请(专利权)人:华北电力大学,国家电网有限公司信息通信分公司,国网山东省电力公司信息通信公司,国家电网有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。