当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于迁移学习的绝对不平衡文本分类方法技术

技术编号:17162217 阅读:571 留言:0更新日期:2018-02-01 20:28
本发明专利技术涉及一种基于迁移学习的绝对不平衡文本分类方法,包括:文本数据预处理:划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关;文本向量化;级联结构各节点分类模型训练:采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式;最终分类结果由所有节点的分类器加权投票得出。

An absolute imbalanced text classification method based on migration learning

The invention relates to a transfer learning based on absolute imbalanced text classification methods, including: text data preprocessing: divide the target domain data and auxiliary field data, auxiliary data field data and target field distribution is different, but related to the text; quantization; cascade structure of each node classification model training: using the improved Tradaboost algorithm with the field data, auxiliary balance training set, and the cascade structure gradually balance weight and between different categories of sample weights for different areas, different classes of samples adopt different weights renewal mode; the final classification result by all nodes of a weighted voting classifier.

【技术实现步骤摘要】
一种基于迁移学习的绝对不平衡文本分类方法
本专利技术涉及一种文本分类方法。
技术介绍
文本分类方面:文本分类是自然语言处理中一个非常重要的应用领域。面对庞大的文本数据群,文本分类在文本信息的处理方面有着举足轻重的作用。同时文本分类时信息检索、信息过滤、搜索引擎等领域的基础。随着web文本的海量增长,文本信息呈爆炸式增长趋势,已有的样本不足以训练一个可靠的模型,而新样本数据的标注费时费力。现实数据往往存在数据不平衡现象,目前针对不平衡问题研究,主要包含两种方法,一种是从数据层面平衡数据集,另一种是设计或改进学习算法,降低算法对类别不平衡度的敏感度,从而增强算法的鲁棒性。但是当训练数据绝对不平衡,少数类样本包含的信息不足以训练一个分类器,利用传统的不平衡学习方法,如直接训练分类器或者利用抽样方法平衡训练集都不能达到理想的分类效果。因此可以利用迁移学习在训练数据中引入辅助领域数据,帮助训练分类模型。文本分类的整体流程如图(1)所示,主要包括:收集文本数据、分词、去停用词、特征选择,分类模型设计,分类模型性能评价。迁移学习方面:迁移学习是机器学习的一个重要分支,其打破了传统机器学习算法中训练数据与测试数据独立同分布的假设条件,使得可以有效利用过期数据进行学习。迁移学习主要包括实例迁移,特征迁移,参数迁移。TrAdaBoost算法是基于boosting技术的实例迁移算法,算法将辅助领域与目标领域数据直接组合作为训练集训练分类器模型。采用boosting技术可以将弱分类器算法通过组合提升为强学习算法,从而有效提升学习效果。但是该方法容易加重类别不平衡问题,目前针对上述问题提出了许多解决方案,但是这些方案没能同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题。
技术实现思路
本专利技术针对目标领域样本绝对不平衡问题,提供一种同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题的绝对不平衡文本分类方法。本专利技术融合级联模型与集成迁移学习思想,提出基于级联模型的集成迁移学习算法,可以有效提高分类模型对目标领域少数类样本的识别率,从而实现更准确的文本分类。技术方案如下:一种基于迁移学习的绝对不平衡文本分类方法,包括下列步骤:1)文本数据预处理划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关,辅助领域中存在更为适合训练目标领域分类模型的样本;经过数据清洗后在目标领域数据中随机选择80%的数据作为目标领域训练数据,剩余20%作为分类模型性能评估的测试数据,辅助领域全部数据均参与分类器训练;2)文本向量化3)采取词袋模型对目标领域数据进行分词,并生成文本词典;将每篇文献表示为字典长度的向量,每个特征的权重利用词频-反文档频率TF-IDF进行加权;4)级联结构各节点分类模型训练采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式,改进如下:a.目标领域数据对目标领域数据,采取Adaboost算法的权重更新方法,权重更新因子大于1,将错分样本视为对分类模型训练有益样本,增加权重;b.辅助领域负类样本对不平衡学习,目标领域数据中负类样本数量远多于正类样本数量,权重更新因子小于1,错分样本权重降低;c.辅助领域正类样本对于辅助领域正类样本,引入权重恢复因子σ动态调整权重更新因子,σ与目标领域正负类样本分类准确率相关,当目标领域正负类分类准确率一致时,σ趋近于1,此时权重更新因子趋近于βsrc,其中ns为辅助领域样本数量,m为迭代次数;当目标领域正类样本的准确率高于负类样本的准确率时,σ<1,此时权重更新因子降低,降低正类错分样本权重;当目标领域正类样本准确率低于负类样本准确率时,σ>1,此时权重更新因子增加,提高正类错分样本权重;5)利用级联结构逐渐平衡数据集除第一个节点外,每个节点都要利用上一节点训练的分类器和样本权重对辅助领域样本进行筛选,对于权重小于阈值的辅助领域数据,将其视为不相关样本进行删除;对于正确分类的辅助领域样本,将其视为冗余样本进行删除;6)级联结构分类模型融合最终分类结果由所有节点的分类器加权投票得出。本专利技术的有益效果如下:1.本专利技术提出了一种基于级联结构的集成迁移学习文本分类算法。解决了Tradaboost算法中辅助领域样本权重不可恢复问题。同时利用级联结构逐步删除辅助领域中噪声样本与冗余样本,在保证目标领域主导作用的同时充分利用辅助领域数据。可以在一定程度上解决数据绝对不平衡问题,并预防负迁移的发生。2.文本分类器的构造者在构造算法时,可以根据本专利技术提供的分类算法模型,根据实际应用场景合理选择辅助领域数据避免负迁移。同时调整算法参数,提升分类性能。附图说明图1本专利技术采用的程序流程图。图2本专利技术采用的文本分类模型。具体实施方式本专利技术的基本思想:通过对TrAdaBoost算法引入权重恢复因子,动态调整辅助领域样本权重,解决了算法中辅助领域样本权重不可恢复问题。随后,将改进的算法作为级联结构各节点分类器基分类器,并利用级联结构对辅助领域数据进行样本选择。最终集成各节点分类器作为最终分类器。通过该模型,可以有效提高分类模型对目标领域少数类样本的识别率,从而实现更准确的文本分类。本专利技术的程序流程如图1所示。采用的文本分类模型如图(2)所示。下面对本专利技术进行详细说明。1数据预处理1)数据描述在本专利技术中,划分目标领域数据与辅助领域数据。其中辅助领域数据与目标领域数据分布不同,但是相关。也就是说,辅助领域中存在一部分比较适合训练目标领域分类模型的样本。2)构造训练数据和测试数据经过数据清洗之后,在目标领域数据中随机选择80%的数据作为目标领域训练数据。剩余20%作为分类模型性能评估的测试数据。辅助领域全部数据均参与分类器训练。2文本向量化对目标领域数据进行分词,并生成文本词典。本专利技术采取词袋模型对词语进行统计。将每篇文献表示为字典长度的向量,每个特征的权重利用TF-IDF(词频-反文档频率)进行加权。3基于迁移学习的绝对不平衡文本分类模型设计本专利技术用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,并通过集成各节点分类器提升模型性能。算法框架如图2所示。3.1级联结构中各节点分类器的设计将目标领域训练集与辅助领域训练集混合作为训练集,并初始化样本权重。迭代训练弱分类器,并更新样本权重,直到达到指定迭代次数m:1)样本权重归一化,训练弱分类器2)引入辅助领域权重恢复因子式中,分别为目标领域负类样本与正类样本的分类准确率3)针对辅助领域与目标领域数据采取不同的权重更新策略辅助领域样本权重更新因子其中ns为辅助领域样本数量,m为迭代次数。目标领域权重更新因子其中εtar为目标领域训练样本加权错误率。对于目标领域数据,对错分样本利用βtar更新权重,增加了权重,提高其对模型训练的影响。对于辅助领域负类(多数类)样本,对错分样本利用βsrc更新权重,减弱辅助领域错分样本对模型训练的影响。对于辅助领域正类(少数类)样本,利用σβsrc更新样本权重。当目标领域不同类别准确率一致度较高时,σ≈1;本文档来自技高网
...
一种基于迁移学习的绝对不平衡文本分类方法

【技术保护点】
一种基于迁移学习的绝对不平衡文本分类方法,包括下列步骤:1)文本数据预处理划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关,辅助领域中存在更为适合训练目标领域分类模型的样本;经过数据清洗后在目标领域数据中随机选择80%的数据作为目标领域训练数据,剩余20%作为分类模型性能评估的测试数据,辅助领域全部数据均参与分类器训练。2)文本向量化3)采取词袋模型对目标领域数据进行分词,并生成文本词典;将每篇文献表示为字典长度的向量,每个特征的权重利用词频‑反文档频率TF‑IDF进行加权;4)级联结构各节点分类模型训练采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式,改进如下:a.目标领域数据对目标领域数据,采取Adaboost算法的权重更新方法,权重更新因子大于1,将错分样本视为对分类模型训练有益样本,增加权重;b.辅助领域负类样本对不平衡学习,目标领域数据中负类样本数量远多于正类样本数量,权重更新因子小于1,错分样本权重降低;c.辅助领域正类样本对于辅助领域正类样本,引入权重恢复因子σ动态调整权重更新因子,σ与目标领域正负类样本分类准确率相关,当目标领域正负类分类准确率一致时,σ趋近于1,此时权重更新因子趋近于βsrc,...

【技术特征摘要】
1.一种基于迁移学习的绝对不平衡文本分类方法,包括下列步骤:1)文本数据预处理划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关,辅助领域中存在更为适合训练目标领域分类模型的样本;经过数据清洗后在目标领域数据中随机选择80%的数据作为目标领域训练数据,剩余20%作为分类模型性能评估的测试数据,辅助领域全部数据均参与分类器训练。2)文本向量化3)采取词袋模型对目标领域数据进行分词,并生成文本词典;将每篇文献表示为字典长度的向量,每个特征的权重利用词频-反文档频率TF-IDF进行加权;4)级联结构各节点分类模型训练采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式,改进如下:a.目标领域数据对目标领域数据,采取Adaboost算法的权重更新方法,权重更新因子大于1,将错分样本视为对分类模型训练有益样本,增加权重;b.辅助领...

【专利技术属性】
技术研发人员:王宝亮么素素
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1