一种基于迁移学习的绝对不平衡文本分类方法技术

技术编号：17162217 阅读：571 留言：0更新日期：2018-02-01 20:28

本发明专利技术涉及一种基于迁移学习的绝对不平衡文本分类方法，包括：文本数据预处理：划分目标领域数据与辅助领域数据，其中辅助领域数据与目标领域数据分布不同,但是相关；文本向量化；级联结构各节点分类模型训练：采用改进的Tradaboost算法，用辅助领域数据平衡训练集，并通过级联结构逐渐平衡领域间权重以及不同类别样本权重，对于不同领域不同类别的样本采取不同的权重更新方式；最终分类结果由所有节点的分类器加权投票得出。

An absolute imbalanced text classification method based on migration learning

The invention relates to a transfer learning based on absolute imbalanced text classification methods, including: text data preprocessing: divide the target domain data and auxiliary field data, auxiliary data field data and target field distribution is different, but related to the text; quantization; cascade structure of each node classification model training: using the improved Tradaboost algorithm with the field data, auxiliary balance training set, and the cascade structure gradually balance weight and between different categories of sample weights for different areas, different classes of samples adopt different weights renewal mode; the final classification result by all nodes of a weighted voting classifier.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于迁移学习的绝对不平衡文本分类方法
本专利技术涉及一种文本分类方法。
技术介绍
文本分类方面：文本分类是自然语言处理中一个非常重要的应用领域。面对庞大的文本数据群，文本分类在文本信息的处理方面有着举足轻重的作用。同时文本分类时信息检索、信息过滤、搜索引擎等领域的基础。随着web文本的海量增长，文本信息呈爆炸式增长趋势，已有的样本不足以训练一个可靠的模型，而新样本数据的标注费时费力。现实数据往往存在数据不平衡现象，目前针对不平衡问题研究，主要包含两种方法，一种是从数据层面平衡数据集,另一种是设计或改进学习算法，降低算法对类别不平衡度的敏感度，从而增强算法的鲁棒性。但是当训练数据绝对不平衡，少数类样本包含的信息不足以训练一个分类器，利用传统的不平衡学习方法，如直接训练分类器或者利用抽样方法平衡训练集都不能达到理想的分类效果。因此可以利用迁移学习在训练数据中引入辅助领域数据，帮助训练分类模型。文本分类的整体流程如图(1)所示，主要包括：收集文本数据、分词、去停用词、特征选择，分类模型设计，分类模型性能评价。迁移学习方面：迁移学习是机器学习的一个重要分支，其打破了传统机器学习算法中训练数据与测试数据独立同分布的假设条件，使得可以有效利用过期数据进行学习。迁移学习主要包括实例迁移，特征迁移，参数迁移。TrAdaBoost算法是基于boosting技术的实例迁移算法，算法将辅助领域与目标领域数据直接组合作为训练集训练分类器模型。采用boosting技术可以将弱分类器算法通过组合提升为强学习算法，从而有效提升学习效果。但是该方法容易加重类别不平衡问题，目前针对上述...
一种基于迁移学习的绝对不平衡文本分类方法

【技术保护点】
一种基于迁移学习的绝对不平衡文本分类方法，包括下列步骤：1)文本数据预处理划分目标领域数据与辅助领域数据，其中辅助领域数据与目标领域数据分布不同,但是相关，辅助领域中存在更为适合训练目标领域分类模型的样本；经过数据清洗后在目标领域数据中随机选择80％的数据作为目标领域训练数据，剩余20％作为分类模型性能评估的测试数据，辅助领域全部数据均参与分类器训练。2)文本向量化3)采取词袋模型对目标领域数据进行分词，并生成文本词典；将每篇文献表示为字典长度的向量，每个特征的权重利用词频‑反文档频率TF‑IDF进行加权；4)级联结构各节点分类模型训练采用改进的Tradaboost算法，用辅助领域数据平衡训练集，并通过级联结构逐渐平衡领域间权重以及不同类别样本权重，对于不同领域不同类别的样本采取不同的权重更新方式，改进如下：a.目标领域数据对目标领域数据，采取Adaboost算法的权重更新方法，权重更新因子大于1，将错分样本视为对分类模型训练有益样本，增加权重；b.辅助领域负类样本对不平衡学习，目标领域数据中负类样本数量远多于正类样本数量，权重更新因子小于1，错分样本权重降低；c.辅助领域正类样本对于...

【技术特征摘要】
1.一种基于迁移学习的绝对不平衡文本分类方法，包括下列步骤：1)文本数据预处理划分目标领域数据与辅助领域数据，其中辅助领域数据与目标领域数据分布不同,但是相关，辅助领域中存在更为适合训练目标领域分类模型的样本；经过数据清洗后在目标领域数据中随机选择80％的数据作为目标领域训练数据，剩余20％作为分类模型性能评估的测试数据，辅助领域全部数据均参与分类器训练。2)文本向量化3)采取词袋模型对目标领域数据进行分词，并生成文本词典；将每篇文献表示为字典长度的向量，每个特征的权重利用词频-反文档频率TF-IDF进行加权；4)级联结构各节点分类模型训练采用改进的Tradaboost算法，用辅助领域数据平衡训练集，并通过级联结构逐渐平衡领域间权重以及不同类别样本权重，对于不同领域不同类别的样本采取不同的权重更新方式，改进如下：a.目标领域数据对目标领域数据，采取Adaboost算法的权重更新方法，权重更新因子大于1，将错分样本视为对分类模型训练有益样本，增加权重；b.辅助领...

【专利技术属性】
技术研发人员：王宝亮，么素素，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人