一种不平衡条件下的文本分类器构建方法和装置制造方法及图纸

技术编号:40077489 阅读:22 留言:0更新日期:2024-01-17 01:43
本发明专利技术公开了一种不平衡条件下的文本分类器生成方法和装置,所述方法包括:获取不平衡数据,基于所述不平衡数据构建训练集;生成特征向量,将特征向量作为输入数据;将输入数据输入分类网络,分类网络包括依次相连的卷积层、池化层、LSTM层、GRU层、全连接层;输入数据经所述分类网络处理,得到中间分类结果,所述中间分类结果是未经完全训练,但是已有分类效果的结果;将中间分类结果与真实标签输入损失函数,得到中间结果对应的损失值,若损失值小于预定义的损失值,则当前的分类网络结合当前的权重作为构建完毕的分类器。本方法能在训练过程中减少分对样本的损失在总的损失中的权重,使得分类器的优化更偏向分错的样本。

【技术实现步骤摘要】

本专利技术涉及大数据,具体涉及一种不平衡条件下的文本分类器生成方法和装置。


技术介绍

1、在大数据时代,对文本数据的有效收集、整理、挖掘分析和应用,可以为客户提供第一手的数据分析,为用户推送有效的咨询信息,对企事业研发人员发现新产品、提供决策支持、加速研发进程等方面起到至关重要的作用。面对海量文本数据,诸如用户发表或反馈的评论等急剧增加,文本自动分类技术应运而生。

2、目前文本自动分类主要采用机器学习方法,传统的机器学习方法都是基于数据均衡情况下实现的,缺乏对不平衡数据的有效处理,所述不平衡数据是指各个类别的数据量极不均衡。然而在实际应用中,由于大部分数据分布不均衡,导致文本分类结果不够准确。

3、文本分类中的不平衡问题通常使用过采样和欠采样的方法,过采样是对数据少的类通过随机重复其中的部分数据达到数据平衡,欠采样是通过对数据多的类随机掩盖部分数据以达到数据平衡;但是这两种方法对数据进行直接操作,可能会改变原始数据的分布,使得结果失去真实性。


技术实现思路

1、有鉴于此,本专利技术提供本文档来自技高网...

【技术保护点】

1.一种不平衡条件下的文本分类器生成方法,其特征在于,所述方法包括如下步骤:

2.如权利要求1所述的方法,其特征在于,所述步骤S2,所述语言模型为word2vec模型或bert模型,经过语言模型的处理,处理后生成的特征向量保留了字或者词语的向量表示,字或词语之间的关系由向量之间的差异表示;所特征向量为单个字词或整个句子的向量表示。

3.如权利要求2所述的方法,其特征在于,所述步骤S4,所述分类网络包括依次相连的卷积层、池化层、LSTM层、GRU层、全连接层,所述卷积层将输入的特征向量进行特征提取,得到对应的特征表示,池化层对所述特征表示进行下采样,得到特征图;将所...

【技术特征摘要】

1.一种不平衡条件下的文本分类器生成方法,其特征在于,所述方法包括如下步骤:

2.如权利要求1所述的方法,其特征在于,所述步骤s2,所述语言模型为word2vec模型或bert模型,经过语言模型的处理,处理后生成的特征向量保留了字或者词语的向量表示,字或词语之间的关系由向量之间的差异表示;所特征向量为单个字词或整个句子的向量表示。

3.如权利要求2所述的方法,其特征在于,所述步骤s4,所述分类网络包括依次相连的卷积层、池化层、lstm层、gru层、全连接层,所述卷积层将输入的特征向量进行特征提取,得到对应的特征表示,池化层对所述特征表示进行下采样,得到特征图;将所述特征图经lstm层进行时序建模,得到所述特征向量对应的序列特征,将所述序列特征输入gru层,所述gru层对所述序列特征经门控单元处理,得到处理后的序列特征,将所述处理后的序列特征输入全连接层,得到中间分类结果。

...

【专利技术属性】
技术研发人员:姚晓赵淳璐刘晓辉张琳殷伟郭承禹王元杰辛永辉鲍泽民
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1