【技术实现步骤摘要】
本专利技术涉及大数据,具体涉及一种不平衡条件下的文本分类器生成方法和装置。
技术介绍
1、在大数据时代,对文本数据的有效收集、整理、挖掘分析和应用,可以为客户提供第一手的数据分析,为用户推送有效的咨询信息,对企事业研发人员发现新产品、提供决策支持、加速研发进程等方面起到至关重要的作用。面对海量文本数据,诸如用户发表或反馈的评论等急剧增加,文本自动分类技术应运而生。
2、目前文本自动分类主要采用机器学习方法,传统的机器学习方法都是基于数据均衡情况下实现的,缺乏对不平衡数据的有效处理,所述不平衡数据是指各个类别的数据量极不均衡。然而在实际应用中,由于大部分数据分布不均衡,导致文本分类结果不够准确。
3、文本分类中的不平衡问题通常使用过采样和欠采样的方法,过采样是对数据少的类通过随机重复其中的部分数据达到数据平衡,欠采样是通过对数据多的类随机掩盖部分数据以达到数据平衡;但是这两种方法对数据进行直接操作,可能会改变原始数据的分布,使得结果失去真实性。
技术实现思路
1、有鉴
...【技术保护点】
1.一种不平衡条件下的文本分类器生成方法,其特征在于,所述方法包括如下步骤:
2.如权利要求1所述的方法,其特征在于,所述步骤S2,所述语言模型为word2vec模型或bert模型,经过语言模型的处理,处理后生成的特征向量保留了字或者词语的向量表示,字或词语之间的关系由向量之间的差异表示;所特征向量为单个字词或整个句子的向量表示。
3.如权利要求2所述的方法,其特征在于,所述步骤S4,所述分类网络包括依次相连的卷积层、池化层、LSTM层、GRU层、全连接层,所述卷积层将输入的特征向量进行特征提取,得到对应的特征表示,池化层对所述特征表示进行下采
...【技术特征摘要】
1.一种不平衡条件下的文本分类器生成方法,其特征在于,所述方法包括如下步骤:
2.如权利要求1所述的方法,其特征在于,所述步骤s2,所述语言模型为word2vec模型或bert模型,经过语言模型的处理,处理后生成的特征向量保留了字或者词语的向量表示,字或词语之间的关系由向量之间的差异表示;所特征向量为单个字词或整个句子的向量表示。
3.如权利要求2所述的方法,其特征在于,所述步骤s4,所述分类网络包括依次相连的卷积层、池化层、lstm层、gru层、全连接层,所述卷积层将输入的特征向量进行特征提取,得到对应的特征表示,池化层对所述特征表示进行下采样,得到特征图;将所述特征图经lstm层进行时序建模,得到所述特征向量对应的序列特征,将所述序列特征输入gru层,所述gru层对所述序列特征经门控单元处理,得到处理后的序列特征,将所述处理后的序列特征输入全连接层,得到中间分类结果。
...
【专利技术属性】
技术研发人员:姚晓,赵淳璐,刘晓辉,张琳,殷伟,郭承禹,王元杰,辛永辉,鲍泽民,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。