用于文本层级分类的方法、电子设备和存储介质技术

技术编号:26689808 阅读:29 留言:0更新日期:2020-12-12 02:39
本公开的实施例涉及用于文本层级分类的方法、设备和介质,涉及信息处理领域。根据该方法,对每项文本数据生成多个层级类目;生成训练样本集合和验证样本集合;对与相同层级中的不同类目相关联的样本数量进行排序;基于样本数量在对应排序结果中的位置,确定多个权重;S1:基于训练样本集合和多标签神经网络模型,生成多标签分类结果集合;S2:基于多标签分类结果集合和多个权重,确定损失值;S3:基于损失值,更新多标签神经网络模型;重复S1‑S3,直至损失值小于预定值以及验证样本集合的准确率达到预定准确率,以得到经训练的多标签神经网络模型。由此,能够在损失函数中考虑多层级类目的多个权重,避免多层级类目数据不均衡和数据质量问题。

【技术实现步骤摘要】
用于文本层级分类的方法、电子设备和存储介质
本公开的实施例总体涉及信息处理领域,具体涉及用于文本层级分类的方法、电子设备和计算机存储介质。
技术介绍
不均衡数据广泛存在于现实世界中,比如垃圾邮件检测、机器的故障检测、信用卡的欺诈检测等等。目前业界对于不均衡数据分类的处理方法,主要有以下几方面:一是过采样:通过对于少数类样本进行多次重复抽样提高少数类的样本数,例如随机过采样、SMOTE、ADASYN算法等,该方法增加了少数类的样本,但存在过拟合的风险;二是欠采样,通过对于多数类样本进行随机欠采样或者其他算法降低多数类的样本,例如随机欠采样、EasyEnsemble、BalanceCascade等算法,该方法减少了多数类的样本,存在欠拟合的风险;三是代价敏感学习,通过引入代价敏感矩阵,从算法层面上解决不平衡数据引起的问题,比如决策树可以在分裂标准、剪枝等方面引入代价矩阵等。
技术实现思路
提供了一种用于文本层级分类的方法、电子设备以及计算机存储介质,能够在损失函数中考虑多个层级类目的多个权重,避免多层级类目数据不均衡和数据质量问本文档来自技高网...

【技术保护点】
1.一种用于文本层级分类的方法,包括:/n对文本数据集合中的每项文本数据生成多个层级类目作为标签数据,以得到标签数据集合;/n基于所述文本数据集合和所述标签数据集合,生成训练样本集合和验证样本集合;/n对所述训练样本集合中与相同层级中的不同类目相关联的样本数量进行排序,以得到与多个层级相关联的多个排序结果;/n基于所述训练样本集合中与相同层级中的不同类目相关联的样本数量在对应排序结果中的位置,确定与所述多个层级类目相关联的多个权重;/nS1:基于所述训练样本集合中的文本数据子集合和多标签分类神经网络模型,生成多标签分类结果集合;/nS2:基于所述多标签分类结果集合、所述多个权重、所述训练样本集...

【技术特征摘要】
1.一种用于文本层级分类的方法,包括:
对文本数据集合中的每项文本数据生成多个层级类目作为标签数据,以得到标签数据集合;
基于所述文本数据集合和所述标签数据集合,生成训练样本集合和验证样本集合;
对所述训练样本集合中与相同层级中的不同类目相关联的样本数量进行排序,以得到与多个层级相关联的多个排序结果;
基于所述训练样本集合中与相同层级中的不同类目相关联的样本数量在对应排序结果中的位置,确定与所述多个层级类目相关联的多个权重;
S1:基于所述训练样本集合中的文本数据子集合和多标签分类神经网络模型,生成多标签分类结果集合;
S2:基于所述多标签分类结果集合、所述多个权重、所述训练样本集合中的标签数据子集合和预定损失函数,确定损失值;
S3:基于所述损失值和梯度下降算法,更新所述多标签分类神经网络模型中的参数;以及
重复S1-S3,直至所述损失值小于预定值以及所述验证样本集合的准确率达到预定准确率,以得到经训练的多标签分类神经网络模型。


2.根据权利要求1所述的方法,其中生成所述多标签分类结果集合包括对于所述文本数据子集合中的每项文本数据执行以下步骤:
将所述文本数据输入所述多标签分类神经网络模型中的双向长短记忆模型,以得到双向时序特征;
将所述双向时序特征分别输入所述多标签分类神经网络模型中的自注意力层和全局平均池化层,以得到关键词特征和词语特征;
将所述关键词特征和所述词语特征进行拼接,以得到文本特征;
将所述文本特征输入所述多标签分类神经网络模型中的全连接层,以得到全连接结果;以及
将所述全连接结果输入到所述多标签分类神经网络模型中的输出层,以得到多标签分类结果。


3.根据权利要求2所述的方法,其中所述输出层包括层级类目总数量个神经元节点。


4.根据权利要求1所述的方法,其中确定所述多个权重包括:对于所述多个排序结果中的每一个排序结果执行以下步骤:
确定所述排序结果中与第一预定分位数对...

【专利技术属性】
技术研发人员:王东陈广顺
申请(专利权)人:震坤行网络技术南京有限公司震坤行工业超市上海有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1