一种基于选择性合成过采样的非均衡方面类别检测方法技术

技术编号:39651346 阅读:9 留言:0更新日期:2023-12-09 11:19
本发明专利技术公开了一种基于选择性合成过采样的非均衡方面类别检测方法

【技术实现步骤摘要】
一种基于选择性合成过采样的非均衡方面类别检测方法


[0001]本专利技术涉及自然语言处理情感分析
,提出了一种基于选择性合成过采样的非均衡方面类别检测方法


技术介绍

[0002]方面级别类别检测
(Aspect Category Detection,ACD)
是自然语言处理中情感分析的重要子任务,其目标是识别在线评论文本中的隐含方面类别信息

传统的
ACD
方法通常假设数据集中每个方面类别都包含相同数量的样本,且在检测模型中误分类成本相等

然而在现实的在线评论类别检测任务中,常常出现数据分布不均匀的问题,其中不同评论类别之间的数据分布可能严重倾斜,即各个类别数量之间存在显著的差异,这给模型准确识别少数类别带来了困难

此外,在某些应用场景下,少数样本的类别比其他类别的错分代价更高,这使得不平衡类别分布的问题更加突出

如果部分在线评论样本数量少于常见样本,将这些稀有样本误诊为常见的状况会导致方面类别检测系统无法预测的后果和损失

[0003]类别不平衡是机器学习中的常见问题,它指的是在一个数据集中,不同类别的样本数量有显著的差异

在这种情况下,模型可能会倾向于预测数量较多的类别,从而导致对少数类的预测性能较差

为了解决这个问题,研究者们提出了许多策略,其中包括样本重采样技术

样本重采样可以通过欠采样或过采样的方式调整数据分布,从而平衡各类别的样本数量

过采样方法增加了少数类别的样本数量

比较知名的一种过采样方法是
SMOTE(Synthetic Minority Over

sampling Technique)
,它通过插值生成新的少数类样本

[0004]在非均衡方面类别检测问题中主要面临以下两点挑战,分别是数据采样策略问题,模型选择和调优问题

首先,为了解决类别不均衡的问题,常见的方法是进行数据采样

然而,如何设计有效的采样策略是一个挑战,需要考虑到保持数据的原始分布和避免过拟合等因素

其次,不同的模型对类别不均衡的敏感程度不同,选择和调优合适的模型也是一个挑战

如何平衡对多数类别和少数类别的惩罚,以及如何选择合适的权重,都是需要考虑的问题

在训练过程中,这些权重的差异会影响类别的分类

这个过程的总体目的是通过为少数类设置更高的权重和为多数类设置较低的权重惩罚错误分类的少数类

[0005]本专利技术提出了一种基于选择性合成过采样的非均衡方面类别检测方法,结合选择性合成过采样
(Select

Synthetic Minority Over

sampling Technique

Select

SMOTE)
算法和轻量级梯度提升机
(Light Gradient Boosting Machine

LGB)
模型
。Select

SMOTE
算法采用联合样本划分与边界优化的策略生成少数类样本,可以有效扩充少数类样本并避免了产生噪声的问题

随后,输出处理后的均衡数据集,将其输入经过权重调整

超参数优化等微调操作的
LGB
模型,以执行在线评论方面类别检测任务

基于选择性合成过采样的非均衡方面类别检测方法可以进一步提高非均衡方面类别检测的效果


技术实现思路

[0006]本专利技术旨在通过结合选择性合成过采样算法和轻量级梯度提升机模型解决非均
衡方面类别检测任务

[0007]为达到上述目的,针对选择性合成过采样的影响,本专利技术提出了一种基于选择性合成过采样的非均衡方面类别检测方法,包括以下步骤:
[0008]S1
,基于选择性合成过采样的非均衡方面类别检测方法总体框架;本专利技术提出了一种结合选择性合成过采样算法和轻量级梯度提升机模型的非均衡方面类别检测方法;选择性合成过采样算法联合样本划分和边界优化策略生成少数类样本,构成新的平衡数据集;轻量级梯度提升模型基于自动调参进行方面类别检测;
[0009]S2
,数据预处理和数据集的非平衡判定;数据预处理包括数据清洗

分词

去除停用词和特征提取等;数据集的非平衡判定基于类别样本数量统计和类别分布可视化的结果进行评估;
[0010]S3
,设计一种选择性合成过采样算法,该算法在生成新样本的位置选择和插值生成样本选择上的优化两方面对传统的过采样方法进行了改进,从而通过生成与边界样本更靠近的新样本来对少数类进行平衡;
[0011]S4
,构建基于选择性合成过采样的轻量级梯度提升机方面类别检测模型;该模型将超参数优化与类别权重调整结合起来优化模型;参数调节的目标是找到最优的参数组合,以提高模型的性能和泛化能力;权重赋予则是将原有类别重新进行权重调整,以保证少数类识别更为精确

[0012]根据本专利技术实施例提出的基于选择性合成过采样的非均衡方面类别检测方法,首先采用联合样本划分与边界优化的策略生成少数类样本,样本划分策略使得生成的数据选择更接近原始数据分布,而边界优化模块通过剔除边界间的样本以提升分类性能

其次,将平衡后的数据集输入到轻量级梯度提升机模型中,并通过参数优化和类别权重分配获取方面类别信息

实验结果表明,本专利技术提出的方法优于传统基线方法,有效地解决了非均衡数据在方面级别类别检测中的问题

[0013]根据本专利技术的一个实施例,所述步骤
S1
包括:
[0014]S11
,选择性合成过采样算法
(Select

Synthetic Minority Over

sampling Technique

Select

SMOTE)
对传统的过采样算法进行改进

首先使用样本划分策略,其规定在少数类样本差值生成时,两个样本点不同时为边界样本时才允许进行插值,使得生成的数据选择更接近原始数据分布;此外使用边界优化策略,采用类间边界样本剔除的方法,保证多数类和少数类之间的边界更加清晰;
[0015]S12
,基于
Select

SMOTE
算法构建轻量级梯度提升机
(Light Gradient Boosting Machine
...

【技术保护点】

【技术特征摘要】
1.
一种基于选择性合成过采样的非均衡方面类别检测方法,其特征在于,包括以下步骤:
S1
,基于选择性合成过采样的非均衡方面类别检测方法总体框架;本发明提出了一种结合选择性合成过采样算法和轻量级梯度提升机模型的非均衡方面类别检测方法;选择性合成过采样算法联合样本划分和边界优化策略生成少数类样本,构成新的平衡数据集;轻量级梯度提升模型基于自动调参进行方面类别检测;步骤
S1
还包括:
S11
,选择性合成过采样算法
(Select

Synthetic Minority Over

sampling Technique

Select

SMOTE)
对传统的过采样算法进行改进;首先使用样本划分策略,其规定在少数类样本差值生成时,两个样本点不同时为边界样本时才允许进行插值,使得生成的数据选择更接近原始数据分布;此外使用边界优化策略,采用类间边界样本剔除的方法,保证多数类和少数类之间的边界更加清晰;
S12
,基于
Select

SMOTE
算法构建轻量级梯度提升机
(Light Gradient Boosting Machine

LGB)
模型,
LGB
是一种基于梯度提升决策树
(Gradient Boosted Decision Trees

GBDT)
的机器学习算法;
LGB
模型参数调节的目标是找到最优的参数组合,以提高模型的性能和泛化能力;权重赋予则是将原有类别重新进行权重调整,以保证少数类识别更为精确;
S2
,数据预处理和数据集的非平衡判定;数据预处理包括数据清洗

分词

去除停用词和特征提取等;数据集的非平衡判定基于类别样本数量统计和类别分布可视化的结果进行评估;步骤
S2
还包括:
S21
,去除文本数据中的特殊字符

标点符号等噪音;移除文本中常见且对检测任务无帮助的停用词,如“the”和“and”等;将文本拆分成单词或词语的序列,以便后续处理;随后使用词嵌入技术将文本转换为特征;
S22
,计算每个类别的样本数量,并基于类别分布可视化观察它们的差异,如果某些类别的样本数量明显少于其它类别,则数据集存在不平衡性,即少数类样本和多数类样本的比例不平衡;
S3
,设计一种选择性合成过采样算法,该算法在生成新样本的位置选择和插值生成样本选择上的优化两方面对传统的过采样方法进行了改进,从而通过生成与边界样本更靠近的新样本来对少数类进行平衡;步骤
S3
还包括:
S31

Select

SMOTE
算法首先对样本空间进行划分,将样本空间分为噪声样本

边界样本

安全样本三个类别;安全样本是大多数类中的样本,距离最近的
k
个邻居都属于同一类,而边界样本则是距离最近的
k
个邻居有不同类的样本;
S32
,对边界样本进行扩充,生成与边界样本距离更近的新样本,以平衡少数类的数量;样本间在进...

【专利技术属性】
技术研发人员:赵传君延志鹤武美龄孙绪壮
申请(专利权)人:山西财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1