【技术实现步骤摘要】
一种基于选择性合成过采样的非均衡方面类别检测方法
[0001]本专利技术涉及自然语言处理情感分析
,提出了一种基于选择性合成过采样的非均衡方面类别检测方法
。
技术介绍
[0002]方面级别类别检测
(Aspect Category Detection,ACD)
是自然语言处理中情感分析的重要子任务,其目标是识别在线评论文本中的隐含方面类别信息
。
传统的
ACD
方法通常假设数据集中每个方面类别都包含相同数量的样本,且在检测模型中误分类成本相等
。
然而在现实的在线评论类别检测任务中,常常出现数据分布不均匀的问题,其中不同评论类别之间的数据分布可能严重倾斜,即各个类别数量之间存在显著的差异,这给模型准确识别少数类别带来了困难
。
此外,在某些应用场景下,少数样本的类别比其他类别的错分代价更高,这使得不平衡类别分布的问题更加突出
。
如果部分在线评论样本数量少于常见样本,将这些稀有样本误诊为常见的状况会导致方面类别检测系统无法预测的后果和损失
。
[0003]类别不平衡是机器学习中的常见问题,它指的是在一个数据集中,不同类别的样本数量有显著的差异
。
在这种情况下,模型可能会倾向于预测数量较多的类别,从而导致对少数类的预测性能较差
。
为了解决这个问题,研究者们提出了许多策略,其中包括样本重采样技术
。
样本重采样可以通过欠采样或过采样的方式调整
【技术保护点】
【技术特征摘要】
1.
一种基于选择性合成过采样的非均衡方面类别检测方法,其特征在于,包括以下步骤:
S1
,基于选择性合成过采样的非均衡方面类别检测方法总体框架;本发明提出了一种结合选择性合成过采样算法和轻量级梯度提升机模型的非均衡方面类别检测方法;选择性合成过采样算法联合样本划分和边界优化策略生成少数类样本,构成新的平衡数据集;轻量级梯度提升模型基于自动调参进行方面类别检测;步骤
S1
还包括:
S11
,选择性合成过采样算法
(Select
‑
Synthetic Minority Over
‑
sampling Technique
,
Select
‑
SMOTE)
对传统的过采样算法进行改进;首先使用样本划分策略,其规定在少数类样本差值生成时,两个样本点不同时为边界样本时才允许进行插值,使得生成的数据选择更接近原始数据分布;此外使用边界优化策略,采用类间边界样本剔除的方法,保证多数类和少数类之间的边界更加清晰;
S12
,基于
Select
‑
SMOTE
算法构建轻量级梯度提升机
(Light Gradient Boosting Machine
,
LGB)
模型,
LGB
是一种基于梯度提升决策树
(Gradient Boosted Decision Trees
,
GBDT)
的机器学习算法;
LGB
模型参数调节的目标是找到最优的参数组合,以提高模型的性能和泛化能力;权重赋予则是将原有类别重新进行权重调整,以保证少数类识别更为精确;
S2
,数据预处理和数据集的非平衡判定;数据预处理包括数据清洗
、
分词
、
去除停用词和特征提取等;数据集的非平衡判定基于类别样本数量统计和类别分布可视化的结果进行评估;步骤
S2
还包括:
S21
,去除文本数据中的特殊字符
、
标点符号等噪音;移除文本中常见且对检测任务无帮助的停用词,如“the”和“and”等;将文本拆分成单词或词语的序列,以便后续处理;随后使用词嵌入技术将文本转换为特征;
S22
,计算每个类别的样本数量,并基于类别分布可视化观察它们的差异,如果某些类别的样本数量明显少于其它类别,则数据集存在不平衡性,即少数类样本和多数类样本的比例不平衡;
S3
,设计一种选择性合成过采样算法,该算法在生成新样本的位置选择和插值生成样本选择上的优化两方面对传统的过采样方法进行了改进,从而通过生成与边界样本更靠近的新样本来对少数类进行平衡;步骤
S3
还包括:
S31
,
Select
‑
SMOTE
算法首先对样本空间进行划分,将样本空间分为噪声样本
、
边界样本
、
安全样本三个类别;安全样本是大多数类中的样本,距离最近的
k
个邻居都属于同一类,而边界样本则是距离最近的
k
个邻居有不同类的样本;
S32
,对边界样本进行扩充,生成与边界样本距离更近的新样本,以平衡少数类的数量;样本间在进...
【专利技术属性】
技术研发人员:赵传君,延志鹤,武美龄,孙绪壮,
申请(专利权)人:山西财经大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。