一种样本生成方法、装置、终端设备及介质制造方法及图纸

技术编号:37989506 阅读:17 留言:0更新日期:2023-06-30 10:04
本申请适用于数据处理技术领域,提供了一种样本生成方法、装置、终端设备及介质,通过对诊断样本集进行划分,得到疾病样本集和正常样本集;将协方差和熵加入疾病样本集的特征矩阵,并根据特征矩阵构建梯度提升树模型;根据梯度提升树模型,结合疾病样本集的熵,分别计算每个特征的分裂贡献度和熵差分,得到特征的特征权重;构建疾病样本集对应的初始种群;根据协方差、熵以及特征权重,得到初始种群对应的第一演化概率;根据第一演化概率,对初始种群进行演化,得到中间种群,并计算中间种群对应的第二演化概率;基于第一演化概率和第二演化概率,将满足演化终止条件的中间种群作为新的疾病样本集。本申请能提高生成样本的质量。本申请能提高生成样本的质量。本申请能提高生成样本的质量。

【技术实现步骤摘要】
一种样本生成方法、装置、终端设备及介质


[0001]本申请属于数据处理
,尤其涉及一种样本生成方法、装置、终端设备及介质。

技术介绍

[0002]不平衡数据集是指数据集中各个类别的样本数量相差巨大。以二分类问题为例,如果负类样本数量远大于正类样本数量,那么分类结果会偏向负类,对正类的误分率较高。实际上如果数据集的不平衡比例超过4:1,分类器就会偏向于数量大的类别,而在超不平衡数据集中,正类在数据集中的占比通常都会低于百分之一,此类问题在医疗领域尤为突出。
[0003]在医疗领域,疾病样本(正类样本)的占比往往远低于正常样本(负类样本)的占比,这将极大影响后续对疾病的识别,从而危害患者的健康。
[0004]为解决此类问题,本领域技术人员采用了合成少数类过采样方法(SMOTE,Synthetic Minority Oversampling Technique)来增加负类样本的数量,来让数据集达到平衡,从而避免上述问题。但是,目前的样本生成方法生成的样本质量不高,会导致后续的分类结果存在不确定性和随机性,影响分类器的效果。...

【技术保护点】

【技术特征摘要】
1.一种样本生成方法,其特征在于,包括:步骤1,对不平衡的诊断样本集进行划分,得到疾病样本集和正常样本集;步骤2,分别计算所述疾病样本集的协方差和熵,将所述协方差和所述熵加入所述疾病样本集的特征矩阵,并根据所述特征矩阵构建梯度提升树模型;其中,所述梯度提升树模型包括多个决策树,所述决策树的叶子节点与所述特征矩阵中的特征一一对应;步骤3,根据所述梯度提升树模型,结合所述疾病样本集的熵,分别计算所述多个特征中每个特征的分裂贡献度和熵差分,得到所述特征的特征权重;其中,所述分裂贡献度和所述熵差分均用于表征所述特征的重要性;步骤4,构建所述疾病样本集对应的初始种群;其中,所述初始种群的种群个体与所述疾病样本集中的疾病样本一一对应;步骤5,根据所述协方差、所述熵以及所述特征权重,得到所述初始种群对应的第一演化概率;所述第一演化概率用于表征所述初始种群中种群个体的重要性;步骤6,根据所述第一演化概率,对所述初始种群进行演化,得到中间种群,并计算所述中间种群对应的第二演化概率;步骤7,根据所述第一演化概率和所述第二演化概率,判断所述中间种群是否满足预设演化终止条件;步骤8,若所述中间种群满足预设演化终止条件,则将所述中间种群作为新的疾病样本集;否则,将所述中间种群作为所述步骤6中的初始种群,返回执行步骤6。2.根据权利要求1所述的样本生成方法,其特征在于,所述步骤3包括:通过计算公式得到所述分裂贡献度;其中,表示第个特征在第个决策树上的分裂贡献度,,表示所述疾病样本集中特征的总数量,表示第个决策树上的叶子节点,表示第个疾病样本的第个特征,,表示所述疾病样本集中疾病样本的总数量,表示第个特征在第个决策树上的最佳分裂点,表示第个疾病样本,表示除以外的其他疾病样本;通过计算公式通过计算公式得到所述熵差分;其中,表示第个特征的熵差分,表示所述疾病样本集的熵,表示所述疾病样本集去除第个特征后的熵,表示从所述疾病样本
集中取出第个疾病样本的概率;分别针对每个特征,执行以下步骤:根据所述分裂贡献度和所述协方差,得到所述特征的方差贡献度;所述方差贡献度用于表征所述特征的重要性;根据所述熵差分和所述方差贡献度,得到所述特征的特征权重。3.根据权利要求2所述的样本生成方法,其特征在于,所述根据所述分裂贡献度和所述协方差,得到所述特征的方差贡献度,包括:通过计算公式通过计算公式通过计算公式得到所述方差贡献度;其中,表示第个特征的方差贡献度,表示所述协方差。4.根据权利要求3所述的样本生成方法,其特征在于,所述根据所述熵差分和所述方差贡献度,得到所述特征的特征权重,包括:通过计算公式,得到所述特征权重;其中,表示第个特征的特征权重,表示超参数,用于控制所述熵差分的权重和所述方差贡献度的权重,。5.根据权利要求4所述的样本生成方法,其特征在于,所述步骤5包括:通过计算公式得到所述第一演化概率;其中,表示标准化系数,,表示特征权重集合,,表示概率密度,表示指...

【专利技术属性】
技术研发人员:刘星宝李鑫刘庆东刘利枚杨俊丰李沁张震
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1