System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 高维数据的预测模型生成方法、装置、设备和存储介质制造方法及图纸_技高网

高维数据的预测模型生成方法、装置、设备和存储介质制造方法及图纸

技术编号:41010421 阅读:3 留言:0更新日期:2024-04-18 21:46
本发明专利技术公开了高维数据的预测模型生成方法、设备和存储介质,所述方法包括步骤:降低高维不平衡数据的维度,包括:对所述数据的所有特征按照影响程度从高到低进行排序,并通过计算累积重要程度的方式从特征集中提取出累积重要程度值大于预设值的特征子集;确定各个类的聚类中心后,分别计算每一类的数据集的超球面的半径;根据超球面的半径计算各类对应的空间分散度;在建立预测模型时,用空间分散度对支持向量机的惩罚因子进行修正。由于本发明专利技术对数据进行了降维并考虑了数据点在空间的聚集和分散情况对分类结果的影响,因此获得了更好的分类效果。

【技术实现步骤摘要】

本专利技术涉及数据分析领域,特别涉及高维数据的预测模型生成方法、装置、设备和存储介质


技术介绍

1、不平衡数据分类问题其产生的原因包括,大多数分类学习方法都有一个共同的基本假设,即不同类别的训练样本数目相当;如果不同类别的训练样例数目稍有差别,通常影响不大,但是在不同类别的训练样例的数目差别很大是,就会对学习过程造成困扰。

2、现有技术处理不平衡数据分类问题时,包括阈值移动法,即,通过调整不同类数据集数目的比值作为惩罚系数,以降低分类结果偏向多数类的程度,进而达到解决类不平衡的目的。

3、专利技术人经过研究发现,现有技术中的阈值移动法至少还存在以下缺陷:

4、单纯的调整不同类数据集数目的比值来作为惩罚系数,无法获得良好的分类效果。

5、公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。


技术实现思路

1、本专利技术的目的在于可以使分类预测模型获得更好的分类效果。

2、本专利技术提供了一种高维数据的预测模型生成方法,所述高维数据为不平衡数据,包括步骤:

3、s11、降低数据的维度,包括:对所述数据的所有特征按照影响程度从高到低进行排序,并通过计算累积重要程度的方式从特征集中提取出累积重要程度值大于预设值的特征子集;

4、s12、确定各个类的聚类中心后,分别计算每一类的数据集的超球面的半径;

<p>5、s13、根据超球面的半径计算各类对应的空间分散度;

6、s14、在建立预测模型时,用所述空间分散度对支持向量机的惩罚因子进行修正。

7、优选的,在本专利技术中,还包括:

8、s15、将预设的验证数据集输入至当前的预测模型,收集预测错误的少类样本;

9、s16、当所述预测错误的少类样本大于预设值时,返回步骤s12。

10、优选的,在本专利技术中,还包括数据后处理-去噪的步骤,包括:

11、s17、收集预测错误的少类样本,构成错误预测集perr;

12、s18、对于每个少类样本xi∈perr,计算临近点集合np(xi),其中np(xi)是距离xi欧氏距离最近的k个数据点组成的数据集;

13、s19、在perr中移除临近点全是多类样本的少类数据点,得到错误过滤预测集pmerr。

14、优选的,在本专利技术中,所述降低数据的维度,包括:

15、s101、采用knn算法对高维数据中影响目标函数的各个特征按照影响程度进行排序;

16、s102、计算各所述特征的累积重要程度,并得到筛选得到只包括累积重要程度值大于预设值的特征的优选特征集;

17、s103、根据所述优选特征集对所述高维数据降维。

18、优选的,在本专利技术中,所述确定各个类的聚类中心后,分别计算每一类的数据集的超球面的半径,包括:

19、s201、确定不同类的聚类中心,并分别计算各数据点到其对应的聚类中心的欧式距离;

20、s202、确定距离聚类中心最近和最远数据点的位置;

21、s203、分别计算每一类的数据集的超球面的有效半径;所述有效半径为滤除所述数据集中距聚类中心远且数量占比小的数据点后剩余数据点构成的数据子集的超球面半径;

22、优选的,在本专利技术中,所述分别计算每一类的数据集的超球面的有效半径,包括:

23、s301、分别找到距离聚类中心最近数据点和最远数据点的位置,设最近数据点的距离为lnear,最远数据点的距离为lfar;

24、s302、设所述数据集的数据点数目为n,以lnear作为初始起点,以lfar为初始终点,设l1=lnear,l2=lfar,初始计算数据点的数量为:n’=n;

25、s303、令

26、s304、分别统计落入区间内数据点的数目,记录为m1、m2;

27、s305、判断m1是否大于0.8n′,若是执行步骤s306;若否,执行步骤s307;

28、s306、令l1=l1,′

29、n′=m1;

30、s307、令l2=l2,n′=m2;

31、s308、判断n′是否大于0.01n,若是,返回步骤s303;若否,确定当前l2的值为超级球面的有效半径r的值。

32、优选的,在本专利技术中,用于计算各类对应的空间分散度的公式包括:

33、

34、其中,rmax为最大半径,h为类别数,n为数据集维度。

35、优选的,在本专利技术中,所述在建立预测模型时,用所述空间分散度对支持向量机的惩罚因子进行修正,包括:

36、用空间分散度对支持向量机的惩罚因子进行修正,得到目标函数为:

37、

38、其中,c为惩罚因子,无因次;fj为空间分散度,无因次;ξi为松弛变量,表征软间隔软的程度,无因次;h为分类数,无因次;ω是超平面斜率,无因次;

39、此时,所述目标函数可表示为:

40、

41、在本专利技术的另一面,还提供了一种高维数据的预测模型生成装置,所述高维数据为不平衡数据,包括:

42、降维单元,用于降低数据的维度,包括:对所述数据的所有特征按照影响程度从高到低进行排序,并通过计算累积重要程度的方式从特征集中提取出累积重要程度值大于预设值的特征子集;

43、半径计算单元,用于确定各个类的聚类中心后,分别计算每一类的数据集的超球面的半径;

44、分散度计算单元,用于根据超球面的半径计算各类对应的空间分散度;

45、惩罚因子修正单元,用于在建立预测模型时,用所述空间分散度对支持向量机的惩罚因子进行修正。

46、优选的,在本专利技术中,还包括:

47、模型修正单元,用于将预设的验证数据集输入至当前的预测模型,收集预测错误的少类样本;并当所述预测错误的少类样本大于预设值时,返回所述有效半径计算单元。

48、优选的,在本专利技术中,还包括:

49、后处理单元,用于收集预测错误的少类样本,构成错误预测集perr;对于每个少类样本xi∈perr,计算临近点集合np(xi),其中np(xi)是距离xi欧氏距离最近的k个数据点组成的数据集;在perr中移除临近点全是多类样本的少类数据点,得到错误过滤预测集pmerr。

50、在本专利技术实施例的另一面,还提供了一种高维数据的预测模型生成设备,包括:

51、存储器,用于存储计算机程序;

52、处理器,用于调用并执行所述计算机程序,以实现如上任一项所述的高维数据的预测模型生成方法的各个步骤。

53、在本专利技术实施例的另一面,还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的高维数本文档来自技高网...

【技术保护点】

1.一种高维数据的预测模型生成方法,所述高维数据为不平衡数据,其特征在于,包括步骤:

2.根据权利要求1所述的高维数据的预测模型生成方法,其特征在于,还包括:

3.根据权利要求1或2所述的高维数据的预测模型生成方法,其特征在于,还包括数据后处理-去噪的步骤,包括:

4.根据权利要求3所述的高维数据的预测模型生成方法,其特征在于,所述降低数据的维度,包括:

5.根据权利要求1所述的高维数据的预测模型生成方法,其特征在于,所述确定各个类的聚类中心后,分别计算每一类的数据集的超球面的半径,包括:

6.根据权利要求5所述的高维数据的预测模型生成方法,其特征在于,所述分别计算每一类的数据集的超球面的有效半径,包括:

7.根据权利要求1所述的高维数据的预测模型生成方法,其特征在于,用于计算各类对应的空间分散度的公式包括:

8.根据权利要求7所述的高维数据的预测模型生成方法,其特征在于,所述在建立预测模型时,用所述空间分散度对支持向量机的惩罚因子进行修正,包括:

9.一种高维数据的预测模型生成装置,所述高维数据为不平衡数据,其特征在于,包括:

10.根据权利要求9所述的高维数据的预测模型生成装置,其特征在于,还包括:

11.根据权利要求10所述的高维数据的预测模型生成装置,其特征在于,还包括:

12.一种高维数据的预测模型生成设备,其特征在于,包括:

13.一种存储介质,其特征在于,包括软件程序,所述软件程序适于由处理器执行如权利要求1-8中任一所述高维数据的预测模型生成方法的步骤。

...

【技术特征摘要】

1.一种高维数据的预测模型生成方法,所述高维数据为不平衡数据,其特征在于,包括步骤:

2.根据权利要求1所述的高维数据的预测模型生成方法,其特征在于,还包括:

3.根据权利要求1或2所述的高维数据的预测模型生成方法,其特征在于,还包括数据后处理-去噪的步骤,包括:

4.根据权利要求3所述的高维数据的预测模型生成方法,其特征在于,所述降低数据的维度,包括:

5.根据权利要求1所述的高维数据的预测模型生成方法,其特征在于,所述确定各个类的聚类中心后,分别计算每一类的数据集的超球面的半径,包括:

6.根据权利要求5所述的高维数据的预测模型生成方法,其特征在于,所述分别计算每一类的数据集的超球面的有效半径,包括:

7.根据权利要求1所述的高维数据...

【专利技术属性】
技术研发人员:花靖蒋秀逄铭玉于超谷成林靳彦欣傅建斌
申请(专利权)人:中国石油化工股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1