一种高斯过程回归树分类器多元合金异常数据识别方法技术

技术编号:34840992 阅读:17 留言:0更新日期:2022-09-08 07:37
本发明专利技术公开了一种高斯过程回归树分类器多元合金异常数据识别方法:高斯过程回归树分类器异常数据识别方法(英文名:Tree

【技术实现步骤摘要】
一种高斯过程回归树分类器多元合金异常数据识别方法


[0001]本专利技术涉及机器学习算法中数据预处理
,特别涉及一种高斯过程回归树分类器多元合金异常数据识别方法。

技术介绍

[0002]越来越多的数据被收集并存储在数据库中,从而增加了对有效分析方法的需求,以高效挖掘数据中的信息。不同的数据来源,数据测试标准,数据记录标准,都会影响数据集合的一致性和稳定性,使得无法直接进行机器学习,或者学习的结果差强人意。为提高数据挖掘的质量和效率,从而产生的诸如异常数据识别,数据模式挖掘,等数据预处理方式大大提高了数据的质量,降低了机器学习难度。
[0003]绝大多数的数据预处理方式都是无监督的,例如统计分析,异常数据识别等方法,依据数据在特征空间的分布情况,来选取数据的有效特征和分离大噪声离群数据。高斯过程回归树分类器方法,是一种基于随机过程假设的有监督的数据预处理方法。在多元混合高斯分布的框架下,通过数据之间体现出的高斯关联性来分割数据集合。在数据评估中证实了本方法可以高效地区分数据之间关联性的差异,从而提升数据总体的拟合精度,降低机器学习的数据挖掘难度。本方法充分地利用了数据的有效标签信息,可用于数据异常识别,数据关联模式识别等常见的数据预处理任务之中。

技术实现思路

[0004]专利技术目的:本专利技术所要解决的技术问题是:利用数据之间高斯关联性来识别数据之间关联模式的差异,划分数据集合以强化数据规律,从而挖掘出更多数据中的有效信息。可用于对大噪声小样本数据集,这类学习难度高的小数据集进行异常数据识别,降低机器学习模型的拟合难度。也可用对稀疏数据集合进行划分,强化类内数据关联,方便在不同数据集合上采用不同的分布形式来描述数据,达到分而治之的目的。
[0005]技术方案:本专利技术为解决上述技术问题采用以下技术方案:一种高斯过程回归树分类器多元合金异常数据识别方法,所述方法包括如下步骤:
[0006]步骤1:收集多元合金的机械性能测试数据集;
[0007]步骤2:通过比较全局高斯无序因子的期望降低的大小,在原始数据中划分出一个最佳的初始数据集合,计算并储存该初始数据集合的留一法交叉验证结果的皮尔逊相关系数R;
[0008]步骤3:通过比较全局高斯无序因子的期望降低的大小,以固定的个数依次地将剩余的数据添加到初始数据集合中,计算并储存新的数据集合的留一法交叉验证结果的皮尔逊相关系数R;
[0009]步骤4:每进行一次数据的添加,形成新数据集合后,判断新数据集合的拟合优度是否达到了精度的收敛标准,若达到收敛标准则停止,输出当前扩容后的数据集合;否则继续向数据集合中添加数据直至达到精度的收敛标准,其中,将留一法交叉验证结果的皮尔
逊相关系数R作为拟合优度。
[0010]进一步的,所述步骤1具体方法如下:收集高熵合金的机械性能测试数据集;将收集的原始数据的总数标记为n,其中每个数据都包括合金的组成成分,以及合金测试的机械性能值。
[0011]进一步的,所述步骤2具体方法如下:
[0012]步骤2.1)确定初始数据集合的容量大小m,其中,3≤m≤n;
[0013]步骤2.2)通过以下的任意一种方式得到初始数据集合;
[0014](1)预设一个包含m个数据的初始数据集合,(2)比较原始数据中,所有可能存在的容量为m的数据集合,选择全局高斯无序因子的期望下降最大的一个数据集合做为初始数据集合,原始数据集合包含n个数据,其中任意地选择m个数据可以组成种不同的初始数据集合:若则通过公式(1)

(3)计算所有个不同的数据集合的全局高斯无序因子的期望下降,选择其中全局高斯无序因子的期望下降最大的一个数据集合作为初始数据集合,若则在种随机采样106个不同的数据集合,选取这106个数据集合中全局高斯无序因子的期望下降最大的一个数据集合作为初始数据集合;
[0015]使用嵌入高斯径向基核函数的高斯过程回归模型对数据集合进行拟合,拟合数据集合后,高斯过程回归模型根据所拟合的数据集合中数据的特点,通过最大似然的方法优化模型的内部参数,建立起该数据集合中数据的合金成分和合金机械性能之间的映射关系,在拟合的过程中使用留一法交叉验证的方法,得到所拟合的数据集合的训练集上的负对数似然的均值NL,交叉验证的皮尔逊相关系数R,训练集上优化后的高斯核函数的尺度参数的均值ls,以及高斯过程回归模型预报的合金机械性能的标准差的平均值σ
i
,其中,训练集和测试集在拟合过程中由留一法交叉验证方法自动划分,通过上述四个参数的组合表征不同的数据集合内数据的高斯关联性大小,即全局高斯无序因子,即GGMF,如公式(1):
[0016][0017]其中,ln(
·
)表示对数运算,将σ
i
和GGMF带入公式(2),计算全局高斯无序因子的期望降低:
[0018][0019]其中,E(
·
)表示对括号中函数求取期望,max[Δ,0]表示取Δ和0两者之中的最大值,φ(
·
)和分别为标准正态函数的累积概率密度函数和概率密度分布函数,Δ由公式(3)计算:
[0020]Δ=GGMF
ref

GGMF
ꢀꢀꢀ
(3)
[0021]其中,GGMF为当前数据集合上的全局高斯无序因子,由公式(1)计算,GGMF
ref
为定义的参考全局高斯无序因子,初始值设为1
×
10
15

[0022]步骤2.3)得到的初始数据集合后,计算出初始集合的全局高斯无序因子并赋值给GGMF
ref
,存储初始数据集合的留一法交叉验证结果的皮尔逊相关系数R。
[0023]进一步的,所述步骤3具体方法如下:
[0024]步骤3.1)原始数据集合的容量为n,挑选出的初始数据集合的容量为m,则首次向
初始数据集合中添加p个数据时,共形成个不同的新数据集合,M为数据集合的容量,即数据集合已经包含的数据的总数,对于初始数据集合M=m,若通过公式(1)

(3)计算所有个不同的新数据集合的全局高斯无序因子的期望下降,选择其中全局高斯无序因子的期望下降最大的一个数据集合作为添加数据后的新集合,若则在种情况中随机采样106个不同的数据集合,选取这106个数据集合中全局高斯无序因子的期望下降最大的一个数据集合作为添加数据后的新集合;
[0025]步骤3.2)得到更新后的数据集合,将数据集合容量M更新为M+p,计算出新集合的全局高斯无序因子并赋值给GGMF
ref

[0026]步骤3.3)存储新数据集合的留一法交叉验证的皮尔逊相关系数R。
[0027]进一步的,所述步骤4具体方法如下:
[0028]步骤4.1)数据容量发生变化后产生新数据集合,将新数据集合的留一法交叉验证拟合精度R和收敛标准η(max(R
i
...

【技术保护点】

【技术特征摘要】
1.一种高斯过程回归树分类器多元合金异常数据识别方法,其特征在于,所述方法包括如下步骤:步骤1:收集多元合金的机械性能测试数据集;步骤2:通过比较全局高斯无序因子的期望降低的大小,在步骤(1)的原始数据中划分出一个最佳的初始数据集合,计算并储存该初始数据集合的留一法交叉验证结果的皮尔逊相关系数R;步骤3:通过比较全局高斯无序因子的期望降低的大小,以固定的个数依次地将剩余的数据添加到初始数据集合中,计算并储存新的数据集合的留一法交叉验证结果的皮尔逊相关系数R;步骤4:每进行一次数据的添加,形成新数据集合后,判断新数据集合的拟合优度是否达到了精度的收敛标准,若达到收敛标准则停止,输出当前扩容后的数据集合;否则继续向数据集合中添加数据直至达到精度的收敛标准,其中,将留一法交叉验证结果的皮尔逊相关系数R作为拟合优度。2.根据权利要求1所述的一种高斯过程回归树分类器多元合金异常数据识别方法,其特征在于,所述步骤1具体方法如下:收集多元合金的机械性能测试数据集;将收集的原始数据的总数标记为n,其中每个数据都包括合金的组成成分配比,以及对应合金测试的机械性能值。3.根据权利要求2所述的一种高斯过程回归树分类器多元合金异常数据识别方法,其特征在于,所述步骤2具体方法如下:步骤2.1)确定初始数据集合的容量大小m,其中,3≤m≤n;步骤2.2)通过以下的任意一种方式得到初始数据集合;(1)预设一个包含m个数据的初始数据集合,(2)比较原始数据中,所有可能存在的容量为m的数据集合,选择全局高斯无序因子的期望下降最大的一个数据集合做为初始数据集合,原始数据集合包含n个数据,其中任意地选择m个数据可以组成种不同的初始数据集合:若则通过公式(1)

(3)计算所有个不同的数据集合的全局高斯无序因子的期望下降,选择其中全局高斯无序因子的期望下降最大的一个数据集合作为初始数据集合,若则在种随机采样106个不同的数据集合,选取这106个数据集合中全局高斯无序因子的期望下降最大的一个数据集合作为初始数据集合;使用嵌入高斯径向基核函数的高斯过程回归模型对数据集合进行拟合,拟合数据集合后,高斯过程回归模型根据所拟合的数据集合中数据的特点,通过最大似然的方法优化模型的内部参数,建立起该数据集合中数据的合金成分和合金机械性能之间的映射关系,在拟合的过程中使用留一法交叉验证的方法,得到所拟合的数据集合的训练集上的负对数似然的均值NL,交叉验证的皮尔逊相关系数R,训练集上优化后的高斯核函数的尺度参数的均值ls,以及高斯过程回归模型预报的合金机械性能的标准差的平均值σ
i
,其中,训练集和测试集在拟合过程中由留一法交叉验证方法自动划分,通过上述四个参数的组合表征不同的数据集合内数据的高斯关联性大小,即全局高斯无序因子,即GGMF,如公式(1):
其中,ln(
·
)表示对数运算,将σ
i...

【专利技术属性】
技术研发人员:张统一曹斌元皓魏清华董自强
申请(专利权)人:之江实验室云南锡业集团控股有限责任公司研发中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1