【技术实现步骤摘要】
一种高斯过程回归树分类器多元合金异常数据识别方法
[0001]本专利技术涉及机器学习算法中数据预处理
,特别涉及一种高斯过程回归树分类器多元合金异常数据识别方法。
技术介绍
[0002]越来越多的数据被收集并存储在数据库中,从而增加了对有效分析方法的需求,以高效挖掘数据中的信息。不同的数据来源,数据测试标准,数据记录标准,都会影响数据集合的一致性和稳定性,使得无法直接进行机器学习,或者学习的结果差强人意。为提高数据挖掘的质量和效率,从而产生的诸如异常数据识别,数据模式挖掘,等数据预处理方式大大提高了数据的质量,降低了机器学习难度。
[0003]绝大多数的数据预处理方式都是无监督的,例如统计分析,异常数据识别等方法,依据数据在特征空间的分布情况,来选取数据的有效特征和分离大噪声离群数据。高斯过程回归树分类器方法,是一种基于随机过程假设的有监督的数据预处理方法。在多元混合高斯分布的框架下,通过数据之间体现出的高斯关联性来分割数据集合。在数据评估中证实了本方法可以高效地区分数据之间关联性的差异,从而提升数据总体的拟合精度,降低机器学习的数据挖掘难度。本方法充分地利用了数据的有效标签信息,可用于数据异常识别,数据关联模式识别等常见的数据预处理任务之中。
技术实现思路
[0004]专利技术目的:本专利技术所要解决的技术问题是:利用数据之间高斯关联性来识别数据之间关联模式的差异,划分数据集合以强化数据规律,从而挖掘出更多数据中的有效信息。可用于对大噪声小样本数据集,这类学习难度高的小数据集进行异常数
【技术保护点】
【技术特征摘要】
1.一种高斯过程回归树分类器多元合金异常数据识别方法,其特征在于,所述方法包括如下步骤:步骤1:收集多元合金的机械性能测试数据集;步骤2:通过比较全局高斯无序因子的期望降低的大小,在步骤(1)的原始数据中划分出一个最佳的初始数据集合,计算并储存该初始数据集合的留一法交叉验证结果的皮尔逊相关系数R;步骤3:通过比较全局高斯无序因子的期望降低的大小,以固定的个数依次地将剩余的数据添加到初始数据集合中,计算并储存新的数据集合的留一法交叉验证结果的皮尔逊相关系数R;步骤4:每进行一次数据的添加,形成新数据集合后,判断新数据集合的拟合优度是否达到了精度的收敛标准,若达到收敛标准则停止,输出当前扩容后的数据集合;否则继续向数据集合中添加数据直至达到精度的收敛标准,其中,将留一法交叉验证结果的皮尔逊相关系数R作为拟合优度。2.根据权利要求1所述的一种高斯过程回归树分类器多元合金异常数据识别方法,其特征在于,所述步骤1具体方法如下:收集多元合金的机械性能测试数据集;将收集的原始数据的总数标记为n,其中每个数据都包括合金的组成成分配比,以及对应合金测试的机械性能值。3.根据权利要求2所述的一种高斯过程回归树分类器多元合金异常数据识别方法,其特征在于,所述步骤2具体方法如下:步骤2.1)确定初始数据集合的容量大小m,其中,3≤m≤n;步骤2.2)通过以下的任意一种方式得到初始数据集合;(1)预设一个包含m个数据的初始数据集合,(2)比较原始数据中,所有可能存在的容量为m的数据集合,选择全局高斯无序因子的期望下降最大的一个数据集合做为初始数据集合,原始数据集合包含n个数据,其中任意地选择m个数据可以组成种不同的初始数据集合:若则通过公式(1)
‑
(3)计算所有个不同的数据集合的全局高斯无序因子的期望下降,选择其中全局高斯无序因子的期望下降最大的一个数据集合作为初始数据集合,若则在种随机采样106个不同的数据集合,选取这106个数据集合中全局高斯无序因子的期望下降最大的一个数据集合作为初始数据集合;使用嵌入高斯径向基核函数的高斯过程回归模型对数据集合进行拟合,拟合数据集合后,高斯过程回归模型根据所拟合的数据集合中数据的特点,通过最大似然的方法优化模型的内部参数,建立起该数据集合中数据的合金成分和合金机械性能之间的映射关系,在拟合的过程中使用留一法交叉验证的方法,得到所拟合的数据集合的训练集上的负对数似然的均值NL,交叉验证的皮尔逊相关系数R,训练集上优化后的高斯核函数的尺度参数的均值ls,以及高斯过程回归模型预报的合金机械性能的标准差的平均值σ
i
,其中,训练集和测试集在拟合过程中由留一法交叉验证方法自动划分,通过上述四个参数的组合表征不同的数据集合内数据的高斯关联性大小,即全局高斯无序因子,即GGMF,如公式(1):
其中,ln(
·
)表示对数运算,将σ
i...
【专利技术属性】
技术研发人员:张统一,曹斌,元皓,魏清华,董自强,
申请(专利权)人:之江实验室云南锡业集团控股有限责任公司研发中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。