【技术实现步骤摘要】
基于数据校正的机器学习模型训练方法及系统
[0001]本专利技术涉及量子化学领域和机器学习中的模型训练领域,并特别涉及一种基于数据校正的机器学习模型训练方法及系统。
技术介绍
[0002]机器学习任务一般可分为两大类:分类与回归。本专利技术申请主要讨论回归问题。回归一般是指对某一函数已知数据进行拟合,进而预测某些数据。简单举例已知点(1,1)(2,2)(3,3)(4,4)使用y=x进行拟合后,当遇到新的自变量5时,会给出相应的回归值5。这一技术在各种科研领域广泛使用。
[0003]目前常用的训练模型方法是将所有数据分为3个集合:训练集(training)、验证集(validation)和测试集(test)。使用训练集训练得到机器学习模型,使用验证集来判断机器学习模型的训练效果,决定何时停止训练,使用测试集最终评价机器学习模型的效果。整个训练过程中,测试集不能干扰训练。
[0004]在量子化学及其他相关领域,针对同一实验输入,会有多种不同的理论计算方法,他们有着不同的精度,即存在不同的系统误差。这里系统误差指理 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据校正的机器学习模型训练方法,其特征在于,包括:步骤1、对目标进行测量,得到该目标属性的测量数据集,并依次使用多个模拟计算方法生成该目标属性的计算结果,集合每个模拟计算方法对应的计算结果,得到各模拟计算方法的计算数据集,并将各计算数据集和该测量数据集划分为训练集、验证集和测试集,分别将该训练集和验证集作为第一集合和第二集合;步骤2、使用该第一集合训练指定机器学习模型对该目标进行测量,并通过该第二集合检测机器学习模型的训练效果,以停止训练并得到中间模型;步骤3、使用该中间模型对该目标进行测量,得到中间结果,使用该中间结果对该训练集进行数据校正,并将校准后的训练集作为该第一集合,再次执行该步骤2,直到该中间模型的误差收敛或达到预设误差范围,停止训练,保存当前中间模型作为最终测试模型。2.如权利要求1所述的基于数据校正的机器学习模型训练方法,其特征在于,该数据校正包括:使用该中间结果和训练集中所有数据的平均值作为新目标值更训练集;或使用该中间结果和训练集中部分数据的平均值作为新目标值更训练集;或将训练集中误差超过指定范围的数值直接用中间结果进行替换;或训练集中数据加上该中间模型的误差的平均值。3.如权利要求1所述的基于数据校正的机器学习模型训练方法,其特征在于,该计算结果为目标物质的自由能或光学折射率或屈服强度或介电常数或禁带宽度。4.如权利要求1所述的基于数据校正的机器学习模型训练方法,其特征在于,步骤2中训练采用对指定损失函数的常规梯度下降法,且步骤2包括使用测试集评价得到该中间模型的误差。5.如权利要求1所述的基于数据校正的机器学习模型训练方法,其特征在于,该误差为数据集整体平均误差MAE或均方误差MSE。6.一种基于数据校正的机器学习模型训练系统,...
【专利技术属性】
技术研发人员:温晓东,刘晓彤,张天釜,郭文平,周余伟,
申请(专利权)人:中国科学院山西煤炭化学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。