当前位置: 首页 > 专利查询>天津大学专利>正文

一种评估机器学习势能面特征工程效果的方法技术

技术编号:39833712 阅读:24 留言:0更新日期:2023-12-29 16:16
一种评估机器学习势能面特征工程效果的方法,包括:生成特征工程检验数据集:旋转检验数据集

【技术实现步骤摘要】
一种评估机器学习势能面特征工程效果的方法


[0001]本专利技术涉及一种势能面特征工程评估方法

特别是涉及一种评估机器学习势能面特征工程效果的方法


技术介绍

[0002]势能面
(potential energy surface

PES)
是一种在化学

物理和材料科学中用于研究反应动力学的理论模型

其基本思想是将某一反应系统的状态点
(
包括温度

压力和物质浓度等参数
)
看作是一个多维势能函数的函数值,并以某种方式描述出该势能函数在不同状态点之间的变化,从而推导出反应的动力学过程

[0003]机器学习势能面模型
(Machine learning potential energy surface model,ML

PES model)
指用于预测分子系统的性质的机器学习模型

它通过利用机器学习算法来学习势能面,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种评估机器学习势能面特征工程效果的方法,其特征在于,包括如下步骤:
1)
生成特征工程检验数据集所述的生成特征工程检验数据集中,包括分别生成:旋转检验数据集

平移检验数据集

置换检验数据集

灵敏度检验数据集和一致连续性检验数据集5个专项检验数据集,每个检验数据集都包括有1个以上体系的数据,每个体系的数据都包括有体系的原子坐标数据和元素数据;
2)
采用特征工程计算特征工程检验数据集的5个专项检验数据集中一个以上的专项检验数据集内每个体系的输出,进行结果统计并评估特征工程,具体是采用下面一项或多项方式进行:第一项:验证特征工程的旋转对称性;第二项:验证特征工程的平移对称性;第三项:验证特征工程的置换对称性;第四项:验证特征工程的灵敏度;第五项:验证特征工程的一致连续性;
3)
统计特征工程检验数据集内不同数据集间的评估结果,给出特征工程整体评价;其中:所述统计的方法包括:对单个数据集中的评估结果是采用距离相加法

满足要求的体系取交集后的数量占整个特征工程检验数据集的比例法

满足所有检验项目的最低计算精度或参数范围法,或单个物理化学等价的体系系列输出的整体方差或标准差法,或单个物理化学不等价的体系系列输出的整体方差或标准差法,或对所有评估项目进行逐项计分法中的一种或多种进行统计;所述整体评价包括:对旋转对称性

平移对称性

置换对称性

灵敏度

一致连续性中的一项或多项进行评价;对不同的特征工程给出评价时,若不同的特征工程给出了相同的评价,则采用验证增强方法进一步验证
。2.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法,其特征在于,步骤
1)
所述的生成旋转检验数据集的数据是,对于指定的体系,以所述体系坐标空间的任一点为中心,选择任意方向作为轴,进行任意角度

设定次数的旋转,每旋转一次生成一个所述体系的原子坐标数据和元素数据,并保存在旋转检验数据集中
。3.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法,其特征在于,步骤
1)
所述的生成平移检验数据集的数据是,对于指定的体系,以所述体系坐标空间任意方向作为平移方向,进行任意距离

设定次数的平移,每平移一次生成一个所述体系的原子坐标数据和元素数据,并保存在旋转检验数据集中
。4.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法,其特征在于,步骤
1)
所述的生成置换检验数据集的数据是,对于指定的体系,采用长度与所述体系所含原子数相同的序列,对所述体系中的原子数进行设定次数的打乱排序得到设定个序列,所得到的设定个序列均不相同,每次打乱排序都将该体系当前的原子坐标数据和元素数据的顺序同时更新为新的序列,并将每次打乱排序得到的原子坐标数据和元素数据保存在置换检验数据集中;
若指定的体系为周期性体系,采用长度与所述体系所含原始晶胞中的原子数相同的序列,对所述体系的原始晶胞中的原子数进行设定次数的打乱排序得到设定个序列,所得到的设定个序列均不相同,每次打乱排序都将该体系当前的原子坐标数据和元素数据同时更新为新的序列,并将每次打乱排序得到的原子坐标数据和元素数据保存在置换检验数据集中
。5.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法,其特征在于,步骤
1)
所述的生成灵敏度检验数据集的数据是,对于指定的体系,采用分子动力学采样

随机产生体系坐标或对体系原子坐标进行微扰3种方法中的1种或多种方法,生成若干不重复的原子坐标数据和元素数据,并保存在灵敏度检验数据集的数据中;所述的灵敏度检验数据集中每两个体系间坐标的差值要大于体系坐标采用的数值类型的误差阈值
。6.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法,其特征在于,步骤
1)
所述的生成一致连续性检验数据集的数据是,对于指定的体系,对体系原子坐标进行微扰生成若干不重复的原子坐标数据和元素数据,并保存在一致连续性检验数据集的数据中;所述的一致连续性检验数据集中,每两个体系间坐标的差值要小于该两个体系间坐标中绝对值大的那个值,要大于体系坐标采用的数值类型的误差阈值
。7.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法,其特征在于,步骤
2)
所述的第一项:验证特征工程的旋转对称性,包括:
(1)
分别使用特征工程默认的计算精度和参数范围对旋转检验数据集中的不同原子坐标数据和元素数据进行计算,得到特征工程输出;
(2)
对特征工程输出进行两两间的对比和对整个旋转检验数据集的统计,给出特征工程的旋转对称性评估结果;所述两两间对比的方法包括:差值法

比值法

差值对原体系输出的比值法

计算旋转变换前后特征工程输出在测度空间内的距离法这4种方法中的一种或多种;所述对整个旋转检验数据集统计的方法包括:体系的原子坐标数据和元素数据的特征工程输出在测度空间内的距离法,或满足对称性要求的体系数量占整个旋转检验数据集的比例法,或旋转检验数据集内所有体系满足对称性所要求的最低计算精度或参数范围法,或单个物理化学等价的体系系列输出的整体方差或标准差统计值法;旋转对称性评估结果由统计结果中旋转对称性高低决定,有如下四种评估结果:
(a)
当多个体系的数据的特征工程输出值中,满足旋转对称性要求的体系数量占整个旋转检验数据集的比例大于等于设定的比例值时,视为特征工程满足旋转对称性要求;否则视为特征工程不满足旋转对称性要求;
(b)
当多个体系的数据的特征工程输出值中,满足旋转对称性要求的体系数量没有达到
100
%时,则降低特征工程的计算精度,重新计算多个体系的数据的特征工程输出值,得到新的输出值,再判断新的输出值中,满足旋转对称性要求的体系数量是否达到
100
%,直到多个体系的数据的特征工程输出值全部满足旋转对称性要求,此时采用的计算精度记为所检验的特征工程满足旋转对称性要求的最高计算精度,该最高计算精度大于等于设定的计算精度值时,视为特征工程满足旋转对称性要求;否则视为特征工程不满足旋转对称性要求;
(c)
当多个体系的数据的特征工程输出值中,满足旋转对称性要求的体系数量没有达

100
%时,则缩小特征工程的参数范围,重新计算多个体系的数据的特征工程输出值,得到新的输出值,再判断新的输出值中,满足旋转对称性要求的体系数量是否达到
100
%,直到多个体系的数据的特征工程输出值全部满足旋转对称性要求,此时采用的参数范围记为所检验的特征工程满足旋转对称性要求的最大参数范围,该最大参数范围大于等于设定的参数范围时,视为特征工程满足旋转对称性要求,否则,视为特征工程不满足旋转对称性要求;在上述三种评估结果中,所述的满足旋转对称性要求,是指在测度空间内多个特征工程输出值两两之间的距离小于等于设定的距离值时,视为满足旋转对称性要求,否则视为不满足旋转对称性要求;
(d)
当多个体系的数据的特征工程输出值的整体方差统计值或标准差统计值小于等于设定的方差值或标准差值时,视为特征工程满足对称性要求,否则,视为特征工程不满足对称性要求
。8.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法,其特征在于,步骤
2)
所述的第二项:验证特征工程的平移对称性,包括:
(1)
使用平移检验数据集,分别计算不同原子坐标数据和元素数据下的特征工程输出;
(2)
对特征工程输出进行两两间的对比和对整个平移检验数据集的统计,给出特征工程的平移对称性评估结果;所述两两间对比的方法包括:差值法

比值法

差值对原体系输出的比值法

计算平移变换前后特征工程输出在测度空间内的距离法这4种方法中的一种或多种;所述对整个平移检验数据集统计的方法包括:物理化学等价体系的特征工程输出在测度空间内的距离法,或满足对称性要求的体系数量占整个平移检验数据集的比例法,或平移检验数据集内所有体系满足对称性所要求的最低计算精度或参数范围法,或单个物理化学等价的体系系列输出的整体方差或标准差统计值法;平移对称性评估结果由统计结果中平移对称性高低决定,有如下四种评估结果:
(a)
当多个体系数据的特征工程输出值中,满足平移对称性要求的体系数量占整个平移检验数据集的比例大于等于设定的比例值时,视为特征工程满足平移对称性要求;否则视为特征工程不满足平移对称性要求;
(b)
当多个体系数据的特征工程输出值中,满足平移对称性要求的体系数量没有达到
100
%时,则降低特征工程的计算精度,重新计算多个体系的原子坐标数据和元素数据的特征工程输出值,得到新的输出值,再判断新的输出值中,满足平移对称性要求的体系数量是否达到
100
%,直到多个体系的原子坐标数据和元素数据的特征工程输出值全部满足平移对称性要求,此时采用的计算精度记为所检验的特征工程满足平移对称性要求的最高计算精度,在该最高计算精度大于等于设定的计算精度值时,视为特征工程满足平移对称性要求;否则视为特征工程不满足平移对称性要求;
(c)
当多个体系数据的特征工程输出值中,满足平移对称性要求的体系数量没有达到
100
%时,则缩小特征工程的参数范围,重新计算多个体系的原子坐标数据和元素数据的特征工程输出值,得到新的输出值,再判断新的输出值中,满足平移对称性要求的体系数量是否达到
100
%,直到多个体系的原子坐标数据和元素数据的特征工程输出值全部满足平移对称性要求,此时采用的参数范围记为所检验的特征工程满足平移对称性要求的最大参数
范围,在该最大参数范围大于等于设定的参数范围时,视为特征工程满足平移对称性要求,否则视为特征工程不满足平移对称性要求;在上述三种评估结果中,所述的满足平移对称性要求,是指在测度空间内多个特征工程输出值两两之间的距离小于等于设定的距离值时,视为满足平移对称性要求,否则视为不满足平移对称性要求;
(d)
当多个体系数据的特征工程输出值的整体方差统计值或标准差统计值小于等于设定的方差值或标准差值时,视为特征工程满足平移对称性要求,否则,视为特征工程不满足平移对称性要求
。9.
根据权利要求1所述的一种评估机器学习势能面特征工程效果的方法...

【专利技术属性】
技术研发人员:赵志坚吴仕灿巩金龙裴春雷石向成
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1