System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于特征融合和数据增强的含能材料键离解能的预测方法技术_技高网
当前位置: 首页 > 专利查询>四川大学专利>正文

基于特征融合和数据增强的含能材料键离解能的预测方法技术

技术编号:40297304 阅读:6 留言:0更新日期:2024-02-07 20:45
本发明专利技术公开了基于特征融合和数据增强的含能材料键离解能的预测方法,构建含能材料键离解能BDE数据集;构建数据集中每个分子的融合描述符;将数据集划分为初始训练集和独立测试集,重复20次划分,每次划分数据后,采用数据增强方法扩充初始训练集,使用网格搜索优化XGBoost模型,采用训练好的XGBoost模型对独立测试集进行预测,以评估模型性能;20次测试结果的平均值作为模型的最终性能;得到的键离解能预测模型性能明显优于已报道的键离解能预测模型。本发明专利技术采用融合描述符,并结合数据增强策略来解决含能数据小样本对模型预测性能的限制,以提升对含能材料的键离解能的预测精度。

【技术实现步骤摘要】

本专利技术涉及含能材料键离解能,具体的说,是一种基于特征融合和数据增强的含能材料键离解能的预测方法


技术介绍

1、含能材料是在一定外界条件刺激下,能够通过化学反应瞬时释放出大量能量的物质,广泛应用于烟花、炸药和推进剂等,稳定性对于含能化合物来说至关重要,多年来,含能材料在运输、贮存、使用过程中由于无意撞击、意外点火或火灾引起的意外爆炸事故频发,给人类带来了灾难性的打击。如今,人们在追求高爆轰性能的同时,也不断致力于开发兼具良好稳定性的新型含能材料以满足国防军事等领域的未来需求。含能材料的感度是衡量其稳定性的指标,感度越大,分子受到外部刺激(如冲击、静电、摩擦、火焰等)时越容易引发反应和爆炸。然而感度的测量往往重复性较差,导致了利用实验值进行分析的困难性。此外,研究人员将冲击灵敏度与含能分子最弱键的键离解能(bde)联系起来,发现含能分子中最弱键通常是x-no2(x=c、n、o)键,其键解离能与炸药的冲击敏感性有良好的相关性,相比于实验测定感度,使用通过量化计算可获得的键离解能来表征含能分子的稳定性更加方便准确。一般来说,含能分子最弱键(即热解引发键)的bde越大,则其稳定性越好,感度越低,因此含能材料热解引发键的键离解能在含能材料的研究中具有重要意义。

2、虽然实验上可以通过各种手段测定bdes,但实验测定是一项复杂且耗时的工作,通过实验测量的已知bdes数量仅为目前注册分子数量的十万分之一,且仅有少数重原子数小于10的分子具有可用数据。基于量子化学理论的bde计算方法几乎可以实现与实验相当的准确度,目前已经成为获取键离解能的主要手段,然而想要在大规模的未知空间中寻找高稳定性的含能分子,需要花费大量的时间和高昂的计算成本,这对于新型含能分子的设计来说是不切实际的。因此,迫切需要一种高效且准确的方法,可以在广阔的搜索空间中快速筛选稳定性优异的含能材料。近年来,数据驱动的机器学习在材料科学和化学领域取得了显著进展。虽然目前已经有一些极大似然估计法ml方法被用于快速预测含能材料的相关性质,但对含能分子bde的预测模型的开发仍然缺乏,仅有的含能分子bde的机器学习预测模型的精度还比较低。此外,含能材料由于实验开发周期长、风险大,长期处于数据稀缺的状态,高质量含能数据的缺乏进一步限制了含能材料的发展。

3、尽管目前已经出现了一些使用机器学习方法对键离解能进行预测的研究,但是仍旧存在以下问题:

4、基于非真实含能材料(如硝基化合物,单苯环衍生物)构建的含能材料键离解能预测模型会影响模型在实际应用中的外推能力。由于数据中缺少了经典含能骨架和除硝基外的其他含能取代基的结构特征,因此在对由实际含能骨架与取代基组合而成的搜索空间中的分子进行预测会表现出较差的性能。对于其他体系的键离解能预测模型,虽然在各自的体系中具有高准确度,但是由于这些数据集中缺乏含能材料分子,且样本的特征表征缺乏含能化合物独有的结构特点,因此导致其在普通的小分子有机化合物中的准确度高,对含能分子的预测准确度却很低。总体来说,已有的键离解能的预测模型缺乏真实可靠的含能分子数据,且所使用的描述符缺乏能够全面反应含能特点和离解键的特征描述。


技术实现思路

1、本专利技术的目的在于提供一种基于特征融合和数据增强的含能材料键离解能的预测方法,用于解决现有技术中预测含能分子热解引发键bde准确度低的问题。

2、本专利技术通过下述技术方案解决上述问题:

3、一种基于特征融合和数据增强的含能材料键离解能的预测方法,包括:

4、步骤s100、构建含能材料键离解能bde数据集;

5、步骤s200、构建含能材料bde数据集中每个分子的键离解能融合描述符;

6、步骤s300、将含能材料bde数据集按设定比例划分为初始训练集和独立测试集,重复划分数据m次,对每次划分的初始训练集和独立测试集分别执行以下步骤:

7、采用数据增强方法扩充初始训练集;将扩充后的初始训练集按设定比例再次划分为训练集和验证集,采用训练集训练xgboost模型,在验证集上采用网络搜索方法寻找模型的最优超参数,确定最优模型后,对独立测试集的分子进行键离解能的预测,作为xgboost模型独立测试的结果;

8、步骤s400、将m次模型评估的结果取平均值作为模型最终的性能结果,其中的最优模型作为最后得到的xgboost模型;

9、步骤s500、采用训练好的xgboost模型进行含能材料键离解能的预测。

10、进一步地,所述步骤s100具体包括:

11、步骤s110、收集已合成的、由c、h、o、n元素组成的含能化合物,构建初始的含能材料bde数据集;

12、步骤s120、优化数据集中每个分子的结构,提取每个分子优化后的结构文件,获取分子在0k时的总能量;

13、步骤s130、计算分子中每根键的wiberg键级,键级越小表明该化学键成为热解引发键的可能性越高,从而确定引发键;

14、步骤s140、根据引发键确定分子断裂位置,将每个分子均裂为两个自由基;

15、步骤s150、对每个分子的两个自由基分别优化结构,获取两个自由基在0k时的总能量;

16、步骤s160、计算每个分子均裂后生成的两个自由基的能量之和与原始分子的能量的差值,获取每个分子的键离解能值;

17、步骤s170、统计含能分子的smiles和其键离解能值,作为最终的含能材料bde数据集。

18、进一步地,所述步骤s200具体包括:

19、步骤s210、将每个分子的smiles转换成摩尔mol,再进行加氢、获取3d构型,最后进行mmff94力场优化,生成对应的sdf文件;

20、步骤s220、对每个分子的sdf文件使用化学键描述符生成软件生成对应的txt文件,每个分子的txt文件中包括分子中所有非环键的化学键描述符,txt文件中的每一行都表示为一根键的描述符,共100维,其中前两维是该键两端原子的索引,后98维为该键的化学键描述符;

21、步骤s230、根据步骤s140中确定的每个分子键断裂的位置确定该键两端原子的索引,提取该分子txt文件中相应行中的98维描述符;

22、步骤s240、计算含能分子的含能特征描述符,共50维;

23、步骤s250、将化学环境描述符和含能特征描述符进行拼接,最后得到每个分子148维的键离解能融合描述符。

24、进一步地,所述化学环境描述符的具体计算方法包括:

25、a.根据含能材料bde数据集中分子的元素类型以及取代数,为每个元素命名,元素类型限制在c、h、o和n;

26、b.选定分子中的一个化学键作为计算的目标键,对目标键与分子中其他原子之间的距离进行编码:根据相邻原子与该目标键之间距离的化学键数目来划分球体;选取的化学键限制为分子中的非环键;

27、c.在为每一根非环键定义好各自的球体之后,计算以下本文档来自技高网...

【技术保护点】

1.一种基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,包括:

2.根据权利要求1所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述步骤S100具体包括:

3.根据权利要求2所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述步骤S200具体包括:

4.根据权利要求3所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述化学环境描述符的具体计算方法包括:

5.根据权利要求4所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述含能特征描述符为键总和SOB+电拓扑状态指纹E-state+自定义描述符集CDS,其中:

6.根据权利要求3所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述步骤S300具体包括:

7.根据权利要求6所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述对初始训练集中的样本进行数据增强具体包括:将初始训练集的样本成对组合,计算成对组合的两个样本的一维描述符之间的差异,得到差异描述符,然后将差异描述符与该成对组合的两个样本的原始描述符进行拼接,得到拼接描述符,拼接描述符组成特征矩阵。

8.根据权利要求7所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述步骤S400具体包括:分别根据M次XGBoost模型独立测试的结果计算XGBoost模型的平均绝对误差MAE、均方根误差RMSE和决定系数R2,以评估XGBoost模型的性能,将M次计算得到的M个平均绝对误差MAE、均方根误差RMSE以及决定系数R2分别求平均值作为XGBoost模型最终的性能结果。

...

【技术特征摘要】

1.一种基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,包括:

2.根据权利要求1所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述步骤s100具体包括:

3.根据权利要求2所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述步骤s200具体包括:

4.根据权利要求3所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述化学环境描述符的具体计算方法包括:

5.根据权利要求4所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,所述含能特征描述符为键总和sob+电拓扑状态指纹e-state+自定义描述符集cds,其中:

6.根据权利要求3所述的基于特征融合和数据增强的含能材料键离解能的预测方法,其特征在于,...

【专利技术属性】
技术研发人员:蒲雪梅苟巧林刘静郭延芝徐司雨
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1