原子化学环境编码及其快速预测核磁共振化学位移的方法技术

技术编号:38076005 阅读:16 留言:0更新日期:2023-07-06 08:43
本发明专利技术公开了原子化学环境编码及其快速预测核磁共振化学位移的方法,涉及原子编码和化学位移预测技术领域。包括定义原子与符号、化学键与符号之间的映射关系;定义优先级参数;指定化合物中任一原子作为中心原子,以中心原子为编码中心对化合物中所有原子进行编码。在数据库中存储有标准有机化合物的原子化学环境编码与化学位移值的映射关系及该化学位移的测试条件,输入待预测化合物的结构式,对所有原子编码后与数据库内的原子编码数据匹配,从而实现对未知化学位移的化合物进行化学位移的预测。本发明专利技术提供一种能够精确唯一描述原子化学环境的编码,并基于该原子化学环境编码实现核磁共振化学位移的简单、快速、准确的预测。的预测。的预测。

【技术实现步骤摘要】
原子化学环境编码及其快速预测核磁共振化学位移的方法


[0001]本专利技术涉及原子编码及预测化学位移
,特别是涉及原子化学环境编码及其快速预测核磁共振化学位移的方法。

技术介绍

[0002]精确地描述原子周围的化学环境在化合物的性质预测、子结构搜索等方面具有重要的应用。目前对于化合物的编码主要是对分子级别的结构编码,一个分子对应一个编码,如mol、smiles、inchi、inchikey等编码,都无法描述单个原子的化学环境。
[0003]核磁共振是一种独特的表征技术,其对原子的局部化学环境敏感,在物理、化学和生物系统中有着广泛的应用。原子核由于其化学环境中外部磁场屏蔽效应的大小不同,在核磁共振谱中表现出不同的化学位移。
[0004]使用基于量子力学的从头计算方法或密度泛函理论(DFT)方法来计算系统的电子结构,可以直接得到化学位移,从而实现对信号峰值的精确识别。然而,电子结构的精确计算需要很高的计算资源,且计算时间长,因此很难被实际应用。此外机器学习方法也可以用于核磁共振化学位移的预测,但是这种方法没有从考虑到核磁共振化学位的机理特性,且需要大量的数据为基础,才能达到较高的准确度,而且对计算机的配置要求相对较高。因此,开发一种简单、准确、快速、易于扩展的计算化学位移方法是非常重要的。

技术实现思路

[0005]本专利技术的目的在于专利技术一种能够精确唯一描述原子化学环境的编码,并基于相似化学环境具有相似化学位移的这一逻辑,实现了核磁共振化学位移的简单、准确、快速预测。
[0006]本专利技术提供原子化学环境编码,包括以下步骤:分别定义原子与符号、化学键与符号之间的映射关系,得到如下映射表1和映射表2;原子与符号映射关系如表1所示:表1 原子与符号对应关系
[0007]化学键与符号映射关系如表2所示:表2 化学键与符号对应关系
[0008]分别定义原子的优先级参数、化学键的优先级参数,得到表3和表4;
原子的优先级参数如表3所示:表3 原子的优先级参数
[0009]化学键优先级参数如表4所示:表4 化学键的优先级参数
[0010]选取指定化合物中任一原子作为中心原子,以中心原子为编码中心进行编码,包括:所述中心原子的化学环境编码:中心原子符号

与中心原子连接数为1的原子数量

中心原子所在环的大小;若中心原子不在环上,则中心原子所在环的大小为0;所述化合物中其他原子的化学环境编码:确定与中心原子连接数为1的所有原子,确定连接数为1的所有原子的特征参数,所述特征参数包括原子符号,与中心原子之间化学键的类型,相邻原子总数量,相邻非氢原子数量;将所述特征参数换算为优先级参数;按照各原子优先级参数大小,对各原子按照优先级顺序进行排序;根据映射关系将排序后的原子依次转换为编码,编码规则为:化学键符号+原子符号;依次对与中心原子连接数为2,3,4
……
N的所有原子进行编码,直到遍历化合物中的所有原子,N为大于1的整数;重复上述步骤,完成以化合物中任一原子作为中心原子时,化合物中所有原子的化学环境编码。
[0011]进一步地,所述特征参数与优先级参数之间的换算方法为:所述优先级参数包括原子符号的优先级参数,与中心原子之间化学键类型的优先级参数,相邻原子总数的优先级参数,相邻非氢原子数的优先级参数;所述相邻原子总数的优先级参数为相邻原子总数量与1加和的倒数,所述相邻非氢原子数的优先级参数为相邻非氢原子数量与1加和的倒数。
[0012]进一步地,原子在编码中的排序规则:依次按原子优先级、连接键优先级、相邻原子数量及相邻非氢原子数量的主次顺序,对连接原子的优先级参数数值进行比较,同一优先级参数数值较小的排在前,若数值相同,则对下一优先级参数数值进行比较,直至各原子排序完成。
[0013]进一步地,若连接键的类型为双键,且双键所连接的原子均是C原子,其编码规则为:顺反异构符号+ 化学键符号+原子符号;进一步地,与所述中心原子位于双键同一侧的C原子记作顺式异构; 与所述中心原子与双键不在同一侧的C原子记作反式异构。
[0014]进一步地,若连接原子为手性中心,则与手性中心相连的原子的排序需先按所述排序规则进行排序,以确定第一个原子,然后剩下的原子按顺时针方向排序,并在这些原子生产的编码前加上第一自定义符号,以区分手性异构。
[0015]进一步地,若原子在环上,重复原子的编码规则为:化学键符号+第二自定义符号+ 原子符号,且不再记录与之相连的连接数更高的原子。
[0016]快速预测核磁共振化学位移的方法,包括以下步骤:构建核磁共振化学位移数据库,数据库中存储有标准有机化合物的原子化学环境编码与化学位移值的映射关系及该化学位移的测试条件;输入待测有机化合物的化学结构数据,将所述化学结构信息转换成原子化学环境编码;得到的原子化学环境编码与数据库中存储的标准有机化合物的原子化学环境编码进行匹配,匹配到与待测原子化学环境编码相同的标准原子编码或相近的标准原子化学环境编码片段;匹配到的原子化学环境编码在所述数据库中映射出对应的化学位移值,计算所有匹配到的化学位移值的平均值和标准差,得到待测有机化合物的预测核磁共振化学位移及其精确度。
[0017]进一步地,所述待测有机化合物的化学结构数据的输入类型包括mol编码、smiles编码或inchi编码中任一编码。
[0018]进一步地,在数据库匹配标准有机化合物的原子化学环境编码之前还包括:根据连接符号对原子编码进行拆分,得到多个待预测子结构;在数据库中遍历与多个待测子结构相同或相近的标准原子化学结构编码;所述对原子编码进行拆分方式为将待测有机化合物的结构拆分成长度逐渐减小的多个预测子结构。
[0019]“环的大小”是指组成原子所在环的原子个数;“与中心原子连接数”是指化合物中的其他原子与中心原子直链连接的化学键的条数,若其他原子与中心原子之间直接通过化学键连接,则称该原子与中心原子的连接数为1;若其他原子与中心原子相连接的直链上还有n个另外的原子,每增加一个原子,直链上的化学键增加一条,则该原子与中心原子相连接的直链上的化学键条数为n+1,即该原子与中心原子的连接数为n+1,n为大于0的整数;本专利技术的有益效果是:本专利技术提供一种能够精确唯一描述原子化学环境的编码,并基于该原子化学环境编码实现核磁共振化学位移的简单、快速、准确的预测。
附图说明
[0020]图1 预测核磁共振化学位移方法。
实施方式
[0021]以下对本专利技术的技术方案进行清晰、完整地描述,显然,此处所描述的实施例仅是本专利技术中的一部分,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在
没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0022]本专利技术的化合物结构式中所标注的数字,仅代表原子所在化合物结构中的序号。
实施例1
[0023]基于化合物A,选取化合物A中的1号原子为中心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.原子化学环境编码,其特征在于,包括以下步骤:分别定义原子与符号、化学键与符号之间的映射关系;分别定义化学键的优先级参数、原子的优先级参数;选取指定化合物中任一原子作为中心原子,以中心原子为编码中心进行编码,包括:所述中心原子的化学环境编码:中心原子符号

与中心原子连接数为1的原子数量

中心原子所在环的大小;若中心原子不在环上,则中心原子所在环的大小为0;所述化合物中其他原子的化学环境编码:确定与中心原子连接数为1的所有原子,确定连接数为1的所有原子的特征参数,所述特征参数包括原子符号,与中心原子之间化学键的类型,相邻原子总数量,相邻非氢原子数量;将所述特征参数换算为优先级参数;按照各原子优先级参数大小,对各原子进行排序;根据映射关系将排序后的原子依次转换为编码,编码规则为:化学键符号+原子符号;依次对与中心原子连接数为2,3,4
……
N的所有原子进行编码,直到遍历化合物中的所有原子,N为大于1的整数;重复上述步骤,完成以化合物中任一原子作为中心原子时,化合物中所有原子的化学环境编码。2.根据权利要求1所述的原子化学环境编码,其特征在于,所述特征参数与优先级参数之间的换算方法为:所述优先级参数包括原子符号的优先级参数,与中心原子之间化学键类型的优先级参数,相邻原子总数的优先级参数,相邻非氢原子数的优先级参数;所述相邻原子总数的优先级参数为相邻原子总数与1加和的倒数,所述相邻非氢原子数的优先级参数为相邻非氢原子数量与1加和的倒数。3.根据权利要求1所述的原子化学环境编码,其特征在于,原子在编码中的排序规则:依次按原子优先级、连接键优先级、相邻原子数量及相邻非氢原子数量的主次顺序,对原子的各优先级参数数值进行比较,同一优先级参数数值较小的排在前,若数值相同,则对下一优先级参数数值进行比较,直至各原子排序完成。4.根据权利要求1所述的原子化学环境编码,其特征在于,若连接键的类型为双键,且双键所连接的原子均是C原子,其编码规则为:顺反异构符号+ 化学键符号+原...

【专利技术属性】
技术研发人员:冯有增杨柳青王中健
申请(专利权)人:药融云数字科技成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1