预配训练数据使神经网络识别NMR测量中信号的系统和方法技术方案

技术编号:28975761 阅读:21 留言:0更新日期:2021-06-23 09:20
一种用于训练神经网络供在NMR频谱中的信号分析的系统、方法和计算机程序产品。系统获得多个计算的NMR原始频谱,每一原始频谱与具有已知数目个质子的不同NMR活性分子相关联。系统通过每一原始频谱与一个或多个谱线成形函数的卷积来变宽接收的原始频谱的峰,以产生用于每一原始频谱的拓宽的频谱。谱线宽度的变宽通过从统计分布取样用于各种原始频谱的变宽值而遵循在多个当前频谱上的统计分布。系统针对每一加宽的频谱计算其积分函数以计数与相应加宽的频谱的峰相关联的质子的数目。系统将信号间隔识别为加宽的频谱中的间隔,其中积分函数大致按与单个质子相关联的值的倍数增大,使得计数的质子的总数匹配相关联的分子的已知质子数。

【技术实现步骤摘要】
预配训练数据使神经网络识别NMR测量中信号的系统和方法
本专利技术大体涉及在NMR频谱法中的信号检测,且更确切地说,涉及用于神经网络的训练数据的产生以使所述神经网络能够识别从现实NMR频谱法实验获得的频谱中的信号间隔。
技术介绍
核磁共振(NMR)频谱法是观测在原子级别的分子性质的频谱技术。当将样本放置在磁场中时,在原子核周围诱发局部磁场。可通过将射频(RF)脉冲施加到样本且监视为NMR信号的响应来观测这些诱发的场。所述NMR信号由敏感性RF接收器拾取。局部诱发的场具体针对原子核的分子环境,因此给出对分子和其个别官能团的电子结构的细节的接取。举例来说,NMR频谱法用来识别有机化合物、蛋白质和其它复杂分子。除了识别外,NMR频谱法还提供关于分子的结构、动态、反应状态和化学环境的详细信息。普通类型的NMR是质子和碳-13NMR频谱法,但它适用于含有具有大于零的核磁矩的核自旋的任何种类的样本。在所述文件中,产生NMR信号的分子被称作NMR活性分子或NMR活性物质。在通过射频(典型地,60MHz到1000MHz)脉冲激励样本后,获得核磁共振响应,这被称作自由感应衰减(FID)。FID是非常弱的信号,且需要敏感性RF接收器来拾取。可应用傅立叶变换来从原始时域FID提取频域频谱。来自信号FID的频谱典型地具有低信噪比,因此通常需要多个FID,且将其平均化以便获得具有较好信噪比的频谱。对激励的响应的衰减时间(典型地,按秒来测量)取决于张弛的有效性,它对于较轻原子核和在固体中较快,且对于较重原子核和在溶液中较慢,然而其在气体中可非常长。NMR频谱的评估典型地受到人类NMR专家支持,这是基于他们关于如何解释从现实NMR实验获得的NMR频谱中的某些峰值的经验。主要任务从而是识别在获得的频谱中的哪些信号间隔与表征经受评估的NMR样本中的分子的峰值相关联。此类特性信号间隔可难以识别,因为典型NMR实验的信号包括由与活性分子自身不同的来源(诸如,杂质、相移、基线效应、噪声等)造成信号贡献。信号间隔的识别因此是易出错的程序,它大量地取决于支持专家的主观个人经历。
技术实现思路
因此存在对于提供从现实NMR实验获得的NMR频谱中的信号间隔的更稳固且客观识别的系统和方法的需求。另外,为了使计算机实施算法能够自动解译NMR频谱,例如,以将分子的结构基于其1HNMR频谱来验证,需要在第一步骤中对信号区域的可靠识别。呈计算机实施方法、计算机系统和计算机程序产品的形式的如在独立权利要求书中主张的本专利技术的实施例使用主张的特征来解决所述技术问题。应注意,典型地在频域中分析NMR响应。如在本文中使用的信号间隔指围绕NMR频谱中的相应信号峰的峰值频率居中的频率间隔,且表征与响应于射频脉冲的NMR活性分子的核磁共振响应相关联的频谱的一部分。在文献中,此类信号间隔有时也被称作信号区域。应注意,在NMR频谱中,共振峰的中心频率距任意选择的参考频率(标准频率)的相对距离叫作化学位移。常使用的典型参考频率是四甲基硅烷(TMS)的共振峰的频率。从而对参考频率指派化学位移值“零”。化学位移独立于频谱仪的基频,且按“ppm”的单位来测量。在以下描述和图中,NMR频谱中的频率值也被称作在对应的ppm标度上的ppm值。在一个实施例中,一种计算机实施方法产生用于训练神经网络的真实训练数据集以用于在NMR频谱中的信号分析,有利地,在液体状态1HNMR频谱中。从而,信号分析的初始障碍是识别信号间隔(或信号区域)。由主张的方法提供的数据集经优化以训练神经网络无任何人类干预地按高准确度等级自动识别现实NMR频谱中的此类信号间隔。换句话说,在训练数据集实现具有计算的频谱的网络的训练的意义上,可将其视为真实的,所述计算的频谱具有与从现实实验获得的NMR频谱的高类似性。在初始步骤中,获得多个计算的NMR原始频谱。每一原始频谱从而与具有已知数目个质子的不同NMR活性分子(下文也被称作活性分子)相关联。所述多个计算的NMR原始频谱可针对每一活性分子精确地包括一个原始频谱。存在可用的商业工具,所述商业工具通过获得相关联的NMR活性分子的自旋系统和针对给定脉冲序列的薛定谔方程的后续数值解来计算特定原始频谱。所述工具的实例是由芬兰库奥皮奥的PERCH解决方案有限公司提供的PERCH频谱模拟器。PERCH频谱模拟器是基于量子力学运算。使用X近似法来填充大自旋系统。被配置成执行所述计算机实施方法的计算机系统可包括所述工具,作为集成组件,或其可与所述工具通信耦合并通过对应的接口接收所述多个计算的NMR原始频谱。分子数据库可充当分子描述的储存器。所述数据库的实例是PubChem,它是化学分子和其针对生物鉴定的活动的数据库。所述系统由国家生物技术信息中心(NCBI)维护,NCBI是国家医学图书馆的组成,国家医学图书馆是美国国家卫生研究院(NIH)的一部分。可通过网络用户接口自由地访问PubChem。从此类分子描述,在对应的分子中的质子的数目是已知的。从所述储存器,NMR活性分子的一子集充当用于例如由先前提到的PERCH工具实施的原始频谱产生器模块的输入。所述子集可包括仅具有不超过预定复杂程度的结构的分子。有利地,对于聚焦于分析用于药物应用的活性分子的NMR频谱的神经网络,相关联的NMR活性分子的分子量小于或等于500道尔顿。典型地,在药物应用中,此类较小分子处于焦点当中。原始频谱产生器的输出是针对每一NMR活性分子的相应原始频谱,其具有预期为对应的活性分子的核磁共振响应的峰值(在已经受射频脉冲序列后)。举例来说,可用相同线宽度参数来计算所有原始频谱。线宽度参数可经选择使得所得线宽度对应于线宽度范围的下限,所述线宽度范围包括典型地在多个现实NMR测量中获得的线宽度。在变宽的步骤中,通过每一原始频谱与一个或多个谱线成形函数的卷积来变宽接收的原始频谱的峰,以产生拓宽的频谱,作为用于每一原始频谱的当前频谱。所述拓宽步骤有时也被称作谱线变宽。典型谱线成形函数的实例是洛伦兹(Lorentzian)和/或高斯(Gaussian)函数。举例来说,原始频谱可用洛伦兹和/或高斯函数卷积。洛伦兹函数与高斯函数的卷积也被称作福格特(Voigt)函数。可将不同谱线变宽值用于每一原始频谱。举例来说,使用的谱线变宽值的范围可等效于从0.3Hz到0.6Hz的范围。有利地,根据统计分布(诸如,伽玛或贝塔分布)将不同谱线变宽值应用到多个原始频谱。一有利实例将具有形状参数4和比例参数0.15的伽玛分布用于高斯和洛伦兹谱线变宽参数。其它统计分布也可由所属领域的技术人员使用。变宽值近似地为通过谱线变宽卷积添加到原始频谱的谱线宽度的值。应用到各种原始频谱的谱线变宽值从而是从统计分布取样。换句话说,高斯和洛伦兹谱线变宽对多个当前频谱的效应遵循使用的统计分布。举例来说,当使用上述伽玛分布时,当前频谱中的99%将按在0.10Hz与1.65Hz之间的谱线变宽值变宽(且分别地,75%将按在0.28Hz与0.95Hz之间的谱线变宽值变宽)。换句话说,应用到原始频谱的变宽值的统计变化导致在变宽的频谱中的谱线宽度的统计变化。不需要本文档来自技高网
...

【技术保护点】
1.一种用于产生训练数据集(141)以用于训练神经网络(230)供在NMR频谱中的信号分析的计算机实施方法(1000),包括:/n获得(1100)多个计算的NMR原始频谱(213),每一原始频谱与具有已知数目个质子(#P)的不同NMR活性分子(211)相关联;/n通过每一原始频谱(213)与一个或多个谱线成形函数的卷积来变宽(1200)所述原始频谱的谱线宽度以产生变宽的频谱(111),作为用于每一原始频谱的当前频谱,其中谱线宽度的所述变宽遵循在所述多个当前频谱上的统计分布,这是通过从所述统计分布针对所述各种原始频谱取样相应变宽值;/n针对每一加宽的频谱(111)计算(1310)其积分函数以计数与所述相应加宽的频谱的峰相关联的质子的所述数目;/n将信号间隔识别(1320)为所述加宽的频谱(111)中的间隔,其中所述积分函数大致按与单个质子相关联的所述值的倍数增大,使得计数的质子的总数匹配所述相关联的分子的所述已知质子数(#P),其中调整所述识别的间隔(211)以至少涵盖对应的峰间隔的预定阈值;/n将具有针对所述识别的信号间隔的相关联的标签(121)的所述当前频谱(111、111')作为所述训练数据集(141)提供(1500)到所述神经网络。/n...

【技术特征摘要】
20191220 EP 19218443.01.一种用于产生训练数据集(141)以用于训练神经网络(230)供在NMR频谱中的信号分析的计算机实施方法(1000),包括:
获得(1100)多个计算的NMR原始频谱(213),每一原始频谱与具有已知数目个质子(#P)的不同NMR活性分子(211)相关联;
通过每一原始频谱(213)与一个或多个谱线成形函数的卷积来变宽(1200)所述原始频谱的谱线宽度以产生变宽的频谱(111),作为用于每一原始频谱的当前频谱,其中谱线宽度的所述变宽遵循在所述多个当前频谱上的统计分布,这是通过从所述统计分布针对所述各种原始频谱取样相应变宽值;
针对每一加宽的频谱(111)计算(1310)其积分函数以计数与所述相应加宽的频谱的峰相关联的质子的所述数目;
将信号间隔识别(1320)为所述加宽的频谱(111)中的间隔,其中所述积分函数大致按与单个质子相关联的所述值的倍数增大,使得计数的质子的总数匹配所述相关联的分子的所述已知质子数(#P),其中调整所述识别的间隔(211)以至少涵盖对应的峰间隔的预定阈值;
将具有针对所述识别的信号间隔的相关联的标签(121)的所述当前频谱(111、111')作为所述训练数据集(141)提供(1500)到所述神经网络。


2.根据权利要求1所述的方法,其中所述相关联的NMR活性分子的分子量小于或等于500道尔顿。


3.根据权利要求1或2所述的方法,进一步包括:
在已接收到所述多个计算的NMR原始频谱后,预处理(1150)所述接收的原始频谱,使得在每一原始频谱中的数据点的数目大致对应于从现实NMR实验获得的相当的现实NMR频谱的数据点的数目。


4.根据权利要求1到3中任一项所述的方法,其中所述一个或多个谱线成形函数选自由以下各者组成的群组:洛伦兹函数、高斯函数和福格特函数。


5.根据权利要求1到4中任一项所述的方法,其中用于变宽的所述统计分布选自由以下各者组成的群组:伽玛分布、贝塔分布、对数正态分布。


6.根据权利要求5所述的方法,其中谱线变宽值等效于从0.3Hz到0.6Hz的范围。


7.根据前述权利要求中任一项所述的方法,进一步包括:
在已识别所述信号间隔后,将一个或多个统计修改应用(1400)于每一当前频谱,其中特定统计修改的统计参数在统计上分布于所述多个当前频谱上。


8.根据前述权利要求中任一项所述的方法,进一步包括:
在已识别所述信号间隔后,将杂质的效应添加(1410)到所述当前频谱(111),其中杂质的数目、对应的位移和振幅在...

【专利技术属性】
技术研发人员:克莉丝汀·博利格尔奥利弗·霍拉赫尔约亨·克拉格斯伊琳娜·加利亚什马可·格鲁尔法布里斯·莫里奥
申请(专利权)人:布鲁克瑞士股份公司
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1