用于分子动力学数据的迭代状态检测制造技术

技术编号:33880595 阅读:17 留言:0更新日期:2022-06-22 17:10
一种发现未知分子动力学状态的方法,包括:接收输入的分子动力学模拟数据;从输入的分子动力学模拟数据确定当前数据层;从当前数据层中分离出异常数据;使用异常数据提取目标状态;以及使用目标状态从当前数据层中分离出目标状态数据。目标状态数据。目标状态数据。

【技术实现步骤摘要】
用于分子动力学数据的迭代状态检测


[0001]专利技术涉及分析大数据集的方法,更具体地说,涉及识别未知分子动态(MD)物理状态的方法和相应的样本。

技术介绍

[0002]大规模MD模拟产生数百万帧的数据,这排除了人工分析。

技术实现思路

[0003]根据本专利技术的实施例,一种用于发现未知分子动力学状态的方法包括:接收输入的分子动力学模拟数据;根据所述输入的分子动力学模拟数据确定当前数据层;从所述当前数据层中分离出异常数据;使用所述异常数据提取目标状态;以及使用通过使用所述异常数据提取的所述目标状态,来从所述当前数据层中分离出目标状态数据。
[0004]根据一些实施方案,一种包括计算机可执行指令的非暂时性计算机可读介质,所述计算机可执行指令在由计算机系统执行时使所述计算机执行用于发现未知分子动力学状态的方法,所述方法包括接收输入分子动力学模拟数据,从所述输入分子动力学模拟数据确定当前数据层,从所述当前数据层中分离出异常数据,使用所述异常数据提取目标状态,以及使用所述目标状态来从所述当前数据层中分离出目标状态数据。
[0005]根据至少一个实施方案,一种被配置来执行发现未知分子动力学状态和相应样本的迭代方法的系统,所述系统包括:通信接口,其被配置为接收分子动力学数据,所述分子动力学数据模拟粒子的运动;处理器,其被配置为从所述分子动力学数据确定当前数据层,从所述当前数据层中分离出异常数据,使用所述异常数据提取目标状态,和使用通过使用所述异常数据提取的所述目标状态来从所述当前数据层分离出目标状态数据;和存储器,其被配置为存储所述目标状态和从所述分子动力学数据导出的所述目标状态的数据。
[0006]如本文所使用的,“促进”动作包括执行动作、使动作更容易、帮助执行动作、或使得动作被执行。因此,作为示例而非限制,在一个处理器上执行的指令可以通过发送适当的数据或命令以促使或帮助要执行的动作,来促进由在远程处理器上执行的指令所执行的动作。为了避免疑惑,在行动者通过执行动作之外的动作来促进动作的情况下,该动作仍然由某个实体或实体的组合来执行。
[0007]本专利技术的一个或多个实施例或其元件可以以计算机程序产品的形式实现,该计算机程序产品包括具有用于执行所示方法步骤的计算机可用程序代码的计算机可读存储介质。此外,本专利技术的一个或多个实施例或其元件可以以系统(或装置)的形式实现,该系统(或装置)包括存储器和至少一个处理器,该处理器耦合到存储器并且操作用于执行示例性方法步骤。此外,在另一方面,本专利技术的一个或多个实施例或其元件可以以用于执行本文描述的一个或多个方法步骤的部件的形式来实现;所述部件可以包括(i)硬件模块,(ii)存储在计算机可读存储介质(或多个这样的媒体)中并在硬件处理器上实现的软件模块,或(iii)(i)和(ii)的组合;(iii)中的任何一个实现这里阐述的特定技术。
[0008]本专利技术的技术可以提供实质上有益的技术效果。例如,一个或多个实施例可以提供:
[0009]发现未知分子动力学状态和相应样本的迭代方法;
[0010]异常检测模块(ADM),其从总(第n层)数据中分离出异常数据;
[0011]状态检测模块(SDM),其使用所述异常数据来识别并提取目标状态;以及
[0012]数据分离模块,其使用所述目标状态从第n层数据分离出目标状态数据。
[0013]通过结合附图阅读的本专利技术的说明性实施例的以下详细描述,本专利技术的这些和其它特征和优点将变得显而易见。
附图说明
[0014]下面将参考附图更详细地描述本专利技术的优选实施例:
[0015]图1是根据本专利技术的至少一个实施方案的系统的图,所述系统被配置来执行发现未知分子动力学状态结构和相应样本的迭代方法;
[0016]图2是根据本专利技术的至少一个实施方案,发现未知分子动力学状态结构和相应样本的方法的流程图;
[0017]图3示出了根据本专利技术的一些实施例的第1潜在变量的直方图;
[0018]图4示出了根据本专利技术实施例的状态检测;
[0019]图5示出根据本专利技术实施例分离的正常数据;
[0020]图6示出了根据本专利技术实施例分离的异常数据;以及
[0021]图7是示出根据本专利技术示例性实施例的示例性计算机系统的框图,该计算机系统实现了发现未知MD状态结构和相应样本的迭代方法。
具体实施方式
[0022]分子动力学(MD)描述了一类用于分析粒子(例如原子或分子)的物理运动的计算机模拟方法。MD模拟是探索例如分子或其它粒子可接近的构象能量景观、不同分子或粒子之间的相互作用等的工具。本专利技术的实施例涉及发现未知MD状态结构和相应样本(例如,与特定/原子或粒子/原子组相对应的数据点)的迭代方法。本专利技术的实施例识别数据中的统计上有意义的状态,该状态可能是罕见的。调查由MD数据(轨迹/帧)分析识别的未知状态结构可以导致例如新药物目标的识别。
[0023]本专利技术的实施方案在未知分子动态结构的上下文中描述。可以使用经典的分子动力学模拟活动来收集示例性数据集。在特定示例中,可以使用大规模并行多尺度机器学习建模基础设施(MuMMI)来收集数据集。该工具将跨越微米长度和毫秒时间尺度的宏观尺度模型与所产生的分子动力学模拟的微观尺度模型耦合,所产生的分子动力学模拟与宏观尺度模拟的快照一致。本专利技术的实施例不限于这里描述的数据收集方法。
[0024]本文用于描述实施方案的示例性数据集包括各种脂质膜组合物和一种或多种野生型GTP加载的KRAS4b蛋白质的超过116,000种粗粒度Martini分子动力学模拟,其中GTP是指三磷酸鸟苷核苷酸。本专利技术的实施例使得能够处理例如几百兆兆字节量级的大数据集。
[0025]在Martini模型分子动力学方法中,原子组表示为具有确定物理参数的珠。示例数据集是MuMMI生成数据的单个KRAS4b蛋白质分子动力学模拟子集,每五个MD时间帧被跳过。
本专利技术的一些实施方案分析示例数据集中的蛋白质位置。因此,根据一些实施方案,每个模拟数据集进一步简化为仅蛋白质Martini粗粒珠,导致184个Martini珠(在周期性模拟框中的x、y、z坐标)的每次模拟和变化的模拟长度(导致不同数目的MD帧)。这里描述的迭代方法的实施例对每个MD帧进行评估。
[0026]应当理解,本专利技术的实施例是在示例数据集的上下文中描述的,并且实施例不限于此。即,实施例适用于多颗粒系统的数据集,包括分子、蛋白质、气体、液体等。本专利技术的实施方案可以表征多种分子动力学模拟,并且可推广到单个蛋白质之外。
[0027]由于大多数分子动力学模拟数据帧遵循能量稳定的模式(例如,粗粒珠的形状、相对位置等),本专利技术的实施例通过搜索异常数据来识别未知状态。
[0028]参考图1,根据本专利技术的至少一个实施例的被配置为执行发现未知MD状态和相应样本的迭代方法的系统100包括异常检测模块(ADM)101,其从总(第n层)数据104中分离出异常数据。为迭代方法定义数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种发现未知分子动力学状态的方法,包括:接收输入的分子动力学模拟数据;从所述输入的分子动力学模拟数据确定当前数据层;从所述当前数据层中分离出异常数据;使用所述异常数据提取目标状态;以及使用所述目标状态来从所述当前数据层中分离出目标状态数据。2.如权利要求1所述的方法,其中,所述方法迭代通过多个数据层,其中在每次迭代中,所述方法处理包括来自前一层的非目标数据的下一层。3.如权利要求2所述的方法,其中,所述输入的分子动力学模拟数据是用于第一次迭代的当前数据层,并且所述目标状态定义用于随后迭代的当前数据层。4.如权利要求2所述的方法,其中,所述方法从每一迭代输出所述目标状态和所述目标状态数据。5.如权利要求2所述的方法,其中,所述方法在确定非目标数据与总数据之比大于阈值时结束。6.如权利要求1所述的方法,其中,从所述输入的分子动力学模拟数据确定所述当前数据层包括:对所述输入的分子动力学模拟数据进行采样以减小在第一次迭代中的当前数据层的大小。7.如权利要求1所述的方法,其中,所述异常数据通过自动编码器从所述当前数据层中分离出。8.如权利要求1所述的方法,其中,所述目标状态的提取进一步包括第一聚类,所述第一聚类在从所述当前数据层中分离出的异常样本中发现目标样本,所述目标样本示例所述目标状态。9.如权利要求1所述的方法,其中,将所述目标状态数据从所述当前数据层中分离出包括第二聚类,所述第二聚类使用所述目标状态将所述目标状态数据从所述当前数据层中分离出。10.如权利要求9所述的方法,其中,所述第二聚类使用距所述当前数据层的聚类的中心的距离度量和用于所述距离度量的阈值。11.一种非暂时性计算机可读介质,其包括计算机可执行指令,所述计算机可执行指令在由计算机系统执行时使所述计算机执行用于发现未知分子动力学状态的方法,所述方法包括:接收输入的分子动力学模拟数据;从所述输入的分子动力学模拟数据确定当前数据层;从所述当前数据层中分离出异常数据;使用所述异常数据提取...

【专利技术属性】
技术研发人员:李垠炅S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1