结合亲和力预测系统和方法技术方案

技术编号:15198118 阅读:42 留言:0更新日期:2017-04-21 13:54
公开了用于预测结合亲和力的系统、装置和方法。存储反映输入数据的记录。构建提供对结合输入特征的几何表示的数据结构。所述数据结构通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充,用于编码的所述数据选自所述存储的输入数据。将预测模型应用于所述数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。

Binding affinity prediction system and method

Systems, devices, and methods for predicting binding affinity. Store records that reflect input data. Constructing a data structure for providing a geometric representation of input features. The data structure is filled by encoding data associated with at least one molecule and at least one of the target proteins. Application of a prediction model to the data structure to produce at least one molecule binding affinity to at least one target protein.

【技术实现步骤摘要】
【国外来华专利技术】专利
本公开总体上涉及生物信息学系统,并且更具体地说涉及用于预测一种或多种分子的结合亲和力的系统和方法。
技术介绍
准确地预测分子对蛋白质的结合亲和力的能力是发现新药以及阐明天然和工程化生物过程的基本工具。遗憾的是,在结合亲和力预测过程中,制约结合的因素的数目相当广泛并且对它们的相互作用知之甚少。预测的准确性取决于预测模型考虑到的特征。一些结合亲和力预测解决方案是已知的,包括结合机器学习特征的那些。一些现有技术解决方案使用相对简单的预测模型,所述预测模型可能并未反映化学结构和蛋白质结构的复杂性。另外,所述预测模型可能未反映分子与蛋白质之间影响结合亲和力的相互作用的许多变量。例如,分子与蛋白质之间的给定相互作用可能会受到以下各项的影响:距离、角度、原子类型、电荷和极化以及周围环境稳定或使其失去稳定性的涉及的环境因素。现有技术解决方案使用简单的特征,例如像基于知识的评分函数,所述评分函数使用原子对/原子组,例如,一个原子来自分子(诸如药物靶标),并且一个原子来自蛋白质。之后例如通过评价这些对之间的距离以推导出可能的分子/蛋白质结合原子对来分析这些对。可以将评分聚集起来,并且可以分析这些聚集的评分,以便于确定分子/蛋白质结合亲和力或“配合度”。结合亲和力预测解决方案的性能取决于所使用的模型,并且这些模型通常都是手动构建和训练的,这是费时的。现有技术结合亲和力解决方案通常包括(i)基于知识的,(ii)经验的,或(iii)包括基于力场的评分函数的解决方案。基于知识的特征典型地由对在生物复合物中隔开给定距离的原子或者官能团的配对次数的计数组成。由于这些特征是简单的(两个点隔开一定距离),所以它们无法捕获复杂的上述影响因素组。经验评分函数将一组相对重要性权重拟合到少数(数十个)人工工程化特征,诸如所述数目的可旋转键、氢键供体-受体对、芳香族堆栈、静电、立体互补或应变、或者溶剂可接近疏水区域。这些特征的开发需要专业知识和大量手动调节,然而任何这种特征都将必然是有限近似,因为如上所述,即使是专业化学工作者都无法一致地解决制约分子相互作用的力。基于力场的评分函数被设计成具有高计算效率,这要求近似来自气相预测的理论结果。例如,这类系统忽略或粗略近似溶剂分子对场强度的重要介导。出于所述原因,现有技术结合亲和力预测解决方案可能并不像所希望的一样准确。需要提供更准确和/或更高效的结合亲和力预测,或至少提供替代方法来提供结合亲和力预测的解决方案。专利技术概要根据一方面,提供了一种用于预测结合亲和力的系统。所述系统包括:至少一个电子数据存储体,其被配置来存储反映输入数据的记录;编码器模块,其被配置来:构建提供对结合输入特征的几何表示的数据结构;通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充数据结构,用于编码的数据选自存储的输入数据;以及预测模块,其被配置来:将预测模型应用于数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。根据另一方面,提供了一种用于预测结合亲和力的计算机实施方法。所述方法包括:将反映输入数据的记录存储在至少一个电子数据存储体中;在至少一个处理器处构建提供对结合输入特征的几何表示的数据结构;在至少一个处理器处通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充数据结构,用于编码的所述数据选自存储的输入数据;并且在至少一个处理器处将预测模型应用于数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。在此方面,在详细解释本专利技术的至少一个实施方案之前,应理解本专利技术在其应用方面并不限于构造的细节和以下描述中所阐述或在附图中所示的部件的布置。本专利技术能具有其他实施方案并且能以各种方式来实践和实施。此外,应理解,本文所采用的措辞和术语是出于描述的目的并且不应视为具有限制性。附图简述在附图中,以举例的方式示出本专利技术的实施方案。应明确理解,描述和附图是仅出于说明的目的且是为了帮助理解,并且不意图限定本专利技术的限制。图1是示出根据实施方案的用于预测结合亲和力的示例系统的方框图。图2是示出根据实施方案的用于预测结合亲和力的高级别步骤的工作流程图。图3是根据实施方案的呈三维体素网格形式的输入特征的几何表示的示意图。图4是根据实施方案的呈两个不同取向的示例分子的示意图。图5和图6是根据实施方案的根据体素的二维网格可视化编码的两个分子的视图。图7是根据实施方案的图6的可视化的视图,其中已对体素编号。图8是根据实施方案的呈原子中心的坐标位置形式的输入特征的几何表示的示意图。图9是根据实施方案的图8中具有一系列位置的坐标位置的示意图。图10是根据实施方案将多个函数计算元素(g1,g2,...)应用于体素输入(×1,×2,...×100)并使用g()来一起合成函数计算元素输出的图。图11是根据实施方案的图1的系统的硬件部件的示意图。具体的实施方案一方面,本公开提供一种包括新型的和创新的结合亲和力预测系统的计算机系统。结合亲和力预测系统可以就一种或多种分子与一种或多种蛋白质的结合亲和力产生准确的预测。在一个实施方案中,结合亲和力预测系统可以被配置来分析大量生物数据。例如,计算机系统可以包括或链接至数据库,所述数据库包括例如数千万个数据点。取决于各种因素,诸如数据源、应用等等,数据点的数目可以变化。为了促进对来自生物数据的这些几何特征的表示,所述系统可以被配置来产生数据表示,例如,使自然空间虚拟化的数据结构。在一个实施方案中,提供了充当生物数据的“容器”的独特的和创新的数据表示,所述数据表示具有固定的输入大小,以便于使得能够应用深度学习技术来发现一种或多种分子与一种或多种蛋白质之间的结合亲和力(包括基于一组广泛的结合参数)。图像分类系统可以是基于例如色片的相对位置和大小,与图像分类系统相对比,本文公开的结合亲和力预测系统可以被配置来辨别各种原子组当中的位置和距离。作为一个实例,针对生物数据,在一个实施方案中,所述系统可以被配置来将给定体素中每个原子的存在度表示为所述条目的不同数字,例如,如果碳处在体素中,将值6指定给所述体素,因为碳的原子序数是6。然而,这种编码可以意味着具有相近原子序数的原子将具有类似的表现,这根据应用而言可能不是特别有用。另外,同组(元素周期表同一列)内的元素行为可能更为相似,并且因此这种编码给深度学习系统带来了额外的解码工作。在另一个实施方案中,所述系统可以被配置来将本文可能提及的内容当中的类型编码为“独热”编码:每个原子类型具有单独的通道。虽然存在超过100个元素,但是大多数在生物学中都未曾遇到。然而,针对受体领域,即使表示最常见的生物元素(即,H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn)就可以产生18个通道或10,483*18=188,694次输入。当另外存在原子的其他特征(例如,部分电荷、配体对蛋白质靶标的存在度、电负性、或SYBYL原子类型)时,可能的输入的数目可能甚至会更高,从而需要在另外的等同原子之间区分更多输入通道。例如,可以按使得能够表达与分子/蛋白质相关联的各种结构关系的方式利用生物数据来编码数据表示。深度学习方法之后可以将编码的数据应用于数据表示,从而有可能使得能够产生反映出分子/蛋白质的结构特征的分析结果。本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/05/201580036059.html" title="结合亲和力预测系统和方法原文来自X技术">结合亲和力预测系统和方法</a>

【技术保护点】
一种用于预测结合亲和力的系统,所述系统包括:至少一个电子数据存储体,其被配置来存储反映输入数据的记录;编码器模块,其配置来:构建提供对结合输入特征的几何表示的数据结构;通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充所述数据结构,用于编码的所述数据选自所述存储的输入数据;以及预测模块,其被配置来:将预测模型应用于所述数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。

【技术特征摘要】
【国外来华专利技术】2014.05.05 US 61/988,5101.一种用于预测结合亲和力的系统,所述系统包括:至少一个电子数据存储体,其被配置来存储反映输入数据的记录;编码器模块,其配置来:构建提供对结合输入特征的几何表示的数据结构;通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充所述数据结构,用于编码的所述数据选自所述存储的输入数据;以及预测模块,其被配置来:将预测模型应用于所述数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。2.如权利要求1所述的系统,其中所述几何表示包括原子中心的多个坐标。3.如权利要求1所述的系统,其中所述几何表示包括多个体素,每个体素表示一个原子的位置。4.如权利要求3所述的系统,其中所述几何表示包括三维体素网格。5.如权利要求1至4中任一项所述的系统,其中所述几何表示具有介于与之间的分辨率。6.如权利要求5所述的系统,其中所述几何表示具有的分辨率。7.如权利要求1至6中任一项所述的系统,其中所述预测模块被配置来训练所述预测模型。8.如权利要求1至7中任一项所述的系统,其中所述预测模块被配置来应用预测模型的集合体以产生所述结合亲和力的所述指示符。9.如权利要求1至8中任一项所述的系统,其中所述预测模块被配置来通过应用预先限定的变换来扩充所述输入数据。10.如权利要求9所述的系统,其中所述预先限定的变换包括旋转操作、平移操作和镜像操作中的至少一种。11.如权利要求1至10中任一项所述的系统,其中所述数据结构具有预先限定的大小。12.如权利要求1至11中任一项所述的系统,其中所述应用所述预测模型包括应用深度学习技术。13.如权利要求1至12中任一项所述的系统,其中所述输入数据记录包括反映与以下各项中的至少一项相关的输入数据的记录:原子、配体分子、...

【专利技术属性】
技术研发人员:A·S·海菲兹I·瓦拉赫M·迪萨巴
申请(专利权)人:艾腾怀斯股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1