分子设计制造技术

技术编号:35635951 阅读:13 留言:0更新日期:2022-11-19 16:25
本发明专利技术提供了发现具有生物特性的化合物的系统和方法。获得第一训练数据集,包括化学结构和生物特性。通过使用编码器权重将化学结构信息投影到潜在表示空间中来获得化合物的投影。通过使用分类器权重将投影输入到分类器中来对化合物进行分类。所述编码器和分类器通过将每种化合物的所述分类与实际生物特性进行比较并更新各自的权重来训练。获得包括化学结构的第二训练数据集。通过使用编码器权重将化学结构信息投影到潜在表示空间中来获得化合物的投影。通过使用解码器权重将投影输入到解码器中来获得化学结构。通过比较输出的和实际的化学结构并更新所述各自的权重来训练所述解码器。使用所述经过训练的编码器、分类器和解码器来鉴定所述第一和第二数据集中不存在的候选化合物。在的候选化合物。在的候选化合物。

【技术实现步骤摘要】
【国外来华专利技术】分子设计
[0001]相关申请的交叉引用
[0002]本申请要求于2020年1月14日提交的题为“分子设计(Molecule Design)”的美国临时专利申请第62/961,112号的优先权,其内容以全文引用的方式并入本文用于所有目的。


[0003]本公开通常涉及用于分子设计的系统和方法。更具体地,本公开涉及使用机器学习来发现具有生物特性的化合物。

技术介绍

[0004]细胞机制和作为此类生物过程基础的化学化合物和中间体的研究对于理解疾病的病因、表现和进展是重要的。现有的药物发现方法,无论是传统的高通量筛选还是采用经由电脑模拟方法的方法,仍然是低效的并且不能满足现有的医疗需求。
[0005]本领域需要克服药物发现面临的现有挑战,药物发现使用用于生成和优化药物结构以操纵一种或多种靶标细胞状态(例如,通过各自的分子签名)的改进方法。特别地,在本领域中需要改进的药物发现方法,例如,改进对天然不同细胞状态的理解,揭示细胞选择备选状态的关键过渡状态,揭示细胞状态变化的分子驱动物,以及设计和优化用于选择性控制这些分子驱动物的药理学方法。

技术实现思路

[0006]本公开解决了上述缺点。本公开至少部分地使用发现具有第一生物特性(例如,关于化合物是否激活或抑制细胞状态的指示)的测试化合物的系统和方法来解决这些缺点。获得第一训练数据集,包括化学结构和生物特性。通过使用编码器权重(例如,与未经训练或部分未经训练的神经网络编码器相关联的第一多个权重)将化学结构信息投影到潜在表示空间中来获得化合物的投影。通过使用分类器权重(例如,与未经训练或部分未经训练的分类器相关联的第二多个权重)将投影输入到分类器中来对化合物进行分类。编码器和分类器通过将每种化合物的分类与实际生物特性进行比较并更新各自的权重来训练。获得包括化学结构的第二训练数据集。通过使用编码器权重(例如,与经过训练的神经网络编码器相关联的第一多个权重)将化学结构信息投影到潜在表示空间中来获得化合物的投影。通过使用解码器权重(例如,与未经训练或部分未经训练的解码器相关联的第三多个权重)将投影输入到解码器中来获得化学结构。通过比较输出的和实际的化学结构并更新各自的权重来训练解码器。使用经过训练的编码器、分类器、解码器来鉴定不存在于第一和第二数据集中的候选化合物(例如,具有第一生物特性的测试化合物)。
[0007]本公开的一个方面提供了用于发现具有第一生物特性的测试化合物的方法。该方法包含,在包含至少一个处理器和存储由至少一个处理器执行的至少一个程序的存储器的计算机系统处,该至少一个程序包含用于以电子形式获得第一训练数据集的指令。对于第
一多个化合物中的每个相应化合物,第一训练数据集包含(i)关于相应化合物的化学结构的信息和(ii)相应化合物的多种生物特性中的一种或多种生物特性。多种生物特性包括第一生物特性。
[0008]通过执行第一程序来训练未经训练或部分未经训练的神经网络编码器和未经训练或部分未经训练的分类器。对于第一多个化合物中的每个相应化合物,根据与未经训练或部分未经训练的神经网络编码器相关联的第一多个权重将关于相应化合物的化学结构的信息投影到潜在表示空间中,以获得相应化合物的对应投影表示。将相应化合物的对应投影表示输入到未经训练或部分未经训练的分类器中,以根据与未经训练或部分未经训练的分类器相关联的第二多个权重来获得相应化合物的分类。通过将第一多个化合物中的每个相应化合物的分类与第一训练数据集中的相应化合物的一种或多种生物特性进行比较来更新第一多个权重和第二多个权重,从而获得经过训练的神经网络编码器和经过训练的分类器。
[0009]以电子形式获得第二训练数据集,其中对于第二多个化合物中的每个相应化合物,第二训练数据集包含关于相应化合物的化学结构的信息。
[0010]通过执行第二程序来训练未经训练或部分未经训练的解码器。对于第二多个化合物中的每个相应化合物,根据与经过训练的神经网络编码器相关联的第一多个权重将关于相应化合物的化学结构的信息投影到潜在表示空间中,以获得相应化合物的对应投影表示。将相应化合物的对应投影表示输入到未经训练或部分未经训练的解码器中,以根据与未经训练或部分未经训练的解码器相关联的第三多个权重来获得相应化合物的化学结构。通过将由未经训练或部分未经训练的解码器输出的每个相应化合物的化学结构与来自第二训练数据集的相应化合物的实际化学结构进行比较来更新第三多个权重,从而获得经过训练的解码器。
[0011]经过训练的神经网络编码器、经过训练的分类器和经过训练的解码器用于鉴定具有第一生物特性的测试化合物,其中测试化合物不存在于第一和第二训练集中。
[0012]在一些实施例中,关于第一多个化合物中的相应化合物的化学结构的信息是相应化合物的化学结构或基于相应化合物的化学结构的高维向量表示。
[0013]在一些实施例中,使用经过训练的神经网络编码器、经过训练的分类器和经过训练的解码器包含将由经过训练的神经网络编码器产生的第一化合物的投影表示和第二化合物的投影表示内插,其中第一和第二化合物具有第一分子特性,从而获得内插投影。将内插投影输入到经过训练的解码器中,从而获得多个候选化合物。对于多个候选化合物的全部或一部分中的每个相应候选化合物,通过将候选化合物的化学结构输入到经过训练的神经网络编码器中来获得相应候选化合物的对应投影表示,并且通过将相应候选化合物的对应投影表示输入到经过训练的分类器中来获得相应候选化合物的分类。当经过训练的分类器指示相应候选化合物的对应投影表示具有第一生物特性时,相应候选化合物被认为具有第一生物特性。
[0014]在一些此类实施例中,该方法还包含通过第三程序验证多个候选化合物中的第一化合物具有第一生物特性,第三程序包含使第一化合物经受湿实验室测定,湿实验室测定验证相应候选化合物具有第一生物特性。在一些此类实施例中,该方法还包含合成第一化合物。
[0015]在一些实施例中,该方法还包含通过第三程序验证经过训练的神经网络编码器、经过训练的分类器和经过训练的解码器,第三程序包含获得不存在于第一或第二训练数据集中的第一化合物,第一化合物具有第一生物特性并具有已知的化学结构;通过将第一化合物的化学结构输入到经过训练的神经网络编码器中来获得第一化合物的投影表示;将第一化合物的投影表示输入到经过训练的分类器中以验证经过训练的分类器将第一化合物识别为具有第一生物特性;以及将第一化合物的投影表示输入到经过训练的解码器中以验证经过训练的解码器重构第一化合物的化学结构。
[0016]在一些实施例中,关于相应化合物的化学结构的信息是相应化合物的分子结构;该方法还包含形成化学结构的特征化并将化学结构的特征化并入多维向量空间中;以及根据与未经训练或部分未经训练的神经网络编码器相关联的第一多个权重将关于相应化合物的化学结构的信息投影到潜在表示空间中包含将化学结构的多维向量空间输入到未经训练或部分未经训练的神经网络编码器中。
[0017]在一些实施例中,化学结构的特征化是张量。在一些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种发现具有第一生物特性的测试化合物的方法,所述方法包含:在包含至少一个处理器和存储由所述至少一个处理器执行的至少一个程序的存储器的计算机系统处,所述至少一个程序包含用于以下操作的指令:A)以电子形式获得第一训练数据集,其中:对于第一多个化合物中的每个相应化合物,所述第一训练数据集包含(i)关于相应化合物的化学结构的信息和(ii)所述相应化合物的多种生物特性中的一种或多种生物特性,所述第一多个化合物包含100个或更多个化合物,并且所述多种生物特性包括所述第一生物特性;B)通过执行第一程序来训练未经训练或部分未经训练的神经网络编码器和未经训练或部分未经训练的分类器,所述第一程序包含:(i)对于所述第一多个化合物中的每个相应化合物,(a)根据与所述未经训练或部分未经训练的神经网络编码器相关联的第一多个权重,将关于所述相应化合物的所述化学结构的所述信息投影到潜在表示空间中,以获得所述相应化合物的对应投影表示,以及(b)根据与所述未经训练或部分未经训练的分类器相关联的第二多个权重,将所述相应化合物的所述对应投影表示输入到所述未经训练或部分未经训练的分类器中,以获得所述相应化合物的分类;以及(ii)通过将所述第一多个化合物中的每个相应化合物的所述分类与所述第一训练数据集中的所述相应化合物的所述一种或多种生物特性进行比较来更新所述第一多个权重和所述第二多个权重,从而获得经过训练的神经网络编码器和经过训练的分类器;C)以电子形式获得第二训练数据集,其中对于第二多个化合物中的每个相应化合物,所述第二训练数据集包含关于所述相应化合物的化学结构的信息,并且其中所述第二多个化合物包含100个或更多个化合物;D)通过执行第二程序来训练未经训练或部分未经训练的解码器,所述第二程序包含:(i)对于所述第二多个化合物中的每个相应化合物,(a)根据与所述经过训练的神经网络编码器相关联的所述第一多个权重,将关于所述相应化合物的所述化学结构的所述信息投影到潜在表示空间中,以获得所述相应化合物的对应投影表示,以及(b)根据与所述未经训练或部分未经训练的解码器相关联的第三多个权重,将所述相应化合物的所述对应投影表示输入到所述未经训练或部分未经训练的解码器中,以获得所述相应化合物的化学结构;以及(ii)通过将由所述未经训练或部分未经训练的解码器输出的每个相应化合物的所述化学结构与来自所述第二训练数据集的所述相应化合物的实际化学结构进行比较来更新所述第三多个权重,从而获得经过训练的解码器;以及E)使用所述经过训练的神经网络编码器、经过训练的分类器和经过训练的解码器来鉴定具有所述第一生物特性的测试化合物,其中所述测试化合物不存在于第一和第二训练集中。2.根据权利要求1所述的方法,其中关于所述第一多个化合物中的所述相应化合物的化学结构的所述信息是所述相应化合物的化学结构或基于所述相应化合物的化学结构的高维向量表示。3.根据权利要求1所述的方法,其中所述E)使用包含:
将由所述经过训练的神经网络编码器产生的第一化合物的投影表示和第二化合物的投影表示内插,其中所述第一和第二化合物具有第一分子性质,从而获得内插投影;将所述内插投影输入到所述经过训练的解码器中,从而获得多个候选化合物;对于所述多个候选化合物的全部或一部分中的每个相应候选化合物:(i)通过将所述候选化合物的化学结构输入到所述经过训练的神经网络编码器中来获得所述相应候选化合物的对应投影表示;以及(ii)通过将所述相应候选化合物的所述对应投影表示输入到所述经过训练的分类器中来获得所述相应候选化合物的分类,其中当所述经过训练的分类器指示所述相应候选化合物的所述对应投影表示具有所述第一生物特性时,则认为所述相应候选化合物具有所述第一生物特性。4.根据权利要求3所述的方法,所述方法还包含通过第三程序验证所述多个候选化合物中的第一化合物具有所述第一生物特性,所述第三程序包含:使所述第一化合物经受湿实验室测定,所述湿实验室测定验证所述相应候选化合物具有所述第一生物特性。5.根据权利要求4所述的方法,所述方法还包含:合成所述第一化合物。6.根据权利要求1所述的方法,所述方法还包含通过第三程序来验证所述经过训练的神经网络编码器、经过训练的分类器和经过训练的解码器,所述第三程序包含:获得第一化合物,其不存在于所述第一或第二训练数据集中,其具有所述第一生物特性并具有已知的化学结构;通过将所述第一化合物的化学结构输入到所述经过训练的神经网络编码器中来获得所述第一化合物的投影表示;将所述第一化合物的所述投影表示输入到所述经过训练的分类器中以验证所述经过训练的分类器将所述第一化合物鉴定为具有所述第一生物特性;以及将所述第一化合物的所述投影表示输入到所述经过训练的解码器中以验证所述经过训练的解码器重构所述第一化合物的所述化学结构。7.根据权利要求1至6中任一项所述的方法,其中(i)关于所述相应化合物的所述化学结构的所述信息是所述相应化合物的分子结构,(ii)所述方法还包含:形成所述化学结构的特征化;以及将所述化学结构的所述特征化并入多维向量空间中,以及(iii)根据与所述未经训练或部分未经训练的神经网络编码器相关联的所述第一多个权重,所述将关于所述相应化合物的所述化学结构的所述信息投影到所述潜在表示空间中包含将所述化学结构的所述多维向量空间输入到所述未经训练或部分未经训练的神经网络编码器中。8.根据权利要求7所述的方法,其中所述化学结构的所述特征化是张量。9.根据权利要求8所述的方法,其中所述张量是一维向量或二维矩阵。10.根据权利要求7所述的方法,其中所述化学结构的所述特征化是扩展的圆形指纹,或多个独热编码向量的分子图。
11.根据权利要求7所述的方法,其中所述多维向量空间是N维空间,其中N是20至80的整数。12.根据权利要求11所述的方法,其中N是50。13.根据权利要求7所述的方法,其中将所述化学结构的所述特征化并入所述化学结构的所述多维向量空间中包含将所述化学结构的所述特征化输入到空间图卷积网络(GCN)中。14.根据权利要求13所述的方法,其中所述GCN是图注意力网络(GAT)或基于图子结构索引的近似图(SAGA)。15.根据权利要求7所述的方法,其中所述将所述分子结构的所述特征化并入所述化学结构的所述多维向量空间中包含将谱图卷积(SGC)应用于所述化学结构的所述特征化。16.根据权利要求15所述的方法,其中将所述SGC应用于所述化学结构的所述特征化使用切比雪夫多项式滤波。17.根据权利要求7所述的方法,其中形成所述化学结构的所述特征化包含:将所述化学结构转化为简化的分子输入线输入系统(SMILES)字符串,以及将所述SMILES字符串转化为包含邻接矩阵和特征矩阵的分子图表示。18.根据权利要求1至17中任一项所述的方法,其中所述第一生物特性选自由以下组成的组:关于化合物是否激活细胞状态的指示、关于化合物是否抑制细胞状态的指示、对生物靶标的亲和力、所述化合物抑制生物状态的EC50、所述化合物抑制生物状态的IC50、所述化合物抑制生物状态的ED50、所述化合物抑制生物状态的LD50和所述化合物抑制生物状态的TD50。19.根据权利要求18所述的方法,其中所述细胞状态的特征在于与所述细胞状态相关联的多个基因中的一个或多个相应基因的上调或下调。20.根据权利要求18所述的方法,其中所述细胞状态是疾病状态。21.根据权利要求18所述的方法,其中所述细胞状态的特征在于一种或多种生物途径的上调或下调。22.根据权利要求18所述的方法,其中所述细胞状态的特征在于多种生物途径中的一种或多种生物途径的上调或下调。23.根据权利要求18所述的方法,其中所述细胞状态的特征在于一种或多种细胞组分的上调或下调。24.根据权利要求23所述的方法,其中所述一种或多种细胞组分包含任选地在RNA水平上测定的多个基因。25.根据权利要求23所述的方法,其中使用单细胞核糖核酸(RNA)测序(scRNA

seq)、scTag

seq、使用测序(scATAC

seq)的转座酶可及染色质的单细胞测定、CyTOF/SCoP、E

MS/Abseq、miRNA

seq、CITE

seq或其任何组合,或者其汇总(包括代表单细胞细胞组分表达数据集中的激活途径的组合,如线性组合)来定量所述一种或多种细胞组分。26.根据权利要求23所述的方法,其中所述一种或多种细胞组分包含多种蛋白质。27.一种计算机系统,其包含一个或多个处理器和存储器,所述存储器存储用于执行用于发现具有第一生物特性的测试化合物的方法的指令,所述方法包含:A)以电子形式获得第一训练数据集,其中:
对于第一多个化合物中的每个相应化合物,所述第一训练数据集包含(i)关于相应化合物的化学结构的信息和(ii)所述相应化合物的多种生物特性中的一种或多种生物特性,所述第一多个化合物包含100个或更多个化合物,并且所述多种生物特性包括所述第一生物特性;B)通过执行第一程序来训练未经训练或部分未经训练的神经网络编码器和未经训练或部分未经训练的分类器,所述第一程序包含:(i)对于所述第一多个化合物中的每个相应化合物,(a)根据与所述未经训练或部分未经训练的神经网络编码器相关联的第一多个权重,将关于所述相应化合物的所述化学结构的所述信息投影到潜在表示空间中,以获得所述相应化合物的对应投影表示,以及(b)根据与所述未经训练或部分未经训练的分类器相关联的第二多个权重,将所述相应化合物的所述对应投影表示输入到所述未经训练或部分未经训练的分类器中,以获得所述相应化合物的分类;以及(ii)通过将所述第一多个化合物中的每个相应化合物的所述分类与所述第一训练数据集中的所述相应化合物的所述一种或多种生物特性进行比较来更新所述第一多个权重和所述第二多个权重,从而获得经过训练的神经网络编码器和经过训练的分类器;C)以电子形式获得第二训练数据集,其中对于第二多个化合物中的每个相应化合物,所述第二训练数据集包含关于所述相应化合物的化学结构的信息,并且其中所述第二多个化合物包含100个或更多个化合物;D)通过执行第二程序来训练未经训练或部分未经训练的解码器,所述第二程序包含:(i)对于所述第二多个化合物中的每个相应化合物,(a)根据与所述经过训练的神经网络编码器相关联的所述第一多个权重,将关于所述相应化合物的所述化学结构的所述信息投影到潜在表示空间中,以获得所述相应化合物的对应投影表示,以及(b)根据与所述未经训练或部分未经训练的解码器相关联的第三多个权重,将所述相应化合物的所述对应投影表示输入到所述未经训练或部分未经训练的解码器中,以获得所述相应化合物的化学结构;以及(ii)通过将由所述未经训练或部分未经训练的解码器输出的每个相应化合物的所述化学结构与来自所述第二训练数据集的所述相应化合物的实际化学结构进行比较来更新所述第三多个权重,从而获得经过训练的解码器;以及E)使用所述经过训练的神经网络编码器、经过训练的分类器和经过训练的解码器来鉴定具有所述第一生物特性的测试化合物,其中所述测试化合物不存在于第一和第二训练集中。28.一种存储可由计算机执行的一个或多个计算机程序的非暂时性计算机可读介质,所述计算机程序用于执行用于发现具有第一生物特性的测试化合物的方法,所述计算机包含一个或多个处理器和存储器,所述一个或多个计算机程序共同编码计算机可执行指令,所述计算机可执行指令执行包含以下步骤的方法:A)以电子形式获得第一训练数据集,其中:对于第一多个化合物中的每个相应化合物,所述第一训练数据集包含(i)关于相应化合物的化学结构的信息和(ii)所述相应化合物的多种生物特性中的一种或多种生物特性,所述第一多个化合物包含100个或更多个化合物,并且
所述多种生物特性包括所述第一生物特性;B)通过执行第一程序来训练未经训练或部分未经训练的神经网络编码器和未经训练或部分未经训练的分类器,所述第一程序包含:(i)对于所述第一多个化合物中的每个相应化合物,(a)根据与所述未经训练或部分未经训练的神经网络编码器相关联的第一多个权重,将关于所述相应化合物的所述化学结构的所述信息投影到潜在表示空间中,以获得所述相应化合物的对应投影表示,以及(b)根据与所述未经训练或部分未经训练的分类器相关联的第二多个权重,将所述相应化合物的所述对应投影表示输入到所述未经训练或部分未经训练的分类器中,以获得所述相应化合物的分类;以及(ii)通过将所述第一多个化合物中的每个相应化合物的所述分类与所述第一训练数据集中的所述相应化合物的所述一种或多种生物特性进行比较来更新所述第一多个权重和所述第二多个权重,从而获得经过训练的神经网络编码器和经过训练的分类器;C)以电子形式获得第二训练数据集,其中对于第二多个化合物中的每个相应化合物,所述第二训练数据集包含关于所述相应化合物的化学结构的信息,并且其中所述第二多个化合物包含100个或更多个化合物;D)通过执行第二程序来训练未经训练或部分未经训练的解码器,所述第二程序包含:(i)对于所述第二多个化合物中的每个相应化合物,(a)根据与所述经过训练的神经网络编码器相关联的所述第一多个权重,将关于所述相应化合物的所述化学结构的所述信息投影到潜在表示空间中,以获得所述相应化合物的对应投影表示,以及(b)根据与所述未经训练或部分未经训练的解码器相关联的第三多个权重,将所述相应化合物的所述对应投影表示输入到所述未经训练或部分未经训练的解码器中,以获得所述相应化合物的化学结构;以及(ii)通过将由所述未经训练或部分未经训练的解码器输出的每个相应化合物的所述化学结构与来自所述第二训练数据集的所述相应化合物的实际化学结构进行比较来更新所述第三多个权重,从而获得经过训练的解码器;以及E)使用所述经过训练的神经网络编码器、经过训练的分类器和经过训练的解码器来鉴定具有所述第一生物特性的测试化合物,其中所述测试化合物不存在于第一和第二训练集中。29.一种发现具有第一生物特性的候选化合物的方法,所述方法包含:在包含至少一个处理器和存储由所述至少一个处理器执行的至少一个程序的存储器的计算机系统处,所述至少一个程序包含用于以下操作的指令:通过将所述第一化合物的化学结构输入到经过训练的神经网络编码器中来获得被赋予所述第一生物特性的第一化合物的第一投影表示,其中所述第一投影表示具有N维,其中N是20至80的整数;使用第一投影以获得一个或多个候选投影;将所述一个或多个候选投影中的每个候选投影输入到经过训练的解码器中,从而获得多个候选化合物,其中所述第一化合物不存在于所述多个候选化合物中;对于所述多个候选化合物中的每个相应候选化合物:(i)通过将所述候选化合物的化...

【专利技术属性】
技术研发人员:U
申请(专利权)人:旗舰先锋创新VI有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1