通过主动学习进行药物优化制造技术

技术编号:38537107 阅读:6 留言:0更新日期:2023-08-19 17:07
本发明专利技术提供了一种通过主动学习用于计算药物设计的方法。该方法包括:定义化合物的群体,每种化合物具有一种或更多种结构特征;定义来自群体的多种生物特性已知的化合物的训练集;以及定义多个目标,每个目标定义期望的生物特性。该方法包括使用化合物的训练集训练贝叶斯统计模型以输出近似群体中的化合物的生物特性的概率分布作为群体中的化合物的结构特征的目标函数。该方法包括确定来自群体的不在训练集中的化合物的子集,子集是根据采集函数的优化来确定的,采集函数的优化基于来自经训练的贝叶斯统计模型的概率分布以及基于定义的目标。该方法包括在所确定的子集中选择至少一些化合物用于合成。至少一些化合物用于合成。

【技术实现步骤摘要】
【国外来华专利技术】通过主动学习进行药物优化


[0001]本专利技术涉及用于化合物(诸如药物)的计算设计的方法和系统。特别地,本专利技术涉及通过主动学习优化计算模型的方法,该方法用于设计与所选靶分子相互作用的药物,本专利技术还涉及使用这些系统和方法设计的药物。

技术介绍

[0002]药物发现是识别候选化合物以进入到药物开发的下一阶段的过程,例如,临床前试验。这些候选化合物需要满足进一步开发的某些标准。现代药物发现涉及初始筛选“命中”化合物的识别和优化。特别地,这些化合物需要相对于所需标准进行优化,这可能包括多种不同生物特性的优化。待优化的特性可以包括例如:针对期望靶标的功效/效力、对非期望靶标的选择性、毒性概率低、以及良好的药物代谢和药物代谢动力学特性(ADME)。只有满足特定要求的化合物才能成为可继续药物开发过程的候选化合物。
[0003]药物发现过程可能涉及在从初始筛选命中到候选化合物的优化过程中制备/合成大量化合物。特别地,对合成的那些化合物进行测量,以确定其特性,如生物活性。然而,可以被作为特定药物发现项目的一部分制备的化合物数量将远远超过可以被合成和测试的化合物数量,可能是几个数量级。因此,对合成化合物的测量结果进行分析,并用于为决定下一步合成哪些化合物提供依据,以最大限度地提高获得具有相对于候选化合物所需的各种标准的进一步改善特性的化合物的可能性。
[0004]一种或更多种化合物在特定阶段的合成和生物特性(诸如生物活性)的后续测量被称为药物发现过程的设计周期(或迭代)。通常,在过程的每个设计周期都会合成和测试一组化合物,因为这比一次合成和测试一种化合物更有效。然而,可用资源的水平通常意味着在任何给定的设计周期内,可以被合成的一组化合物的数量存在上限。
[0005]在基于湿实验室的药物发现项目中,在找到候选化合物之前,通常要经过几个设计周期合成数百甚至数千种化合物。这是一个漫长、昂贵且低效的过程:合成一种化合物可能花费数千英镑,平均需要三到五年才能获得一种候选化合物。
[0006]相对于可以由药品化学家单独进行的分析,计算方法的使用大大提高了可以对已经合成的化合物进行分析的水平。特别地,机器学习(ML)、人工智能(AI)或其他数学方法可用于在超出人类能力的水平上并行评估大量设计参数,以识别参数(例如化合物的结构特征)与期望的特性(例如生物活性水平)之间的关系。然后,数学方法可以使用这些识别的关系来更好地预测哪些化合物相对于候选化合物的所需标准更可能表现出更多数量/水平的期望的生物特性。这意味着此类数学方法可用于减少设计周期的数量,从而减少需要合成的化合物的数量,以获得达到候选化合物所需的期望的特性组合的化合物,从而实现药物发现项目相关的成本和时间的减少。
[0007]因此,寻找具有多种期望的特性的候选化合物的任务可以被视为是优化问题,目的是使用从先前合成的化合物获得的知识获得具有各种期望的特性的“最佳”化合物。当在药物发现的背景下面对这样的计算优化问题时,要解决多个挑战。
[0008]一个挑战是化合物群体中的化合物之间的函数关系的类型不是先前已知的。即,描述例如化合物的结构特征与生物特性之间的关系的目标函数的形式是未知的。这意味着在药物发现的背景下,依赖于函数形式的现有知识的一些已知的优化技术可能不合适。
[0009]另一个挑战是目标函数在输入空间的点处的评估是昂贵的。这是因为合成和测试化合物,即评估成本,既费时又昂贵。照此,来自待近似的目标函数的评估点的训练集可能含有相对较少的点,且在短时间段内大大增加训练集的大小可能不可行。这可能影响可以如何有效地训练近似目标函数的模型,并因此影响这样的模型如何能够进行准确的预测或近似。
[0010]进一步的挑战是许多已知的优化技术被设计成选择评估未知函数的单个点。然而,如上所述,在药物发现项目中,出于效率的原因,通常的情况是在任何给定的设计周期中选择多种化合物用于进行合成和测试。即,在给定迭代中,多个点需要被同时优化和选择以用于评估。
[0011]而且,已知的优化技术可以用于优化目标函数的单个参数,即,优化例程具有针对单个目标进行优化。然而,如上所述,通常将存在多个标准,需要针对该多个标准来优化化合物,以便成为合适的候选化合物。即,需要根据所考虑的特定药物发现项目的候选化合物的各种期望的生物特性并行优化函数的多个参数。
[0012]最后,许多优化例程依赖于目标函数的输入空间是连续的,使得可以使用诸如基于梯度的方法的技术。然而,清楚的是,在药物发现的背景下,输入空间是离散的(其中每种化合物均表示输入空间中的点),因此不能利用依赖于连续输入空间的技术。
[0013]本专利技术正是针对这个背景而设置的。

技术实现思路

[0014]根据本专利技术的方面,提供了一种用于计算药物设计的方法。该方法包括定义多种化合物的群体,每种化合物具有一种或更多种结构特征。该方法包括定义来自群体的多种特性已知的化合物的训练集。特性可以是化合物的任何相关的物理、化学或生物特性,特性可以被认为包括化合物的生物、生物化学、化学、生物物理、生理和/或药理特性。该方法包括定义多个目标,每个目标定义期望的特性。该方法包括使用化合物的训练集训练贝叶斯统计模型以输出近似群体中的化合物的特性的概率分布作为群体中的化合物的结构特征的目标函数。该方法包括确定来自群体的不在训练集中的多种化合物的子集。该子集是根据采集函数的优化来确定的,该采集函数的优化基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标。该方法可以包括选择所确定的子集中的至少一些化合物用于合成和/或用于进行(计算)分子动力学分析/模拟。该选择可以作为药物设计过程的一部分进行以获得具有期望的特性的化合物。方便地,贯穿本公开,化合物的这种特性可以统称为“生物特性”,因此,如本文所使用的,“生物特性”可以包括(化学)化合物的任何相关特性,包括可能更具体地被认为落入生物、生物化学、化学、生物物理、生理和/或药理特性的范围内/与生物、生物化学、化学、生物物理、生理和/或药理特性重叠的这种特性。
[0015]该方法可以包括:对于目标中的一个或更多个,通过将相应的效用函数应用于来自贝叶斯统计模型的概率分布来映射与相应目标的生物特性相关联的偏好,以获得偏好修改的概率分布。采集函数的优化可以基于偏好修改的概率分布。
[0016]偏好可以指示相应目标相对于多个目标中的其他目标的优先级。
[0017]在一些实施例中,对于化合物中的一种的生物特性中的一种,可能的情况是与生物特性的概率分布相关联的较低的不确定性值对应于与相应的生物特性相关联的较大偏好。
[0018]偏好可以是用户定义的偏好,例如由化学家定义的偏好。
[0019]效用函数中的一个或更多个可以是分段函数。分段函数可以是分段线性函数。
[0020]在一些实施例中,优化采集函数可以包括:针对群体中的每种化合物评估采集函数,可选地,将化合物在训练集中排除。可以基于所评估的采集函数值来确定子集。
[0021]在一些实施例中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于计算药物设计的方法,包括:定义多种化合物的群体,每种化合物具有一种或更多种结构特征;定义来自群体的多种特性已知的化合物的训练集;定义多个目标,每个目标定义期望的特性;使用所述化合物的训练集训练贝叶斯统计模型,以输出近似所述群体中的化合物的特性的概率分布作为所述群体中的化合物的结构特征的目标函数;确定来自所述群体的不在所述训练集中的多种化合物的子集,所述子集是根据采集函数的优化来确定的,所述采集函数的优化基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标;以及,选择所确定的子集中的至少一些化合物用于合成。2.根据权利要求1所述的方法,包括:对于所述目标中的一个或更多个,通过将相应的效用函数应用于来自所述贝叶斯统计模型的所述概率分布来映射与相应目标的所述特性相关联的偏好,以获得偏好修改的概率分布,其中所述采集函数的优化基于所述偏好修改的概率分布。3.根据权利要求2所述的方法,其中,所述偏好指示所述相应目标相对于所述多个目标中的其他目标的优先级。4.根据权利要求2或权利要求3所述的方法,其中,对于所述化合物中的一种的所述特性中的一种,与所述特性的概率分布相关联的不确定性值越低,与相应特性相关联的偏好越大。5.根据权利要求2到4中任一项所述的方法,其中,所述效用函数中的一个或更多个是分段函数;可选地,其中,所述分段函数是分段线性函数。6.根据前述权利要求中任一项所述的方法,其中,优化所述采集函数包括:针对所述群体中的每种化合物评估所述采集函数,可选地,将所述化合物在所述训练集中排除,其中,基于所评估的采集函数值确定所述子集。7.根据前述权利要求中任一项所述的方法,其中,基于所定义的多个目标的所述采集函数的优化提供化合物的帕累托最优集,其中,从所述帕累托最优集中选择用于所确定的子集的所述多种化合物中的一种或更多种。8.根据前述权利要求中任一项所述的方法,其中,来自所述贝叶斯统计模型的所述概率分布包括:与所述多个目标中的每个相应目标相关联的每种特性的概率分布。9.根据权利要求8所述的方法,包括通过将聚合函数应用于来自所述贝叶斯统计模型的多个概率分布来将所述多个概率分布映射到一维聚合概率分布,其中,所述采集函数的优化基于所述聚合概率分布;可选地,其中,所述聚合函数包括以下中的一项或更多项:和算子、平均算子、以及积算子。10.根据前述权利要求中任一项所述的方法,其中,所述采集函数是以下中的至少一个:预期改进函数、改进概率函数、以及置信界限函数。11.根据权利要求1至8中任一项所述的方法,其中,所述采集函数是多维采集函数,其中,每个维度对应于所述多个目标中的相应目标;可选地,其中,所述多维采集函数是超体积预期改进函数。12.根据前述权利要求中任一项所述的方法,其中,训练所述贝叶斯统计模型包括:调
谐所述贝叶斯统计模型的多个超参数,其中,调谐所述超参数包括:应用最大似然估计技术和交叉验证技术的组合。13.根据前述权利要求中任一项所述的方法,其中,确定所述多种化合物的所述子集包括:通过基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标优化采集函数,来识别来自所述群体的不在所述训练集中的一种化合物,以及重复以下步骤,直到所述多种化合物已被识别用于所述子集:使用所述化合物的训练集和一种或更多种所识别的化合物重新训练所述贝叶斯统计模型;以及,通过基于来自经重新训练的贝叶斯统计模型的所述概率分布以及基于所定义的多个目标优化采集函数,来识别来自所述群体的不在所述训练集中的并且不是一种或更多种先前所识别的化合物的一种化合物。14.根据权利要求13所述的方法,其中,重新训练所述贝叶斯统计模型包括:针对所述贝叶斯统计模型中的一种或更多种所识别的化合物设置一个或更多个伪特性值;可选地,其中,根据以下中的一个来设置所述伪特性值:克里金信徒方法、以及经常说谎的人方法。15.根据前述权利要求中任一项所述的方法,其中,在所述贝叶斯统计模型中,每种化合物均被表示为位向量,其中,所述位向量的位指示所述化合物中存在或不存在相应的结构特征。16.根据前述权利要求中任一项所述的方法,其中,所述贝叶斯统计模型是高斯过程模型。17.根据前述权利要求中任一项所述的方法,其中,来自经训练的贝叶斯统计模型的所述概率分布包括指示所述群体中的化合物的近似特性值的后验均值,以及指示与所述群体中的所...

【专利技术属性】
技术研发人员:埃米尔
申请(专利权)人:艾克斯赛安西娅人工智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1