通过主动学习进行药物优化制造技术

技术编号：38537107 阅读：25 留言：0更新日期：2023-08-19 17:07

本发明专利技术提供了一种通过主动学习用于计算药物设计的方法。该方法包括：定义化合物的群体，每种化合物具有一种或更多种结构特征；定义来自群体的多种生物特性已知的化合物的训练集；以及定义多个目标，每个目标定义期望的生物特性。该方法包括使用化合物的训练集训练贝叶斯统计模型以输出近似群体中的化合物的生物特性的概率分布作为群体中的化合物的结构特征的目标函数。该方法包括确定来自群体的不在训练集中的化合物的子集，子集是根据采集函数的优化来确定的，采集函数的优化基于来自经训练的贝叶斯统计模型的概率分布以及基于定义的目标。该方法包括在所确定的子集中选择至少一些化合物用于合成。至少一些化合物用于合成。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】通过主动学习进行药物优化

[0001]本专利技术涉及用于化合物(诸如药物)的计算设计的方法和系统。特别地，本专利技术涉及通过主动学习优化计算模型的方法，该方法用于设计与所选靶分子相互作用的药物，本专利技术还涉及使用这些系统和方法设计的药物。

技术介绍

[0002]药物发现是识别候选化合物以进入到药物开发的下一阶段的过程，例如，临床前试验。这些候选化合物需要满足进一步开发的某些标准。现代药物发现涉及初始筛选“命中”化合物的识别和优化。特别地，这些化合物需要相对于所需标准进行优化，这可能包括多种不同生物特性的优化。待优化的特性可以包括例如：针对期望靶标的功效/效力、对非期望靶标的选择性、毒性概率低、以及良好的药物代谢和药物代谢动力学特性(ADME)。只有满足特定要求的化合物才能成为可继续药物开发过程的候选化合物。
[0003]药物发现过程可能涉及在从初始筛选命中到候选化合物的优化过程中制备/合成大量化合物。特别地，对合成的那些化合物进行测量，以确定其特性，如生物活性。然而，可以被作为特定药物发现项目的一部分制备的化合物数...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于计算药物设计的方法，包括：定义多种化合物的群体，每种化合物具有一种或更多种结构特征；定义来自群体的多种特性已知的化合物的训练集；定义多个目标，每个目标定义期望的特性；使用所述化合物的训练集训练贝叶斯统计模型，以输出近似所述群体中的化合物的特性的概率分布作为所述群体中的化合物的结构特征的目标函数；确定来自所述群体的不在所述训练集中的多种化合物的子集，所述子集是根据采集函数的优化来确定的，所述采集函数的优化基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标；以及，选择所确定的子集中的至少一些化合物用于合成。2.根据权利要求1所述的方法，包括：对于所述目标中的一个或更多个，通过将相应的效用函数应用于来自所述贝叶斯统计模型的所述概率分布来映射与相应目标的所述特性相关联的偏好，以获得偏好修改的概率分布，其中所述采集函数的优化基于所述偏好修改的概率分布。3.根据权利要求2所述的方法，其中，所述偏好指示所述相应目标相对于所述多个目标中的其他目标的优先级。4.根据权利要求2或权利要求3所述的方法，其中，对于所述化合物中的一种的所述特性中的一种，与所述特性的概率分布相关联的不确定性值越低，与相应特性相关联的偏好越大。5.根据权利要求2到4中任一项所述的方法，其中，所述效用函数中的一个或更多个是分段函数；可选地，其中，所述分段函数是分段线性函数。6.根据前述权利要求中任一项所述的方法，其中，优化所述采集函数包括：针对所述群体中的每种化合物评估所述采集函数，可选地，将所述化合物在所述训练集中排除，其中，基于所评估的采集函数值确定所述子集。7.根据前述权利要求中任一项所述的方法，其中，基于所定义的多个目标的所述采集函数的优化提供化合物的帕累托最优集，其中，从所述帕累托最优集中选择用于所确定的子集的所述多种化合物中的一种或更多种。8.根据前述权利要求中任一项所述的方法，其中，来自所述贝叶斯统计模型的所述概率分布包括：与所述多个目标中的每个相应目标相关联的每种特性的概率分布。9.根据权利要求8所述的方法，包括通过将聚合函数应用于来自所述贝叶斯统计模型的多个概率分布来将所述多个概率分布映射到一维聚合概率分布，其中，所述采集函数的优化基于所述聚合概率分布；可选地，其中，所述聚合函数包括以下中的一项或更多项：和算子、平均算子、以及积算子。10.根据前述权利要求中任一项所述的方法，其中，所述采集函数是以下中的至少一个：预期改进函数、改进概率函数、以及置信界限函数。11.根据权利要求1至8中任一项所述的方法，其中，所述采集函数是多维采集函数，其中，每个维度对应于所述多个目标中的相应目标；可选地，其中，所述多维采集函数是超体积预期改进函数。12.根据前述权利要求中任一项所述的方法，其中，训练所述贝叶斯统计模型包括：调
谐所述贝叶斯统计模型的多个超参数，其中，调谐所述超参数包括：应用最大似然估计技术和交叉验证技术的组合。13.根据前述权利要求中任一项所述的方法，其中，确定所述多种化合物的所述子集包括：通过基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标优化采集函数，来识别来自所述群体的不在所述训练集中的一种化合物，以及重复以下步骤，直到所述多种化合物已被识别用于所述子集：使用所述化合物的训练集和一种或更多种所识别的化合物重新训练所述贝叶斯统计模型；以及，通过基于来自经重新训练的贝叶斯统计模型的所述概率分布以及基于所定义的多个目标优化采集函数，来识别来自所述群体的不在所述训练集中的并且不是一种或更多种先前所识别的化合物的一种化合物。14.根据权利要求13所述的方法，其中，重新训练所述贝叶斯统计模型包括：针对所述贝叶斯统计模型中的一种或更多种所识别的化合物设置一个或更多个伪特性值；可选地，其中，根据以下中的一个来设置所述伪特性值：克里金信徒方法、以及经常说谎的人方法。15.根据前述权利要求中任一项所述的方法，其中，在所述贝叶斯统计模型中，每种化合物均被表示为位向量，其中，所述位向量的位指示所述化合物中存在或不存在相应的结构特征。16.根据前述权利要求中任一项所述的方法，其中，所述贝叶斯统计模型是高斯过程模型。17.根据前述权利要求中任一项所述的方法，其中，来自经训练的贝叶斯统计模型的所述概率分布包括指示所述群体中的化合物的近似特性值的后验均值，以及指示与所述群体中的所...

【专利技术属性】
技术研发人员：埃米尔，
申请(专利权)人：艾克斯赛安西娅人工智能有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人