系综模型的创建和选择制造技术

技术编号：26977479 阅读：22 留言：0更新日期：2021-01-06 00:16

提供了用于生成和使用系综模型的方法、设备和系统。所述系综可通过基于与化合物相关联的多个数据集来训练多个模型而产生；计算多个训练模型中的每一个的模型性能统计；基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型；以及形成一个或多个系综模型，每个系综模型包括来自成组的最优训练模型的多个模型。可以通过检索系综模型并将表示用于生成和/或训练系综模型的模型的一个或多个标记数据集的数据输入到系综模型来使用系综模型；以及从所述系综模型接收与所述一个或多个标记数据集的标记相关联的输出数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】系综模型的创建和选择本申请涉及一种用于系综模型的创建和选择的系统和方法。
技术介绍
信息学是在一个或多个学术和/或科学领域中用于解释数据的计算机和信息技术和资源的应用。化学信息学(cheminformatics)(也称为化学信息学(chem(o)informatics))和生物信息学可以是用于解释化学和/或生物数据的计算机和信息技术和资源的应用。这可以包括在化学和/或生物学领域中解决和/或模拟过程和/或问题。例如，这些计算和信息技术和资源可以将数据转换为信息，并且随后将信息转换为用于快速做出改进的决定的知识，仅作为示例而不限于药物先导识别、发现和优化领域。机器学习技术是可用于设计复杂分析模型和算法的计算方法，这些模型和算法适合于解决复杂问题，例如复杂过程的预测和分析。这些分析模型可以从相关联的数据中的历史关系和趋势中获悉并且允许研究者、数据科学家、工程师以及分析师做出快速且改进的决定和/或揭示隐藏的见解。ML技术可用于在药物发现、鉴定和优化以及其他相关化学信息学和/或生物信息学领域中产生分析模型。这些分析模型可以解决与以下方面相关的问题、模型过程和/或形式预测，所述方面例如但不限于：与其他分子(例如蛋白质、脱氧核糖核酸(DNA)、核糖核酸(RNA)等)或其他化合物的化合物相互作用、化合物的生理化学性质、化合物的溶剂化特性、化合物的药物特性、化合物的结构和/或材料性质或与分子和/或化合物等相关的任何其他合适的过程和/或预测等。有无数的ML技术可以被选择用于生成感兴趣的化学或生物问题/过程的模型，其可以仅作为示例而非限制地帮助...

【技术保护点】
1.一种生成系综模型的计算机实现的方法，所述方法包括：/n基于与化合物相关联的多个数据集来训练多个模型；/n计算多个训练模型中的每一个的模型性能统计；/n基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型；和/n形成一个或多个系综模型，每个系综模型包括来自所述成组的最优训练模型的多个模型。/n

【技术特征摘要】
【国外来华专利技术】20180329 GB 1805302.51.一种生成系综模型的计算机实现的方法，所述方法包括：
基于与化合物相关联的多个数据集来训练多个模型；
计算多个训练模型中的每一个的模型性能统计；
基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型；和
形成一个或多个系综模型，每个系综模型包括来自所述成组的最优训练模型的多个模型。

2.根据权利要求1所述的计算机实现的方法，其中计算模型性能统计还包括交叉验证所述多个模型中的每一个。

3.根据权利要求1或2所述的计算机实现的方法，其中为每个训练模型计算模型性能统计包括基于以下组中的一项或多项为每个训练模型计算至少一个或多个模型性能统计：
训练模型的阳性预测值或精度；
训练模型的灵敏度、特异性、真实预测率或召回；
与所述训练模型相关联的接收器操作特性ROC图；
与所述训练模型相关联的ROC曲线下面积；
与所述训练模型相关联的精度ROC曲线下面积；
与所述训练模型相关联的精度和召回ROC曲线下面积；
F1分数；
r平方；
均方根误差；
均方误差；
中值绝对误差；
平均绝对误差；
与训练模型的精度和/或召回相关联的任何其他功能；和
用于基于与每一模型相关联的模型类型或机器学习技术来评估训练模型中的每一个的任何其他模型性能统计。

4.根据任一项前述权利要求所述的计算机实现的方法，其中所述方法还包括：从与化合物相关联的成组的标记数据集生成多个数据集。

5.根据权利要求4所述的计算机实现的方法，其中，生成所述多个数据集还包括基于多个化合物描述符从所述成组的标记数据集生成数据集组，其中每个数据集组对应于不同的化合物描述符。

6.根据权利要求5所述的计算机实现的方法，其中化合物描述符包括基于以下中的至少一个或多个的化合物描述符：
国际化学标识InChI；
InChIKey；
MolFile格式；
二维物理化学描述符；
三维物理化学描述符；
XYZ文件格式；
扩展连接性指纹ECFP；
结构数据格式；
所述化合物的结构式或表示；
简化的分子输入行敲入说明SMILES、字符串或格式；
SMILES任意目标规范或格式；
化学标记语言格式；和
用于描述、表示和/或编码化合物的分子信息和/或结构的任何其他化学描述符或化学描述符格式。

7.根据权利要求4至6中任一项所述的计算机实现的方法，其中：
生成所述多个数据集还包括针对所述多个数据集中的每个数据集，通过将所述每个数据集分割成多个部分来生成成组的数据集折叠；和
对于多个模型和多个数据集，执行以下步骤：
基于与每个数据集相对应的成组的数据集折叠训练每个模型；
基于与每个数据集相对应的成组的数据集折叠的每个折叠计算每个训练模型的模型性能统计；和
基于计算的模型性能统计将表示训练模型的数据存储在成组的最优模型中。

8.根据权利要求7所述的计算机实现的方法，其中存储表示所述训练模型的数据还包括通过将所述计算的模型统计与关联于所述模型统计的一个或多个性能阈值进行比较来将表示所述训练模型的数据存储在所述成组的最优模型中。

9.根据权利要求7或8所述的计算机实现的方法，其中存储代表所述训练模型的数据还包括通过将计算的模型统计与先前存储的模型的计算的模型统计进行比较来将代表所述训练模型的数据存储在所述成组的最优模型中。

10.根据权利要求9所述的计算机实现的方法，还包括基于相同类型的模型的计算的模型统计从所述成组的最优模型中删除先前存储的模型。

11.根据权利要求7至10中任一项所述的计算机实现的方法，其中存储表示所述训练模型的数据还包括存储表示所述训练模型的数据、所述训练模型的计算的模型统计和/或与训练所述训练模型相关联的数据集。

12.根据权利要求7至11中任一项所述的计算机实现的方法，还包括针对从与每个模型相关联的多个超参数中选择的成组的超参数中的每一个重复训练、计算和存储的步骤。

13.根据权利要求1至11中任一项所述的计算机实现的方法，其中，所述多个模型还包括基于从与所述多个模型中的每种类型的模型相关联的多个超参数中选择的成组的超参数而配置的模型。

14.根据任一项前述权利要求所述的计算机实现的方法，其中形成一个或多个模型的系综还包括从所述成组的最优模型中选择最优模型子集，其中所述最优模型子集中的每个模型与所述成组的最优模型中的其余模型相比具有改进的模型统计。

15.根据权利要求14所述的计算机实现的方法，其中，从所述成组的最优模型中选择最优模型的子集还包括基于所述模型统计对所述最优模型进行排序并选择排序最高的最优模型的子集以包括到所述系综模型中。

16.根据权利要求14或15所述的计算机实现的方法，其中，从所述成组的最优模型中选择最优模型的子集，还包括：
从对应于相同模型类型的成组的最优模型中检索模型和相关联的模型统计；
基于模型统计对检索的模型进行排序；和
从具有最高模型统计的检索的模型中选择一个或多个模型以包括到所述系综模型中。

17.根据权利要求14至16中任一项所述的计算机实现的方法，其中，对于所述多个数据集中的每个数据集，从所述成组的最优模型中选择最优模型的子集还包括：
从与相同数据集相关联的成组的最优模型中检索模型和相关联的模型统计；
基于模型统计对检索到的模型进行排序；和
从所述经排序的检索到的模型中选择一个或多个最顶部模型以包括到所述系综模型中。

18.根据任一项前述权利要求所述的计算机实现的方法，还包括基于所述多个数据集基准化所述一个或多个系综模型。

19.根据权利要求18所述的计算机实现的方法，其中，基准化所述一个或多个系综模型还包括基于所述一个或多个系综模型中的每一个的交叉验证来计算系综模型统计量。

20.一种用于使用系综模型的计算机实现的方法，其中所述系综模型基于根据权利要求1至19中任一项生成的系综模型，所述方法包括：
向系综模型输入表示用于生成和/或训练系综模型的模型的一个或多个标记数据集的数据；和
从所述系综模型接收与所述一个或多个标记数据集的标记相关联的输出数据。

21.一种用于对与化合物相关的过程或问题进行建模的计算机实现的方法，所述方法包括：
向用于对所述过程或问题进行建模的系综模型输入一种或多种化合物的表征；
从所述系综模型接收与基于所述一种或多种化合物对所述过程或问题进行建模相关联的结果；和
其中，所述系综模型包括基于针对所述模型中的每一个...

【专利技术属性】
技术研发人员：D普拉姆利，M塞尔伍德，M菲斯卡托，AC沃彻，
申请(专利权)人：伯耐沃伦人工智能科技有限公司，
类型：发明
国别省市：英国;GB

全部详细技术资料下载我是这个专利的主人