系综模型的创建和选择制造技术

技术编号:26977479 阅读:22 留言:0更新日期:2021-01-06 00:16
提供了用于生成和使用系综模型的方法、设备和系统。所述系综可通过基于与化合物相关联的多个数据集来训练多个模型而产生;计算多个训练模型中的每一个的模型性能统计;基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;以及形成一个或多个系综模型,每个系综模型包括来自成组的最优训练模型的多个模型。可以通过检索系综模型并将表示用于生成和/或训练系综模型的模型的一个或多个标记数据集的数据输入到系综模型来使用系综模型;以及从所述系综模型接收与所述一个或多个标记数据集的标记相关联的输出数据。

【技术实现步骤摘要】
【国外来华专利技术】系综模型的创建和选择本申请涉及一种用于系综模型的创建和选择的系统和方法。
技术介绍
信息学是在一个或多个学术和/或科学领域中用于解释数据的计算机和信息技术和资源的应用。化学信息学(cheminformatics)(也称为化学信息学(chem(o)informatics))和生物信息学可以是用于解释化学和/或生物数据的计算机和信息技术和资源的应用。这可以包括在化学和/或生物学领域中解决和/或模拟过程和/或问题。例如,这些计算和信息技术和资源可以将数据转换为信息,并且随后将信息转换为用于快速做出改进的决定的知识,仅作为示例而不限于药物先导识别、发现和优化领域。机器学习技术是可用于设计复杂分析模型和算法的计算方法,这些模型和算法适合于解决复杂问题,例如复杂过程的预测和分析。这些分析模型可以从相关联的数据中的历史关系和趋势中获悉并且允许研究者、数据科学家、工程师以及分析师做出快速且改进的决定和/或揭示隐藏的见解。ML技术可用于在药物发现、鉴定和优化以及其他相关化学信息学和/或生物信息学领域中产生分析模型。这些分析模型可以解决与以下方面相关的问题、模型过程和/或形式预测,所述方面例如但不限于:与其他分子(例如蛋白质、脱氧核糖核酸(DNA)、核糖核酸(RNA)等)或其他化合物的化合物相互作用、化合物的生理化学性质、化合物的溶剂化特性、化合物的药物特性、化合物的结构和/或材料性质或与分子和/或化合物等相关的任何其他合适的过程和/或预测等。有无数的ML技术可以被选择用于生成感兴趣的化学或生物问题/过程的模型,其可以仅作为示例而非限制地帮助预测药物发现中的化合物和/或药物。大多数研究者、数据科学家和工程师在应用ML技术以生成用于解决化学信息学和/或生物信息学中的各种问题的模型时使用试错法。例如,用于生成每个模型的不同ML技术中的每一个需要被初始配置为最优地操作以用于训练并生成用于对特定问题/过程进行建模的训练模型。初始配置使用所谓的超参数,超参数是由所选择的ML技术使用的用于生成模型的参数值,并且不能从训练数据估计,而是需要为给定的ML技术和预测建模问题/过程选择先验。训练和测试ML技术以生成模型所需的时间可极大地取决于其超参数的选择。用于给定建模问题/过程的最优超参数值通常是研究者或数据科学家未知的。为每种ML技术选择超参数以生成模型通常基于用户体验、拇指规则、复制在其他问题/过程或模型中使用的超参数值或者通过试错法。此外,大多数研究者和/或数据科学家不完全理解或理解改变超参数,从大量ML技术中选择ML技术和/或输入数据格式的类型如何可以影响模型的输出,例如仅作为示例而不限于所得到的模型的预测能力和/或建模精度。传统上,研究者已经发现使用默认的超参数和任何类型的输入数据格式,而不是花费时间和麻烦来找到用于对特定问题或过程进行建模的最优解决方案。例如,对于基于随机森林(RF)ML技术的模型,具有太多的RF树会导致过度拟合的危险,而太少的RF树会导致降低的准确度。已经发现RF树的数量取决于训练数据集的大小和/或格式。当生成模型以解决化学信息学和/或生物信息学问题/过程时,极大地影响预测能力和/或建模准确度的其他因素例如包括但不限于:模型的ML技术的选择、输入数据的格式化和样式以及用于训练模型的标记数据集的量。因此,当生成用于化学信息学/生物信息学问题/过程的模型时,研究者/数据科学家或操作者面临多面优化问题,所述模型对于使用用户体验、经验法则、复制在其他问题或模型中使用的超参数值,或通过其中结果最可能是不良拟合或次优模型的反复试验来解决可能是不切实际的。期望改进化学信息学/生物信息学问题的建模,改进ML技术的选择,以及制造更准确并且可以充分利用可用的化学信息学和/或生物信息学数据集的改进模型。还期望避免或减少以下情况,例如但不限于选择错误的模型、用于模型的错误的超参数、不兼容的数据集格式中的操作者错误,并且进而基于较差的模型预测和/或准确度来减少不正确决策的可能性和相关成本。下面描述的实施例不限于解决上述已知方法的任何或所有缺点的实现。
技术实现思路
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围;促进本专利技术的工作和/或用于实现基本上相似的技术效果的变体和替代特征应当被认为落入在此公开的本专利技术的范围内。本公开提供了一种方法、设备和/或系统,用于通过将一个或多个化合物的表示输入到用于对过程或问题进行建模的系综模型来对与化合物相关联的过程或问题进行建模;从所述系综模型接收与基于所述一种或多种化合物对所述过程或问题进行建模相关联的结果。所述系综模型包括基于针对所述模型中的每一个计算的模型性能统计而自动选择的多个模型。例如,可以从最优执行训练模型的子集中选择系综模型的多个模型,所述最优执行训练模型已经被优化用于对与一个或多个化合物相关联的过程或问题进行建模。基于多个训练模型的模型性能统计来确定最优性能训练模型的子集。可以基于一种或多种ML技术或多种ML技术、对应的多组超参数、一个或多个标记数据集和/或与化合物相关的数据集折叠来训练每个训练模型。每个标记数据集和对应的数据集折叠可以被复制多次,其中基于来自多个化合物描述符格式的不同化合物描述符格式来修改每个副本。可基于所述模型的模型性能统计来评估所述训练模型,且可选择并存储最优性能的训练模型以形成所述一个或多个系综模型。在第一方面中,本专利技术提供一种产生系综模型的计算机实施方法,所述方法包括:基于与化合物相关联的多个数据集来训练多个模型;计算多个训练模型中的每一个的模型性能统计;基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;和形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。优选地,计算模型性能统计还包括交叉验证所述多个模型中的每一个。。优选地,为每个训练模型计算模型性能统计包括基于以下组中的一项或多项为每个训练模型计算至少一个或多个模型性能统计:训练模型的阳性预测值或精度;训练模型的灵敏度、特异性、真实预测率或召回;与所述训练模型相关联的接收器操作特性ROC图;与所述训练模型相关联的ROC曲线下面积;与所述训练模型相关联的精度ROC曲线下面积;与所述训练模型相关联的精度和召回ROC曲线下面积;F1分数;r平方;均方根误差;均方误差;中值绝对误差;平均绝对误差;与训练模型的精度和/或召回相关联的任何其他功能;和用于基于与每一模型相关联的模型类型或机器学习技术来评估训练模型中的每一个的任何其他模型性能统计。优选地,所述方法还包括:从与化合物相关联的成组的标记数据集生成多个数据集。优选地,生成所述多个数据集还包括基于多个化合物描述符从所述成组的标记数据集生成数据集组,其中每个数据集组对应于不同的化合物描述符。优选地,化合物描述符包括基于以下中的至少一个或多个的化合物描述符:国际化学标识InChI;InChIKey;MolFile格式;二维物理化学描述符;三维物理化学描述符;本文档来自技高网
...

【技术保护点】
1.一种生成系综模型的计算机实现的方法,所述方法包括:/n基于与化合物相关联的多个数据集来训练多个模型;/n计算多个训练模型中的每一个的模型性能统计;/n基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;和/n形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。/n

【技术特征摘要】
【国外来华专利技术】20180329 GB 1805302.51.一种生成系综模型的计算机实现的方法,所述方法包括:
基于与化合物相关联的多个数据集来训练多个模型;
计算多个训练模型中的每一个的模型性能统计;
基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;和
形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。


2.根据权利要求1所述的计算机实现的方法,其中计算模型性能统计还包括交叉验证所述多个模型中的每一个。


3.根据权利要求1或2所述的计算机实现的方法,其中为每个训练模型计算模型性能统计包括基于以下组中的一项或多项为每个训练模型计算至少一个或多个模型性能统计:
训练模型的阳性预测值或精度;
训练模型的灵敏度、特异性、真实预测率或召回;
与所述训练模型相关联的接收器操作特性ROC图;
与所述训练模型相关联的ROC曲线下面积;
与所述训练模型相关联的精度ROC曲线下面积;
与所述训练模型相关联的精度和召回ROC曲线下面积;
F1分数;
r平方;
均方根误差;
均方误差;
中值绝对误差;
平均绝对误差;
与训练模型的精度和/或召回相关联的任何其他功能;和
用于基于与每一模型相关联的模型类型或机器学习技术来评估训练模型中的每一个的任何其他模型性能统计。


4.根据任一项前述权利要求所述的计算机实现的方法,其中所述方法还包括:从与化合物相关联的成组的标记数据集生成多个数据集。


5.根据权利要求4所述的计算机实现的方法,其中,生成所述多个数据集还包括基于多个化合物描述符从所述成组的标记数据集生成数据集组,其中每个数据集组对应于不同的化合物描述符。


6.根据权利要求5所述的计算机实现的方法,其中化合物描述符包括基于以下中的至少一个或多个的化合物描述符:
国际化学标识InChI;
InChIKey;
MolFile格式;
二维物理化学描述符;
三维物理化学描述符;
XYZ文件格式;
扩展连接性指纹ECFP;
结构数据格式;
所述化合物的结构式或表示;
简化的分子输入行敲入说明SMILES、字符串或格式;
SMILES任意目标规范或格式;
化学标记语言格式;和
用于描述、表示和/或编码化合物的分子信息和/或结构的任何其他化学描述符或化学描述符格式。


7.根据权利要求4至6中任一项所述的计算机实现的方法,其中:
生成所述多个数据集还包括针对所述多个数据集中的每个数据集,通过将所述每个数据集分割成多个部分来生成成组的数据集折叠;和
对于多个模型和多个数据集,执行以下步骤:
基于与每个数据集相对应的成组的数据集折叠训练每个模型;
基于与每个数据集相对应的成组的数据集折叠的每个折叠计算每个训练模型的模型性能统计;和
基于计算的模型性能统计将表示训练模型的数据存储在成组的最优模型中。


8.根据权利要求7所述的计算机实现的方法,其中存储表示所述训练模型的数据还包括通过将所述计算的模型统计与关联于所述模型统计的一个或多个性能阈值进行比较来将表示所述训练模型的数据存储在所述成组的最优模型中。


9.根据权利要求7或8所述的计算机实现的方法,其中存储代表所述训练模型的数据还包括通过将计算的模型统计与先前存储的模型的计算的模型统计进行比较来将代表所述训练模型的数据存储在所述成组的最优模型中。


10.根据权利要求9所述的计算机实现的方法,还包括基于相同类型的模型的计算的模型统计从所述成组的最优模型中删除先前存储的模型。


11.根据权利要求7至10中任一项所述的计算机实现的方法,其中存储表示所述训练模型的数据还包括存储表示所述训练模型的数据、所述训练模型的计算的模型统计和/或与训练所述训练模型相关联的数据集。


12.根据权利要求7至11中任一项所述的计算机实现的方法,还包括针对从与每个模型相关联的多个超参数中选择的成组的超参数中的每一个重复训练、计算和存储的步骤。


13.根据权利要求1至11中任一项所述的计算机实现的方法,其中,所述多个模型还包括基于从与所述多个模型中的每种类型的模型相关联的多个超参数中选择的成组的超参数而配置的模型。


14.根据任一项前述权利要求所述的计算机实现的方法,其中形成一个或多个模型的系综还包括从所述成组的最优模型中选择最优模型子集,其中所述最优模型子集中的每个模型与所述成组的最优模型中的其余模型相比具有改进的模型统计。


15.根据权利要求14所述的计算机实现的方法,其中,从所述成组的最优模型中选择最优模型的子集还包括基于所述模型统计对所述最优模型进行排序并选择排序最高的最优模型的子集以包括到所述系综模型中。


16.根据权利要求14或15所述的计算机实现的方法,其中,从所述成组的最优模型中选择最优模型的子集,还包括:
从对应于相同模型类型的成组的最优模型中检索模型和相关联的模型统计;
基于模型统计对检索的模型进行排序;和
从具有最高模型统计的检索的模型中选择一个或多个模型以包括到所述系综模型中。


17.根据权利要求14至16中任一项所述的计算机实现的方法,其中,对于所述多个数据集中的每个数据集,从所述成组的最优模型中选择最优模型的子集还包括:
从与相同数据集相关联的成组的最优模型中检索模型和相关联的模型统计;
基于模型统计对检索到的模型进行排序;和
从所述经排序的检索到的模型中选择一个或多个最顶部模型以包括到所述系综模型中。


18.根据任一项前述权利要求所述的计算机实现的方法,还包括基于所述多个数据集基准化所述一个或多个系综模型。


19.根据权利要求18所述的计算机实现的方法,其中,基准化所述一个或多个系综模型还包括基于所述一个或多个系综模型中的每一个的交叉验证来计算系综模型统计量。


20.一种用于使用系综模型的计算机实现的方法,其中所述系综模型基于根据权利要求1至19中任一项生成的系综模型,所述方法包括:
向系综模型输入表示用于生成和/或训练系综模型的模型的一个或多个标记数据集的数据;和
从所述系综模型接收与所述一个或多个标记数据集的标记相关联的输出数据。


21.一种用于对与化合物相关的过程或问题进行建模的计算机实现的方法,所述方法包括:
向用于对所述过程或问题进行建模的系综模型输入一种或多种化合物的表征;
从所述系综模型接收与基于所述一种或多种化合物对所述过程或问题进行建模相关联的结果;和
其中,所述系综模型包括基于针对所述模型中的每一个...

【专利技术属性】
技术研发人员:D普拉姆利M塞尔伍德M菲斯卡托AC沃彻
申请(专利权)人:伯耐沃伦人工智能科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1