用于主动学习的候选列表选择模型制造技术

技术编号:26850439 阅读:15 留言:0更新日期:2020-12-25 13:19
提供了用于基于机器学习(ML)技术生成选择模型的方法和设备,该选择模型用于选择需要特定属性相关验证的化合物候选列表。用于生成选择模型的迭代过程或反馈循环可以包括:接收从属性模型输出的预测结果列表,用于预测多个化合物是否与特定属性相关联和属性模型分数;基于属性模型分数和/或预测结果列表再训练选择模型;使用再训练的选择模型从与预测结果列表相关联的多个化合物中选择化合物候选列表;发送所选的化合物候选列表以进行特定属性相关验证,其中使用另一种ML技术来基于验证更新属性模型;重复选择模型的接收和再训练,直到确定选择模型已经被有效训练。

【技术实现步骤摘要】
【国外来华专利技术】用于主动学习的候选列表选择模型
本申请涉及选择用于主动学习和模型验证的化合物候选列表的设备、系统和方法。
技术介绍
信息学是在一个或多个学术和/或科学领域应用计算机与信息技术和资源来解释数据。化学信息学和生物信息学包括应用计算机与信息技术和资源来解释化学和/或生物数据。这可以包括解决和/或模拟化学和/或生物学领域中的过程和/或问题。例如,这些计算机与信息技术和资源可以将数据转换成信息,再将信息转换成知识,用于在药物鉴定、发现和优化领域中(仅作为示例但不限于此)快速创建化合物和/或做出改进决策。机器学习技术是一种计算方法,可用于设计复杂的分析模型和算法,以解决复杂的问题,例如创建和预测化合物是否具有一种或多种特征和/或属性。虽然有很多ML技术可用于或被选择用于预测化合物是否具有特定属性或特征,但是通常缺乏训练数据来适当地训练ML技术以生成适当训练过的ML模型来预测化合物是否具有特定属性,这种模型在本文中被称为属性模型。如果使用ML技术基于不充分标记的训练数据生成属性模型,则所得的属性模型对多数化合物来说,都可能无法可靠地预测其是否具有特定属性。生成标记的训练数据集用于训练ML技术以生成准确可靠的属性模型,从而预测化合物是否具有特定属性,这种做法昂贵、耗时且容易出现人为错误。随着需要预测的属性/特征的数量的增加,需要使用多个属性模型预测化合物是否具有多个属性和/或特征中的一个或多个,该任务的复杂性呈指数级增长。需要改进标记的训练数据集的生成,并且仅选择那些与特定属性具有未知关联的化合物以最大化属性模型的质量,同时最小化所选化合物的数量。这将进一步改进用于生成准确可靠的属性模型的训练ML技术,所述属性模型用于预测化合物是否具有一种或多种特定属性,并有助于研究人员、数据科学家、工程师和分析师在药物鉴定、发现和优化领域取得快速进展。下面描述的实施例不限于解决上述已知方法的任何或所有缺点的实施方式。
技术实现思路

技术实现思路
是为了以简化的形式介绍将在下面的具体实施方式中进一步描述的一些概念。本
技术实现思路
不旨在说明所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围;有助于本专利技术的工作和/或用于实现基本相似的技术效果的变型和替代特征应该被认为落入这里公开的本专利技术的范围内。本公开提供了用于选择模型的方法和设备,该选择模型从用于预测化合物是否表现出或具有特定属性的ML模型(例如,属性模型)输出的预测结果列表中预测化合物候选列表的最佳选择。通过基于标记的训练数据集训练ML技术来生成ML模型,所述标记的训练数据集与表现出特定属性/与特定属性相关联的化合物相关联。选择模型可以基于用于训练另一种ML技术的迭代和半自动/自动方法来生成,所述另一种ML技术例如但不限于从预测结果列表中选择最佳化合物候选列表的强化学习(RL)技术。训练RL技术以生成选择模型,该选择模型从ML模型(例如属性模型)的预测结果列表中预测用于验证的化合物候选列表的最佳选择,其中来自化合物候选列表的验证结果可用于增强ML模型。所选候选列表的验证可以包括验证所选候选列表中的每种化合物与特定属性的关联。验证结果可以包括与特定属性相关的每种化合物的指示;这些可用于生成进一步标记的训练数据集,以更新或增强ML模型。因此,选择模型有助于提升ML技术的训练,以生成准确和可靠的属性模型。当用于训练ML技术的标记训练数据不足以生成用于预测化合物是否具有特定属性的足够精确的属性模型时,可以应用所生成的选择模型。选择模型被配置为通过选择化合物的最佳子集来增强标记的训练数据集,所述化合物的最佳子集应该相对于特定属性进行验证,当被验证时,将更新属性模型并最大化或至少改善其预测性能。例如,所选化合物候选列表的验证结果可用于生成进一步标记的训练数据集,该数据集可用于对ML技术进行再训练,以生成最大化或至少改善属性模型的预测性能的更新属性模型。还可以训练RL技术来生成选择模型和/或验证模型,用于预测可以选择哪种验证方法来验证所选的化合物候选列表。例如,选择模型(验证模型)可以进一步被配置为预测是否和/或何时选择基于计算机分析/模拟的验证方法或基于实验室实验的验证方法,以对照特定属性验证所选的化合物候选列表。这可以进一步最小化成本,例如但不限于时间、计算资源和/或费用等与验证化合物候选列表相关的成本。在第一方面,本公开提供了一种基于ML技术生成选择模型的计算机实现的方法,该选择模型用于选择需要用特定属性进行验证的化合物候选列表。该方法可以使用迭代过程/反馈循环,通过迭代过程/反馈循环可以生成选择模型,直到认定选择模型已经被有效训练。仅作为示例,反馈循环的每次迭代的过程可以包括但不限于:接收从属性模型输出的预测结果列表,用于预测多个化合物是否与特定属性相关联和属性模型分数;基于属性模型分数和/或预测结果列表来训练/再训练或更新选择模型;使用再训练的选择模型从与预测结果列表相关联的多个化合物中选择化合物候选列表;发送所选的化合物候选列表以基于特定属性进行验证,其中使用另一种ML技术来基于验证更新属性模型;至少重复选择模型的接收和再训练,直到确定选择模型已经被有效训练。可以使用更新的选择模型重复该过程/循环,直到确定选择模型已经被有效训练。优选地,选择模型可以通过基于属性模型分数训练ML技术来生成。作为一种选择,可以基于属性模型分数和/或预测结果列表,通过训练与强化学习相关联的ML技术(例如,RL技术)来生成选择模型。优选地,用于生成和/或更新属性模型的ML技术基于标记的训练数据集来训练或更新,该训练数据集包括表示多个化合物的子集或集合以及它们与特定属性的已知关联的数据。优选地,再训练选择模型还包括基于属性模型分数和先前的属性模型分数来确定是否再训练选择模型以选择化合物候选列表。优选地,该方法还包括:使用选择模型,从预测结果列表中为化合物候选列表选择一组化合物用于验证;验证所选化合物候选列表中的每种化合物与特定属性的关联;以及将化合物的验证候选列表发送到ML技术,用于基于ML技术和验证的化合物候选列表更新属性模型。例如,化合物的验证候选列表可以被发送到用于基于验证的化合物候选列表生成属性模型的ML技术;可以通过基于验证的化合物候选列表以及标记的训练数据集对ML技术进行再训练,更新属性模型。优选地,ML技术使用标记的训练数据集来生成属性模型,该标记的训练数据集与涉及特定属性的多个化合物的子集相关联,并且其中化合物的验证候选列表或验证的化合物候选列表(例如,涉及化合物候选列表的验证结果)被并入标记的训练数据集,以通过生成属性模型的ML技术来更新属性模型。优选地,验证所选的化合物候选列表还包括基于实验室实验或计算机分析验证化合物候选列表中的每种化合物与特定属性的关联。优选地,实验室实验输出一组与所选的化合物候选列表和属性相关的实验室实验验证结果,其中基于实验室实验验证结果和用于生成属性模型的ML技术来更新属性模型。优选地,计算机分析输出一组与所选的化合物候选列表和特定属性相关的计算机分析验证结果,其中基于计本文档来自技高网
...

【技术保护点】
1.一种用于生成选择模型以选择用于进行特定属性相关验证的化合物候选列表的计算机实现的方法,所述方法包括:/n接收从属性模型输出的预测结果列表,用于预测多个化合物是否与所述特定属性相关联和属性模型分数;/n基于所述属性模型分数再训练所述选择模型;/n使用所述再训练的选择模型从所述多个化合物中选择化合物候选列表;/n发送所述选择的化合物候选列表以进行所述特定属性相关验证,其中基于所述验证更新所述属性模型;以及/n至少重复所述选择模型的接收和再训练,直到确定所述选择模型已经被有效训练。/n

【技术特征摘要】
【国外来华专利技术】20180329 GB 1805296.91.一种用于生成选择模型以选择用于进行特定属性相关验证的化合物候选列表的计算机实现的方法,所述方法包括:
接收从属性模型输出的预测结果列表,用于预测多个化合物是否与所述特定属性相关联和属性模型分数;
基于所述属性模型分数再训练所述选择模型;
使用所述再训练的选择模型从所述多个化合物中选择化合物候选列表;
发送所述选择的化合物候选列表以进行所述特定属性相关验证,其中基于所述验证更新所述属性模型;以及
至少重复所述选择模型的接收和再训练,直到确定所述选择模型已经被有效训练。


2.根据权利要求1所述的计算机实现的方法,其中所述选择模型通过基于所述属性模型分数训练ML技术生成。


3.根据权利要求1或2所述的计算机实现的方法,其中再训练所述选择模型还包括基于所述属性模型分数和先前的属性模型分数确定是否再训练所述选择模型以选择化合物候选列表。


4.根据权利要求1至3中任一项所述的计算机实现的方法,其中所述方法进一步包括:
使用所述选择模型,从所述预测结果列表中为所述化合物候选列表选择一组化合物用于验证;
验证所述选择的化合物候选列表中的每种化合物与所述特定属性的关联;以及
发送化合物的验证候选列表以更新所述属性模型。


5.根据权利要求4所述的计算机实现的方法,其中ML技术使用标记的训练数据集生成所述属性模型,所述标记的训练数据集与涉及所述特定属性的所述多个化合物的子集相关联,并且其中所述化合物的验证候选列表被并入所述标记的训练数据集,以通过所述ML技术来更新所述属性模型。


6.根据权利要求4或5所述的计算机实现的方法,其中验证所述选择的化合物候选列表还包括基于实验室实验或计算机分析验证所述化合物候选列表中的每种化合物与所述特定属性的关联。


7.根据权利要求6所述的计算机实现的方法,其中
所述实验室实验输出一组与所述选择的化合物候选列表和所述属性相关的实验室实验验证结果,其中基于所述实验室实验验证结果和用于生成所述属性模型的所述ML技术来更新所述属性模型;或者
计算机分析输出一组与所述选择的化合物候选列表和所述特定属性相关的计算机分析验证结果,其中基于所述计算机分析验证结果和用于生成所述属性模型的所述ML技术来更新所述属性模型。


8.根据权利要求4至7中任一项所述的计算机实现的方法,其中所述选择模型被进一步训练以选择用于验证所述选择的化合物候选列表的验证方法,其中选择用于验证所述选择的化合物候选列表的所述验证方法进一步包括:
基于所述特定属性和所述选择的化合物候选列表选择是进行实验室实验还是进行计算机分析;
响应于选择执行实验室实验,其中所述实验室实验输出实验室实验验证结果,用于估计所述选择的化合物候选列表上的每个化合物与所述特定属性的关联,其中所述实验室实验验证结果用于更新所述属性模型;
响应于确定执行计算机分析,其中所述计算机分析输出计算机分析验证结果,用于估计所述选择的化合物候选列表上的每种化合物与所述特定属性的关联,其中所述计算机分析验证结果用于更新所述属性模型。


9.根据权利要求7所述的计算机实现的方法,所述方法进一步包括:
接收从所述属性模型输出的预测结果列表,用于预测多个化合物是否与所述特定属性相关联和属性模型分数;
基于所述属性模型分数和先前的属性模型分数,确定是否再训练所述选择模型以选择化合物候选列表和验证方法;以及
基于所述属性模型分数和/或所述预测结果列表再训练所述选择模型。


10.根据权利要求8或9中任一项所述的计算机实现的方法,其中当选择执行实验室实验的验证方法并且用于再训练所述选择模型的迭代次数低于预定阈值时,所述方法进一步包括:
在再训练期间惩罚所述选择模型;以及
选择执行计算机分析的验证方法。


11.根据权利要求8至10中任一项所述的计算机实现的方法,其中当选择执行实验室实验的验证方法并且确定执行计算机分析的验证方法将进一步提高所述属性模型分数时,所述方法进一步包括:
在再训练期间惩罚所述选择模型;以及
选择执行计算机分析的验证方法。


12.根据权利要求8至11中任一项所述的计算机实现的方法,其中当选择执行实验室实验的验证方法并且所述选择的化合物候选列表与先前选择的化合物候选列表相比发生了实质性变化时,所述方法进一步包括:
在再训练期间惩罚所述选择模型;以及
选择执行计算机分析的验证方法。


13.根据权利要求8至12中任一项所述的计算机实现的方法,其中当选择执行计算机分析的验证方法并且确定计算机分析会基于先前的属性模型分数改进所述属性模型的属性模型分数时,其中所述先前的属性模型分数是从在每个化合物候选列表已经被验证之后生成的相应预测结果列表中计算的,所述方法进一步包括:
在再训练期间奖励所述选择模型;以及
选择执行计算机分析的验证方法。


14.根据任一前述权利要求所述的计算机实现的方法,其中所述预测结果列表包括指示所述每种化合物与所述特定属性的关联的预测属性分数。


15.根据权利要求14所述的计算机实现的方法,其中所述预测属性分数包括确定性分数,其中已知具有所述特定属性的化合物被给予正确定性分数,已知不具有所述特定属性的化合物被给予负确定性分数,其他化合物被给予所述正确定性分数和所述负确定性分数之间的不确定性分数。


16.根据权利要求15所述的计算机实现的方法,其中所述确定性分数是百分比确定性分数,其中所述正确定性分数是100%,所述负确定性分数是0%,所述不确定性分数在所述正和负确定性分数之间。


17.根据任一前述权利要求所述的计算机实现的方法,其中再训练所述选择模型进一步包括:
当与所述相应的先前属性模型分数相比,所述属性模型分数没有达到属性模型性能阈值时,向与所述属性模型相关联的ML技术指示将所述属性模型恢复到先前属性模型;
当与所述相应的先前属性模型分数相比,所述属性模型分数指示满足或超过所述属性模型性能阈值时,向与所述属性模型相关联的所述ML技术指示在先前属性模型上保留所述更新的属性模型;
再训练所述选择模型以基于所述属性模型分数从所述相应的预测结果列表中选择一组化合物;以及
重复权利要求1所述的步骤,直到确定所述选择模型被训练。


18.根据权利要求17所述的计算机实现的方法,其中确定所述选择模型被训练进一步包括:
将所述保留的属性模型分数与先前保留的属性模型分数进行比较;以及
基于属性模型分数的平稳状态确定所述选择模型已经被有效...

【专利技术属性】
技术研发人员:D普拉姆利MHS塞格勒
申请(专利权)人:伯耐沃伦人工智能科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1