用于主动学习的候选列表选择模型制造技术

技术编号：26850439 阅读：15 留言：0更新日期：2020-12-25 13:19

提供了用于基于机器学习(ML)技术生成选择模型的方法和设备，该选择模型用于选择需要特定属性相关验证的化合物候选列表。用于生成选择模型的迭代过程或反馈循环可以包括：接收从属性模型输出的预测结果列表，用于预测多个化合物是否与特定属性相关联和属性模型分数；基于属性模型分数和/或预测结果列表再训练选择模型；使用再训练的选择模型从与预测结果列表相关联的多个化合物中选择化合物候选列表；发送所选的化合物候选列表以进行特定属性相关验证，其中使用另一种ML技术来基于验证更新属性模型；重复选择模型的接收和再训练，直到确定选择模型已经被有效训练。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于主动学习的候选列表选择模型
本申请涉及选择用于主动学习和模型验证的化合物候选列表的设备、系统和方法。
技术介绍
信息学是在一个或多个学术和/或科学领域应用计算机与信息技术和资源来解释数据。化学信息学和生物信息学包括应用计算机与信息技术和资源来解释化学和/或生物数据。这可以包括解决和/或模拟化学和/或生物学领域中的过程和/或问题。例如，这些计算机与信息技术和资源可以将数据转换成信息，再将信息转换成知识，用于在药物鉴定、发现和优化领域中(仅作为示例但不限于此)快速创建化合物和/或做出改进决策。机器学习技术是一种计算方法，可用于设计复杂的分析模型和算法，以解决复杂的问题，例如创建和预测化合物是否具有一种或多种特征和/或属性。虽然有很多ML技术可用于或被选择用于预测化合物是否具有特定属性或特征，但是通常缺乏训练数据来适当地训练ML技术以生成适当训练过的ML模型来预测化合物是否具有特定属性，这种模型在本文中被称为属性模型。如果使用ML技术基于不充分标记的训练数据生成属性模型，则所得的属性模型对多数化合物来说，都可能无法可靠地预测其是否具有特定属性。生成标记的训练数据集用于训练ML技术以生成准确可靠的属性模型，从而预测化合物是否具有特定属性，这种做法昂贵、耗时且容易出现人为错误。随着需要预测的属性/特征的数量的增加，需要使用多个属性模型预测化合物是否具有多个属性和/或特征中的一个或多个，该任务的复杂性呈指数级增长。需要改进标记的训练数据集的生成，并且仅选择那些与特定属性具有未知关联的化合物以最大化属性模型的质...

【技术保护点】
1.一种用于生成选择模型以选择用于进行特定属性相关验证的化合物候选列表的计算机实现的方法，所述方法包括：/n接收从属性模型输出的预测结果列表，用于预测多个化合物是否与所述特定属性相关联和属性模型分数；/n基于所述属性模型分数再训练所述选择模型；/n使用所述再训练的选择模型从所述多个化合物中选择化合物候选列表；/n发送所述选择的化合物候选列表以进行所述特定属性相关验证，其中基于所述验证更新所述属性模型；以及/n至少重复所述选择模型的接收和再训练，直到确定所述选择模型已经被有效训练。/n

【技术特征摘要】
【国外来华专利技术】20180329 GB 1805296.91.一种用于生成选择模型以选择用于进行特定属性相关验证的化合物候选列表的计算机实现的方法，所述方法包括：
接收从属性模型输出的预测结果列表，用于预测多个化合物是否与所述特定属性相关联和属性模型分数；
基于所述属性模型分数再训练所述选择模型；
使用所述再训练的选择模型从所述多个化合物中选择化合物候选列表；
发送所述选择的化合物候选列表以进行所述特定属性相关验证，其中基于所述验证更新所述属性模型；以及
至少重复所述选择模型的接收和再训练，直到确定所述选择模型已经被有效训练。

2.根据权利要求1所述的计算机实现的方法，其中所述选择模型通过基于所述属性模型分数训练ML技术生成。

3.根据权利要求1或2所述的计算机实现的方法，其中再训练所述选择模型还包括基于所述属性模型分数和先前的属性模型分数确定是否再训练所述选择模型以选择化合物候选列表。

4.根据权利要求1至3中任一项所述的计算机实现的方法，其中所述方法进一步包括：
使用所述选择模型，从所述预测结果列表中为所述化合物候选列表选择一组化合物用于验证；
验证所述选择的化合物候选列表中的每种化合物与所述特定属性的关联；以及
发送化合物的验证候选列表以更新所述属性模型。

5.根据权利要求4所述的计算机实现的方法，其中ML技术使用标记的训练数据集生成所述属性模型，所述标记的训练数据集与涉及所述特定属性的所述多个化合物的子集相关联，并且其中所述化合物的验证候选列表被并入所述标记的训练数据集，以通过所述ML技术来更新所述属性模型。

6.根据权利要求4或5所述的计算机实现的方法，其中验证所述选择的化合物候选列表还包括基于实验室实验或计算机分析验证所述化合物候选列表中的每种化合物与所述特定属性的关联。

7.根据权利要求6所述的计算机实现的方法，其中
所述实验室实验输出一组与所述选择的化合物候选列表和所述属性相关的实验室实验验证结果，其中基于所述实验室实验验证结果和用于生成所述属性模型的所述ML技术来更新所述属性模型；或者
计算机分析输出一组与所述选择的化合物候选列表和所述特定属性相关的计算机分析验证结果，其中基于所述计算机分析验证结果和用于生成所述属性模型的所述ML技术来更新所述属性模型。

8.根据权利要求4至7中任一项所述的计算机实现的方法，其中所述选择模型被进一步训练以选择用于验证所述选择的化合物候选列表的验证方法，其中选择用于验证所述选择的化合物候选列表的所述验证方法进一步包括：
基于所述特定属性和所述选择的化合物候选列表选择是进行实验室实验还是进行计算机分析；
响应于选择执行实验室实验，其中所述实验室实验输出实验室实验验证结果，用于估计所述选择的化合物候选列表上的每个化合物与所述特定属性的关联，其中所述实验室实验验证结果用于更新所述属性模型；
响应于确定执行计算机分析，其中所述计算机分析输出计算机分析验证结果，用于估计所述选择的化合物候选列表上的每种化合物与所述特定属性的关联，其中所述计算机分析验证结果用于更新所述属性模型。

9.根据权利要求7所述的计算机实现的方法，所述方法进一步包括：
接收从所述属性模型输出的预测结果列表，用于预测多个化合物是否与所述特定属性相关联和属性模型分数；
基于所述属性模型分数和先前的属性模型分数，确定是否再训练所述选择模型以选择化合物候选列表和验证方法；以及
基于所述属性模型分数和/或所述预测结果列表再训练所述选择模型。

10.根据权利要求8或9中任一项所述的计算机实现的方法，其中当选择执行实验室实验的验证方法并且用于再训练所述选择模型的迭代次数低于预定阈值时，所述方法进一步包括：
在再训练期间惩罚所述选择模型；以及
选择执行计算机分析的验证方法。

11.根据权利要求8至10中任一项所述的计算机实现的方法，其中当选择执行实验室实验的验证方法并且确定执行计算机分析的验证方法将进一步提高所述属性模型分数时，所述方法进一步包括：
在再训练期间惩罚所述选择模型；以及
选择执行计算机分析的验证方法。

12.根据权利要求8至11中任一项所述的计算机实现的方法，其中当选择执行实验室实验的验证方法并且所述选择的化合物候选列表与先前选择的化合物候选列表相比发生了实质性变化时，所述方法进一步包括：
在再训练期间惩罚所述选择模型；以及
选择执行计算机分析的验证方法。

13.根据权利要求8至12中任一项所述的计算机实现的方法，其中当选择执行计算机分析的验证方法并且确定计算机分析会基于先前的属性模型分数改进所述属性模型的属性模型分数时，其中所述先前的属性模型分数是从在每个化合物候选列表已经被验证之后生成的相应预测结果列表中计算的，所述方法进一步包括：
在再训练期间奖励所述选择模型；以及
选择执行计算机分析的验证方法。

14.根据任一前述权利要求所述的计算机实现的方法，其中所述预测结果列表包括指示所述每种化合物与所述特定属性的关联的预测属性分数。

15.根据权利要求14所述的计算机实现的方法，其中所述预测属性分数包括确定性分数，其中已知具有所述特定属性的化合物被给予正确定性分数，已知不具有所述特定属性的化合物被给予负确定性分数，其他化合物被给予所述正确定性分数和所述负确定性分数之间的不确定性分数。

16.根据权利要求15所述的计算机实现的方法，其中所述确定性分数是百分比确定性分数，其中所述正确定性分数是100％，所述负确定性分数是0％，所述不确定性分数在所述正和负确定性分数之间。

17.根据任一前述权利要求所述的计算机实现的方法，其中再训练所述选择模型进一步包括：
当与所述相应的先前属性模型分数相比，所述属性模型分数没有达到属性模型性能阈值时，向与所述属性模型相关联的ML技术指示将所述属性模型恢复到先前属性模型；
当与所述相应的先前属性模型分数相比，所述属性模型分数指示满足或超过所述属性模型性能阈值时，向与所述属性模型相关联的所述ML技术指示在先前属性模型上保留所述更新的属性模型；
再训练所述选择模型以基于所述属性模型分数从所述相应的预测结果列表中选择一组化合物；以及
重复权利要求1所述的步骤，直到确定所述选择模型被训练。

18.根据权利要求17所述的计算机实现的方法，其中确定所述选择模型被训练进一步包括：
将所述保留的属性模型分数与先前保留的属性模型分数进行比较；以及
基于属性模型分数的平稳状态确定所述选择模型已经被有效...

【专利技术属性】
技术研发人员：D普拉姆利，MHS塞格勒，
申请(专利权)人：伯耐沃伦人工智能科技有限公司，
类型：发明
国别省市：英国;GB

全部详细技术资料下载我是这个专利的主人