当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于机器翻译模型的先导化合物成药性优化方法技术

技术编号:31020923 阅读:12 留言:0更新日期:2021-11-30 03:09
本公开实施例中提供了一种基于机器翻译模型的先导化合物成药性优化方法,属于医疗保健信息学技术领域,具体包括:训练翻译模型;根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组;将初始分子字符串输入编码器,生成目标矢量;根据接收到的优化指令将目标矢量输入预测模型组,得到优化指令对应的优化预测指标;根据优化预测指标和初始分子字符串对应的计算指标进行加权平均计算,得到初始分子字符串的得分;根据目标矢量和得分,利用优化算法迭代预设次数得到优化分数集合;将优化分数集合输入解码器,利用预设算法计算每个优化矢量对应的字符串,形成目标分子字符串集合。通过本公开的方案,提高了优化效率和适应性。化效率和适应性。化效率和适应性。

【技术实现步骤摘要】
一种基于机器翻译模型的先导化合物成药性优化方法


[0001]本公开实施例涉及医疗保健信息学
,尤其涉及一种基于机器翻译模型的先导化合物成药性优化方法。

技术介绍

[0002]目前,药物研发的最大的挑战之一就是如何高效的进行先导化合物优化,这也是药物化学家们面临的一大难题。超过50%化合物因为没有合适的吸收、分布、代谢、排泄(ADMET)和安全性质从而在药物研发的过程中失败,而ADMET性质优化是一个难度极高的多目标优化任务,要求在提高分子的成药性同时保持分子的活性;另一方面,空间大、经验少、成本高、耗时长等因素也使得高效进行化合物药代动力学性质和安全性的优化成为一大难题。而现有的技术一般是通过计算生成新分子,接着利用虚拟筛选程序对所产生的新化合物进行筛选以获得符合候选化合物,然而计算量巨大,或者通过预测模型对分子整体进行预测,不能针对成药性特定指标进行优化,且优化后药物的成药性不高,优化效率和适应性较差。
[0003]可见,亟需一种优化效率和适应性强的基于机器翻译模型的先导化合物成药性优化方法。

技术实现思路

[0004]有鉴于此,本公开实施例提供一种基于机器翻译模型的先导化合物成药性优化方法,至少部分解决现有技术中存在优化效率和适应性较差的问题。
[0005]第一方面,本公开实施例提供了一种基于机器翻译模型的先导化合物成药性优化方法,包括:
[0006]利用预设数量的样本分子字符串训练翻译模型,其中,所述翻译模型包括编码器和解码器;
[0007]根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组;
[0008]将初始分子字符串输入所述编码器,生成目标矢量;
[0009]根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标;
[0010]根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分;
[0011]根据所述目标矢量和所述得分,利用优化算法迭代预设次数得到优化分数集合,其中,所述优化分数集合包括多个优化矢量和每个所述优化矢量对应的优化得分;
[0012]将所述优化分数集合输入所述解码器,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合。
[0013]根据本公开实施例的一种具体实现方式,所述利用预设数量的样本分子字符串训练翻译模型的步骤,包括:
[0014]分别将每个所述样本分子字符串输入所述编码器,并将所述编码器的输出结果输入所述解码器;
[0015]将所述解码器的每个输出结果与其对应的样本分子字符串的真实标签的损失,并执行梯度更新。
[0016]根据本公开实施例的一种具体实现方式,所述根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组的步骤,包括:
[0017]从初始数据库内提取样本数据集;
[0018]从所述样本数据集中提取与每个所述药代动力学终点对应的数据训练XGBoost算法,得到每个所述药代动力学终点对应的计算模型;
[0019]根据全部所述药代动力学终点对应的计算模型形成所述预测模型组。
[0020]根据本公开实施例的一种具体实现方式,所述根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标的步骤,包括:
[0021]分析所述优化指令中包含的药代动力学终点;
[0022]根据所述优化指令中包含的药代动力学终点从所述预测模型组选取对应的计算模型;
[0023]将所述目标矢量分别输入每个所述计算模型,得到每个所述药代动力学终点对应的预测指标,并形成所述优化预测指标。
[0024]根据本公开实施例的一种具体实现方式,所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤之前,所述方法还包括:
[0025]对每个所述药代动力学终点和所述计算指标设置对应的权重;
[0026]设定每个所述药代动力学终点和所述计算指标对应的常用性质范围和预设性质范围,其中,所述常用性质范围大于所述预设性质范围。
[0027]根据本公开实施例的一种具体实现方式,所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤,包括:
[0028]分别根据每个所述药代动力学终点的权重和预测指标计算预测值,以及,根据根据所述计算指标的值和权重计算所述预测值;
[0029]根据每个所述预测值所在的性质范围确定每个预测值对应的预测得分,并形成所述初始分子字符串的得分。
[0030]根据本公开实施例的一种具体实现方式,所述利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合的步骤,包括:
[0031]根据Beam Search算法和所述优化矢量预测每个字符,直到形成字符串;
[0032]根据全部所述优化矢量对应的字符串形成所述目标分子字符串集合。
[0033]本公开实施例中的基于机器翻译模型的先导化合物成药性优化方案,包括:利用预设数量的样本分子字符串训练翻译模型,其中,所述翻译模型包括编码器和解码器;根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组;将初始分子字符串输入所述编码器,生成目标矢量;根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标;根据所述优化预测指标和所述初始分子字
符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分;根据所述目标矢量和所述得分,利用优化算法迭代预设次数得到优化分数集合,其中,所述优化分数集合包括多个优化矢量和每个所述优化矢量对应的优化得分;将所述优化分数集合输入所述解码器,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合。
[0034]本公开实施例的有益效果为:通过本公开的方案,对需要优化的每个药代动力学终点均建立一个计算模型,并分别对初始分子的各个指标进行独立优化并在加权平均计算后进行迭代优化,并将迭代结果整理输出为固定的目标分子字符串集合,提高了优化效率和适应性。
附图说明
[0035]为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0036]图1为本公开实施例提供的一种基于机器翻译模型的先导化合物成药性优化方法的流程示意图;
[0037]图2为本公开实施例提供的一种基于机器翻译模型的先导化合物成药性优化方法的部分流程示意图;
[0038]图3为本公开实施例提供的另一种基于机器翻译模型的先导化合物成药性优化方法的部分流程示意图;
[0039]图4为本公开实施例提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器翻译模型的先导化合物成药性优化方法,其特征在于,包括:利用预设数量的样本分子字符串训练翻译模型,其中,所述翻译模型包括编码器和解码器;根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组;将初始分子字符串输入所述编码器,生成目标矢量;根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标;根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分;根据所述目标矢量和所述得分,利用优化算法迭代预设次数得到优化分数集合,其中,所述优化分数集合包括多个优化矢量和每个所述优化矢量对应的优化得分;将所述优化分数集合输入所述解码器,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合。2.根据权利要求1所述的方法,其特征在于,所述利用预设数量的样本分子字符串训练翻译模型的步骤,包括:分别将每个所述样本分子字符串输入所述编码器,并将所述编码器的输出结果输入所述解码器;将所述解码器的每个输出结果与其对应的样本分子字符串的真实标签的损失,并执行梯度更新。3.根据权利要求1所述的方法,其特征在于,所述根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组的步骤,包括:从初始数据库内提取样本数据集;从所述样本数据集中提取与每个所述药代动力学终点对应的数据训练XGBoost算法,得到每个所述药代动力学终点对应的计算模型;根据全部所述药代动力学终点对应的计算模型形成所述预测模型组。4.根据权利要求3所述的方法...

【专利技术属性】
技术研发人员:曹东升付丽杨梓宜
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1