基因组序列中潜在BGC的预测方法、装置、设备及介质制造方法及图纸

技术编号:31232116 阅读:28 留言:0更新日期:2021-12-08 10:08
本申请公开了一种基因组序列中潜在BGC的预测方法、装置、设备及介质,涉及人工智能领域。方法包括:对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的Pfam结构域;确定各个Pfam结构域的Pfam得分,Pfam得分用于表征Pfam结构域属于BGC的概率;基于各个Pfam结构域的Pfam得分,确定基因组序列中的候选BGC;对候选BGC进行BGC类别预测,并基于类别预测结果确定候选BGC中的潜在BGC。本申请实施例采用双重串行预测机制,先根据Pfam得分实现BGC的一级过滤,然后在一级过滤结果的基础上通过类别预测实现BGC的二级过滤,有助于降低BGC预测结果的假阳率。BGC预测结果的假阳率。BGC预测结果的假阳率。

【技术实现步骤摘要】
基因组序列中潜在BGC的预测方法、装置、设备及介质


[0001]本申请实施例涉及人工智能领域,特别涉及一种基因组序列中潜在BGC的预测方法、装置、设备及介质。

技术介绍

[0002]生物合成基因簇(Biosynthetic Gene Clusters,BGC)是指具有生物合成功能的一组基因,能够编码合成次级代谢产物(小分子化合物),而微生物的次级代谢产物则是药物开发的重要源泉。
[0003]相关技术中,药物研发人员采用机器学习方法对细菌或真菌的基因组序列进行检测,以此发掘与新颖结构的小分子化合物相关的潜在BGC。后续研发过程中,即可基于发掘出的潜在BGC进行针对性实验。
[0004]然而,目前利用机器学习方法进行BGC预测时,BGC预测结果的假阳率较高,即BGC预测结果中包含大量非BGC,不利于后续药物研发。

技术实现思路

[0005]本申请实施例提供了一种基因组序列中潜在BGC的预测方法、装置、设备及介质,能够降低BGC预测的假阳率,提高BGC预测的准确性。所述技术方案如下:
[0006]一方面,本申请实施例提供了一种基因组序列中潜在BGC的预测方法,所述方法包括:
[0007]对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的蛋白质家族数据库(Proteinfamily,Pfam)结构域;
[0008]确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于BGC的概率;
[0009]基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
[0010]对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。
[0011]另一方面,本申请实施例提供了一种基因组序列中潜在BGC的预测装置,所述装置包括:
[0012]第一预测模块,用于对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的Pfam结构域;
[0013]评分模块,用于确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于BGC的概率;
[0014]第一确定模块,用于基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
[0015]第二确定模块,用于对所述候选BGC进行BGC类别预测,并基于类别预测结果确定
所述候选BGC中的潜在BGC。
[0016]另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的基因组序列中潜在BGC的预测方法。
[0017]另一方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述方面所述的基因组序列中潜在BGC的预测方法。
[0018]另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的基因组序列中潜在BGC的预测方法。
[0019]本申请实施例中,首先通过对基因组序列中各个基因包含的Pfam结构域进行打分,得到表征Pfam结构域属于BGC概率的Pfam得分,从而根据Pfam得分确定出基因组序列中的候选BGC,然后进一步对候选BGC进行类别预测,最终从候选BGC中确定出潜在BGC;本申请实施例提供的方案采用双重串行预测机制,先根据Pfam得分实现BGC的一级过滤,然后在一级过滤结果的基础上通过类别预测实现BGC的二级过滤,有助于降低BGC预测结果的假阳率,提高BGC预测的准确性。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请一个示例性实施例示出的BGC预测过程的原理示意图;
[0022]图2是本申请一个示例性实施例提供的实施环境的示意图;
[0023]图3是本申请一个示例性实施例提供的基因组序列中潜在BGC的预测方法的流程图;
[0024]图4是本申请另一个示例性实施例提供的基因组序列中潜在BGC的预测方法的流程图;
[0025]图5是本申请一个示例性实施例示出的Pfam评分模型的结构示意图;
[0026]图6是本申请一个示例性实施例示出的基因合并过程的实施示意图;
[0027]图7是本申请一个示例性实施例示出的Pfam评分模型训练过程的流程图;
[0028]图8是本申请一个示例性实施例示出的Pfam得分计算过程的流程图;
[0029]图9是本申请一个示例性实施例示出的滑窗机制的实施示意图;
[0030]图10是本申请一个示例性实施例示出双模型串行预测过程的实施示意图;
[0031]图11和图12是模型性能验证实验的结果图;
[0032]图13至15是不同方案下预测得到的BGC与真实BGC的分布示意图;
[0033]图16示出了本申请一个示例性实施例提供的计算机设备的结构示意图;
[0034]图17是本申请一个示例性实施例提供的基因组序列中潜在BGC的预测装置的结构
框图。
具体实施方式
[0035]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0036]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0037]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0038]机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因组序列中潜在BGC的预测方法,其特征在于,所述方法包括:对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的蛋白质家族数据库Pfam结构域;确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于生物合成基因簇BGC的概率;基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。2.根据权利要求1所述的方法,其特征在于,所述确定各个所述Pfam结构域的Pfam得分,包括:获取所述Pfam结构域的生物学信息,所述生物学信息包括结构域信息、家族描述信息以及家族标识;将所述生物学信息输入Pfam评分模型,得到所述Pfam评分模型输出的所述Pfam得分,所述Pfam评分模型基于包含BGC标注的样本基因组序列训练得到。3.根据权利要求2所述的方法,其特征在于,所述将所述生物学信息输入Pfam评分模型,得到所述Pfam评分模型输出的所述Pfam得分,包括:通过所述Pfam评分模型的嵌入层、编码层以及连接层对所述生物学信息进行处理,得到所述Pfam结构域的目标向量,所述嵌入层用于对所述生物学信息进行嵌入处理,得到嵌入向量,所述编码层用于对所述嵌入向量进行编码,得到编码向量,所述连接层用于连接所述编码向量,得到所述目标向量;通过所述Pfam评分模型的特征提取层对所述目标向量进行特征提取,得到所述Pfam结构域的结构域特征;通过所述Pfam评分模型的池化层和全连接层对所述结构域特征进行池化和全连接处理,得到所述Pfam得分。4.根据权利要求3所述的方法,其特征在于,所述特征提取层由双向长短期记忆递归神经网络Bi

LSTM和单向长短期记忆递归网络LSTM构成,所述池化层用于对所述结构域特征进行时序平均池化。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:构建样本基因组序列,所述样本基因组合序列由正样本和负样本拼接得到,所述正样本属于BGC数据集,所述负样本属于非BGC数据集;通过所述Pfam评分模型对所述样本基因组序列中各个Pfam结构域进行评分,得到样本Pfam得分;基于所述样本Pfam得分,确定所述样本基因组序列中的样本预测BGC;将所述正样本和所述负样本作为所述样本预测BGC的监督,训练所述Pfam评分模型。6.根据权利要求1至5任一所述的方法,其特征在于,所述确定各个所述Pfam结构域的Pfam得分之前,所述方法还包括:基于目标数量以及目标步长,采用滑动窗口对所述基因组序列进行划分,得到至少两个序列片段,所述序列片段中包含所述目标数量的所述Pfam结构域,且相邻序列片段之间
的偏移为所述目标步长;所述确定各个所述Pfam结构域的Pfam得分,还包括:以所述序列片段为单位,确定所述序列片段中各个所述Pfam结构域的所述Pfam得分;响应于存在Pfam结构域属于至少两个所述序列片段,对至少两个所述序列片段中所述Pfam结构域的Pfam得分进行平均计算,将平均计算结果确定为所述Pfam结构域的目标Pfam得分。7.根据...

【专利技术属性】
技术研发人员:杨子翊廖奔犇张胜誉辛志伟梁恒宇
申请(专利权)人:河南省健康元生物医药研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1