System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 酶基因簇预测方法、装置、计算机设备及存储介质制造方法及图纸_技高网

酶基因簇预测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:41069962 阅读:2 留言:0更新日期:2024-04-24 11:25
本发明专利技术涉及生物信息技术领域,公开了一种酶基因簇预测方法、装置、计算机设备及存储介质,该方法包括:获取DNA文件,识别DNA文件中的开放阅读框;从开放阅读框中提取目标酶及预设位置的碱基信息;按照预设基序和判定阈值基于碱基信息识别前体肽基因序列;对目标酶进行序列相似性网络分析,基于分析得到的相似度对目标酶进行聚类;基于聚类结果得到目标酶的家族分布结果。通过实施本发明专利技术,结合前体肽基因预测可以快速高效的实现目标酶基因周边潜在短肽基因的预测,解决由于很多核心修饰基因并不具有相似性,使得软件工具无法识别核心修饰基因,从而影响前体肽基因识别预测结果的问题。

【技术实现步骤摘要】

本专利技术涉及生物信息,具体涉及一种酶基因簇预测方法、装置、计算机设备及存储介质


技术介绍

1、环肽天然产物中诞生了大量的抗生素药物,如糖肽类的万古霉素(vancomycin),脂肽类的arylomycin,吲哚生物碱类的星形孢菌素(staurosporine)等。这类环肽天然产物均由大型的非核糖体肽合成酶(non-ribosomal peptide synthetase,nrps)产生线性的多肽中间体,随后在p450酶的催化下,氨基酸侧链芳香基团发生交联,形成结构骨架,再经卤化、糖基化等修饰,形成终产物。为了发掘更多的环肽抗生素,大型nrps常作为基因组挖掘的切入点,基于此,发现了多个新颖的糖肽类抗菌分子,如corbomycin,rimomycin等。但是,这些思路仍然局限于nrps途径,产物仍是万古霉素的类似物。

2、由于p450酶催化的芳香基团之间的交联是这类抗生素最为显著的特征,线性多肽前体的生物合成过程却并不局限于nrps途径。在核糖体合成的翻译后修饰肽(ribosomallysynthesized and post-translationally modified peptides,ripps)的合成过程中,可以经由核糖体介导的翻译过程,生成线性多肽前体,称之为前体肽,再经后续修饰剪切,形成成熟的多肽产物。研究表明,针对ripp途径生成的p450酶修饰肽展开基因组挖掘,将能绕开nrps途径环肽结构的相似性,从而开启一大类新颖环肽分子的发现序幕,继而为环肽抗生素的发现提供崭新的视角。

3、对于ripps类天然产物的基因组挖掘,目前主要的研究集中于基因簇的识别,在含有特异性的核心修饰基因的类别中,该核心酶常作为基因簇识别的依据,从而为某一类别的基因簇挖掘提供依据,然而,由于前体肽基因较短,普通的基因预测工具如glimmer、prodigal等均不能有效的识别这些短小的前体肽基因,这对ripps类天然产物基因簇的预测造成了极大的困难。为了克服这一难题,研究者们先后开发了多种工具,如rodeo、ripper和基于人工智能的neuripp、deepripp等,这些软件采用对核心修饰基因的识别来确定基因簇的组成和范围,再通过对基因簇范围内潜在开放阅读框(open reading frame,orf)的检索以及与同类已知前体肽基因的比对,从而实现前体肽基因的识别。然而,由于很多核心修饰基因并不具有相似性,使得软件工具无法识别核心修饰基因,从而影响方法的预测成功率。例如,以p450酶修饰肽基因簇为例,p450酶修饰肽基因簇中仅保守的含有一个p450酶和一个前体肽的基因,不同类别的前体肽序列差异显著,虽然p450酶由于具有保守的与辅因子结合的结构域,但已知的三个基因簇中的p450酶(citb9、trpb10和byto11)彼此之间序列的一致性却均小于30%,这说明p450酶修饰肽基因簇中的p450酶也并不保守,如此,使用p450酶为同源序列检索的探针,将无法区分检索到的条目是否参与了p450酶修饰肽的合成。同时,uniprot蛋白序列数据库中,细菌来源的p450酶高达27万多条,如果采用已有的预测方法,将带来巨大的运算量并消耗大量的时间。这些问题表明,亟需开发一套有针对性的p450酶修饰肽基因簇的预测方法。


技术实现思路

1、有鉴于此,本专利技术提供了一种酶基因簇预测方法、装置、计算机设备及存储介质,以解决由于酶基因结构的不同,很可能会影响前体肽基因识别预测结果的问题。

2、第一方面,本专利技术提供了一种酶基因簇预测方法,该方法包括:获取dna文件,识别dna文件中的开放阅读框;从开放阅读框中提取目标酶及预设位置的碱基信息;按照预设基序和判定阈值基于碱基信息识别前体肽基因序列;对目标酶进行序列相似性网络分析,基于分析得到的相似度对目标酶进行聚类;基于聚类结果得到目标酶的家族分布结果。

3、本实施例提供的酶基因簇预测方法,首先,通过获取dna文件并识别其中的开放阅读框,有助于确定编码蛋白质的基因区域。开放阅读框是基因中能够编码完整蛋白质的连续碱基序列。通过这一步骤,可以缩小目标酶的搜索范围,集中精力分析相关的基因序列。其次,通过从开放阅读框中提取目标酶及预设位置的碱基信息,可以更精确地定位和提取酶的编码序列。这些信息对于后续的序列分析和酶功能研究至关重要。之后,通过按照预设基序和判定阈值基于碱基信息识别前体肽基因序列,能够提高识别的准确性和可靠性。预设基序和判定阈值是根据已知的生物分子结构和功能特征设定的,有助于筛选出真正的前体肽基因序列。然后,通过对目标酶进行序列相似性网络分析,并根据分析得到的相似度进行聚类,有助于更全面地了解目标酶的多样性和亲缘关系。这种分析方法可以揭示不同酶之间的潜在联系,从而有助于理解酶的进化历程和功能特点。基于聚类结果得到目标酶的家族分布结果,能够为酶的分类、功能预测和进化研究提供重要依据。通过了解酶的家族分布,可以更好地理解酶在生物体内的作用和调控机制,并为相关的生物工程和药物研发提供指导。

4、在一种可选的实施方式中,从开放阅读框中提取目标酶,包括:对开放阅读框中给的基因序列进行一致性分析;将序列一致性大于预设阈值的基因序列进行聚类,生成基因序列集合,并选取基因序列集合中的一条基因序列来表征基因序列集合;从聚类后的基因序列中提取目标酶。

5、在一种可选的实施方式中,从开放阅读框中提取预设位置的碱基信息,包括:截取开放阅读框起始密码子上游-3到-18bp的碱基作为核糖体结合位点的判别区域。

6、在一种可选的实施方式中,按照预设基序和判定阈值基于碱基信息识别前体肽基因序列,包括:从判别区域中提取sd基序序列;对sd基序序列中包含的序列进行分析评分;基于评分结果及判定阈值从碱基信息中识别前体肽基因序列。

7、在一种可选的实施方式中,对sd基序序列中包含的序列进行分析评分,包括:将sd基序序列分为4个类别;基于各类别的sd基序序列中所包含的特定序列进行加分或罚分处理,得到评分结果。

8、在一种可选的实施方式中,基于评分结果及判定阈值从碱基信息中识别前体肽基因序列,包括:剔除掉判别区域中包含第二特定序列的部分;基于判别区域中的剩余部分以及评分结果、判定阈值从判别区域中识别属于核糖体结合位点的区域,作为前体肽基因序列。

9、在一种可选的实施方式中,对目标酶进行序列相似性网络分析,包括:将选择e值1e-80作为序列相似性网络的阈值;基于阈值对目标酶进行序列相似性网络分析。

10、在一种可选的实施方式中,酶基因簇预测方法还包括:对聚类得到的各个类别的目标酶对应的前体肽基因序列进行多重序列比对,分析各个类别的目标酶对应的前体肽基因序列的保守性;基于保守性分析的结果得到目标酶的家族分布结果。

11、第二方面,本专利技术提供了一种酶基因簇预测装置,该装置包括:获取模块,用于获取dna文件,识别dna文件中的开放阅读框;提取模块,用于从开放阅读框中提取目标酶及预设位置的碱基信息;识本文档来自技高网...

【技术保护点】

1.一种酶基因簇预测方法,其特征在于,所述酶基因簇预测方法包括:

2.根据权利要求1所述的酶基因簇预测方法,其特征在于,所述从所述开放阅读框中提取目标酶,包括:

3.根据权利要求1所述的酶基因簇预测方法,其特征在于,从所述开放阅读框中提取预设位置的碱基信息,包括:

4.根据权利要求3所述的酶基因簇预测方法,其特征在于,所述按照预设基序和判定阈值基于所述碱基信息识别前体肽基因序列,包括:

5.根据权利要求4所述的酶基因簇预测方法,其特征在于,所述对所述SD基序序列中包含的序列进行分析评分,包括:

6.根据权利要求5所述的酶基因簇预测方法,其特征在于,所述基于评分结果及所述判定阈值从所述碱基信息中识别所述前体肽基因序列,包括:

7.根据权利要求1所述的酶基因簇预测方法,其特征在于,所述对所述目标酶进行序列相似性网络分析,包括:

8.根据权利要求1所述的酶基因簇预测方法,其特征在于,所述酶基因簇预测方法还包括:

9.一种酶基因簇预测装置,其特征在于,所述装置包括:

10.一种计算机设备,其特征在于,包括:

...

【技术特征摘要】

1.一种酶基因簇预测方法,其特征在于,所述酶基因簇预测方法包括:

2.根据权利要求1所述的酶基因簇预测方法,其特征在于,所述从所述开放阅读框中提取目标酶,包括:

3.根据权利要求1所述的酶基因簇预测方法,其特征在于,从所述开放阅读框中提取预设位置的碱基信息,包括:

4.根据权利要求3所述的酶基因簇预测方法,其特征在于,所述按照预设基序和判定阈值基于所述碱基信息识别前体肽基因序列,包括:

5.根据权利要求4所述的酶基因簇预测方法,其特征在于,所述对所述sd基序...

【专利技术属性】
技术研发人员:戈惠明胡逸灵焦瑞华殷方洲史净
申请(专利权)人:南京大学人工智能生物医药技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1