System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度学习的16S rRNA基因测序引物设计方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>北京大学专利>正文

基于深度学习的16S rRNA基因测序引物设计方法及系统技术方案

技术编号:41096027 阅读:6 留言:0更新日期:2024-04-25 13:54
本发明专利技术提供一种基于深度学习的16S rRNA基因测序引物设计方法及系统,涉及引物设计技术领域。首先获取目标细菌群落相关的属列表,基于属列表得到代表性16S rRNA基因全长序列,利用预先训练的区域划分模型预测代表性全长序列的各个可变区域及保守区域,确定符合测序平台要求的候选扩增区域用于引物设计,针对每个候选扩增区域确定对应的正向引物结合区序列集和反向引物结合区序列集,基于两种序列集分别进行多序列比对得到候选特异性引物对,最后筛选得到目标细菌群落特异性引物对。本发明专利技术无需进行16S rRNA基因全长序列多序列比对,直接基于区域划分模型划分确定出候选扩增区域进行多序列比对,可有效节省运算时间和使用内存,提高引物设计流程的整体效率。

【技术实现步骤摘要】

本专利技术实施例涉及引物设计,尤其涉及一种基于深度学习的16srrna基因测序引物设计方法及系统。


技术介绍

1、16s rrna基因的高通量测序通常使用通用引物来结合目标可变区域(v-region)两侧的保守位点,该方法已被广泛用于揭示各种环境下细菌群落的复杂组成。然而,由于所谓的保守区域并非在所有类群中都是普遍保守的,导致通用引物可能无法有效扩增某些细菌的16s rrna基因,进而导致特定类群的存在会被低估,甚至被完全排除在外。此外,若选择的目标可变区域的分类准确性不足,一些扩增片段可能会被错误分类,从而也会导致对某些类群丰度的错误估计。因此,如果不加考虑地直接运用所谓的通用引物对目标细菌群落进行扩增,由于通用引物的引物扩增偏差,可能会引发对后续细菌组成分析的偏误(这一问题在生物量较低的样本中尤为突出)。不仅如此,由于通用引物的设计通常侧重于易培养和常见的物种,导致通用引物在检测一些稀有细菌时往往表现出较低的灵敏度,在使用通用引物时,某些稀有细菌的存在往往被低估甚至忽略,导致稀有物种丰度被错误估计。因此,需要针对性地对特定菌群进行16s测序引物设计。

2、相关技术中,一些研究针对特定环境样本手工设计16s rrna基因引物,然而这类设计过程往往复杂且困难并且需要对于当前环境的先验知识,难以应用于非模式菌群的特异性引物设计中。目前有工作开发了in-silico的引物设计方法,但它们通常依赖于全长16s rrna基因的多序列比对(multiple sequence alignment,msa),受到16s rrna基因中包含的高可变区的影响,这类方法的运行速度较慢、精度较差,并且这类方法不能准确标记16s rrna基因上的可变区域,因此难以准确给出针对特定目标区域的引物设计。

3、因此,针对目标环境中的细菌群落谱系,选择具有最高分类精度的目标可变区域,并设计具有最优扩增效率的特异性16s rrna基因引物仍然是细菌群落多样性研究中一个亟待解决的问题。


技术实现思路

1、本专利技术实施例提供一种基于深度学习的16s rrna基因测序引物设计方法及系统,以至少部分解决相关技术中存在的问题。

2、本专利技术实施例第一方面提供了一种基于深度学习的16s rrna基因测序引物设计方法,所述方法包括:

3、获取目标细菌群落中相关的属列表,所述属列表是通过少量其他同类宏基因组样本获得的,或者,通过目标细菌群落的先验知识获得的;

4、从代表性全长序列数据集中确定目标细菌群落对应的属列表的代表性全长序列;

5、基于预先训练的区域划分模型,确定每个代表性全长序列的九种可变区域和保守区域,将符合预设长度要求的可变区域组合作为候选扩增区域;所述区域划分模型是以标注了保守区域和九种可变区域的全长序列训练样本训练得到的;

6、基于每个代表性全长序列的每个候选扩增区域确定对应的正向引物结合区序列和反向引物结合区序列,针对每个候选扩增区域:将该候选扩增区域在所有代表性全长序列上对应的正向引物结合区序列作为正向引物结合区序列集,将该候选扩增区域在所有代表性全长序列上对应的反向引物结合区序列作为反向引物结合区序列集,对每个候选扩增区域对应的正向引物结合区序列集和反向引物结合区序列集分别进行多序列比对,生成每个候选扩增区域对应的候选特异性引物对;

7、对每个候选特异性引物对进行评估,筛选得到所述目标细菌群落对应的特异性引物对。

8、可选地,所述方法还包括:

9、收集不小于预设碱基数量的非冗余细菌16s rrna基因序列作为原始数据集;

10、针对原始数据集中的每个序列:采用十个通用引物对该序列的全长序列进行序列比对,划分出该序列的保守区域和九种可变区域,并对各个区域分别进行标注;

11、删除标注后的至少一个保守区域与通用引物不匹配以及各个区域排序方式错误的序列;

12、将余下的带有保守区域标注和可变区域标注的序列作为全长序列训练样本;

13、基于所述全长序列训练样本对预设模型进行训练,得到区域划分模型。

14、可选地,针对每个候选扩增区域:对正向引物结合区序列集和反向引物结合区序列集分别进行多序列比对,生成每个候选扩增区域对应的候选特异性引物对,包括:

15、对所述正向引物结合区序列集和反向引物结合区序列集中缺失频率超过预设频率的位点进行删除;

16、对正向引物结合区序列集和反向引物结合区序列集中每个引物结合区序列中的每个位点进行分类,确定保守位点、退化保守位点和不保守位点;

17、分别从正向引物结合区序列集和反向引物结合区序列集中滑窗划分多个候选引物结合片段,基于每次滑窗得到的候选引物结合片段中包括的保守位点、退化保守位点和不保守位点,分别确定正向候选引物序列集和反向候选引物序列集;

18、基于所述正向候选引物序列集和反向候选引物序列集,筛选出退火温度在预设温度范围之间、gc含量在预设比率范围的正向引物和反向引物;

19、确定退火温度相差不超过预设温差的正向引物和反向引物为候选引物对;

20、从所述候选引物对中排除可能产生二聚二级结构的候选引物对;

21、将余下的候选引物对作为当前候选扩增区域对应的候选特异性引物对。

22、可选地,分别从正向引物结合区序列集和反向引物结合区序列集中滑窗划分多个候选引物结合片段,基于每次滑窗得到的候选引物结合片段中包括的保守位点、退化保守位点和不保守位点,分别确定正向候选引物序列集和反向候选引物序列集,包括:

23、基于每次滑窗得到的候选引物结合片段,在其中没有缺失概率超过筛选频率的位点,且包含不超过三个退化保守位点和不超过一个不保守位点的情况下,将其加入对应的候选引物序列集。

24、可选地,对每个候选特异性引物对进行评估,包括:

25、获取所述目标细菌群落对应的属列表的代表性全长序列集合,所述代表性全长序列集合中的每一个代表性全长序列携带有分类标记;

26、针对该代表性全长序列集合中的每一条序列:将该序列与所述候选引物对进行匹配,在匹配成功的情况下,进行模拟扩增,对扩增结果进行物种分类,基于物种分类结果和该序列对应的分类标记确定该候选引物对对该序列的分类准确性;

27、基于所述候选引物对对所述代表性全长序列集合中的所有序列的分类准确性,对所述候选引物对进行评估。

28、可选地,所述方法还包括:

29、将所述原始数据集中的所有细菌16s rrna基因序列与已知细菌的全长序列进行比对,删除引物结合位点不完整的序列;

30、余下的16s rrna基因序列包含完整的九种可变区域以及其对应的引物结合位点;将余下的序列作为代表性全长序列数据集。

31、可选地,通过少量其他同类宏基因组样本获取目标细菌群落中相关的属列表的步骤,包括:

32、对所述宏本文档来自技高网...

【技术保护点】

1.一种基于深度学习的16S rRNA基因测序引物设计方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于深度学习的16S rRNA基因测序引物设计方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的基于深度学习的16S rRNA基因测序引物设计方法,其特征在于,针对每个候选扩增区域:对正向引物结合区序列集和反向引物结合区序列集分别进行多序列比对,生成每个候选扩增区域对应的候选特异性引物对,包括:

4.根据权利要求3所述的基于深度学习的16S rRNA基因测序引物设计方法,其特征在于,分别从正向引物结合区序列集和反向引物结合区序列集中滑窗划分多个候选引物结合片段,基于每次滑窗得到的候选引物结合片段中包括的保守位点、退化保守位点和不保守位点,分别确定正向候选引物序列集和反向候选引物序列集,包括:

5.根据权利要求1所述的基于深度学习的16S rRNA基因测序引物设计方法,其特征在于,对每个候选特异性引物对进行评估,包括:

6.根据权利要求2所述的基于深度学习的16S rRNA基因测序引物设计方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的基于深度学习的16S rRNA基因测序引物设计方法,其特征在于,通过少量其他同类宏基因组样本获取目标细菌群落中相关的属列表的步骤,包括:

8.一种基于深度学习的16S rRNA基因测序引物设计系统,其特征在于,所述系统包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于深度学习的16S rRNA基因测序引物设计方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7任一项所述的基于深度学习的16SrRNA基因测序引物设计方法的步骤。

...

【技术特征摘要】

1.一种基于深度学习的16s rrna基因测序引物设计方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于深度学习的16s rrna基因测序引物设计方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的基于深度学习的16s rrna基因测序引物设计方法,其特征在于,针对每个候选扩增区域:对正向引物结合区序列集和反向引物结合区序列集分别进行多序列比对,生成每个候选扩增区域对应的候选特异性引物对,包括:

4.根据权利要求3所述的基于深度学习的16s rrna基因测序引物设计方法,其特征在于,分别从正向引物结合区序列集和反向引物结合区序列集中滑窗划分多个候选引物结合片段,基于每次滑窗得到的候选引物结合片段中包括的保守位点、退化保守位点和不保守位点,分别确定正向候选引物序列集和反向候选引物序列集,包括:

5.根据权利要求1所述的基于深度学习的16s rrna基因测序引物设计方法,其特征在...

【专利技术属性】
技术研发人员:朱怀球张灏宇江小青喻雄武王泓毅郭倩吴姝芳
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1