System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种可用于大规模基因组的多基因组比对方法技术_技高网

一种可用于大规模基因组的多基因组比对方法技术

技术编号:40466125 阅读:6 留言:0更新日期:2024-02-22 23:20
本方案公开了一种可用于大规模基因组的多基因组比对方法,属于计算机生物学技术领域,提出BWT‑FM‑LIS循环分治的方式检索全基因组间公共子串,尽可能多地检索出基因组间的公共子串和关键路径,缩短需动态规划对齐的差异子字符串长度,进而降低比对的复杂度以使本方案可用于大规模大基因组的比对,适用于大规模长序列或超长基因组数据,可以识别出基因组比对中多种结构变异。

【技术实现步骤摘要】

本方案属于计算机生物学,提出了一种可用于大规模基因组的多基因组比对方法


技术介绍

1、目前研究比较成熟的基因组序列比对工具主要为双序列比对,已被广泛地应用于基因组学研究。大多数工具采用的是“种子-扩展”方法,如blast,首先识别出序列间短且无插空的序列匹配(种子),然后使用smith-waterman改进算法从种子序列两端进行扩展匹配,直到对齐的分数低于指定阈值。种子类型可按照是否要求精确、连续匹配或匹配长度是否固定进行分类,blat和stellar采用k-mers作为其精确匹配种子,lastz(blastz的更新版本)使用间隔种子,last利用后缀数组可查找长度不等的自适应种子,mummer和chaos则分别使用后缀树和线程树数据结构快速查找所有具有一定最小长度的精确连续匹配种子。各类型种子中往往自适应、非精确或者间隔种子具有更高的灵敏度。扩展延伸之后,邻近且顺序、方向一致的局部对齐还可以被axtchain等链接程序链接起来,形成更大的对齐作为输出。

2、基因组的多序列比对工具开发相比于双序列比对较晚,巨大的时空复杂度也限制了多序列比对工具的应用。目前已开发的基因组多序列比对工具主要有分层和局部比对方法。分层比对代表工具有:m-gcat、progressivemauve、mugsy、progressivecactus、parsnp和fame;能完成渐进多序列全局比对的parsnp、mavid、mlagan、seqan::t-coffee和pecan;采用贪心多序列全局比对的dialign;以及基于概率统计隐马尔可夫模型的fsa。

3、目前种间基因组多序列比对软件最强的为progressivecactus(下简称cactus),可比对约600个羊膜动物基因组,但是其限制是需要科学的指导树作为先验知识输入,无法处理兼容windows中的字符。群体内基因组多序列比对软件最强的为parsnp,可比对数千个微生物基因组,但是其缺点是具有木桶效应,即只能找到所有序列之间共有的区域,导致随着序列数量增多,其比对质量严重下降,而且其无法处理相似度较低或长度差异较大的数据。虽然parsnp,cactus已经分别在数万个线粒体基因组,数千个高相似性微生物基因组和约600个羊膜动物基因组上的成功应用。但是目前还尚不存在可以比对数千个哺乳动物基因组甚至更大规模的多基因组比对软件。


技术实现思路

1、本方案的目的是针对上述问题,提供一种可用于大规模基因组的多基因组比对方法及其系统,适用于大规模长序列或超长基因组数据,可以识别出基因组比对中多种结构变异。

2、一种可用于大规模基因组的多基因组比对方法,该方法包括:

3、s1.对待比对的基因组序列进行数据预处理并确定中心序列;

4、s2.为中心序列建立bwt索引得到bwt数据结构,并建立预测字典;

5、s3.使用预测字典预测每条非中心序列的方向;

6、s4.根据公共子串长度阈值为每条非中心序列在中心序列的bwt数据结构中进行正向的公共子串检索;这里的正向是相对中心序列而言,以中心序列的正向为正向,中心序列的反向为反向,例如一条非中心序列的方向是a-b,中心序列的方向为b-a,则对该非中心序列进行一次b-a的单向检索

7、s5.筛选最长公共子串组合为相应非中心序列的主链;

8、s6.过滤主链,得到差异子字符串对,判断差异子字符串的长度是否满足动态规划,若是,则继续s7,否则,剔除主链并降低公共子串长度阈值,重复s4-s6;非中心序列和中心序列主链对应的区间是完全一样的,是对齐的,无需继续比对,直接至最终结果即可,除了第一次循环,后续每次执行步骤s4,其检索的中心和非中心序列都是剔除了最新主链后的序列。

9、s7.使用动态规划方法对差异子字符串对进行精细比对;

10、s8.输出多序列比对结果。

11、本方案提出bwt-fm-lis循环分治的方式检索全基因组间公共子串,尽可能多地检索出基因组间的公共子串和关键路径,缩短需动态规划对齐的差异子字符串长度,进而降低比对的复杂度以使本方案可用于大规模大基因组的比对。

12、在上述的可用于大规模基因组的多基因组比对方法中,步骤s1中,

13、数据预处理包括:采用二元组的形式记录简并碱基的位置,并将其与gap一起删除;

14、确定中心序列的方式为,将去掉简并碱基后的最长的序列确定为中心序列,或者由用户指定;

15、步骤s2中,通过对中心序列的正反链的kmer分别建立两个哈希字典得到预测字典,预测字典包括中心序列的正向链kmer字典和反向链kmer字典;

16、步骤s2还包括,采用二进制压缩存储方式对中心序列进行存储;

17、步骤s3中,在中心序列的正向链kmer字典和反向链kmer字典中查找每个非中心序列与之共有的kmer数量,并依此确定非中心序列的方向。

18、在上述的可用于大规模基因组的多基因组比对方法中,步骤s4中,正向的公共子串检索方式为:

19、s1.从非中心序列的起始位置b_index开始,初始len为0,不断对len加1在中心序列上查找全部的相同子串,直到没有公共子串,回退一步,得到当前步长len下的x个公共子串;

20、s2.判断len是否大于或等于公共子串长度阈值,若是,则记录该len下找到的公共子串信息,并使b_index=b_index+len,回到步骤s1重复检索;

21、若否,则使b_index=b_index+1,回到步骤s1重复检索;

22、s3.上述过程持续检索至非中心序列的末尾。

23、acgtaaacgt

24、acgtgacga

25、以上序列对为例,上方的为中心序列,下方的为非中心序列,该示例中,从非中心序列的a开始,初始步长len为0,有4个公共子串,然后加1为1,在中心序列中找ac,有2个公共子串,然后再加1为2,找acg,有2个公共子串,再加1为3,找acg,有2个公共子串,再加1为4,找acgt,有2个公共子串,再加1为5,找acgt,无法找到公共子串;

26、然后可以得到4时为两个公共子串

27、假设阈值为3,那么len=4大于阈值3,则记录len=4的两个公共子串信息。然后使起始位置=b_index+4开始,len初始为0,继续上述步骤,即从非中心序列的g开始,初始步长为0,无法找到公共子串。

28、acgt

29、ccgt

30、对于以上示例,c走一步以后为cc,中心序列没有公共子串,假设阈值大于1,那么此时len小于阈值,从第二个c开始,len=0时,找到一个公共子串,len=1时,找到一个公共子串cg,len=2时,找到一个公共子串cgt,len=3时,没有公共子串,所以len=2,有一个公共子串cgt。

31、在上本文档来自技高网...

【技术保护点】

1.一种可用于大规模基因组的多基因组比对方法,其特征在于,该方法包括:

2.根据权利要求1所述的可用于大规模基因组的多基因组比对方法,其特征在于,步骤S1中,

3.根据权利要求1所述的可用于大规模基因组的多基因组比对方法,其特征在于,步骤S4中,正向的公共子串检索方式为:

4.根据权利要求3所述的可用于大规模基因组的多基因组比对方法,其特征在于,被记录的所述公共子串信息根据检索结果为一对一模式或一对多模式;

5.根据权利要求1所述的可用于大规模基因组的多基因组比对方法,其特征在于,步骤S7中,采用Kband动态规划对差异子字符串对进行精细比对:

6.根据权利要求5所述的可用于大规模基因组的多基因组比对方法,其特征在于,Kband动态规划中,

7.根据权利要求2所述的可用于大规模基因组的多基因组比对方法,其特征在于,步骤S7中,通过星比对的方式对差异子字符串对进行精细比对,得到每条序列的插空信息;

8.根据权利要求1-7任意一项所述的可用于大规模基因组的多基因组比对方法,其特征在于,当步骤S8被要求输出结构变异比对结果时,步骤S4中对每条非中心序列进行双向的公共子串检索,以找到可能发生的倒位结构变异;

9.根据权利要求8所述的可用于大规模基因组的多基因组比对方法,其特征在于,双向检索中,正向检索方式为:

10.根据权利要求9所述的可用于大规模基因组的多基因组比对方法,其特征在于,本方法中,本方法还包括:

...

【技术特征摘要】

1.一种可用于大规模基因组的多基因组比对方法,其特征在于,该方法包括:

2.根据权利要求1所述的可用于大规模基因组的多基因组比对方法,其特征在于,步骤s1中,

3.根据权利要求1所述的可用于大规模基因组的多基因组比对方法,其特征在于,步骤s4中,正向的公共子串检索方式为:

4.根据权利要求3所述的可用于大规模基因组的多基因组比对方法,其特征在于,被记录的所述公共子串信息根据检索结果为一对一模式或一对多模式;

5.根据权利要求1所述的可用于大规模基因组的多基因组比对方法,其特征在于,步骤s7中,采用kband动态规划对差异子字符串对进行精细比对:

6.根据权利要求5所述的可用于大规模基因组的多基因组...

【专利技术属性】
技术研发人员:邹权周通丁漪杰刘利
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1