用于错误校正的序列读数迭代聚类制造技术

技术编号:13881318 阅读:118 留言:0更新日期:2016-10-23 06:27
示例性实施方式提供了用于错误校正的序列读数的迭代聚类的方法和系统。示例性实施方式的方面包括接收序列读数的集和相关的质量值;将序列读数基于序列相似性分组为初始簇的集;生成各初始簇的簇共有区;基于与序列读数相关的质量值和簇共有区迭代改进聚类;并且生成并输出各簇的最终簇共有区。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请要求2013年12月18日提交的题为“用于从混合群体中生成共有序列的方法”的美国临时专利申请系列号61/917,777,和2014年7月24日提交的题为“用于错误校正的序列读数迭代聚类”的美国临时专利申请系列号62/028,741的权益,两者转让给本申请的受让人,并且通过引用纳入本文。专利技术背景生物分子序列确定的进步,尤其是针对核酸和蛋白质样品,已经彻底改变了细胞和分子生物学领域。由自动化测序系统发展促进,现在能够对样品核酸的混合群进行测序。然而,序列信息的质量必须得到仔细监控,并且可被与生物分子本身或使用的测序系统相关的许多因素削弱,包括生物分子的组成(例如,核酸分子的碱基组成)、实验和系统杂音、观察的信号强度的变化、和反应效率的差异。如此,必须采用方法以分析和改善来自这类测序技术的数据的质量。除了影响生成的序列读数的总体准确性以外,这些因素可能使碱基判定为真变异或者错判(例如,序列读数中的插入、删除或错配错误)的设计复杂化。例如,当序列读数具有在同源染色体之间不同的碱基判定时,能够确定不同的碱基判定是同源物之间的真变异或者仅仅是测序错误是重要的。另外,个体中的病毒群体可能在群体中的个体病毒基因组之间存在许多变异,尤其是可高度突变的病毒,如HIV。能够鉴定具有不同来源(例如,不同染色体或基因组来源)的测序读数是能够精确表征核酸混合群体的关键。对于生成100%精确的读数的理论测序平台而言,读数可简单地用简单字符串比对算法与另一读数比较。读数之间的任何差异表明真变异,因此表明不同来源。然而,任何现实原始测序数据可能含有错误,因此简单字符串匹配算法方法是不足的。当对转录组进行测序时尤为如此。转录组是所有RNA分子的集合,包括一种细胞或细胞群体生成的mRNA、rRNA、tRNA和其他非编码RNA。因为该数据包括细胞中的所有mRNA转录本,转录组反映了在任何给定时间上正处于主动表达的基因。目前,有两种推导转录组的一般方法。一种方法将序列读数映射到转录组正受到研究的生物体或紧密相关的物种参照基因组上。另一种方法是转录组从头组装,其使用软件来从短序列读数直接推导出转录本。然而,市售的基因组比对器不能对转录组测序中的全长度长序列读数进行错误校正。例如,在RS II设备上产生的读数平均为5-6kb,并且常规生成长达20kb的读数。对于这种长读数能力,可对全长mRNA转录本进行测序,例如,在转化为cDNA之后。这可有助于研究人员鉴定难以使用短读数测序技术重构的剪接模式。然而,公共可得的序列比对器,例如GMAP,和功能性注释工具几乎都需要具有接近100%准确性的读数。PacBio设备从具有使其难以直接应用这些序列比对工具的错误特征的单一模板分子生成读数。然而,在测序插入(转录本)远短于聚合酶阅读长度的情况中,可生成高度准确的共有序列:通过对单一分子的冗余测序,cDNA模板的长的长度与系统中聚合酶测序引擎的处理能力的组合可产生充足的冗余以实现这些分析工具所需的准确性。然而,这仅可应用于较短的转录本,而较长的转录本仍然在它们实现适合生物分析的准确性水平之前需要额外处理。目前,存在用于在转录组测序中对长读数(例如,cDNA长读数)进行错误校正公开的2种工具,PacBioToCA和LSC。两种工具都使用短读数(例如,短读数),并且按照以下一般方案:对于各长读数,将短读数与长读数比对仿佛其是基因组“支架”,并且基于短读数比对生成最佳共有区。这种一般方案有几个缺陷:(1)由于短读数仅为50-10bp,它们可能非特异性映射并且引入更多的错误;(2)所有现有的短读数技术携带它们自身的系统错误,其可能使校正产生偏差;(3)没有利用相同的转录本通常由多个长读数表示的事实,其在来自太平洋生物科学公司(Pacific Biosciences)的长读数的情况没有系统系统偏差;(4)没有使用来自长读数的质量值(QV);和(5)该方案需要2种不同的测序系统。需要一种解决转录组测序中错误的问题的算法,并且优选设计为处理从头合成转录组,即没有参照基因组的算法。
技术实现思路
示例性的实施方式一般涉及用于分析来自核酸的混合群体的序列数据、用于将各序列读数分配到特定来源、和用于最终鉴定来自序列信息的一个或多个生物分子目标序列的一个或多个共有序列的方法。本文提供的方法不仅可应用于几乎没有错误的序列数据,也可应用于具有较高频率的插入、删除和/或错配错误的序列数据。因此,本专利技术还涉及进行这些方法的系统。参照以下详细说明和附图将更好地理解本专利技术和各种具体方法及实施方式,其中,在各种具体方面和实施方式中描述了本专利技术。提供这些是为清楚起见,并且不用被认为限制本专利技术。本专利技术及其方面可应用于多种类型的本文未具体公开的方法、装置和系统。在某些方面中,示例性实施方式提供了用于错误校正的序列读数的迭代聚类的方法和系统,其通过在至少一个处理器上进行的至少一个软件组件来进行。在某些实施方式中,这类方法包括接收序列读数的集和相关的质量值;将序列读数基于序列相似性分组为初始簇的集;生成各初始簇的簇共有区;基于与序列读数相关的质量值和簇共有区迭代改进聚类;和,生成并输出各簇的最终簇共有区。在另一个方面中,迭代改进聚类还包括:使用质量值计算属于各簇的各序列读数的概率;将个体序列读数从一个簇重分配至具有最高计算概率的另一个簇;和,合并高度相似的簇。在一个实施方式中,输入序列读数包括长度至少0.5kb至长度1、2、3、4、5、7或10kb的全长的长读数,并且使用簇共有区和非全长读数来生成最终簇共有区,其可用于提供序列数据的全覆盖率以提供更高水平的共有区。附图的一些方面的简要说明图1是显示用于实施使用用于转录组测序数据的错误校正的测序读数的迭代聚类的进程的计算机系统的一个实施方式的图。图2是显示按照示例性实施方式用于错误校正的序列读数的迭代聚类的方法的某些方面的流程图。图3是显示来自已经比对以产生成对比对的相同同种型的2个读数的示例性部分的图。图4是显示示例性相似性图像的图。图5是显示一个用于区分比对的读数之间的真同种型差异与序列错误的实施方式的图。图6是显示初始分配至错误簇的序列读数的示例的图,其中相同填充模式的序列读数来自相同同种型。图7是显示分别针对各簇生成的示例性簇共有区C1、C2、C3和C4的图。图8是显示将序列读数从一个簇重分配至具有最高的成员计算概率的簇的图。图9是显示从孤儿产生新簇的示例的图。图10是显示2个簇合并的图。专利技术详述本专利技术的多个实施方式和组分采用在多个
熟悉的信号和数据分析技术。为了清楚地说明,本文不提供已知分析技术的详细内容。这些技术描述于多个可及的参考文献中,如:R.B.Ash,《真实分析和概率》(Real Analysisand Probability),学术出版社(Academic Press),纽约,1972;D.T.Bertsekas和J.N.Tsitsiklis,《概率介绍》(Introduction to Probability),2002;K.L.Chung,《固定转移概率的马尔科夫链》(Markov Chains with Stationary TransitionProbabilities),1967;W.本文档来自技高网
...

【技术保护点】
一种用于错误校正的序列读数迭代聚类的方法,所述方法在至少一个处理器上执行的至少一个软件组件上进行,包括:接收序列读数的集和相关的质量值;将所述序列读数基于序列相似性分成初始簇的集;生成各所述初始簇的簇共有区;基于与所述序列读数相关的质量值和所述簇共有区迭代改进所述聚类;并且生成并输出各所述簇的最终簇共有区。

【技术特征摘要】
【国外来华专利技术】2013.12.18 US 61/917,777;2014.07.24 US 62/028,7411.一种用于错误校正的序列读数迭代聚类的方法,所述方法在至少一个处理器上执行的至少一个软件组件上进行,包括:接收序列读数的集和相关的质量值;将所述序列读数基于序列相似性分成初始簇的集;生成各所述初始簇的簇共有区;基于与所述序列读数相关的质量值和所述簇共有区迭代改进所述聚类;并且生成并输出各所述簇的最终簇共有区。2.如权利要求1所述的方法,其中迭代改进所述聚类还包括:使用所述质量值计算各序列读数属于各簇的概率;将个体序列读数从一个簇重分配至具有最高计算概率的另一个簇;并且合并高度相似的簇。3.如权利要求2所述的方法,其中使用所述质量值计算各序列读数属于各簇的概率还包括:将各所述簇中的各序列读数与各所述簇共有区比对;对于没有以足够高的相似性百分比与任意簇共有区比对上的现有序列读数,由于具有差的概率而忽略所述序列读数;对于与簇共有区(C)中的一个或多个比对的现有序列读数(S),考虑所述现有读数的质量值(QV)和簇共有区来计算所述现有序列读数属于各所述簇的概率:Pr(Si|Cu,QVs(Si))。4.如权利要求3所述的方法,其中对于QV不可得,则计算:Pr(Si|Cu QVs(Si))=(θ匹配)计数(匹配)(1/3 θsub)计数(sub)(1/3 θins)计数(ins)(1/3 θdel)计数(del),其中θ分别是取代(sub)、插入(ins)和缺失(del)的匹配概率。5.如权利要求2所述的方法,还包括:对于任意所述序列读数和任意所述簇之间没有比对,认为所述序列读数是孤儿,并且从所述孤儿形成新簇。6.如权利要求5所述的方法,还包括:对于仅具有一个序列读数的新簇,对于各孤儿节点随机生成随机概率;并且对于随机概率小于预定阈值概率,则将所述孤儿重分配至对所述孤儿的成员具有非零计算概率的簇之一。7.如权利要求1所述的方法,其中接收的序列读数包括全长的长读数,并且其中所述生成和输出最终簇共有区还包括:将非全长读数输入最终平滑进程,其生成最终簇共有区。8.如权利要求5所述的方法,其中所述读数包括长度范围为0.5kb至1、2、3、5、10、15、20kb的全长的长读数。9.如权利要求1所述的方法,其中基于序列相似性将所述序列读数分成初始簇的集还包括:比对所述序列读数以产生比对的读数;使用所述比对的读数构建相似性图像;并且使用所述相似性图像发现最大团。10.如权利要求9所述的方法,其中发现最大团包括:非确定性地将所述相似性图像划分成非重叠最大团。11.一种在计算机可读介质上存储的可执行软件产品,所述产品含有
\t用于错误校正的序列读数迭代聚类的程序指令,所述程序指令在至少一个处理器上执行,包括:接收序列读数的集和相关的质量值;将所述序列读数基于序列相似性分成初始簇的集;生成各所述初始簇的簇共有区;基于与所述序列读数相关的质量值和所述簇共有区迭代改进所述聚类;并且生成并输出各所述簇的最终簇共有区。12.如权利要求11所述的可执行软件产品,其中迭代改进所述聚类还包括:使用所述质量值计算各序列读数属于各簇的概率;将个体序列读数从一个簇重分配至具有最高计算概率的另一个簇;并且合并高度相似的簇。13.如权利要求12所述的可执行软件产品,其中使用所述质量值计算各序列读数属于各簇的概率还包括:将各所述簇中的各序列读数与各所述簇共有区比对;对于没有以足够高的相似性百分比与任意簇共有区比对上的现有序列读数,因具有差的概率而忽略所述序列读数;对于与簇共有区(C)中的一个或多个比对的现有序列读数(S),考虑所述现有读数的质量值(QV)和簇共有区来计算所述现有序列读数属于各所述簇的概率:Pr(Si|Cu,QVs(Si))。14.如权利要求13所述的可执行软件产品,其中对于QV不可得...

【专利技术属性】
技术研发人员:HH·曾
申请(专利权)人:加利福尼亚太平洋生物科学股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1