当前位置: 首页 > 专利查询>天津大学专利>正文

核酸序列聚类方法、装置、计算机可读存储介质、终端制造方法及图纸

技术编号:36019785 阅读:23 留言:0更新日期:2022-12-21 10:13
本发明专利技术公开了一种核酸序列聚类方法、装置、计算机可读存储介质、终端通过构建了多个分支的树结构来对核酸序列的指定区间进行检索,进而避免了传统计算编辑距离所消耗的大量时间。此外,本申请采用节点漂移算法以对抗核酸序列发生错误所带来的干扰。与目前已有的核酸聚类算法相比,本申请提供的方法可以对未识别的大量核酸序列进行聚类的同时,还具备对聚类后的核酸序列进行自动纠错与比对的功能,可以直接输出纠错后的核酸原始序列,从而大大减少测序读取后的处理时间。少测序读取后的处理时间。少测序读取后的处理时间。

【技术实现步骤摘要】
核酸序列聚类方法、装置、计算机可读存储介质、终端


[0001]本专利技术属于数据存储
,尤其涉及一种核酸序列聚类方法、装置和计算机可读存储介质、终端。

技术介绍

[0002]核酸是脱氧核糖核酸(DNA)和核糖核酸(RNA)的总称,是由许多核苷酸单体聚合成的生物大分子化合物,为生命的最基本物质之一。核酸的研究涉及到生物、医疗、计算机等多个领域。
[0003]测序是研究核酸的基本手段之一。通过测序技术可以将核酸分子的信息读取到计算机等存储介质中进而进行进一步的使用与分析。近年来,随着第二代测序技术的成熟,相关领域研究进入高速发展。第二代测序(Next

generationsequencing,NGS)又称为高通量测序,其开创性的引入了可逆终止末端,从而实现边合成边测序,在核酸复制过程中通过捕捉新添加的碱基所携带的特殊标记(引物)来确定核酸序列。二代测序有两个重要特点:1.高通量,二代测序能一次并行对几十、几百万条核酸分子进行测序;2.序列长度短,由于测序过程随着读长增长,基因簇复制的协同性降低,会导致测序质量下降,因此二代测序的读长不超过500bp。对于较长的基因组、宏基因组需要被打断成小片段再测序,测序完毕后再拼接。
[0004]由于第二代测序技术测序时所产生的核酸序列数量过多将会难以进行下一步分析,为此必须使用聚类算法对测序后的序列进行分类进而求得原始序列簇再进行分析以提高效率,图2展现了核酸序列测序读取的流程图。然而在例如DNA存储等领域,为了提高读取序列的准确性,往往会经过多轮分子链扩增与深度测序,其产生的DNA序列可能达到上亿条,目前已有的聚类方法将花费不可容忍的耗时与内存占用。因此对大量核酸序列的聚类分析方法仍有待改进。CN110111843A提供了一种对核酸进行聚类的方法,但由于其采用了计算序列间编辑距离的方式来进行聚类,因此仍会需要大量计算时间,对于复杂的测序数据来说难以快速处理。
[0005]目前核酸聚类算法的难点主要集中在以下几个方面:
[0006](1)需要聚类的核酸序列数量巨大,往往有上千万甚至更高数量级,且簇的数量极多,传统的聚类算法需要消耗大量的时间和内存。目前传统聚类算法针对十万条以上序列时,所需要的耗时将超过10h,而且随着序列数量的增多耗时急剧上升。对于动辄几千万条的DNA序列几乎无法处理。
[0007](2)核酸序列作为一种文本形式的序列串,无法使用传统基于欧氏距离的聚类算法。目前已有的核酸聚类算法仍使用编辑距离进行判别距离,因此具有较高的计算复杂度。目前仍未有线性计算复杂度的核酸聚类算法。
[0008](3)核酸序列在进行扩增、测序的过程中会随机产生错误,这就势必会给聚类增加难度,对于部分错误率高的序列,目前已有的算法难以进行正确的分类。

技术实现思路

[0009]针对上述现有技术中存在的技术问题,本申请的目的在于提出一种核酸序列聚类方法、装置和计算机可读存储介质、终端,通过构建了多个分支的树结构来对核酸序列的指定区间进行检索,进而避免了传统计算编辑距离所消耗的大量时间。
[0010]为实现本申请的目的,本申请提供的技术方案如下:
[0011]第一方面
[0012]本申请提供了一种核酸序列聚类方法,包括如下步骤:
[0013]步骤a:初始化参数;
[0014]步骤c:判断待测序列是否为空,若是跳到步骤d;若否跳到步骤f;
[0015]步骤d:输出簇情况以及核心序列集;
[0016]步骤e:结束;
[0017]步骤f:取出一条待测序列与树结构进行检索;
[0018]步骤g:判断是否能检索到相似核心序列,若是跳到步骤h;若否跳到步骤j;
[0019]步骤h:将该条待测序列与相似核心序列划为同簇;
[0020]步骤i:可选地进行全局比对并纠正核心序列错误;
[0021]步骤j:将该待测序列加入核心序列集以及树结构,跳到步骤c。
[0022]其中,步骤a中,所述初始化参数包括初始化树结构的数量、树结构的长度、树结构选取的区间位置、纵向漂移值、横向漂移值阈值、进程数、输入文件格式、输出文件格式、核心序列集和树结构。
[0023]其中,若为多进程模式,在步骤a之后,步骤c之前,还包括步骤b:对待测序列进行分流。
[0024]其中,步骤f

j具体包括:
[0025]取出一条待测序列与树结构进行检索,判断是否能检索到相似核心序列;首先,比较首段区间与首段树结构是否能够匹配,若能匹配到则停止后续树结构的检索,将该条待测序列与相似核心序列划为同簇,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若首段区间无法匹配到,则再进行末端区间与末端树结构的匹配,若末端区间可以成功匹配,则停止后续树结构的检索,将该条待测序列与相似核心序列划为同簇,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若末端也无法成功匹配,则进行中间区间的匹配在选取中间区间时,将会在原指定区间基础上,允许横向漂移纵向漂移数个碱基位置,进而允许选择多个区间,碱基区间检索树结构后,将选择最小横向漂移值的区间与匹配序列,若此时横向漂移值小于阈值则匹配成功,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若仍无法匹配,则将该条测序序列视为一个新的簇,将其加入到核心序列集中,并将其指定区间加入到树结构中。
[0026]其中,在步骤c和步骤d之间,还包括步骤k,所述步骤k为设置一个阈值,若某个簇
内所含序列较少,则认为该簇为一个噪声簇,将其从核心序列集中舍弃,此外若选择多进程模式,则将不同进程间的核心序列集进行合并,但是序列集中不同的序列不会合并,若输入文件为带标签的数据集,则会进行耗时、准确率、正确率的计算,最后输出簇的结果以及核心序列集。
[0027]第二方面
[0028]本申请提供了一种核酸序列聚类装置,包括如下单元:
[0029]参数初始化单元,用于初始化参数;
[0030]分流单元,用于对待测序列进行分流;
[0031]待测序列判断单元,用于判断待测序列是否为空;
[0032]结果输出单元,用于输出簇情况以及核心序列集;
[0033]检索单元,用于取出一条待测序列与树结构进行检索;
[0034]检索结果判断单元,用于判断是否能检索到相似核心序列;
[0035]判断结果划分单元,用于将该条待测序列与相似核心序列划为同簇,或者,将该待测序列加入核心序列集以及树本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种核酸序列聚类方法,其特征在于,包括如下步骤:步骤a:初始化参数;步骤c:判断待测序列是否为空,若是跳到步骤d;若否跳到步骤f;步骤d:输出簇情况以及核心序列集;步骤e:结束;步骤f:取出一条待测序列与树结构进行检索;步骤g:判断是否能检索到相似核心序列,若是跳到步骤h;若否跳到步骤j;步骤h:将该条待测序列与相似核心序列划为同簇;步骤i:可选地进行全局比对并纠正核心序列错误;步骤j:将该待测序列加入核心序列集以及树结构,跳到步骤c。2.根据权利要求1所述的一种核酸序列聚类方法,其特征在于,步骤a中,所述初始化参数包括初始化树结构的数量、树结构的长度、树结构选取的区间位置、纵向漂移值、横向漂移值阈值、进程数、输入文件格式、输出文件格式、核心序列集和树结构。3.根据权利要求1所述的一种核酸序列聚类方法,其特征在于,若为多进程模式,在步骤a之后,步骤c之前,还包括步骤b:对待测序列进行分流。4.根据权利要求1所述的一种核酸序列聚类方法,其特征在于,步骤f

j具体包括:取出一条待测序列与树结构进行检索,判断是否能检索到相似核心序列;首先,比较首段区间与首段树结构是否能够匹配,若能匹配到则停止后续树结构的检索,将该条待测序列与相似核心序列划为同簇,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若首段区间无法匹配到,则再进行末端区间与末端树结构的匹配,若末端区间可以成功匹配,则停止后续树结构的检索,将该条待测序列与相似核心序列划为同簇,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若末端也无法成功匹配,则进行中间区间的匹配在选取中间区间时,将会在原指定区间基础上,允许横向漂移纵向漂移数个碱基位置,进...

【专利技术属性】
技术研发人员:曲冠锦吴华明
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1