核酸序列聚类方法、装置、计算机可读存储介质、终端制造方法及图纸

技术编号：36019785 阅读：23 留言：0更新日期：2022-12-21 10:13

本发明专利技术公开了一种核酸序列聚类方法、装置、计算机可读存储介质、终端通过构建了多个分支的树结构来对核酸序列的指定区间进行检索，进而避免了传统计算编辑距离所消耗的大量时间。此外，本申请采用节点漂移算法以对抗核酸序列发生错误所带来的干扰。与目前已有的核酸聚类算法相比，本申请提供的方法可以对未识别的大量核酸序列进行聚类的同时，还具备对聚类后的核酸序列进行自动纠错与比对的功能，可以直接输出纠错后的核酸原始序列，从而大大减少测序读取后的处理时间。少测序读取后的处理时间。少测序读取后的处理时间。

全部详细技术资料下载

【技术实现步骤摘要】
核酸序列聚类方法、装置、计算机可读存储介质、终端

[0001]本专利技术属于数据存储
，尤其涉及一种核酸序列聚类方法、装置和计算机可读存储介质、终端。

技术介绍

[0002]核酸是脱氧核糖核酸(DNA)和核糖核酸(RNA)的总称，是由许多核苷酸单体聚合成的生物大分子化合物，为生命的最基本物质之一。核酸的研究涉及到生物、医疗、计算机等多个领域。
[0003]测序是研究核酸的基本手段之一。通过测序技术可以将核酸分子的信息读取到计算机等存储介质中进而进行进一步的使用与分析。近年来，随着第二代测序技术的成熟，相关领域研究进入高速发展。第二代测序(Next
‑
generationsequencing，NGS)又称为高通量测序，其开创性的引入了可逆终止末端，从而实现边合成边测序，在核酸复制过程中通过捕捉新添加的碱基所携带的特殊标记(引物)来确定核酸序列。二代测序有两个重要特点：1.高通量，二代测序能一次并行对几十、几百万条核酸分子进行测序；2.序列长度短，由于测序过程随着读长增长，基因簇复制的协同性降低，会导致测序质量下降，因此二代测序的读长不超过500bp。对于较长的基因组、宏基因组需要被打断成小片段再测序，测序完毕后再拼接。
[0004]由于第二代测序技术测序时所产生的核酸序列数量过多将会难以进行下一步分析，为此必须使用聚类算法对测序后的序列进行分类进而求得原始序列簇再进行分析以提高效率，图2展现了核酸序列测序读取的流程图。然而在例如DNA存储等领域，为了提高读取序列的准确性，往往会经...

【技术保护点】

【技术特征摘要】
1.一种核酸序列聚类方法，其特征在于，包括如下步骤：步骤a：初始化参数；步骤c：判断待测序列是否为空，若是跳到步骤d；若否跳到步骤f；步骤d：输出簇情况以及核心序列集；步骤e：结束；步骤f：取出一条待测序列与树结构进行检索；步骤g：判断是否能检索到相似核心序列，若是跳到步骤h；若否跳到步骤j；步骤h：将该条待测序列与相似核心序列划为同簇；步骤i：可选地进行全局比对并纠正核心序列错误；步骤j：将该待测序列加入核心序列集以及树结构，跳到步骤c。2.根据权利要求1所述的一种核酸序列聚类方法，其特征在于，步骤a中，所述初始化参数包括初始化树结构的数量、树结构的长度、树结构选取的区间位置、纵向漂移值、横向漂移值阈值、进程数、输入文件格式、输出文件格式、核心序列集和树结构。3.根据权利要求1所述的一种核酸序列聚类方法，其特征在于，若为多进程模式，在步骤a之后，步骤c之前，还包括步骤b：对待测序列进行分流。4.根据权利要求1所述的一种核酸序列聚类方法，其特征在于，步骤f
‑
j具体包括：取出一条待测序列与树结构进行检索，判断是否能检索到相似核心序列；首先，比较首段区间与首段树结构是否能够匹配，若能匹配到则停止后续树结构的检索，将该条待测序列与相似核心序列划为同簇，若开启了全局比对功能，则此时将该序列与所匹配到的序列进行全局比对，全局比对后将会标记序列中不同的碱基位，若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正；若首段区间无法匹配到，则再进行末端区间与末端树结构的匹配，若末端区间可以成功匹配，则停止后续树结构的检索，将该条待测序列与相似核心序列划为同簇，若开启了全局比对功能，则此时将该序列与所匹配到的序列进行全局比对，全局比对后将会标记序列中不同的碱基位，若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正；若末端也无法成功匹配，则进行中间区间的匹配在选取中间区间时，将会在原指定区间基础上，允许横向漂移纵向漂移数个碱基位置，进...

【专利技术属性】
技术研发人员：曲冠锦，吴华明，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人