基于并行聚类的核酸测序方法与系统技术方案

技术编号:37787544 阅读:12 留言:0更新日期:2023-06-09 09:17
公开了一种基于并行聚类的核酸测序方法与系统。通过纳米孔获得特征阻断电流信号数据;将获得的数据传输到GPU平台。在GPU平台上,对当前所处理数据段内的数据进行局部邻居聚类计算,对跨数据段的数据邻居关系进行压缩编码后作为交叠记录进行存储;基于存储的各个数据段的交叠记录进行簇归并;基于局部邻居聚类计算以及簇归并的结果进行簇标签计算。得到的簇标签结果传输回主机平台。在主机平台上,根据簇标签结果测定核酸序列。本发明专利技术在用于测序的密度聚类算法的基础上引入时间相关,既能更好抑制噪声,又降低了复杂度。同时,通过将压缩编解码技术应用交叠记录的存储,充分利用GPU的并行处理能力,提高其存储利用率,从而显著提升运算效率。提升运算效率。提升运算效率。

【技术实现步骤摘要】
基于并行聚类的核酸测序方法与系统


[0001]本专利技术涉及生物核酸测序技术,更具体涉及一种在GPU(图形处理单元)平台上执行的用于核酸测序的并行聚类方法,可用于快速并行检测多通道核苷酸的碱基类型。

技术介绍

[0002]在目前的核苷酸测序
,主要有以桥式和焦磷酸等合成测序为代表的二代测序技术、以单分子荧光测序为代表的三代测序技术以及以纳米孔为技术特征的四代测序技术。其中基于纳米孔的核酸测序实现了由传统光信号测序到数字电信号测序的跨越,其主要原理是某些跨膜蛋白,例如细菌毒素(α

hemolysin)等能在磷脂膜上形成稳定的直径约为1

2纳米的通道,称为纳米孔,单链的DNA或RNA分子由于自身的带电性质,在电场中会自发地穿过纳米孔,并在穿越的过程中引起纳米孔电阻的变化,产生所谓的阻断电流。DNA或RNA的四种不同的碱基A、T或U、C和G由于自身化学结构的差异,它们穿越纳米孔时对电流产生的阻断影响具有可识别的差异,产生各自对应的特征阻断电流。对特征阻断电流进行准确检测便可以确定相应碱基的类型,从而测定核酸序列。
[0003]特征阻断电流经过一定的模数处理,最终可以得到对应的数字信号。由于不同碱基给出的特征电流差异往往比较小,多个碱基可同时停留在纳米孔中让阻断电流表征非常复杂。在后端算法处理方面,基于特征阻断电流数字信号的碱基类型识别算法有深度学习、机器学习以及统计分析等很多方法得到研究应用,其中聚类也是一种常用的碱基类型识别方法。聚类算法主要分为密度聚类、层次聚类、k近邻聚类以及分块聚类等类型。无论哪种聚类算法,面对超高数量的纳米孔测序单元(例如50万个)的海量信号,高效的聚类算法是实现快速测序的关键。
[0004]特征阻断电流往往受各种噪声干扰比较严重,同时碱基在纳米孔中呈现的阻断电流表征复杂。聚类算法一般会考虑特征信号在时间方向的序列相关性,相比较于k近邻聚类对噪声的敏感性,密度聚类的方式更容易识别出噪声信号。密度聚类在测序领域应用相对比较多,直接应用密度聚类算法于测序信号往往需要用KD

tree等方法建立索引的方法在二维层面进行数据处理,运算复杂度过高。另一方面,密度聚类算法具有其固有的串行属性,如何在以GPU为代表的高性能并行处理平台发挥更好的性能也是一个重要的研究课题。
[0005]以下的非专利文献1和非专利文献2都是研究聚类算法方面的成果。在此通过引用,将其全文结合到本公开中,并视为本公开完整内容的一部分。
[0006]【非专利文献1】HamzaMustafa,etal.,“AnexperimentalcomparisonofGPU techniquesforDBSCANclustering”,2019IEEEInternationalConferenceonBigData(Big Data),09

12December2019
[0007]【非专利文献2】Md.MostofaAliPatwary,etal.,“AnewscalableparallelDBSCAN algorithmusingthedisjoint

setdatastructure”,SC'12:ProceedingsoftheInternational ConferenceonHighPerformanceComputing,Networking,StorageandAnalysis,10

16November2012
[0008]非专利文献1研究了目前最主流的三种并行实现的密度聚类算法,其中:Thapaet al的算法属于局部加速并行,效率提升有限;CUDA

DClust的优势是显存消耗低可以允许更大量数据处理,但速度低于图的方法;而基于图的方法虽然加速效果最好,但空间开销巨大,G

DBSCAN算法处理65,536点就需要6GB显存,无法满足测序的数据处理规模要求。
[0009]非专利文献2提出来一种基于MPI(MessagePassingInterface,信息传递接口)的实现算法,虽然相对较于文献1中所述的G

DBSCAN在求交方面速度更快,但其归并所需的空间开销在存在大量需要存储中间结果的情况下很难大规模并行,整体性能有限,因此不适合在GPU上使用。
[0010]现有密度聚类算法应用于测序信号处理存在的技术缺陷主要有:
[0011]1、在标准基于密度的噪声应用空间聚类算法(DBSCAN,Density

BasedSpatial ClusteringofApplicationswithNoise)中,往往没有考虑特征电流信号在时间方向上的相关性,同时需要用KD

tree等方法建立索引的方法在二维层面进行数据处理,使得现有技术存在运算复杂度过高和噪声的抑制效果欠佳等缺陷。
[0012]2、基于图的并行聚类算法在GPU平台应用由于其高显存开销,很难满足测序信号数据量的处理需求,甚至对于纳米孔的单通道的数据量都难以一次处理完成,GPU利用率相对比较低。
[0013]3、慕尼黑大学的CUDA

DClust方法虽然克服了基于图的方法对于存储器的高开销,但其用以链连接和负载均衡的开销使其加速比相对较低。
[0014]4、基于共享内存的密度聚类方法虽然解决了聚类链连接的性能瓶颈,但其存储器开销使之难以在GPU上进行大规模并行计算。
[0015]因此,需要设计一种基于GPU平台的用于核酸测序信号的并行聚类处理架构,以克服上面提到的现有技术中所存在的不足。

技术实现思路

[0016]本专利技术主要针对用于测序的电流信号特征以及现有密度聚类并行算法的缺陷,提出了一种基于时间相关和实时压缩编解码的适用于GPU大规模并行处理的新的技术方案。
[0017]根据本专利技术的第一方面,提供了一种核酸测序方法。所述方法可以包括:通过纳米孔获得特征阻断电流信号数据;将获得的数据从主机平台传输到GPU平台。在GPU平台上:对当前所处理数据段内的数据进行局部邻居聚类计算,对跨数据段的数据邻居关系进行压缩编码后作为交叠记录进行存储;基于存储的各个数据段的交叠记录进行簇归并;基于局部邻居聚类计算以及簇归并的结果进行簇标签计算。将得到的簇标签结果从GPU平台传输回主机平台;根据簇标签结果测定核酸序列。
[0018]在根据本专利技术第一方面的核酸测序方法中,优选地,所述的局部邻居聚类计算可以进一步包括:针对某一数据点,对在其相邻搜索范围内的其他数据点进行邻居识别并统计当前所处理数据段内的邻居个数;将邻居个数大于预设条件阈值的数据点作为根节点,将其所有邻居中未修改节点的父节点设为该数据点。
[0019]优选地,所述邻居识别采用信号幅值距离计算来实现。优选地,所述距离包括绝对值差距离或欧拉距离。
[0020]在根据本专利技术第一方面的核酸测序方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种核酸测序方法,其特征在于,所述方法包括:通过纳米孔获得特征阻断电流信号数据;将获得的数据从主机平台传输到GPU平台;在GPU平台上:对当前所处理数据段内的数据进行局部邻居聚类计算,对跨数据段的数据邻居关系进行压缩编码后作为交叠记录进行存储;基于存储的各个数据段的交叠记录进行簇归并;基于局部邻居聚类计算以及簇归并的结果进行簇标签计算;将得到的簇标签结果从GPU平台传输回主机平台;根据簇标签结果测定核酸序列。2.根据权利要求1所述的方法,其特征在于,所述的局部邻居聚类计算包括:针对某一数据点,对在其相邻搜索范围内的其他数据点进行邻居识别并统计所述当前所处理数据段内的邻居个数;将邻居个数大于预设条件阈值的数据点作为根节点,将其所有邻居中未修改节点的父节点设为该数据点。3.根据权利要求2所述的方法,其特征在于,所述邻居识别采用信号幅值距离计算来实现。4.根据权利要求3所述的方法,其特征在于,所述距离包括绝对值差距离或欧拉距离。5.根据权利要求2所述的方法,其特征在于,所述的对跨数据段的数据邻居关系进行压缩编码后作为交叠记录进行存储包括:当搜索范围超过所述当前所处理数据段时,对于将当前所处理数据段内的数据点识别为根节点且将不在当前所处理数据段内而在相邻数据段内的数据点识别为邻居的情况,对分别来自相邻两个数据段的两个数据形成的邻居关系进行压缩编码;将压缩编码后的邻居关系作为交叠记录进行存储。6.根据权利要求5所述的方法,其特征在于,所述的基于存储的各个数据段的交叠记录进行簇归并包括:对存储的交叠记录进行解压缩;基于解压缩后的交叠记录进行簇归并。7.根据权利要求6所述的方法,其特征在于,所述的簇归并包括:对于交叠记录中处于邻居关系中的不在当前所处理数据段中的数据点,判断其在该数据段中是否为根节点;如果该数据点是根节点,则将分别来自相邻两个数据段的处于邻居关系中的两个数据点进行聚类合并。8.根据权利要求7所述的方法,其特征在于,所述的聚类合并包括:将当前所处理数据段中的数据点作为另一数据点的父节点;或将不在当前所处理数据段...

【专利技术属性】
技术研发人员:石丹陈辉江鹏
申请(专利权)人:成都今是科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1