基于并行聚类的核酸测序方法与系统技术方案

技术编号:37787544 阅读:30 留言:0更新日期:2023-06-09 09:17
公开了一种基于并行聚类的核酸测序方法与系统。通过纳米孔获得特征阻断电流信号数据;将获得的数据传输到GPU平台。在GPU平台上,对当前所处理数据段内的数据进行局部邻居聚类计算,对跨数据段的数据邻居关系进行压缩编码后作为交叠记录进行存储;基于存储的各个数据段的交叠记录进行簇归并;基于局部邻居聚类计算以及簇归并的结果进行簇标签计算。得到的簇标签结果传输回主机平台。在主机平台上,根据簇标签结果测定核酸序列。本发明专利技术在用于测序的密度聚类算法的基础上引入时间相关,既能更好抑制噪声,又降低了复杂度。同时,通过将压缩编解码技术应用交叠记录的存储,充分利用GPU的并行处理能力,提高其存储利用率,从而显著提升运算效率。提升运算效率。提升运算效率。

【技术实现步骤摘要】
基于并行聚类的核酸测序方法与系统


[0001]本专利技术涉及生物核酸测序技术,更具体涉及一种在GPU(图形处理单元)平台上执行的用于核酸测序的并行聚类方法,可用于快速并行检测多通道核苷酸的碱基类型。

技术介绍

[0002]在目前的核苷酸测序
,主要有以桥式和焦磷酸等合成测序为代表的二代测序技术、以单分子荧光测序为代表的三代测序技术以及以纳米孔为技术特征的四代测序技术。其中基于纳米孔的核酸测序实现了由传统光信号测序到数字电信号测序的跨越,其主要原理是某些跨膜蛋白,例如细菌毒素(α

hemolysin)等能在磷脂膜上形成稳定的直径约为1

2纳米的通道,称为纳米孔,单链的DNA或RNA分子由于自身的带电性质,在电场中会自发地穿过纳米孔,并在穿越的过程中引起纳米孔电阻的变化,产生所谓的阻断电流。DNA或RNA的四种不同的碱基A、T或U、C和G由于自身化学结构的差异,它们穿越纳米孔时对电流产生的阻断影响具有可识别的差异,产生各自对应的特征阻断电流。对特征阻断电流进行准确检测便可以确定相应碱基的类型,从而测定核本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种核酸测序方法,其特征在于,所述方法包括:通过纳米孔获得特征阻断电流信号数据;将获得的数据从主机平台传输到GPU平台;在GPU平台上:对当前所处理数据段内的数据进行局部邻居聚类计算,对跨数据段的数据邻居关系进行压缩编码后作为交叠记录进行存储;基于存储的各个数据段的交叠记录进行簇归并;基于局部邻居聚类计算以及簇归并的结果进行簇标签计算;将得到的簇标签结果从GPU平台传输回主机平台;根据簇标签结果测定核酸序列。2.根据权利要求1所述的方法,其特征在于,所述的局部邻居聚类计算包括:针对某一数据点,对在其相邻搜索范围内的其他数据点进行邻居识别并统计所述当前所处理数据段内的邻居个数;将邻居个数大于预设条件阈值的数据点作为根节点,将其所有邻居中未修改节点的父节点设为该数据点。3.根据权利要求2所述的方法,其特征在于,所述邻居识别采用信号幅值距离计算来实现。4.根据权利要求3所述的方法,其特征在于,所述距离包括绝对值差距离或欧拉距离。5.根据权利要求2所述的方法,其特征在于,所述的对跨数据段的数据邻居关系进行压缩编码后作为交叠记录进行存储包括:当搜索范围超过所述当前所处理数据段时,对于将当前所处理数据段内的数据点识别为根节点且将不在当前所处理数据段内而在相邻数据段内的数据点识别为邻居的情况,对分别来自相邻两个数据段的两个数据形成的邻居关系进行压缩编码;将压缩编码后的邻居关系作为交叠记录进行存储。6.根据权利要求5所述的方法,其特征在于,所述的基于存储的各个数据段的交叠记录进行簇归并包括:对存储的交叠记录进行解压缩;基于解压缩后的交叠记录进行簇归并。7.根据权利要求6所述的方法,其特征在于,所述的簇归并包括:对于交叠记录中处于邻居关系中的不在当前所处理数据段中的数据点,判断其在该数据段中是否为根节点;如果该数据点是根节点,则将分别来自相邻两个数据段的处于邻居关系中的两个数据点进行聚类合并。8.根据权利要求7所述的方法,其特征在于,所述的聚类合并包括:将当前所处理数据段中的数据点作为另一数据点的父节点;或将不在当前所处理数据段...

【专利技术属性】
技术研发人员:石丹陈辉江鹏
申请(专利权)人:成都今是科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1