基于正负向信号结合的测序基线计算方法及系统技术方案

技术编号:39670749 阅读:6 留言:0更新日期:2023-12-11 18:36
公开了一种基于正负向信号结合的测序基线计算方法及系统

【技术实现步骤摘要】
基于正负向信号结合的测序基线计算方法及系统


[0001]本公开涉及生物核酸测序技术,更具体涉及一种基于正负向信号结合的测序基线计算方法及系统


技术介绍

[0002]在目前的核苷酸测序
,主要有以桥式和焦磷酸等合成测序为代表的二代测序技术

以单分子荧光测序为代表的三代测序技术以及以纳米孔为技术特征的四代测序技术

其中基于纳米孔的核酸测序实现了由传统光信号测序到数字电信号测序的跨越,其主要原理是某些跨膜蛋白,例如细菌毒素
(
α

hemolysin)
等能在磷脂膜上形成稳定的直径约为1‑2纳米的通道,称为纳米孔,单链的
DNA

RNA
分子由于自身的带电性质,在电场中会自发地穿过纳米孔,并在穿越的过程中引起纳米孔电阻的变化,产生所谓的阻断电流
。DNA

RNA
的四种不同的碱基
A、T

U、C

G
由于自身化学结构的差异,它们穿越纳米孔时对电流产生的阻断影响具有可识别的差异,产生各自对应的特征阻断电流

对特征阻断电流进行准确检测便可以确定相应碱基的类型,从而测定核酸序列

[0003]在核酸序列测定过程中,测序系统进行核酸测序时首先会在芯片的对应孔位置上涂覆一层膜,例如磷脂双分子层膜

然后通过特定化学溶液在膜上形成纳米孔,通过对膜两端的电极加电压,开启充放电的过程

在纳米孔形成稳定后,接收到的电流变化处于一个稳定的电流范围波动,这就是测序设备在无阻断情况下的基线电流,由于存在充电放电会包含正负两种基线电流
(
或称为“亮”(bright)、“暗”(dark)
周期或模式
)。
一般纳米孔的测序过程,是通过聚合酶进行碱基配对,将配对碱基的标记物
(
英文术语一般用
tag
,也就是每个配对的碱基根据类别不同会有一个产生不同电阻的标记物进入纳米孔
)
置入纳米孔中形成特征阻断电流

再经过一定的模数处理,最终可以得到对应的数字信号

由此可见,电流基线值往往是决定特征阻断电流识别准确性的关键信息

[0004]然而实际测序系统中基线会由于电容中电荷的累积影响出现漂移,在阻断发生时不同带电碱基也会导致基线发生一些波动,这会给碱基的识别带来困难,尤其是面对超高数量的纳米孔测序单元
(
例如
50
万个
)
的海量通道信号,基线的波动情况是异常复杂,阻断电流的一致性变低,导致测序系统的性能指标下降

[0005]美国专利申请公布
US2022/0267840A1
中针对基线偏移使用直方图归一化的方法,即利用历史数据与当前数据的信号差进行归一化,归一化后的信号被拉平到同一数值范围,直方图中
ATGC
会形成的峰值聚集得到概率分布,然后通过一些诸如隐马尔可夫模型之类的状态识别方法来标记各个信号点

可以看到,这种方法对于噪声干扰

堵孔

基线电流波动大幅度突变

特征阻断电流形状与持续时长不均的情况,处理效果并不会太好

而实现特征阻断电流形状和持续时间稳定的高精密信号生成生化

芯片和微流控系统又会让测序仪造价昂贵

[0006]美国专利申请公布
US2017/370903A1
中设计的信号归一化方法利用负向信号
(dark
,核苷酸不在纳米孔中
)
状态的通道信号通过控制卡尔曼滤波参数
(
或者其他的低通
滤波
)
的方式来测量测序信号的电路变化完成开通道的信号滤波与归一化

在信号干扰大,信号过于密集和随机信号扰动的情况下,可能发生阻断
(threadevent
,核苷酸在纳米孔中
)
与负向无阻断状态的预测结果不准,难以有效进行信号滤波,使得信号的修正结果不佳,最终导致测序结果准确率下降

[0007]因此,现有测序系统的基线计算存在的技术缺陷主要有:
[0008]1、
测序信号的基线受干扰波动,信号不稳,使得后续识别困难;
[0009]2、
基线波动对实现自动化碱基识别带来困难,虽然目前主流的神经网络识别技术可以通过样本训练提高精度,但基线的修正带来的数据质量提高会比单纯堆砌样本收益更高;
[0010]3、
阻断信号与基线混叠,使碱基识别困难

[0011]因此,需要设计一种对测序基线进行识别与校正的方法,以克服上面提到的现有技术中所存在的不足


技术实现思路

[0012]本公开针对读取长度
(
读长
)
更长的测序信号时基线电流信号波动较大且更难检测

归一化更复杂这一情况,设计了一种测序基线电流计算方法,采用了正向与负向电流信号相结合的方式并通过聚类抑制噪声,以更好地识别有效信号,从而完成对测序通道的基线信号进行修正,提高测序结果的准确率和覆盖度等性能指标

[0013]简言之,本公开在医学基因检测测序
,提出一种基于正负向信号结合的核酸测序的基线计算方法及系统,可用于提高纳米孔测序系统核酸碱基识别的准确性

[0014]根据本公开的第一方面,提供了一种测序基线计算方法

所述方法可以包括:根据纳米孔充放电周期的第一方向上的电流数据,利用聚类处理,确定第一基线;根据纳米孔充放电周期的第二方向上的电流数据,利用聚类处理,确定第二基线;以及利用第一基线来修正第二基线,获得修正后的第二基线

[0015]在根据本公开第一方面的方法中,所述第一方向是在纳米孔充放电周期中将碱基推出纳米孔的电流方向,所述第二方向是在纳米孔充放电周期中将碱基吸引进纳米孔的电流方向

[0016]在根据本公开第一方面的方法中,所述的根据纳米孔充放电周期的第一方向上的电流数据,利用聚类处理,确定第一基线可以包括:对纳米孔充放电周期的第一方向上的电流数据进行聚类分析;根据聚类分析结果,识别出第一基线簇;根据第一基线簇,确定第一基线值

所述的根据纳米孔充放电周期的第二方向上的电流数据,利用聚类处理,确定第二基线可以包括:对纳米孔充放电周期的第二方向上的电流数据进行聚类分析;根据聚类分析结果,识别出第二基线簇;根据第二基线簇,确定第二基线值

[0017]优选地,所述聚类分析是基于时间相关的密度聚类分析方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种测序基线计算方法,其特征在于,所述方法包括:根据纳米孔充放电周期的第一方向上的电流数据,利用聚类处理,确定第一基线;根据纳米孔充放电周期的第二方向上的电流数据,利用聚类处理,确定第二基线;以及利用第一基线来修正第二基线,获得修正后的第二基线
。2.
根据权利要求1所述的方法,其特征在于,所述第一方向是在纳米孔充放电周期中将碱基推出纳米孔的电流方向,所述第二方向是在纳米孔充放电周期中将碱基吸引进纳米孔的电流方向
。3.
根据权利要求1所述的方法,其特征在于,所述的根据纳米孔充放电周期的第一方向上的电流数据,利用聚类处理,确定第一基线包括:对纳米孔充放电周期的第一方向上的电流数据进行聚类分析;根据聚类分析结果,识别出第一基线簇;根据第一基线簇,确定第一基线值,所述的根据纳米孔充放电周期的第二方向上的电流数据,利用聚类处理,确定第二基线包括:对纳米孔充放电周期的第二方向上的电流数据进行聚类分析;根据聚类分析结果,识别出第二基线簇;根据第二基线簇,确定第二基线值
。4.
根据权利要求3所述的方法,其特征在于,所述聚类分析是基于时间相关的密度聚类分析方法
。5.
根据权利要求3所述的方法,其特征在于,所述聚类分析是模糊聚类分析方法
。6.
根据权利要求3所述的方法,其特征在于,所述的识别出第二基线簇包括:用局部窗口取众数的方法获得第二基线簇
。7.
根据权利要求6所述的方法,其特征在于,针对无阻断电流的第二基线,以局部第一基线通过拟合的方式来修正第二基线
。8.
根据权利要求6所述的方法,其特征在于,针对无阻断电流的第二基线,单独对第二基线采用平滑处理来进行修正
。9.
根据权利要求6所述的方法,其特征在于,针对有阻断电流缺失处的第二基线,采用插值或拟合的方式获得修正后的第二基线
。10.
根据权利要求9所述的方法,其特征在于,针对有阻断电流缺失处的第二基线:识别第二基线簇和阻断簇;通过第一基线和第二基线插值或拟合的方法来修正相应位置处的第二基线
。11.
根据权利要求
10
所述的方法,其特征在于,所述的识别第二基线簇和阻断簇包括:用局部窗口取众数的方法识别出第二方向上的基线簇和阻断簇
。12.
根据权利要求
10
所述的方法,其特征在于,所述的识别第二基线簇和阻断簇包括:搜索第一基线的拐点;基于搜索到的第一基线的拐点,识别出出现阻断电流的阻断簇以及出现阻断电流前后的基线簇
。13.
根据权利要求
10
所述的方法,其特征在于,所述的通过第一基线和第二基线插值或
拟合的方法来修正相应位置处的第二基线包括:使用出现阻断电流前后区域的第一基线和第二基线来拟合出有阻断电流缺失处的第二基线
。14.
根据权利要求
10
所述的方法,其特征在于,所述的通过第一基线和第二基线插值或拟合的方法来修正相应位置处的第二基线包括:使用已经修正后的出现阻断电流前后区域的第二基线通过插值的方法来修正有阻断电流缺失处的第二基线
。15.
根据权利要求
10
所述的方法,其特征在于,所述的通过第一基线和第二基线插值或拟合的方法来修正相应位置处的第二基线包括:用出现阻断电流处的第一基线经过直流平移拉伸的方式移动到第二基线的阻断电流缺失区域,修正后的第二基线值可以表示为:
I2=
a*(I1‑
u1)+u2,其中,
I1表示第一基线值,
I2表示修正后的第二基线值,
u1表示该区域的第一基线均值,
u2表示邻近区域的第二基线均值,
a
为拉伸系数...

【专利技术属性】
技术研发人员:石丹谭元浩江鹏陈辉程亚文
申请(专利权)人:成都今是科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1