碱基识别方法及其训练集构建方法技术

技术编号:39845550 阅读:6 留言:0更新日期:2023-12-29 16:42
本申请提供一种碱基识别方法及其训练集构建方法

【技术实现步骤摘要】
碱基识别方法及其训练集构建方法、基因测序仪及介质


[0001]本申请涉及基因测序
,尤其是涉及一种碱基识别的训练集构建方法

碱基识别方法

基因测序仪及计算机可读存储介质


技术介绍

[0002]目前,基因测序技术主要可分为四代,第一代测序技术
Sanger
法是基于
DNA
合成反应的测序技术,又称为
SBS


末端终止法,由
Sanger1975
年提出,并于
1977
发表第一个完整的生物体基因组序列

第二代测序技术是以
Illumina
平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展

第三代测序技术是
Nanopore
纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过
ssDNA

RNA
模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序

[0003]第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像信号来获得碱基序列

为了实现对不同碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征

同一场景下需要拍摄多张图像,通过对这些图像进行定位和配准,提取点信号并进行亮度信息分析处理,得到碱基序列

随着二代测序技术的发展,测序仪产品现在都配有实时处理测序数据的软件

不同的测序平台会采用不同的光学系统和荧光染料,因此荧光分子发光的频谱特征会有差异

如果算法无法得到适当的特征或者找到合适的参数以处理这些不同的特征,就可能导致碱基分类出现较大误差,从而影响测序质量

[0004]此外,二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,如图
1。
通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,如图
2。

DNA
测序中,常用的荧光标记为四种,将这四种荧光标记同时加入一个循环
(Cycle)
中,并利用相机拍摄荧光信号的图像

由于每个荧光标记都对应一种特定的波长,因此我们能够在图像中分离出不同荧光标记对应的荧光信号,进而得到对应的荧光图像,如图
3。
在此过程中,可以对相机进行对焦调整以及采样参数设置,以确保所得到的
TIF
灰度图像质量达到最优

然而,在实际应用过程中,荧光图像中碱基簇的亮度总是受到多种因素的干扰,主要包括图像内碱基簇的之间的串扰
(Spatial Crosstalk)
,通道间的串扰
(Crosstalk)
和周期间的串扰
(Phasing、Prephasing)。
已知的碱基识别技术主要是对串扰和强度进行归一化,但矫正方法不尽相同

通过每个周期内的
crosstalk
矩阵和
phasing

prephasing
比率来矫正荧光光强度值,去除串扰噪声,然后通过4个通道的光强值来识别碱基,如图
4。
然而,现有的碱基识别技术只能对已知的亮度干扰因素,如通道间的亮度串扰,
cycle
间提前反应或延迟反应导致的
phasing

prephasing
现象进行矫正,无法校正其它未知的生化或者环境的影响造成的亮度干扰,导致识别精度不高,当样本密度越高时,碱基簇越密集,碱基簇之间的亮度串扰越严重,导致测序准确度大大降低


技术实现思路

[0005]为解决现有存在的技术问题,本申请实施例提供一种能够克服碱基信号采集单元之间的空间串扰

适应不同碱基信号采集单元密度的情况从而有效提升碱基识别精度的碱基识别方法

碱基识别的训练集构建方法

基因测序仪及计算机可读存储介质

[0006]为达到上述目的,本申请实施例的技术方案是这样实现的:
[0007]第一方面,本申请实施例提供一种碱基识别的训练集构建方法,包括:
[0008]获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像;
[0009]对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图;
[0010]根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对所述比对成功的碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别确定的对应碱基识别结果进行修正,经修正后得到作为所述训练样本的所述多通道样本图像的碱基类型标签;
[0011]根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到掩膜标签图像

[0012]第二方面,本申请实施例提供一种碱基识别方法,包括:
[0013]获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
[0014]通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别模型为采用如本申请任一实施例所述的碱基识别的训练集构建方法得到的训练样本对初始的神经网络模型进行训练后得到

[0015]第三方面,本申请实施例提供一种基因测序仪,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如本申请任一实施例所述的碱基识别的训练集构建方法

或实现如本申请任一实施例所述的碱基识别方法

[0016]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本申请任一实施例所述的碱基识别的训练集构建方法

或实现如本申请任一实施例所述的碱基识别方法

[0017]上述实施例中,碱基识别的训练集中,训练样本包括分别与不同碱基类型的测序信号响应对应的多张原始荧光图像形成的多通道样本图像...

【技术保护点】

【技术特征摘要】
1.
一种碱基识别的训练集构建方法,其特征在于,包括:获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像;对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图;根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对所述比对成功的碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别确定的对应碱基识别结果进行修正,经修正后得到作为所述训练样本的所述多通道样本图像的碱基类型标签;根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到掩膜标签图像
。2.
如权利要求1所述的碱基识别的训练集构建方法,其特征在于,所述对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图,包括:针对至少一训练样本,对所述原始荧光图像经碱基信号采集单元检测定位算法处理确定碱基信号采集单元位置,根据碱基信号采集单元位置形成掩膜图;根据所述碱基信号采集单元位置,对所述原始荧光图像中的碱基信号采集单元经碱基识别算法进行识别,得到碱基识别结果
。3.
如权利要求1所述的碱基识别的训练集构建方法,其特征在于,所述根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,包括:针对在基因测序中对所述测序芯片连续采集的所述原始荧光图像,根据对应的所述掩膜图中所述碱基信号采集单元位置,分别对所述原始荧光图像中的碱基信号采集单元经碱基识别算法进行识别得到碱基识别结果,根据连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列;或,针对在基因测序中对所述测序芯片连续采集的所述原始荧光图像,通过初步训练的碱基识别模型进行识别得到碱基识别结果,根据连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列
。4.
如权利要求1所述的碱基识别的训练集构建方法,其特征在于,所述获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像,包括:在基因测序中对多个碱基识别的对应多个循环内,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;以每一所述循环中,分别与
A、C、G、T
四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组,每一训练样本中包括由一组所述原始荧光图像形成的多通道样本图像
。5.
一种碱基识别方法,其特征在于,包括:获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成
的多通道输入图像数据;通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别模型为采用如权利要求1至4任一项所述的碱基识别的训练集构建方法得到的训练样本对初始的神经网络模型进行训练后得到
。6.
如权利要求5所述的碱基识别方法,其特征在于,所述碱基识别模型包括特征提取网络和分类预测网络;所述通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据...

【专利技术属性】
技术研发人员:彭宽宽陈伟周祎楠王谷丰赵陆洋
申请(专利权)人:深圳赛陆医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1