基于多任务联合的碱基识别方法及装置、基因测序仪及介质制造方法及图纸

技术编号:39331985 阅读:20 留言:0更新日期:2023-11-12 16:07
本申请提供一种基于多任务联合的碱基识别方法及装置、基因测序仪及介质,所述方法包括:获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。对应的碱基识别结果。对应的碱基识别结果。

【技术实现步骤摘要】
基于多任务联合的碱基识别方法及装置、基因测序仪及介质


[0001]本申请涉及基因测序
,尤其涉及一种基于多任务联合的碱基识别方法及装置、基因测序仪及计算机可读存储介质。

技术介绍

[0002]目前,基因测序技术主要可分为四代,第一代测序技术Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法,由Sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以Illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是Nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssDNA或RNA模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。
[0003]第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像信号来获得碱基序列。为了实现对不同碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征。同本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多任务联合的碱基识别方法,其特征在于,包括:获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。2.如权利要求1所述的基于多任务联合的碱基识别方法,其特征在于,所述图像重建分支网络为超分辨率重建分支网络;所述通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像,包括:通过所述超分辨率重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的多张超分辨率重建图像。3.如权利要求2所述的基于多任务联合的碱基识别方法,其特征在于,所述超分辨率重建分支网络包括反卷积层和重建卷积层;所述反卷积层用于将所述特征图进行上采样,将所述特征图进行放大,所述重建卷积层用于将放大后的所述特征图转换为超分辨率图像。4.如权利要求2所述的基于多任务联合的碱基识别方法,其特征在于,所述图像重建分支网络的损失函数为均方误差损失函数或者结构相似性损失函数,所述均方误差损失函数表示如下:;y_pred 是模型的预测值,y_true 是真实值,n 是像素总数;所述结构相似性损失函数表示如下:;μx和μy分别是x和y的均值,σx^2和σy^2是x和y的方差,σxy是x和y的协方差,c1和c2防止除零错误的参数;所述碱基识别分支网络为交叉熵损失函数,所述交叉熵损失函数表示如下:;其中,C 是类别的数量,y 是真实标签的 one

hot 编码,p 是模型预测的概率分布。
5.如权利要求1所述的基于多任务联合的碱基识别方法,其特征在于,所述碱基识别分支网络包括与各通道输入图像数据分别对应的多个输出通道;所述通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果,包括:通过所述碱基识别分支网络以所述主干网络输出的所述特征图为输入,基于所述特征图对各通道输入图像数据中各像素点是否为碱基信号采集单元中心进行分类预测,根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别结果包括各碱基信号采集单元中心的位置处分别所属碱基类型的识别结果。6.如权利要求5所述的基于多任务联合的碱基识别方法,其特征在于,所述分类预测结果包括各通道输入图像数据中各像素点为相应类型碱基的碱基信号采集单元中心的概率,所述多通道输入图像数据中同一碱基信号采集单元中心的位置处的所述像素点的概率之和为1;所述根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果,包括:根据所述分类预测结果分别确定各通道输入图像数据分别对应的碱基类型的各所述碱基信号采集单元中心的位置处的所述像素点的概率最大值确定其所属碱基类型;所述输出通道分别输出各通道输入图像数据分别对应的碱基类型的碱基信号采集单元的碱基信号采集单元中心的坐标数据矩阵、概率数据矩阵或荧光图像;或,所述输出通道根据各通道输入图像数据输出包含各碱基信号采集单元中心的位置处分别所属碱基类型的碱基类型标签的坐标数据矩阵、概率数据矩阵或荧光图像。7.如权利要求1所述的基于多任务联合的碱基识别方法,其特征在于,还包括:获取训练数据集;其中,每一训练样本包括针对测序芯片的与不同碱基类型的测序信号响应分别对应的多张原始荧光图像、所述原始荧光图像经超分辨处理后对应得到的超分辨率图像作为第一标签图像、所述原始荧光图像经碱基信号采集单元检测定位算法处理后对应得到的掩膜图作为第二标签图像及对应的碱基类型标签;构建初始的多任务联合模型,所述多任务联合模型包括主干网络、分别以所述主干网络的输出作为输入的图像重建分支网络和碱基识别分支网络,基于所述训练数据集对所述多任务联合模型进行训练,直至损失函数收敛以得到训练后的所...

【专利技术属性】
技术研发人员:彭宽宽陈伟周祎楠王谷丰赵陆洋
申请(专利权)人:深圳赛陆医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1