一种碱基确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37149248 阅读:23 留言:0更新日期:2023-04-06 22:03
本公开提供了一种碱基确定方法、装置、计算机设备及存储介质,包括:获取样本数字信号,以及所述样本数字信号的碱基类型,所述样本数字信号的碱基类型是基于无监督训练的第一模型确定的;基于所述样本数字信号、所述样本数字信号的碱基类型以及所述无监督训练的第一模型输出的所述碱基类型对应的质量分数,对待训练的第二模型进行训练,得到目标分类模型,以通过所述目标分类模型确定待识别数字信号对应的碱基类型。对应的碱基类型。对应的碱基类型。

【技术实现步骤摘要】
一种碱基确定方法、装置、计算机设备及存储介质


[0001]本公开涉及信号识别
,具体而言,涉及一种碱基确定方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着测序的发展,对DNA分子双链进行碱基鉴定的方法的研究已经越来越多,碱基鉴定就是将捕获的信息通过算法转换为碱基序列的过程,碱基的识别精度将影响碱基鉴定的结果,因此,如何对碱基进行识别就显得尤为重要。

技术实现思路

[0003]本公开实施例至少提供一种碱基确定方法、装置、计算机设备及存储介质。
[0004]第一方面,本公开实施例提供了一种碱基确定方法,包括:
[0005]获取样本数字信号,以及所述样本数字信号的碱基类型,所述样本数字信号的碱基类型是基于无监督训练的第一模型确定的;
[0006]基于所述样本数字信号、所述样本数字信号的碱基类型以及所述无监督训练的第一模型输出的所述碱基类型对应的质量分数,对待训练的第二模型进行训练,得到目标分类模型,以通过所述目标分类模型确定待识别数字信号对应的碱基类型。
[0007]一种可能的实施方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种碱基确定方法,其特征在于,包括:获取样本数字信号,以及所述样本数字信号的碱基类型,所述样本数字信号的碱基类型是基于无监督训练的第一模型确定的;基于所述样本数字信号、所述样本数字信号的碱基类型以及所述无监督训练的第一模型输出的所述碱基类型对应的质量分数,对待训练的第二模型进行训练,得到目标分类模型,以通过所述目标分类模型确定待识别数字信号对应的碱基类型。2.根据权利要求1所述的方法,其特征在于,在获取样本数字信号,以及所述样本数字信号的碱基类型之后,所述方法还包括:基于所述样本数字信号的碱基类型对应的质量分数,对所述样本数字信号进行初步筛选,得到第一样本数字信号;将所述第一样本数字信号的碱基类型进行组合,得到多条核酸序列,并基于所述第一样本数字信号的碱基类型对应的质量分数,确定所述核酸序列的质量分数;基于所述核酸序列的质量分数,对所述多条核酸序列进行筛选,得到第一核酸序列;所述基于所述样本数字信号、所述样本数字信号的碱基类型以及所述无监督训练的第一模型输出的所述碱基类型对应的质量分数,对待训练的第二模型进行训练,包括:基于所述第一核酸序列包含的碱基类型对应的第二样本数字信号、所述第二样本数字信号的碱基类型以及所述碱基类型对应的质量分数,对所述待训练的第二模型进行训练。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一核酸序列包含的碱基类型对应的第二样本数字信号、所述第二样本数字信号的碱基类型以及所述碱基类型对应的质量分数,对所述待训练的第二模型进行训练,包括:将所述第一核酸序列与预先构建的参考基因模板库中的各模板核酸序列进行比对,和/或与基因组数据库中的基因组序列进行比对;将比对结果符合预设条件的第一核酸序列中,未匹配成功的碱基剔除,得到第二核酸序列;基于所述第二核酸序列包含的碱基类型对应的第三样本数字信号、所述第三样本数字信号的碱基类型以及所述碱基类型对应的质量分数,对所述待训练的第二模型进行训练。4.根据权利要求3所述的方法,其特征在于,所述方法还包括根据以下方法构建所述参考基因模板库:获取所述基因组数据库中的基因组序列;按照预设步长,以及预设长度,从所述基因组序列中截取所述模板核酸序列,所述预设长度为所述模板核酸序列所包含的碱基个数。5.根据权利要求1~4任一所述的方法,其特征在于,在获取样本数字信号之后,所述方法还包括:对所述样本数字信号进行缩放处理;所述基于所述样本数字信号、所述样本数字信号的碱基类型以及所述无监督训练的第一模型输出的所述碱基类型对应的质量分数,对待训练的第二模型进行训练,包括:基于缩放处理后的样本数字信号、所述缩放处理后的样本数字信号的碱基类型以及所述无监督训练的第一模型输出...

【专利技术属性】
技术研发人员:王玉垚王丹阳陈懂懂袁静贤
申请(专利权)人:郑州思昆生物工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1