System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 神经网络模型训练、碱基测序电信号的片段化方法及装置制造方法及图纸_技高网

神经网络模型训练、碱基测序电信号的片段化方法及装置制造方法及图纸

技术编号:40319442 阅读:12 留言:0更新日期:2024-02-07 21:02
本公开涉及生物学基因测序领域,公开了一种神经网络模型训练、碱基测序电信号的片段化方法及装置,包括:对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及碱基位置信息;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列;根据每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;根据训练数据集对碱基边界确定模型进行训练。通过本公开实施例确定的碱基边界确定模型可以快速确定电信号的边界,以便于灵活地对电信号进行片段化,具有较高的准确性和适用性。

【技术实现步骤摘要】

本公开涉及生物学基因测序领域,尤其涉及一种神经网络模型训练、碱基测序电信号的片段化方法及装置


技术介绍

1、通过纳米孔测序方法,确定待测核酸序列对应的电信号后,需要对电信号进行片段化,以便于后续处理。现有技术中,对电信号进行片段化的方法,通常会受到片段长度和片段分割的阈值等相关参数的限制,导致片段化的准确率较低,并且,对于不同的测序场景,需要对相关参数进行相应的调整,增加了对电信号进行片段化的工作量,降低了处理效率。


技术实现思路

1、有鉴于此,本公开提出了一种神经网络模型训练、碱基测序电信号的片段化方法及装置的技术方案。

2、根据本公开的一方面,提供了一种神经网络模型训练方法,包括:对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,其中,每个所述样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;根据每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;根据所述训练数据集,对碱基边界确定模型进行训练,其中,训练后的所述碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别。

3、在一种可能的实现方式中,所述对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,包括:对所述预设核酸序列对应的电信号进行碱基识别,确定多个初始碱基序列,以及每个所述初始碱基序列对应的碱基位置信息,其中,每个所述初始碱基序列包括所述预设数量的碱基,任意一个初始碱基序列对应的碱基位置信息,用于指示该初始碱基序列中每个碱基在该初始碱基序列对应的初始电信号中的位置;根据每个所述初始碱基序列和所述预设核酸序列对应的碱基序列标注信息,确定每个所述初始碱基序列对应的识别准确率;针对任意一个初始碱基序列,在该初始碱基序列对应的识别准确率大于预设阈值的情况下,将该初始碱基序列确定为样本碱基序列。

4、在一种可能的实现方式中,所述针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,包括:针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列中每个碱基,在该样本碱基序列对应的样本电信号中的起始位置和结束位置;针对该样本碱基序列中的任意一个碱基,根据该碱基在该样本碱基序列对应的样本电信号中的起始位置和结束位置,确定该碱基对应的标识信息;根据该样本碱基序列中每个碱基对应的标识信息,确定该样本碱基序列对应的样本电信号的参考边界序列。

5、在一种可能的实现方式中,所述根据所述训练数据集,对碱基边界确定模型进行训练,包括:针对任意一个样本碱基序列,将该样本碱基序列对应的样本电信号输入至所述碱基边界确定模型,确定该样本碱基序列对应的样本电信号的预测边界序列,其中,该样本碱基序列对应的样本电信号的预测边界序列用于指示该样本碱基序列对应的样本电信号中不同碱基之间的预测边界;根据该样本碱基序列对应的样本电信号的预测边界序列和参考边界序列,确定模型损失;根据所述模型损失,调整所述碱基边界确定模型的网络参数。

6、在一种可能的实现方式中,所述预设核酸序列为德布莱因序列。

7、根据本公开的另一方面,提供了一种碱基测序电信号的片段化方法,包括:确定待识别碱基序列对应的待处理电信号;基于碱基边界确定模型,对所述待处理电信号进行碱基边界识别,确定所述待处理电信号对应的预测边界序列,其中,所述碱基边界确定模型通过上述方法训练得到,所述预测边界序列用于指示所述待处理信号中不同碱基之间的预测边界;根据所述预测边界序列,对所述待处理电信号进行分段,确定片段化电信号。

8、根据本公开的另一方面,提供了一种神经网络模型训练装置,包括:碱基识别模块,用于对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,其中,每个所述样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;参考序列确定模块,用于针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;训练数据集确定模块,用于根据每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的样本电信号的参考边界序列,确定训练数据集;模型训练模块,用于根据所述训练数据集,对碱基边界确定模型进行训练,其中,训练后的所述碱基边界确定模型用于对待识别碱基序列对应的电信号进行碱基边界识别。

9、根据本公开的另一方面,提供了一种碱基测序电信号的片段化装置,包括:电信号确定模块,用于确定待识别碱基序列对应的待处理电信号;碱基边界确定模块,用于基于碱基边界确定模型,对所述待处理电信号进行碱基边界识别,确定所述待处理电信号对应的预测边界序列,其中,所述碱基边界确定模型通过上述方法训练得到,所述预测边界序列用于指示所述待识别碱基序列中不同碱基之间的边界;片段化模块,用于根据所述预测边界序列,对所述待处理电信号进行分段,确定片段化电信号。

10、根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。

11、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。

12、在本公开实施例中,对预设核酸序列对应的电信号进行碱基识别,可以确定多个样本碱基序列、每个样本碱基序列对应的样本电信号、以及每个样本碱基序列对应的碱基位置信息,其中,每个样本碱基序列包括预设数量的碱基,任意一个样本碱基序列对应的碱基位置信息,用于指示该样本碱基序列中每个碱基在该样本碱基序列对应的样本电信号中的位置;针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,可以确定该样本碱基序列对应的样本电信号的参考边界序列,其中,该样本碱基序列对应的样本电信号的参考边界序列,用于指示该样本碱基序列对应的样本电信号中不同碱基之间的真实边界;根据每个样本碱基序列对应的样本电信号、以及每本文档来自技高网...

【技术保护点】

1.一种神经网络模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述根据所述训练数据集,对碱基边界确定模型进行训练,包括:

5.根据权利要求1或2所述的方法,其特征在于,所述预设核酸序列为德布莱因序列。

6.一种碱基测序电信号的片段化方法,其特征在于,包括:

7.一种神经网络模型训练装置,其特征在于,包括:

8.一种碱基测序电信号的片段化装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。

...

【技术特征摘要】

1.一种神经网络模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对预设核酸序列对应的电信号进行碱基识别,确定多个样本碱基序列、每个所述样本碱基序列对应的样本电信号、以及每个所述样本碱基序列对应的碱基位置信息,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述针对任意一个样本碱基序列,根据该样本碱基序列对应的碱基位置信息,确定该样本碱基序列对应的样本电信号的参考边界序列,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述根据所述训练数据集,对碱基...

【专利技术属性】
技术研发人员:孙琛杨劭谊
申请(专利权)人:北京普译生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1