System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及生物学基因测序领域,尤其涉及一种为碱基识别模型构建训练数据集的方法、装置及电子设备。
技术介绍
1、通过神经网络进行纳米孔测序碱基识别,具有较高的准确率。但是,训练神经网络需要大量准确的电信号与碱基序列一一配对的训练数据集。在训练神经网络的过程中,如果训练数据集中的电信号长度较长,可能出现由于神经网络训练的硬件设备的处理性能不足,导致无法正常进行神经训练的问题。因此,需要对长度较长的电信号进行分段,构建合理的训练数据集。
技术实现思路
1、有鉴于此,本公开提出了一种为碱基识别模型构建训练数据集的方法、装置及电子设备的技术方案。
2、根据本公开的一方面,提供了一种为碱基识别模型构建训练数据集的方法,包括:根据目标核酸序列对应的初始电信号,确定目标碱基序列;基于纳米孔测序信号模拟工具,确定所述目标碱基序列对应的期望电信号;根据所述期望电信号和所述初始电信号,确定所述初始电信号对应的碱基位置分布,其中,所述碱基位置分布用于指示所述目标碱基序列中每个碱基在所述初始电信号中的位置;根据预设电信号长度和所述碱基位置分布,对所述初始电信号进行分段,得到多个训练电信号;根据所述多个训练电信号,以及每个所述训练电信号对应的训练碱基序列,确定碱基识别模型对应的训练数据集,其中,所述碱基识别模型用于对待识别核酸序列对应的电信号进行碱基识别。
3、在一种可能的实现方式中,所述根据目标核酸序列对应的初始电信号,确定目标碱基序列,包括:对所述目标核酸序列对应的初始电信号进行碱
4、在一种可能的实现方式中,所述根据所述期望电信号和所述初始电信号,确定所述初始电信号对应的碱基位置分布,包括:基于t检验方法,对所述初始电信号进行分段,确定第一信号片段序列,其中,所述第一信号片段序列中包括多个第一信号片段;基于t检验方法,对所述期望电信号进行分段,确定第二信号片段序列,其中,所述第二信号片段序列中包括多个第二信号片段;根据所述第一信号片段序列和所述第二信号片段序列,确定所述初始电信号对应的碱基位置分布。
5、在一种可能的实现方式中,所述根据所述第一信号片段序列和所述第二信号片段序列,确定所述初始电信号对应的碱基位置分布,包括:根据所述第一信号片段序列和所述第二信号片段序列,确定距离矩阵,其中,所述距离矩阵包括m行n列,所述距离矩阵中的第i行第j列的元素,表示所述第一信号片段序列中的第i个第一信号片段与所述第二信号片段序列中的第j个第二信号片段之间的欧式距离,m,n,i和j为正整数,且m≥i,n≥j;基于动态时间规整法,根据所述距离矩阵,确定规整路径,其中,所述规整路径表示在所述距离矩阵中,从第1行第m列的元素到第n行第1列的元素的欧式距离总和最小的路径;根据所述规整路径,确定所述初始电信号对应的碱基位置分布。
6、在一种可能的实现方式中,所述根据所述规整路径,确定所述初始电信号对应的碱基位置分布,包括:确定每个所述第二信号片段对应的碱基序列;根据所述规整路径,以及所述每个第二信号片段对应的碱基序列,确定所述初始电信号对应的碱基位置分布。
7、根据本公开的另一方面,提供了一种为碱基识别模型构建训练数据集的装置,包括:碱基识别模块,用于根据目标核酸序列对应的初始电信号,确定目标碱基序列;期望电信号确定模块,用于基于纳米孔测序信号模拟工具,确定所述目标碱基序列对应的期望电信号;碱基位置确定模块,用于根据所述期望电信号和所述初始电信号,确定所述初始电信号对应的碱基位置分布,其中,所述碱基位置分布用于指示所述目标碱基序列中每个碱基在所述初始电信号中的位置;电信号分段模块,用于根据预设电信号长度和所述碱基位置分布,对所述初始电信号进行分段,得到多个训练电信号;训练数据集确定模块,用于根据所述多个训练电信号,以及每个所述训练电信号对应的训练碱基序列,确定碱基识别模型对应的训练数据集,其中,所述碱基识别模型用于对待识别核酸序列对应的电信号进行碱基识别。
8、根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
9、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
10、在本公开实施例中,可以根据目标核酸序列对应的初始电信号,确定目标碱基序列;基于纳米孔测序信号模拟工具,可以确定目标碱基序列对应的期望电信号;根据期望电信号和初始电信号,可以确定初始电信号对应的碱基位置分布,通过初始电信号对应的碱基位置分布,可以指示目标碱基序列中每个碱基在初始电信号中的位置;根据预设电信号长度和碱基位置分布,可以对初始电信号进行分段,得到多个训练电信号,从而将长度较长的初始电信号,分段为多个长度较短的训练电信号;根据多个训练电信号,以及每个训练电信号对应的训练碱基序列,确定碱基识别模型对应的训练数据集,其中,碱基识别模型用于对待识别核酸序列对应的电信号进行碱基识别;通过训练数据集对碱基识别模型进行训练,可以提高训练效率,并降低对训练所使用的硬件设备的性能需求。
11、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
本文档来自技高网...【技术保护点】
1.一种为碱基识别模型构建训练数据集的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据目标核酸序列对应的初始电信号,确定目标碱基序列,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述期望电信号和所述初始电信号,确定所述初始电信号对应的碱基位置分布,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一信号片段序列和所述第二信号片段序列,确定所述初始电信号对应的碱基位置分布,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述规整路径,确定所述初始电信号对应的碱基位置分布,包括:
6.一种为碱基识别模型构建训练数据集的装置,其特征在于,包括:
7.一种电子设备,其特征在于,包括:
8.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。
【技术特征摘要】
1.一种为碱基识别模型构建训练数据集的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据目标核酸序列对应的初始电信号,确定目标碱基序列,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述期望电信号和所述初始电信号,确定所述初始电信号对应的碱基位置分布,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一信号片段序列和所述第二信号片段序列,确定所述初...
【专利技术属性】
技术研发人员:孙琛,王大千,
申请(专利权)人:北京普译生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。