用于信号误差校正的深度人工神经网络的方法技术

技术编号:43816252 阅读:31 留言:0更新日期:2024-12-27 13:30
一种用于标记序列读段的方法包括检索具有相关联的流量测量和相关联的流动顺序的序列读段;将选自多个序列的序列与该序列读段进行匹配,该序列在该序列内具有含有多于一个可接受变异的位置;确定该多于一个可接受变异中的哪一个变异与该序列匹配;基于所匹配的序列、该变异和流动顺序生成预测流量测量;以及用该预测流量测量标记该序列读段和相关联的流量测量。

【技术实现步骤摘要】
【国外来华专利技术】

本申请整体涉及用于将深度学习人工神经网络应用于校正由下一代测序系统获得的信号数据的方法、系统和计算机可读介质,并且更具体地涉及校正信号数据以提高碱基调用的准确性。


技术介绍


技术实现思路

【技术保护点】

1.一种用于标记序列读段的方法,所述方法包括:

2.根据权利要求1所述的方法,还包括限定多个序列,其中所述多个序列中的序列具有含有多于一个可接受变异的位置。

3.根据权利要求1或权利要求2所述的方法,所述方法还包括:

4.根据权利要求1-3中任一项所述的方法,还包括将所标记的序列读段与其他标记的序列读段进行比对。

5.根据权利要求1-4中任一项所述的方法,其中将所述序列与所述序列读段进行匹配包括确定与所述序列读段相关联的扩增子,所述扩增子选自多个扩增子。

6.根据权利要求5所述的方法,还包括确定所述序列读段的引物长度,所述引物长...

【技术特征摘要】
【国外来华专利技术】

1.一种用于标记序列读段的方法,所述方法包括:

2.根据权利要求1所述的方法,还包括限定多个序列,其中所述多个序列中的序列具有含有多于一个可接受变异的位置。

3.根据权利要求1或权利要求2所述的方法,所述方法还包括:

4.根据权利要求1-3中任一项所述的方法,还包括将所标记的序列读段与其他标记的序列读段进行比对。

5.根据权利要求1-4中任一项所述的方法,其中将所述序列与所述序列读段进行匹配包括确定与所述序列读段相关联的扩增子,所述扩增子选自多个扩增子。

6.根据权利要求5所述的方法,还包括确定所述序列读段的引物长度,所述引物长度与所述扩增子相关联。

7.根据权利要求1-6中任一项所述的方法,其中标记还包括用所匹配的序列和所述变异标记所述序列读段和相关联的流量测量。

8.根据权利要求1-7中任一项所述的方法,其中标记还包括用序列方向标记所述序列读段和相关联的流量测量。

9.根据权利要求1-8中任一项所述的方法,其中标记还包括用扩增子标识符标记所述序列读段和相关联的流量测量。

10.根据权利要求1-9中任一项所述的方法,其中标记还包括用模型参数标记所述序列读段和相关联的流量测量。

11.根据权利要求1-10中任一项所述的方法,其中标记还包括用流动顺序标记所述序列读段和相关联的流量测量。

12.根据权利要求1-11中任一项所述的方法,还包括基于所述流量测量与所述预测流量测量之间的差值来确定残差测量。

13.根据权利要求12所述的方法,其中标记还包括用所述残差测量标记所述序列读段和相关联的流量测量。

14.根据权利要求12所述的方法,还包括将所标记的序列读段和相关联的流量测量与具有相同匹配序列和变异的其他序列读段和相关联的流量测量分组。

15.根据权利要求14所述的方法,还包括确定一系列所述流量测量中每个位置处的平均残差。

16.根据权利要求15所述的方法,其中所述平均残差是均值残差。

17.根据权利要求14所述的方法,还包括确定一系列所述流量测量中每个位置处的所述残差的方差。

18.根据权利要求1-17中任一项所述的方法,其中所述序列是核酸序列或蛋白质序列。

19.根据权利要求18所述的方法,其中所述一个或多个变异代表单核苷酸多态性、多核苷酸多态性或indel。

20.根据权利要求1-19中任一项所述的方法,其中所述流量测量是由测序仪基于所述流动顺序测量的。

21.一种标记读段序列的方法,所述方法包括:

22.根据权利要求21所述的方法,还包括基于所述流量测量与所述预测流量测量之间的差值来确定残差测量。

23.根据权利要求22所述的方法,其中确定所述残差测量包括针对每个流量位置确定所述每个流量位置处的所述流量测量与所述预测流量测量之间的差值。

24.根据权利要求22所述的方法,还包括将所标记的读段序列与具有相同变异标识符的多个读段序列分组。

25.根据权利要求24所述的方法,还包括基于每个所分组的读段序列的所述残差测量来确定平均残差测量。

26.根据权利要求25所述的方法,其中确定所述平均残差包括针对每个流量位置确定所分组的标记读段序列的所述残差测量的平均值。

27.根据权利要求25所述的方法,其中所述平均值是均值。

28.根据权利要求25所述的方法,还包括基于每个所分组的读段序列的所述残差测量来确定每个流量位置处的所述残差的方差。

29.根据权利要求21-28中任一项所述的方法,其中所检索的读段序列与所述流动顺序相关联,其中生成所述预测流量测量包括基于所述流动顺序生成所述预测流量测量。

30.根据权利要求21-29中任一项所述的方法,还包括用所述变异标识符标记所述读段序列。

31.根据权利要求21-30中任一项所述的方法,还包括用序列方向标记所述读段序列。

32.根据权利要求31所述的方法,其中分组包括基于所述序列方向进行分组。

33.根据权利要求21-32中任一项所述的方法,其中所述变异代表单核苷酸多态性、多核苷酸多态性或indel。

34.一种用于标记核苷酸读段序列的方法,所述方法包括:

35.根据权利要求34所述的方法,还包括用与所述变异相关联的变异标识符标记所述核苷酸序列读段。

36.根据权利要求34或权利要求35所述的方法,还包括用所述流动顺序标记所述核苷酸序列读段。

37.根据权利要求34-36中任一项所述的方法,还包括用与所匹配的扩增子相关联的扩增子标识符标记所述核苷酸序列读段。

38.根据权利要求34-37中任一项所述的方法,还包括基于所述流量测量和所述预测流量测量来确定残差测量。

39.根据权利要求38所述的方法,其中确定所述残差测量包括针对所述流动顺序的每个流量位置确定所述位置处的所述流量测量与所述预测流量测量之间的差值。

40.根据权利要求38所述的方法,还包括将所述核苷酸序列读段与具有所述变异的其他核苷酸序列读段分组。

41.根据权利要求40所述的方法,还包括基于跨所分组的核苷酸读段序列的所述残差测量来确定均值残差测量。

42.根据权利要求40所述的方法,还包括基于跨所分组的核苷酸读段序列的所述残差测量来确定方差测量。

43.一种用于训练人工神经网络(ann)的方法,所述方法包括:

44.根据权利要求43所述的方法,还包括:

45.根据权利要求44所述的方法,其中应用所述ann包括应用所述ann以生成多个信号值,所述方法还包括:

46.根据权利要求43-45中任一项所述的方法,其中调整所述参数包括调整以减小通过将所述信号校正值与所述残差值进行比较而确定的均方误差。

47.根据权利要求43-46中任一项所述的方法,其中所述残差值是与和所述多个流量测量中的流量测量相关联的组相关联的均值残差测量。

48.根据权利要求43-47中任一项所述的方法,其中所述多个流量测量在流量空间中。

49.根据权利要求43-48中任一项所述的方法,其中所述输入层还包括表示对应于流动的核苷酸的流动顺序的通道,其中响应于以所述流动顺序流动的所述核苷酸检测所述多个流量测量。

50.根据权利要求49所述的方法,其中所述流动顺序由所述输入层的四个通道中的四个二进制阵列表示,其中所述阵列中的位置中的1指示特定核苷酸以所述流动顺序在所述位置中流动以生成对应的信号测量,其中核苷酸a、t、c和g的流动顺序各自表示在所述阵列中的相应阵列中。

51.根据权利要求43-50中任一项所述的方法,其中所述输入层还包括用于指示所述多个信号测量的位置的值的阵列的通道。

52.根据权利要求43-52中任一项所述的方法,其中所述输入层还包括用于信号掩码的通道,其中所述信号掩码包括在对应于所述多个流量测量的位置中具有1并且在对应于无流量测量的位置中具有0的阵列,其中流量测量的数量小于或等于所述阵列的大小。

53.根据权利要求43-52中任一项所述的方法,其中每个通道的通道长度是大于流量测量数的偶数。

54.根据权利要求43-53中任一项所述的方法,其中所述ann包括卷积神经网络(cnn)。

55.根据权利要求54所述的方法,其中cnn包括u-net。

56.根据权利要求55所述的方法,其中所述u-net包括编码器,所述编码器被配置为接收所述输入层的所述通道并且以多个尺度生成特征映射。

57.根据权利要求56所述的方法,其中所述编码器还包括多个层组,其中每个层组包括一个或多个卷积层。

58.根据权利要求57所述的方法,其中所述卷积层将多个卷积应用于提供给所述卷积层的输入通道以产生多个特征映射。

59.根据权利要求58所述的方法,其中所述卷积层还包括应用于所述多个特征映射以产生归一化特征映射的批量归一化。

60.根据权利要求59所述的方法,所述卷积层还包括将激活函数应用于所述归一化特征映射以产生用于所述卷积层的所述输出通道的输出特征映射。

61.根据权利要求60所述的方法,其中所述激活函数包括s形线性单位函数(silu)。

62.根据权利要求57所述的方法,其中每个层组还包括池化层,其中所述池化层从所述一个或多个卷积层中的最后一个卷积层接收输出通道。

63.根据权利要求62所述的方法,其中所述池化层将内核大小为2并且步幅值为2的maxpool操作应用于每个输出通道。

64.根据权利要求57所述的方法,其中所述卷积层的数量为二。

65.根据权利要求57所述的方法,其中所述多个层组中的层组的数量为三。

66.根据权利要求56所述的方法,其中所述u-net还包括解码器,其中所述解码器从所述编码器接收具有所述多个尺度的所述特征映射。

67.根据权利要求66所述的方法,其中所述u-net还包括卷积块注意力模块(cbam),其中cbam被应用于所述编码器的最后一个池化层的输出并向所述解码器的第一层提供细化的特征映射。

68.根据权利要求66所述的方法,其中所述解码器还包括第二多个层组,其中每个层组包括卷积转置层。

69.根据权利要求68所述的方法,其中所述卷积转置层将多个转置卷积应用于提供给所述卷积转置层的输入通道以产生多个上采样特征映射。

70.根据权利要求68所述的方法,其中所述解码器的每个层组还包括一个或多个卷积层。

71.根据权利要求70所述的方法,其中所述卷积层将多个卷积应用于提供给所述卷积层的输入通道以产生多个特征映射。

72.根据权利要求71所述的方法,其中所述卷积层还包括应用于所述多个特征映射以产生归一化特征映射的批量归一化。

73.根据权利要求72所述的方法,其中所述卷积层还包括将激活函数应用于所述归一化特征映射以产生用于所述卷积层的所述输出通道的输出特征映射。

74.根据权利要求73所述的方法,其中所述激活函数包括s形线性单位函数(silu)。

75.根据权利要求70所述的方法,其中所述卷积层的数量为二。

76.根据权利要求70所述的方法,其中所述解码器的所述层组中的第一卷积层从所述层组的所述卷积转置层接收输出通道。

77.根据权利要求70所述的方法,还包括将来自所述编码器的层组的特征映射与来自所述卷积转置层的特征映射级联以形成级联特征映射,其中来自所述编码器的所述层组的所述特征映射和来自所述卷积转置层的所述特征映射具有相同的尺度。

78.根据权利要求77所述的方法,还包括将所述层组中的第一卷积层应用于所述级联特征映射。

79.根据权利要求70所述的方法,其中所述解码器的所述层组中的第二卷积层从所述层组中的第一卷积层接收输出通道。

80.根据权利要求68所述的方法,其中所述第二多个层组中的层组的数量为三。

81.根据权利要求68所述的方法,还包括将多个卷积应用于所述第二多个层组中的最后一个层组的多个输出以产生所述多个信号校正值。

82.根据权利要求43-81中任一项所述的方法,其中所述多个信号测量由核酸测序仪器提供。

83.一种用于标记序列读段的系统,包括:

84.根据权利要求83所述的系统,其中所述方法还包括限定多个序列,其中所述多个序列中的序列具有含有多于一个可接受变异的位置。

85.根据权利要求83或权利要求84所述的系统,其中所述方法还包括:

86.根据权利要求83-85中任一项所述的系统,其中所述方法还包括将所标记的序列读段与其他标记的序列读段进行比对。

87.根据权利要求83-86中任一项所述的系统,...

【专利技术属性】
技术研发人员:白承宗E·因格曼王朝A·莱伊W·普契兹
申请(专利权)人:生命科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1