【技术实现步骤摘要】
【国外来华专利技术】用于序列判定的方法和系统
交叉引用
[0001]本申请要求于2019年3月10日提交的第62/816,145号美国专利申请的权益,其全部内容以引用方式并入本文。
技术介绍
[0002]阐明整个人类基因组这一目标引起了对用于小规模和大规模应用的快速核酸(例如,DNA)测序技术的兴趣。随着对人类疾病遗传基础知识的增加,高通量DNA测序已被用于各种各样的临床应用。尽管核酸测序方法和系统在广泛的分子生物学和诊断应用中普遍存在,但此类方法和系统在准确的碱基判定(base calling)方面可能会遇到挑战,诸如当测序信号包含被称为同聚物的重复核苷酸碱基区域时。特别地,基于指示核苷酸掺入的量化特征性信号执行碱基判定的测序方法可能具有测序错误(例如,在量化同聚物长度时),其源于信号水平的随机和不可预测的系统性变化,以及对于每个序列都可能不同的邻近序列(context)依赖性信号。此类信号变化和邻近序列依赖性信号可能导致序列(例如,同聚物)判定方面的问题。
技术实现思路
[0003]本文认识到需要改进的对序列(诸如包含同聚物的序列)的碱基判定。本文提供的方法和系统可显著减少或去除量化同聚物长度中的误差以及与邻近序列依赖性相关的误差。这样的方法和系统可实现对序列(诸如包含同聚物的序列)的准确和有效的碱基判定、同聚物长度的量化以及序列信号中邻近序列依赖性的量化。
[0004]在一个方面,本公开提供了一种用于生成训练集的方法,该方法包括:获得第一经训练的算法,该算法包括在实际参考测序信号与可信参考测序信号之间的第一映射,其中 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于生成训练集的方法,所述方法包括:获得第一经训练的算法,所述第一经训练的算法包括在实际参考测序信号与可信参考测序信号之间的第一映射,其中所述实际参考测序信号和所述可信参考测序信号代表与第二属的第二基因组不同的第一属的参考基因组的部分,其中所述参考基因组小于所述第二基因组;获得对应于所述第二基因组的实际测序信号;以及生成用于训练第二经训练的算法的训练集,所述第二经训练的算法包括在对应于所述第二基因组的实际测序信号与对应于所述第二基因组的可信测序信号之间的第二映射,其中所述训练集是基于所述第一映射采用对应于所述第二基因组的所述实际测序信号生成的。2.如权利要求1所述的方法,其中所述第一经训练的算法不同于所述第二经训练的算法。3.如权利要求1所述的方法,其中所述第一经训练的算法与所述第二经训练的算法相同。4.如权利要求1所述的方法,其中生成所述第一映射包括训练第一神经网络。5.如权利要求1所述的方法,其中所述第二基因组是人类基因组。6.一种用于生成训练集的方法,所述方法包括:训练第一神经网络以生成实际参考测序信号到可信参考测序信号之间的第一映射,其中所述实际参考测序信号和所述可信参考测序信号代表不同于人类基因组且小于所述人类基因组的参考基因组的部分;接收或生成实际人类测序信号;以及生成人类训练集,所述人类训练集用于训练第二神经网络以提供实际人类测序信号到可信人类测序信号之间的第二映射,其中生成所述人类训练集是基于所述第一映射,并且包括向所述第二神经网络馈送所述实际人类测序信号。7.如权利要求6所述的方法,其中所述第一神经网络不同于所述第二神经网络。8.如权利要求6所述的方法,其中所述第一神经网络与所述第二神经网络相同。9.如权利要求6所述的方法,还包括使用所述人类训练集训练所述第二神经网络,以将所述实际人类测序信号映射到所述可信人类测序信号。10.如权利要求6所述的方法,其中生成所述人类训练集包括将所述实际人类测序信号与代表整个参考基因组的可信参考测序信号进行比对。11.如权利要求6所述的方法,其中训练所述第一神经网络包括将所述实际参考测序信号与代表整个参考基因组的可信参考测序信号进行比对。12.如权利要求6所述的方法,其中所述第一神经网络的训练包括使用第一比对过程将所述实际参考测序信号与代表整个参考基因组的可信参考测序信号进行比对;并且其中生成所述人类训练集包括使用第二比对过程将所述实际人类测序信号与代表整个参考基因组的可信参考测序信号进行比对;其中所述第一比对过程比所述第二比对过程消耗更少的资源。13.如权利要求12所述的方法,其中所述第一比对过程包括计算所述实际参考测序信号与所述代表整个参考基因组的可信参考测序信号的不同部分之间的相关性。
14.如权利要求12所述的方法,其中所述第二比对过程包括使用基于散列的搜索来执行所述比对。15.如权利要求6所述的方法,其中训练所述第一神经网络包括执行以下的一次或多次迭代:选择所述实际参考测序信号的一部分和与所述参考测序信号的选定部分相关的所述可信参考测序信号的一部分;使用所述第一神经网络处理所述实际参考测序信号的所述选定部分以产生第一神经网络输出信号;计算代表所述第一神经网络输出信号与所述可信参考测序信号的选定部分之间的差异的误差;以及通过反向传播所述误差来调整所述第一神经网络。16.如权利要求15所述的方法,其中所述第一神经网络是回归网络。17.如权利要求16所述的方法,其中所述回归网络是全连接回归网络。18.如权利要求16所述的方法,其中所述回归网络包括输入层,所述输入层包括所述实际参考信号的每个值一个神经元。19.如权利要求16所述的方法,其中所述回归网络包括多个大于所述输入层的中间层。20.如权利要求16所述的方法,其中所述回归网络包括包含约一百个神经元的输入层、包含约一百个神经元的输出层、以及多个中间层,每个所述中间层包含约八百个神经元。21.如权利要求6所述的方法,其中生成所述人类训练集包括将截短的实际人类测序信号与代表整个参考基因组的截短的可信参考测序信号进行比对。22.如权利要求6所述的方法,还包括使用所述第二神经网络处理所述实际人类测序信号和不同于所述实际人类测序信号的类型的附加信息。23.如权利要求22所述的方法,其中所述附加信息包括关于测光背景噪声的信息。24.如权利要求22所述的方法,其中所述附加信息包括从前导码获得的测序信号。25.如权利要求22所述的方法,其中所述附加信息包括对应于读数附近的本地信息。26.如权利要求22所述的方法,其中所述附加信息包括指示流基准和流位置中的至少一个的流信息。27.一种用于基于第一属评估第二属的基因组的方法,所述方法包括:对于所述第二属的所述基因组的多个部分中的每一个:接收或生成代表所述第二属的基因组的所述部分的实际测序信号;以及基于所述实际测序信号评估所述第二属的所述基因组的所述部分;其中所述评估包括将第二机器学习过程应用于所述实际测序信号...
【专利技术属性】
技术研发人员:艾维赛伊,
申请(专利权)人:阿尔缇玛基因组学公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。