寡核苷酸序列中的缺失检测制造技术

技术编号:38465850 阅读:22 留言:0更新日期:2023-08-11 14:42
本文所公开的是一种用于检测基因序列中的缺失的方法。所述方法包括由处理器接收训练测序数据,所述训练测序数据包括与具有缺失的基因序列和不具有缺失的基因序列相关的多个训练读段。所述处理器将所述多个训练读段中的每一个训练读段分割成比所述训练读段短的多个训练区段,并利用所述多个区段训练机器学习模型。所述处理器接收包括多个测试读段的测试测序数据,将所述多个测试读段中的每一个测试读段分割成多个测试区段,并且针对所述多个测试区段评估经训练的机器学习模型,以检测所述测试测序数据中的缺失。不需要比对或变体识别,这显著降低了评估步骤的计算复杂性。这显著降低了评估步骤的计算复杂性。这显著降低了评估步骤的计算复杂性。

【技术实现步骤摘要】
【国外来华专利技术】寡核苷酸序列中的缺失检测
[0001]相关申请的交叉引用
[0002]本申请要求澳大利亚临时申请2020903839的优先权,所述澳大利亚临时申请的内容通过引用整体并入本文。


[0003]本公开涉及检测基因组中的缺失。

技术介绍

[0004]近年来,通过引入边合成边测序已经促进了对整个人类基因组的分析,在所述边合成边测序中,并行读取大量相对较短的DNA、RNA或其它寡核苷酸序列的片段。然后通常将这些

读段

与参考基因组比对,以检测变异,如单核苷酸多态性,其中一个核苷酸碱基改变为不同的碱基。
[0005]另一变体形式是结构变体,所述结构变体包含缺失。然而,从短的读段中检测缺失是困难的,因为缺失的区域通常比单个读段长,这使得比对过程在计算上昂贵且不准确。
[0006]已包含在本说明书中的对文献、动作、材料、装置、制品等的任何论述不应由于其在所附权利要求中的每一个的优先权日期之前已存在而被视为承认这些内容中的任一个或全部形成现有技术基础的部分或者是与本公开相关的领域中的公知常识。本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于检测基因序列中的缺失的计算机实施的方法,所述方法包括:接收训练测序数据,所述训练测序数据包括与具有缺失的基因序列和不具有缺失的基因序列相关的多个训练读段;将所述多个训练读段中的每一个训练读段分割成比所述训练读段短的多个训练区段;利用所述多个区段训练机器学习模型;接收包括多个测试读段的测试测序数据;将所述多个测试读段中的每一个测试读段分割成多个测试区段;以及针对所述多个测试区段评估经训练的机器学习模型,以检测所述测试测序数据中的缺失。2.根据权利要求1所述的方法,其中所述训练区段和所述测试区段是k聚体。3.根据权利要求1或2所述的方法,其中所述测试测序数据由测序仪生成。4.根据权利要求3所述的方法,其中所述测试测序数据由所述测序仪以FASTQ文件的形式提供。5.根据前述权利要求中任一项所述的方法,其中所述机器学习模型是神经网络。6.根据权利要求5所述的方法,其中所述神经网络包括门控递归单元。7.根据权利要求6所述的方法,其中所述神经网络包括双向门控递归单元,以处理所述训练测序数据和所述测试测序数据的正向和反向读段方向。8.根据权利要求7所述的方法,其中所述方法进一步包括对所述区段进行编码,并将经编码的区段直接用作所述双向门控递归单元的输入。9.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括在图形处理单元上执行所述方法的一个或多个步骤。10.根据前述权利要求中任一项所述的...

【专利技术属性】
技术研发人员:T
申请(专利权)人:吉尼尤斯基因组学股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1