减少测序平台特异性错误的体细胞突变检测装置及方法制造方法及图纸

技术编号:33362563 阅读:76 留言:0更新日期:2022-05-11 22:18
突变检测装置包括:存储器,其用于存储神经网络实现软件;以及处理器,其用于运行所述软件,检测突变,处理器用于生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据,预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据,通过神经网络,基于图像数据,检测出检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(false positive)。positive)。positive)。

【技术实现步骤摘要】
【国外来华专利技术】减少测序平台特异性错误的体细胞突变检测装置及方法


[0001]本公开涉及一种突变检测方法以及实施其方法的装置,更具体地,本公开涉及一种应用神经网络检测突变的装置以及方法,该神经网络可以通过学习减少测序平台特异性错误。

技术介绍

[0002]二代测序(NGS,next generation sequencing)是指将DNA分成多个片段,进行并列测序的方式。二代测序与传统的一代测序(Sanger sequencing)不同,可以同时分析多个DNA片段,因此,在分析时间、分析费用和分析精确度方面,更有利。
[0003]图1示出了对比二代测序110和一代测序120的曲线图100。如曲线图100所示,二代测序110的性能优于一代测序120。另外,如曲线图100的横轴所示,二代测序110可以具有多种读长(read length)。
[0004]二代测序可以用于癌症患者的DNA测序,以检测出突变。可以采用二代测序方式,通过DNA测序的多种软件检测出癌细胞的突变。
[0005]采用传统软件检测突变时,特别是,通过短读测序(short read sequencing)等特定测序平台进行DNA测序时,由于该测序平台的特征,即使实际上没有突变,也会被误检为突变,出现假阳性(false positive)。这种测序平台上发生的特异假阳性会降低突变检测的精确度。
[0006]因此,为了防止测序平台上出现特异假阳性而降低突变检测的精确度,需要改善突变检测方式。

技术实现思路

[0007]所要解决的课题
[0008]本公开的目的在于,消除传统软件中出现的问题,解决因测序平台上出现特异假阳性而降低突变检测精确度的问题,改善突变检测的性能。
[0009]课题解决方案
[0010]作为解决上述技术问题的技术手段,本公开在一方面提供一种突变检测装置,其特征在于,包括:存储器,其用于存储神经网络实现软件;以及处理器,其用于运行所述软件,检测突变,所述处理器用于生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据,预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据,通过所述神经网络,基于所述图像数据,检测出所述检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(false positive)。
[0011]本公开在另一方面提供一种运行神经网络实现软件而检测突变的方法,其包括以下步骤:生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据;预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据;通过所述神经
网络,基于所述图像数据,检测出所述检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(false positive)。
[0012]专利技术效果
[0013]在检测突变的过程中,本公开的装置和方法可以应用神经网络,神经网络可以经过预学习,更正测序平台上发生的特异假阳性,从而防止因测序平台上出现特异假阳性而降低突变检测的精确度。特别是,与传统统计方式不同,其可以对于突变检测应用神经网络,依据相较于传统方式更强的性能检测突变。
附图说明
[0014]图1是对比二代测序方式和传统测序方式的曲线图;
[0015]图2示出了部分实施例的神经网络;
[0016]图3示出了部分实施例的突变检测过程;
[0017]图4是部分实施例中,突变检测装置构件的框图;
[0018]图5示出了部分实施例中,神经网络的结构及学习方式;
[0019]图6示出了部分实施例中,神经网络学习数据的生成过程;
[0020]图7是部分实施例中,构成突变检测方法的步骤的流程图。
具体实施方式
[0021]以下,参考附图详细描述本公开的实施例。以下记载仅用于具体描述实施例,并非用于限制或限定本公开的权利要求书。应当解释为,本公开所属
的通常技术人员轻易从本专利技术的说明书和实施例类推的内容均应属于本公开的权利要求范围内。
[0022]本公开采用的术语为本公开所属
广泛应用的通常术语,但,本公开中术语的含义可能会根据该
从业人员的意图、新技术的出现、审查标准或判例等发生变化。部分术语可以由申请人任意选择,此时,将详细说明任意选择的术语的含义。应当解释为,本公开采用的术语并不是仅具有词典上解释的含义,其含义反映了说明书的整体思路。
[0023]不应当解释为,本公开采用的“构成”、“包括”等术语必须包括说明书中记载的所有构件或步骤,且应当解释为,不包括部分构件或步骤时以及进一步包括附加的构件或步骤时,也源自该术语。
[0024]本公开采用的包括“第一”或“第二”等序数的术语可以用于描述多种构件或步骤,但,该构件或步骤不应该受到序数的限定。应当解释为,包括序数的术语仅用于将一构件或步骤与另外构件或步骤区别开。
[0025]以下,参考附图详细描述本公开的实施例。本公开所属
的通常技术人员周知的内容,此处省略,不再赘述。
[0026]图2示出了部分实施例的神经网络。
[0027]图2示出了构成神经网络200的构件。神经网络200为人工实现的神经网络,除了输入层和输出层之外,还具备隐藏层,可以有效实施多种非线性功能。神经网络200包括多个隐藏层,可以相当于深度神经网络(deep neural network)。除了图2举例示出的结构之外,神经网络200还可以实现为循环神经网络(RNN)或卷积神经网络(CNN)等多种架构。
[0028]神经网络200经过学习可以成为调整数值的模式,该数值为构成神经网络200的各种参数。神经网络200依据多种机器学习及深度学习方式妥当进行学习时,可以高性能实施基于学习目的的功能。由此,除了语音识别、自然语言及图像分析等领域之外,神经网络200还可以广泛应用于多种领域。特别是,如本公开,为了解决传统技术中存在的技术问题,神经网络200可以应用于突变检测等生物领域。
[0029]图3示出了部分实施例的突变检测过程。
[0030]如图3所示,可以在突变检测装置300内,对于第一基因组数据310和第二基因组数据320实施一系列的处理过程,并生成突变检测结果350。如下述,突变检测装置300的运行方式如图4所示的装置400。
[0031]装置300内部的一系列处理过程可以通过软件乃至程序形态实现。装置300内部的一系列处理过程的各个步骤可以通过实施特定功能的模块实现,如图像生成模块330或突变检测模块340等。例如,实现一系列处理过程的软件可以呈现为派森(Python)脚本形态,在LINUX CentOS release 7.6等环境中运行。
[0032]第一基因组数据310可以意味着提取自检测目标细胞的基因组数据。检测目标细胞是成为突变检测对象的细胞,可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,是突变检测装置,其特征在于,包括:存储器,其用于存储神经网络实现软件;以及处理器,其用于运行所述软件,检测突变,所述处理器用于生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据,预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据,通过所述神经网络,基于所述图像数据,检测出所述检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(false positive)。2.根据权利要求1所述的装置,其特征在于:所述神经网络经过学习,可以基于第一学习图像数据和第二学习图像数据,辨别所述正常突变和误检突变,其中,第一学习图像数据表示与正常检测的正常突变相关的学习数据,第二学习图像数据表示因所述假阳性误检为突变的相关学习数据。3.根据权利要求2所述的装置,其特征在于:基于相同学习用细胞的长读测序(long read sequencing)及短读测序(short read sequencing)结果,生成所述第一学习图像数据和所述第二学习图像数据。4.根据权利要求2所述的装置,其特征在于:所述第一学习图像数据和所述第二学习图像数据包括基因序列(gene sequence)、插入/缺失(indel,insertion/deletion)和映射质量(mapping quality)中至少一个。5.根据权利要求1所述的装置,其特征在于:所述神经网络是卷积神经网络(CNN,convolutional neural network),其从所述图像数据提取特征(feature),基于所述特征,计算所述检测目标细胞的基因发生突变的概率。6.根据权利要求1所述的装置,其特征在于:所述处理器基于映射质量及深度(depth),补正所述第一基因组数据和所述第二基因组数据,进行所述预处理。7.根据权利要求1所述的装置,其特征在于:从所述检测目标细胞检测出的突变是体细胞单核苷酸变异(sSNV,somatic single nucleotide variant)。8....

【专利技术属性】
技术研发人员:白大铉安埈鹤全贤星金徒延
申请(专利权)人:首尔大学校产学协力团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1