基因变异的识别方法及装置、电子设备和存储介质制造方法及图纸

技术编号:24013017 阅读:48 留言:0更新日期:2020-05-02 02:23
本公开涉及一种基因变异的识别方法及装置、电子设备和存储介质。所述方法包括:确定覆盖基因变异的候选位点的至少一个读序;确定包含所述候选位点的位点区间;根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征;基于所述候选位点的特征,对所述候选位点进行基因变异识别。本公开实施例能够提高基因变异识别的准确性。

Identification method, device, electronic equipment and storage medium of gene mutation

【技术实现步骤摘要】
基因变异的识别方法及装置、电子设备和存储介质
本公开涉及计算机
,尤其涉及一种基因变异的识别方法及装置、电子设备和存储介质。
技术介绍
随着生物技术的发展,通过基因测序技术可以测定人类的碱基序列。基因测序技术在基因组研究、疾病医疗研究、药物研发、育种等领域发挥重要作用。相比于第一代基因测序技术,第二代基因测序技术极大地提高了基因测序的效率,降低了基因测序的成本,并能生成更大的原始基因测序数据。然而,第二代基因测序技术同时还会产生更多的噪声和错误。如何从海量的基因测序数据中筛掉噪声和错误带来的干扰,对于第二代基因测序技术的应用具有重要意义。
技术实现思路
本公开提供了一种基因变异的识别技术方案。根据本公开的一方面,提供了一种一种基因变异的识别方法,包括:确定覆盖基因变异的候选位点的至少一个读序;确定包含所述候选位点的位点区间;根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征;基于所述候选位点的特征,对所述候选位点进行基因变异识别。通过确定覆盖基因变异的候选位点的至少一个读序,确定包含所述候选位点的位点区间,根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征,并基于所述候选位点的特征,对所述候选位点进行基因变异识别,由此利用覆盖候选位点及其附近的位点的读序中出现变异的情况处理假阳问题,从而能够更好地对基因变异候选位点进行的基因变异识别,将基因变异的位点与由于比对错误、测序噪声或者测序错误等造成干扰的位点进行区分,提高基因变异识别的准确性。在一种可能的实现方式中,所述根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征,包括:确定在所述位点区间的至少一个位点上,所述至少一个读序中属于正常组织样本的读序中出现变异的读序数目;确定在所述位点区间的至少一个位点上,所述至少一个读序中属于病变组织样本的读序中出现变异的读序数目;根据在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中出现变异的读序数目,以及所述属于病变组织样本的读序中出现变异的读序数目,确定所述候选位点的特征。在该实现方式中,在确定所述候选位点的特征时,将所述至少一个读序分为属于正常组织样本的读序和属于病变组织样本的读序,并根据在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中出现变异的读序数目,以及所述属于病变组织样本的读序中出现变异的读序数目,确定所述候选位点的特征,由此能够提高对所述候选位点进行基因变异识别的准确性。在一种可能的实现方式中,所述确定在所述位点区间的至少一个位点上,所述至少一个读序中属于正常组织样本的读序中出现变异的读序数目,包括:确定在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中的第一类正常读序中出现变异的读序数目,其中,所述第一类正常读序为所述属于正常组织样本的读序中在所述候选位点处与参考基因组的碱基一致的读序;确定在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中的第二类正常读序中出现变异的读序数目,其中,所述第二类正常读序为所述属于正常组织样本的读序中在所述候选位点处与所述候选位点对应的候选变异的碱基一致的读序;确定在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中的第三类正常读序中出现变异的读序数目,其中,所述第三类正常读序为所述属于正常组织样本的读序中除所述第一类正常读序和所述第二类正常读序以外的读序。通过上述方式,在确定候选位点的特征时,将所述属于正常组织样本的读序划分为第一类正常读序、第二类正常读序和第三类正常读序,并根据在所述位点区间的至少一个位点上,第一类正常读序、第二类正常读序和第三类正常读序中出现变异的读序数目,确定所述候选位点的特征,由此能够提高对所述候选位点进行基因变异识别的准确性。在一种可能的实现方式中,所述确定在所述位点区间的至少一个位点上,所述至少一个读序中属于病变组织样本的读序中出现变异的读序数目,包括:确定在所述位点区间的至少一个位点上,所述属于病变组织样本的读序中的第一类病变读序中出现变异的读序数目,其中,所述第一类病变读序为所述属于病变组织样本的读序中在所述候选位点处与参考基因组的碱基一致的读序;确定在所述位点区间的至少一个位点上,所述属于病变组织样本的读序中的第二类病变读序中出现变异的读序数目,其中,所述第二类病变读序为所述属于病变组织样本的读序中在所述候选位点处与所述候选位点对应的候选变异的碱基一致的读序;确定在所述位点区间的至少一个位点上,所述属于病变组织样本的读序中的第三类病变读序中出现变异的读序数目,其中,所述第三类病变读序为所述属于病变组织样本的读序中除所述第一类病变读序和所述第二类病变读序以外的读序。通过上述方式,在确定候选位点的特征时,将所述属于病变组织样本的读序划分为第一类病变读序、第二类病变读序和第三类病变读序,并根据在所述位点区间的至少一个位点上,第一类病变读序、第二类病变读序和第三类病变读序中出现变异的读序数目,确定所述候选位点的特征,由此能够提高对所述候选位点进行基因变异识别的准确性。在一种可能的实现方式中,所述根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征,包括:确定在所述位点区间的至少一个位点上,所述至少一个读序中的第一类读序中出现变异的读序数目,其中,所述第一类读序为所述至少一个读序中在所述候选位点处与参考基因组的碱基一致的读序;确定在所述位点区间的至少一个位点上,所述至少一个读序中的第二类读序中出现变异的读序数目,其中,所述第二类读序为所述至少一个读序中在所述候选位点处与所述候选位点对应的候选变异的碱基一致的读序;确定在所述位点区间的至少一个位点上,所述至少一个读序中的第三类读序中出现变异的读序数目,其中,所述第三类读序为所述至少一个读序中除所述第一类读序和所述第二类读序以外的读序;根据在所述位点区间的至少一个位点上,所述第一类读序中出现变异的读序数目、所述第二类读序中出现变异的读序数目以及所述第三类读序中出现变异的读序数目,确定所述候选位点的特征。在该实现方式中,在确定候选位点的特征时,将所述至少一个读序划分为第一类读序、第二类读序和第三类读序,针对第一类读序、第二类读序和第三类读序,分别确定在所述位点区间的至少一个位点上,出现变异的读序数目,并由此确定所述候选位点的特征,从而能够提高对所述候选位点进行基因变异识别的准确性。在一种可能的实现方式中,所述根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征,包括:根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,以及所述至少一个读序中覆盖所述位点区间的位点的读序数目,确定所述候选位点的特征。本文档来自技高网...

【技术保护点】
1.一种基因变异的识别方法,其特征在于,包括:/n确定覆盖基因变异的候选位点的至少一个读序;/n确定包含所述候选位点的位点区间;/n根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征;/n基于所述候选位点的特征,对所述候选位点进行基因变异识别。/n

【技术特征摘要】
1.一种基因变异的识别方法,其特征在于,包括:
确定覆盖基因变异的候选位点的至少一个读序;
确定包含所述候选位点的位点区间;
根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征;
基于所述候选位点的特征,对所述候选位点进行基因变异识别。


2.根据权利要求1所述的方法,其特征在于,所述根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征,包括:
确定在所述位点区间的至少一个位点上,所述至少一个读序中属于正常组织样本的读序中出现变异的读序数目;
确定在所述位点区间的至少一个位点上,所述至少一个读序中属于病变组织样本的读序中出现变异的读序数目;
根据在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中出现变异的读序数目,以及所述属于病变组织样本的读序中出现变异的读序数目,确定所述候选位点的特征。


3.根据权利要求2所述的方法,其特征在于,所述确定在所述位点区间的至少一个位点上,所述至少一个读序中属于正常组织样本的读序中出现变异的读序数目,包括:
确定在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中的第一类正常读序中出现变异的读序数目,其中,所述第一类正常读序为所述属于正常组织样本的读序中在所述候选位点处与参考基因组的碱基一致的读序;
确定在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中的第二类正常读序中出现变异的读序数目,其中,所述第二类正常读序为所述属于正常组织样本的读序中在所述候选位点处与所述候选位点对应的候选变异的碱基一致的读序;
确定在所述位点区间的至少一个位点上,所述属于正常组织样本的读序中的第三类正常读序中出现变异的读序数目,其中,所述第三类正常读序为所述属于正常组织样本的读序中除所述第一类正常读序和所述第二类正常读序以外的读序。


4.根据权利要求2或3所述的方法,其特征在于,所述确定在所述位点区间的至少一个位点上,所述至少一个读序中属于病变组织样本的读序中出现变异的读序数目,包括:
确定在所述位点区间的至少一个位点上,所述属于病变组织样本的读序中的第一类病变读序中出现变异的读序数目,其中,所述第一类病变读序为所述属于病变组织样本的读序中在所述候选位点处与参考基因组的碱基一致的读序;
确定在所述位点区间的至少一个位点上,所述属于病变组织样本的读序中的第二类病变读序中出现变异的读序数目,其中,所述第二类病变读序为所述属于病变组织样本的读序中在所述候选位点处与所述候选位点对应的候选变异的碱基一致的读序;
确定在所述位点区间的至少一个位点上,所述属于病变组织样本的读序中的第三类病变读序中出现变异的读序数目,其中,所述第三类病变读序为所述属于病变组织样本的读序中除所述第一类病变读序和所述第二类病变读序以外的读序。


5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征,包括:
根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,以及所述至少一个读序中覆盖所述位点区间的位点的读序数目,确定所述候选位点的特征。


6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,确定所述候选位点的特征,包括:
根据在所述位点区间的至少一个位点上,所述至少一个读序中出现变异的读序数目,以及参考基因组在所述位点区间的碱基序列,确定所述候选位点的特征。


7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述位点区间的中点为所述候选位点,且所述位点区间的长度为预设长度。


8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述基于所述候选位点的特征,对所述候选位点进行基因变异识别,包括:
将所述候选位点的特征输入神经网络,经由所述神经网络对所述候选位点进行基因变异识别,确定所述候选位点的基因变异识别结果。


9.根据权利要求8所述的方法,其特征在于,在所述将所述候选位点的特征输入神经网络之前,所述方法还包括:
采用具有高差异区域和/或多误匹配区域的样本,训练所述神经网络。


10.根据权利要求9所述的...

【专利技术属性】
技术研发人员:胡志强
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1