一种基因变异识别方法、装置和存储介质制造方法及图纸

技术编号:21550224 阅读:19 留言:0更新日期:2019-07-06 22:52
本公开涉及基因变异识别方法、装置和存储介质,其中,该方法包括:获取基因变异候选位点对应的至少一个基因测序读段;获取所述基因变异候选位点的碱基排列特征;基于所述至少一个基因测序读段在预设位点区间的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征;其中,所述非碱基排列特征在碱基排列顺序改变后保持不变;基于所述基因变异候选位点的碱基排列特征和非碱基排列特征,对所述基因变异候选位点的基因变异进行识别。本公开实施例可以考虑非碱基排列特征不受碱基排列顺序制约的特点,更好地筛除由于胚系基因变异以及噪声、错误等干扰造成的伪基因变异,更好地对基因变异进行识别,提高基因变异识别的准确性。

A Method, Device and Storage Medium for Recognition of Gene Variation

【技术实现步骤摘要】
一种基因变异识别方法、装置和存储介质
本公开涉及计算机
,尤其涉及一种基因变异识别方法、装置和存储介质。
技术介绍
随着生物技术的发展,通过基因测序技术可以测定人类基因的序列,碱基序列的分析可以作为进一步基因研究和改造的基础。目前,基因的二代测序技术相比于一代测试技术而言,极大地提高了基因测序的效率,降低了基因测序的成本,并且保持了基因测序的准确行性。第一代测试技术如果完成一个人类基因组的测序可能需要3年的时间,而使用二代测序技术则可以将时间缩短为仅仅1周。虽然二代测序技术可以生成更大的原始基因测试数据,但是同时还会产生更多的噪声和错误。如何从海量的基因测试数据中识别体细胞基因的变异,筛掉胚系基因变异以及由于噪声和错误带来的干扰,对于二代测序技术的应用具有重要意义。
技术实现思路
有鉴于此,本公开提出了一种基因变异识别技术方案。根据本公开的一方面,提供了一种基因变异识别方法,所述方法包括:获取基因变异候选位点对应的至少一个基因测序读段;获取所述基因变异候选位点的碱基排列特征;基于所述至少一个基因测序读段在预设位点区间的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征;其中,所述非碱基排列特征在碱基排列顺序改变后保持不变;基于所述基因变异候选位点的碱基排列特征和非碱基排列特征,对所述基因变异候选位点的基因变异进行识别。在一种可能的实现方式中,所述获取所述基因变异候选位点的碱基排列特征,包括:确定所述基因变异候选位点所在的预设位点区间;根据参考基因组在所述预设位点区间的碱基排列信息,获取所述基因变异候选位点的碱基排列特征;其中,所述碱基排列特征用于表征碱基排列顺序。在一种可能的实现方式中,所述基于所述至少一个基因测序读段在预设位点区间的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:获取所述至少一个基因测序读段在所述预设位点区间中每个位点的非碱基排列信息;基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:在所述基因测序读段中,确定在所述基因变异候选位点与参考基因组的碱基类型一致的第一基因测序读段;根据所述预设位点区间中每个位点对应的第一基因测序读段的数量,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:在所述基因测序读段中,确定在所述基因变异候选位点与参考基因组的碱基类型一致的第一基因测序读段;在所述预设位点区间中的每个位点,确定所述第一基因测序读段的碱基类型与参考基因组的碱基类型不一致的第一基因测序读段的数量,作为第一基因测序读段的变异数量;根据所述第一基因测序读段的变异数量,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:在所述基因测序读段中,确定在所述基因变异候选位点与基因变异候选位点的变异碱基类型一致的第二基因测序读段;根据所述预设位点区间中每个位点对应的第二基因测序读段的数量,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:在所述基因测序读段中,确定在所述基因变异候选位点与基因变异候选位点的变异碱基类型一致的第二基因测序读段;在所述预设位点区间中的每个位点,确定所述第二基因测序读段的碱基类型与参考基因组的碱基类型不一致的第二基因测序读段的数量,作为第二基因测序读段的变异数量;根据所述第二基因测序读段的变异数量,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:确定所述基因测序读段中的第三基因测序读段;其中,所述第三基因测序读段在基因变异候选位点的碱基类型与参考基因组的碱基类型不一致,并且,第三基因测序读段在基因变异候选位点的碱基类型与基因变异候选位点的变异碱基类型不一致;根据所述预设位点区间中每个位点对应的第三基因测序读段的数量,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:确定所述基因测序读段中的第三基因测序读段;其中,所述第三基因测序读段在基因变异候选位点的碱基类型与参考基因组的碱基类型不一致,并且,第三基因测序读段在基因变异候选位点的碱基类型与基因变异候选位点的变异碱基类型不一致;在所述预设位点区间中的每个位点,确定所述第三基因测序读段的碱基类型与参考基因组的碱基类型不一致的第三基因测序读段的数量,作为所述第三基因测序读段的变异数量;根据所述第三基因测序读段的变异数量,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:确定所述至少一个基因测序读段中来源于正常细胞的基因测序读段;基于所述正常细胞的基因测序读段在所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:确定所述至少一个基因测序读段中来源于病变细胞的基因测序读段;基于所述病变细胞的基因测序读段在所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征。在一种可能的实现方式中,所述基于所述基因变异候选位点的碱基排列特征和非碱基排列特征,对所述基因变异候选位点的基因变异进行识别,包括:根据所述基因变异候选位点的碱基排列特征和非碱基排列特征,得到所述基因变异候选位点的特征矩阵;其中,所述特征矩阵的第一维度特征对应于所述基因变异候选位点的碱基排列特征和非碱基排列特征,所述特征矩阵的第二维度特征对应于所述预设位点区间的位点;根据所述基因变异候选位点的特征矩阵,对所述基因变异候选位点的基因变异进行识别。在一种可能的实现方式中,所述根据所述基因变异候选位点的特征矩阵,对所述基因变异候选位点的基因变异进行识别,包括:根据所述基因变异候选位点的特征矩阵,得到所述基因变异候选位点的基因发生变异的变异值;在所述变异值大于或等于预设阈值的情况下,确定所述基因变异候选位点的基因存在变异。在一种可能的实现方式中,所述根据所述基因变异候选位点的碱基排列特征和非碱基排列特征,得到所述基因变异候选位点的特征矩阵,包括:根据所述基因变异候选位点的碱基排列特征和非碱基排列特征,生成所述预设位点区间的每个第一维度特征的特征向量;确定所述特征向量中碱基排列特征形成的碱基排列特征向量;对所述碱基排列特征向量进行随机排序,得到所述基因变异候选位点的特征矩阵。在一种可能的实现方式中,获取基因变异候选位点对应本文档来自技高网...

【技术保护点】
1.一种基因变异识别方法,其特征在于,所述方法包括:获取基因变异候选位点对应的至少一个基因测序读段;获取所述基因变异候选位点的碱基排列特征;基于所述至少一个基因测序读段在预设位点区间的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征;其中,所述非碱基排列特征碱基排列顺序改变后保持不变;基于所述基因变异候选位点的碱基排列特征和非碱基排列特征,对所述基因变异候选位点的基因变异进行识别。

【技术特征摘要】
1.一种基因变异识别方法,其特征在于,所述方法包括:获取基因变异候选位点对应的至少一个基因测序读段;获取所述基因变异候选位点的碱基排列特征;基于所述至少一个基因测序读段在预设位点区间的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征;其中,所述非碱基排列特征碱基排列顺序改变后保持不变;基于所述基因变异候选位点的碱基排列特征和非碱基排列特征,对所述基因变异候选位点的基因变异进行识别。2.根据权利要求1所述的方法,其特征在于,所述获取所述基因变异候选位点的碱基排列特征,包括:确定所述基因变异候选位点所在的预设位点区间;根据参考基因组在所述预设位点区间的碱基排列信息,获取所述基因变异候选位点的碱基排列特征;其中,所述碱基排列特征用于表征碱基排列顺序。3.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个基因测序读段在预设位点区间的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:获取所述至少一个基因测序读段在所述预设位点区间中每个位点的非碱基排列信息;基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征。4.根据权利要求3所述的方法,其特征在于,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:在所述基因测序读段中,确定在所述基因变异候选位点与参考基因组的碱基类型一致的第一基因测序读段;根据所述预设位点区间中每个位点对应的第一基因测序读段的数量,确定所述基因变异候选位点的非碱基排列特征。5.根据权利要求3所述的方法,其特征在于,所述基于所述预设位点区间中每个位点的非碱基排列信息,确定所述基因变异候选位点的非碱基排列特征,包括:在所述基因测序读段中,确定在所述基因变异候选位点与参考基因组的碱基类型一致的第一基因测序读段;在所述预设位点区间中的每个位点,确定所述第一基因测序读段的碱基类型与参考基因组的碱基类型不一致的第一基因测序读段的数量,作为第一基...

【专利技术属性】
技术研发人员:胡志强
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1