当前位置: 首页 > 专利查询>清华大学专利>正文

多类生物序列注释的整合方法技术

技术编号:22078761 阅读:56 留言:0更新日期:2019-09-12 15:12
本发明专利技术公开了一种多类生物序列注释的整合方法,包括:从生物测序数据中选取一种生物测序数据作为主要生物序列集,其余的作为辅助生物序列集;建立序列‑基因关联映射集;据基因转录起始点获取该基因的基础关联区域和扩展关联区域;对于主要生物序列集的序列,遍历基因的扩展关联区域,若序列所在的区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列‑基因关联映射;对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果采用超几何检验、二项检验计算显著性;对两种方法得到的注释分别排序,并对相同的注释的排序的序号相加后再次排序作为多种生物序列数据的注释结果。本发明专利技术实现综合各种特征的注释,在医疗领域具有应用价值。

Integration of annotations for multiple biological sequences

【技术实现步骤摘要】
多类生物序列注释的整合方法
本专利技术涉及生物
,具体地说,涉及多类生物序列注释的整合方法。
技术介绍
基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列。伴随着生物医学技术的发展,在精准医疗领域,通过测序等方法来对患者进行分析、从而实现精准治疗的技术也已经日趋完善。然而,由于市面上的众多测序方法缺乏统一的标准,它们面向的位点以及数据分布特性具有非常大的区别,这也制约了精准诊断领域的进一步发展。针对这一问题,尝试整合多类数据,对各种测序的序列区域进行功能、特性等方面的注释,从而进行进一步的分析和诊断,是一种有效的解决方案。然而在产业界中很少有技术尝试来解决该类问题,主要原因有以下几点:1.各种测序数据测得的结果分布和数据质量有很大区别,缺少一个有效的规则将所有数据整合处理。2.在进行数据整合的过程中,需要有一套量化尺度作为整合中的判据,进而需求一种有效的算法来量化不同类别的测序数据。3.大量的测序序列位于没有先验功能标注的区域,缺少足够的注释知识。
技术实现思路
为解决以上问题,本专利技术提供一种多类生物序列注释的整合方法,包括以下步骤:1)组织数据从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集;21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;4)统计检验41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;42)根据参考数据进行统计检验,对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;5)排名输出通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。此外,优选地,还包括步骤3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化,包括以下步骤:31)对于基因组上的各基因的基础关联区域,遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值;32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值;33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值,并删除不都大于第一阈值的序列和基因之间的映射关联,从而得到一个筛选过的序列-基因关联映射集。此外,优选地,超几何检验公式如下:其中P-valueh是在序列-基因关联映射集下的超几何检验富集显著性;N代表序列-基因关联映射集涉及的物种的基因组中的基因总数;n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数;Kt代表n个基因中和注释条目t有关的基因的数目;i代表第i个基因;t是注释条目。此外,优选地,二项检验公式如下:其中p-valueb是在序列-基因关联映射集下的二项检验富集显著性;其中c代表序列-基因关联映射集中序列的个数;pt代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例;wt代表序列-基因关联映射集中关联基因有注释条目t的序列的个数;j代表第j个基因;m代表序列-基因关联映射集中涉及的主要生物序列集中生物序列的个数;t是注释条目。此外,优选地,步骤3)中计算单个位点的量化值的公式如下:其中S是该位点的量化值,Fu为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时,和第u个窗口有交集的生物序列的个数;B为以该位点前后总长度为lB的背景区域中有交集的生物序列的总个数。此外,优选地,步骤22中,从每个基因的基础关联区域起止点同时向上游和下游延伸,直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止,形成每个基因的扩展关联区域,其中,总的关联区域长度是基础关联区域与扩展关联区域的和。此外,优选地,步骤21中,将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。此外,优选地,选取主要生物序列集的依据是:分析数据的测序方法和数据的测序深度,并根据方法的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集。此外,优选地,所述第一阈值为5到10。本专利技术的多类生物序列注释的整合方法具有以下技术效果:(1)能够整合多种不同来源、不同种类的生物序列的数据,从而实现综合各种特征的注释,在医疗领域具有广泛的应用价值。(2)使用了基于可变长度的基因-序列映射关联规则,保证大部分生物序列都能够和周边的基因关联起来,提高测序实验数据的利用率。(3)提供了一种量化生物序列分布情况的计算方法,对于各种类别的生物序列都有着很出色的量化能力,从而更加准确地生成注释结果。(4)使用多种统计检验方法,将计算得到的注释结果按照统计显著性综合考量,增加了注释的可信度。附图说明通过结合下面附图对其实施例进行描述,本专利技术的上述特征和技术优点将会变得更加清楚和容易理解。图1是表示本专利技术实施例的多类生物序列注释的整合方法的步骤示意图。具体实施方式下面将参考附图来描述本专利技术所述的多类生物序列注释的整合方法的实施例。本领域的普通技术人员可以认识到,在不偏离本专利技术的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。本实施例的多类生物序列注释的整合方法,如图1所示,其包括以下步骤:1)组织数据针对同一生物个体的不同方法的生物测序数据结果进行分析,首先分析数据的测序方法和数据的测序深度,并根据测序方法(比如测量染色质活跃程度的ATAC-seq方法,测量DNA甲基化程度的MeDIP方法等等)的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集,其余生物序列集为辅助生物序列集。其中,测序深度是指测序得到的碱基总量与基因组大小的比值,它是评价测序量的指标之一。2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集,其中,测序序列调控是指基因的表达程度受周边特定区域的调控,而这些区域因其活跃性,往往在各种测序方法中非常容易被探测到,构成测序序列。21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基本文档来自技高网...

【技术保护点】
1.一种多类生物序列注释的整合方法,其特征在于,包括以下步骤:1)组织数据从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;2)建立测序序列与测序序列调控的基因之间的序列‑基因关联映射集;21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列‑基因关联映射,从而形成序列‑基因关联映射集;4)统计检验41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;42)根据参考数据进行统计检验,对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;5)排名输出通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列‑基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。...

【技术特征摘要】
1.一种多类生物序列注释的整合方法,其特征在于,包括以下步骤:1)组织数据从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集;21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;4)统计检验41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;42)根据参考数据进行统计检验,对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;5)排名输出通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。2.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:还包括步骤3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化,包括以下步骤:31)对于基因组上的各基因的基础关联区域,遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值;32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值;33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值,并删除不都大于第一阈值的序列和基因之间的...

【专利技术属性】
技术研发人员:江瑞宋绍铭
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1