分析关于生物体的基因数据的计算机实现的方法技术

技术编号:27585835 阅读:16 留言:0更新日期:2021-03-10 10:00
公开了用于分析关于生物体的基因数据的方法。在一种配置中,输入单元来自于提供关于基因变异(genetic variants)和表型之间的关联信息的研究。基于对输入单元共享基因变异的程度的评估,所述基因变异影响对应于每一个输入单元的表型的任何方面或所述表型的任何潜在生物学机制,将输入单元分配至多个集群中的一个,从而鉴定共享潜在生物学机制的表型。从而鉴定共享潜在生物学机制的表型。从而鉴定共享潜在生物学机制的表型。

【技术实现步骤摘要】
【国外来华专利技术】分析关于生物体的基因数据的计算机实现的方法


[0001]本申请涉及一种分析和说明关于生物体的大量基因和表型数据以便理解其生物学的方法。

技术介绍

[0002]基因关联研究(GAS)评估自然发生的基因变异与给定表型之间的关系。自二十世纪中期以来,已经针对成千上万个(主要是人类)表型进行了GAS(通常是全基因组关联研究:GWAAS,或针对单变异的关联研究,或所述基因组区域内变异的关联研究,或限制于所述基因组的特定区域内的GWAS),在数百万个个体中,产生了数十亿个基因型和表型间的潜在联系。然后通常会简化所得的原始数据以生成概括统计数据。对每个基因变异(无论是估算或观察),GAS概括统计数据包括,所述基因变异对所述GAS的所述表型的推断效应量和所述推断效应量的标准误差(SE)。在下文中,我们将一个表型称为单项研究的同义词。但是,通常情况是,可以从针对相同或相似表型的多个不同研究中获得数据,或者从测量多个不同表型的单个队列中获得数据。
[0003]已经开发出许多不同的方法来使用来自GAS的数据以检测与多个表型或性状相关的基因变异(有时称为多效性)。索洛维耶夫等人于(2013)1以及哈金格和齐吉尼(2017)2在人类基因学领域提供了有用的论述。许多现有的“单点”方法分别分析每个基因变异位点。哈金格和齐吉尼(2017)的表1中提供了此类单点方法的示例,其中特别包括GPA3,MTAG4和EPS5。其他相关方法则侧重于所谓的“表达数量性状基因座”(eQTLs)。eQTL是一种解释了单个基因表达表型的所述变异的一部分的基因变异。值得注意的与eQTL相关的方法包括MT

eQTL6,aSPU7和SMR8。另一类相关方法是应用于原始GAS数据(而不是GAS概括统计数据)的单点方法。哈金格和齐吉尼(2017)的表2中提供了此类单点原始数据方法的示例,其中包括BUHMBOX9。
[0004]尽管GAS提供了有关所述基因变异与表型之间的关系的有价值的信息,但要在基因变异、基因或生物学途径与一种或多种表型之间建立强有力的因果联系,仍然存在相当大的挑战。一个困难是,所述基因组的给定区域内的基因变异通常相互关联,这种现象称为
连锁不平衡(LD)。LD的出现使得很难将对表型具有因果效应的基因变异(“因果变异”)和与其相关的其他基因变异区分开来。当正在研究的基因组的所述区域内存在两个或多个因果基因变异,并且来自这些不同因果基因变异的关联信号“渗出”以在其他基因变异处产生明显但虚假的信号(有时是指“虚假的多效性”)时,就会出现进一步的困难。当试图在多个表型的GAS中汇总信息以最大限度提高检测真实效应的统计能力时,这些问题又特别相关。虽然将许多(可能成百上千)GAS汇集在一起可以提高所述统计能力,但这提出了一个巨大的挑战,因为只有在表型已知共享相同因果变异时,汇集才在统计学上对所述表型适用。实际上,这种信息通常是不可用的,并且肯定不能在大量的表型中使用,其结果是在联合分析中不清楚应汇集哪些表型。即使在汇集也可能是基于所述表型的所述相似性的先验信息的情况下,表型之间因果变异的确切共享模式随所述基因组的不同区域而变化。对这些共享的因果变异进行推断对于获得对生物体的生物学的详细和有意义的见解(insights)至关重要。
[0005]上述任何一种单点方法都不能直接解决跨表型鉴定共享因果变异的问题,或者只能通过提议任意关联规则和LD强度以特别的方式(ad

hoc way)进行鉴定。这些局限性可以通过在所述基因组的相同区域内使用多个变异以明确推断不同表型的关联信号与相同因果变异是否有潜在一致性来克服(有时称为“共定位”)。
[0006]迄今为止,几乎所有共定位和相关方法一次只能应用两个GAS数据集。采用这种成对方法的方法包括coloc
10
,gwas

pw
11
,eCAVIAR
12
,enloc
13
和JLIM
14
。从这种成对的方法推断多个表型之间的关系是有问题的。两个主要限制是,首先,成对分析的数量随着GAS数量的增加呈二次方增长,因此,如果添加更多GAS(数据由成千上万的GAS提供),则无法很好地扩展;其次,当尝试检测由两个以上表型共享的信号时,这些方法的统计功能将会丢失。
[0007]最近,已经提出了使用GAS概括统计数据的方法,可以对两个以上的表型进行联合分析。2016年的出版物提出了RiVIERA

MT
15
方法,2017年的另一出版物提出了mcoloc
16
,类似于RiVIERA

MT的贝叶斯框架。但是,2017年出版物的作者指出“可能的组合数量随着性状数量的增加而呈指数增长,因此计算时间是一个限制因素,实际上,它最多可以适用于四个性状”。
[0008]考虑到现有的在先技术,仍然需要一种能够组合来自许多GAS的数据的方法(例如,大于50,优选大于100,更优选大于500,更优选大于1000,更优选大于5000)来推断在计算有效框架中共享因果关系变异的表型组。
[0009]当将GAS数据应用于不同类别的表型(涵盖从基因表达,通过内表型到二元和纵向端点的范围)时,这种方法将获得对生物体的生物学的更完整的了解(通过在变异和表型之
间,基因和表型之间,以及生物学途径和表型之间建立联系)。在整个基因组中,对共享因果变异的表型组的高效鉴定,不仅提供对个体生物学机制的具体见解(specificinsights)(通过确定基因变异以这样的方式干扰生物学,从而对已鉴定的表型组产生因果影响),而且还可以获得共享生物学机制的全面理解(通过分析整个基因组的表型分组模式)。在应用到人类GAS数据的情况下,这种计算机模拟方法将有助于洞悉生物学机制,否则将需要对人类受试者进行直接的,通常是侵入性的实验。

技术实现思路

[0010]本专利技术的目的是提供一种分析关于生物体的大量基因和表型数据的计算机实现的方法,该方法是可以扩展的,而没有过多的增加计算需求。
[0011]根据本专利技术的一个方面,提供了一种用于分析关于生物体的基因数据的计算机实现的方法,包括:接收包括多个输入单元的输入数据,其中每个输入单元源自提供沿着基因组的多个基因变异的每一个和对应于所述输入单元的表型之间的关联信息的研究;然后对生物体的所述基因组选择一个或多个区域;然后对于每个选定的区域,将所述每个输入单元分配至多个集群中的一个,所述输入单元的所述分配是基于在选定区域内输入单元共享基因变异的程度的评估,所述基变异影响对应于每一个输入单元的表型的任何方面或所述表型的任何潜在生物学机制,从而基于所述输入单元如何被分配至所述集群,来鉴定共享潜在生物学机制的表型。
[0012]通过分析大量的表型,可以表明许多因果基因变异会影响多个表型。这样的发现可以有效地将输入数据表示为一组隐藏的表型集群,这些表型沿着基因组变化。因为假定每个集群具有相似的因本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种分析关于生物体基因数据的计算机实现的方法,包括:接收包括多个输入单元的输入数据,其中每个输入单元源自提供沿着基因组的多个基因变异的每一个和对应于所述输入单元的表型之间的关联信息的研究;然后对生物体的所述基因组选择一个或多个区域;然后对于每个选定的区域,将所述每个输入单元分配至多个集群中的一个,所述输入单元的所述分配是基于在选定区域内输入单元共享基因变异的程度的评估,所述基变异影响对应于每一个输入单元的表型的任何方面或所述表型的任何潜在生物学机制,从而基于所述输入单元如何被分配至所述集群,来鉴定共享潜在生物学机制的表型。2.根据权利要求1所述的方法,其中,所述每个输入单元到多个集群中的一个的分配包括:计算所述每个输入单元与所述多个集群的每一个的相似性,所述相似性是基于输入单元共享基因变异的程度的评估。3.根据权利要求1或2所述的方法,其中,所述每个输入单元到多个集群中的一个的分配是基于采用概率模型对所述分配的评估。4.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配是基于采用贝叶斯模型对所述分配的评估。5.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配是迭代进行的。6.根据上述任一项权利要求所述的方法,其中,通过马尔科夫链蒙特卡洛算法来探索可能的集群分配的空间,并且将所述每个输入单元分配到多个集群中的一个是基于马尔科夫链所走路径的分析。7.根据上述任一项权利要求所述的方法,其中,在确定的区域内所述输入单元共享基因变异的程度的评估基于多个基因变异中一些或全部的关联度量或这种度量的模式之间的相似性的评估,所述基因变异影响对应于每一个输入单元的表型的任何方面或所述表型的任何潜在生物学机制。8.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配包括:对于所述输入单元的至少一个子集中的每一个,确定下列之间的相似度:i)所述输入单元的特征组;和ii)所述集群的特征组,其中,每个所述集群的所述特征组是预先确定的,或者是通过组合已经分配到所述集群的输入单元的信息来计算的。9.根据权利要求8所述的方法,其中:通过马尔科夫链蒙特卡洛算法来探索可能的集群分配的空间,并且基于马尔科夫链所走路径的分析将所述每个输入单元分配到多个集群中的一个,和所述马尔科夫链蒙特卡洛算法的一个步骤包括将所述输入单元中的一个以取决于所述输入单元的所述特征组和所述集群的所述特征组之间的相似度的概率,分配到多个集群中的一个。10.根据权利要求8或9所述的方法,其中,所述每个输入单元到多个集群中的一个的分配包括在多个可能性之间进行选择的步骤,所述多个可能性包括以下:以取决于所述输入单元的所述特征组和所述集群的所述特征组之间的所述相似度的概率,将所述输入单元分配到现有集群;和
创立新集群,并以取决于所述输入单元的所述特征组和所述现有集群的所述特征的概率,将所述输入单元分配到所述新集群。11.根据权利要求8

10中的任一项所述的方法,其中,所述多个集群包括空集群。12.根据权利要求11所述的方法,其中,所述空集群的特征是预先确定的。13.根据权利要求10

12中任一项所述的方法,其中,在多个可能性之间进行选择的步骤还包括在集群的数量和/或大小上使用先验分布。14.根据权利要求13所述的方法,其中,所述集群的数量和/或大小上的先验分布遵循中国餐馆过程。15.根据权利要求8

14中任一项所述的方法,其中,所述输入单元的所述特征组包括概率指标组。16.根据权利要求15所述的方法,其中,每个概率指标量化了多个基因变异中的每一个在每个输入单元中与所述输入单元的表型有因果关系的证据强度。17.根据权利要求8

16中任一项所述的方法,其中,计算所述输入单元的所述特征组包括:使用多个基因变异中的每一个的贝叶斯因子来计算似然,所述多个基因变异中的每一个与对应于所述输入单元的表型有因果关系。18.根据权利要求17所述的方法,其中,计算所述集群的所述特征组包括计算分配至所述集群的所述输入单元的贝叶斯因子的乘积。19.根据权利要求8

18中任一项所述的方法,其中,计算集群的所述特征使用所述多个基因变异中每一个都是因果关系的似然的先验分布。20.根据权利要求19所述的方法,其中,所述似然的先验分布结合了与基因变异因果关系相关的功能变异的有关已有信息。21.根据权利要求8

20中任一项所述的方法,其中,计算集群的所述特征组还包括考虑提供用于导出输入单元的信息的研究之间的相关性或其他已知关系。22.根据权利要求1

7中任一项所述的方法,其中,所述多个集群包括空集群。23.根据权利要求1

7和22中任一项所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括在所述集群的数量和/或大小上使用先验分布。24.根据权利要求23所述的方法,其中,所述集群的数量和/或大小上的先验分布遵循中国餐馆过程。25.根据权利要求1

7和22

24中任一项所述的方法,其中,所述输入单元的至少一个子集包括概率指标组。26.根据权利要求25所述的方法,其中,每个概率指标量化了多个基因变异中的每一个在输入单元中与所述输入单元的表型有因果关系的证据强度。27.根据权利要求1

7和22

26中任一项所述的方法,其中,将所述每个输入单元到多个集群中的一个的分配包括对于所述输入单元的至少一个子集中的每一个,使用多个基因变异中的每一个的贝叶斯因子来计算似然,所述多个基因变异中的每一个与对应于所述输入单元的表型有因果关系。28.根据权利要求27所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括对于集群的至少一个子集中的每一个,计算分配至所述集群的所述输入单元的贝叶斯因子的乘积。
29.根据权利要求1

7和22

28中任一项所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括使用所述多个基因变异中每一个都是因果关系的似然的先验分布。30.根据权利要求29所述的方法,其中,所述似然的先验分布结合了与基因变异因果关系相关的功能变异的有关已有信息。31.根据权利要求1

7和22

30中任一项所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括考虑提供用于导出输入单元的信息的研究之间的相关性或其他已知关系。32.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括在分配到相同集群的输入单元对上或更大集合上...

【专利技术属性】
技术研发人员:克里斯托弗
申请(专利权)人:基因组学公开有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1