【技术实现步骤摘要】
【国外来华专利技术】分析关于生物体的基因数据的计算机实现的方法
[0001]本申请涉及一种分析和说明关于生物体的大量基因和表型数据以便理解其生物学的方法。
技术介绍
[0002]基因关联研究(GAS)评估自然发生的基因变异与给定表型之间的关系。自二十世纪中期以来,已经针对成千上万个(主要是人类)表型进行了GAS(通常是全基因组关联研究:GWAAS,或针对单变异的关联研究,或所述基因组区域内变异的关联研究,或限制于所述基因组的特定区域内的GWAS),在数百万个个体中,产生了数十亿个基因型和表型间的潜在联系。然后通常会简化所得的原始数据以生成概括统计数据。对每个基因变异(无论是估算或观察),GAS概括统计数据包括,所述基因变异对所述GAS的所述表型的推断效应量和所述推断效应量的标准误差(SE)。在下文中,我们将一个表型称为单项研究的同义词。但是,通常情况是,可以从针对相同或相似表型的多个不同研究中获得数据,或者从测量多个不同表型的单个队列中获得数据。
[0003]已经开发出许多不同的方法来使用来自GAS的数据以检测与多个表型或性状相关的基因变异(有时称为多效性)。索洛维耶夫等人于(2013)1以及哈金格和齐吉尼(2017)2在人类基因学领域提供了有用的论述。许多现有的“单点”方法分别分析每个基因变异位点。哈金格和齐吉尼(2017)的表1中提供了此类单点方法的示例,其中特别包括GPA3,MTAG4和EPS5。其他相关方法则侧重于所谓的“表达数量性状基因座”(eQTLs)。eQTL是一种解释了单个基因表达表型的所述变异的一部分的基因变异 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种分析关于生物体基因数据的计算机实现的方法,包括:接收包括多个输入单元的输入数据,其中每个输入单元源自提供沿着基因组的多个基因变异的每一个和对应于所述输入单元的表型之间的关联信息的研究;然后对生物体的所述基因组选择一个或多个区域;然后对于每个选定的区域,将所述每个输入单元分配至多个集群中的一个,所述输入单元的所述分配是基于在选定区域内输入单元共享基因变异的程度的评估,所述基变异影响对应于每一个输入单元的表型的任何方面或所述表型的任何潜在生物学机制,从而基于所述输入单元如何被分配至所述集群,来鉴定共享潜在生物学机制的表型。2.根据权利要求1所述的方法,其中,所述每个输入单元到多个集群中的一个的分配包括:计算所述每个输入单元与所述多个集群的每一个的相似性,所述相似性是基于输入单元共享基因变异的程度的评估。3.根据权利要求1或2所述的方法,其中,所述每个输入单元到多个集群中的一个的分配是基于采用概率模型对所述分配的评估。4.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配是基于采用贝叶斯模型对所述分配的评估。5.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配是迭代进行的。6.根据上述任一项权利要求所述的方法,其中,通过马尔科夫链蒙特卡洛算法来探索可能的集群分配的空间,并且将所述每个输入单元分配到多个集群中的一个是基于马尔科夫链所走路径的分析。7.根据上述任一项权利要求所述的方法,其中,在确定的区域内所述输入单元共享基因变异的程度的评估基于多个基因变异中一些或全部的关联度量或这种度量的模式之间的相似性的评估,所述基因变异影响对应于每一个输入单元的表型的任何方面或所述表型的任何潜在生物学机制。8.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配包括:对于所述输入单元的至少一个子集中的每一个,确定下列之间的相似度:i)所述输入单元的特征组;和ii)所述集群的特征组,其中,每个所述集群的所述特征组是预先确定的,或者是通过组合已经分配到所述集群的输入单元的信息来计算的。9.根据权利要求8所述的方法,其中:通过马尔科夫链蒙特卡洛算法来探索可能的集群分配的空间,并且基于马尔科夫链所走路径的分析将所述每个输入单元分配到多个集群中的一个,和所述马尔科夫链蒙特卡洛算法的一个步骤包括将所述输入单元中的一个以取决于所述输入单元的所述特征组和所述集群的所述特征组之间的相似度的概率,分配到多个集群中的一个。10.根据权利要求8或9所述的方法,其中,所述每个输入单元到多个集群中的一个的分配包括在多个可能性之间进行选择的步骤,所述多个可能性包括以下:以取决于所述输入单元的所述特征组和所述集群的所述特征组之间的所述相似度的概率,将所述输入单元分配到现有集群;和
创立新集群,并以取决于所述输入单元的所述特征组和所述现有集群的所述特征的概率,将所述输入单元分配到所述新集群。11.根据权利要求8
‑
10中的任一项所述的方法,其中,所述多个集群包括空集群。12.根据权利要求11所述的方法,其中,所述空集群的特征是预先确定的。13.根据权利要求10
‑
12中任一项所述的方法,其中,在多个可能性之间进行选择的步骤还包括在集群的数量和/或大小上使用先验分布。14.根据权利要求13所述的方法,其中,所述集群的数量和/或大小上的先验分布遵循中国餐馆过程。15.根据权利要求8
‑
14中任一项所述的方法,其中,所述输入单元的所述特征组包括概率指标组。16.根据权利要求15所述的方法,其中,每个概率指标量化了多个基因变异中的每一个在每个输入单元中与所述输入单元的表型有因果关系的证据强度。17.根据权利要求8
‑
16中任一项所述的方法,其中,计算所述输入单元的所述特征组包括:使用多个基因变异中的每一个的贝叶斯因子来计算似然,所述多个基因变异中的每一个与对应于所述输入单元的表型有因果关系。18.根据权利要求17所述的方法,其中,计算所述集群的所述特征组包括计算分配至所述集群的所述输入单元的贝叶斯因子的乘积。19.根据权利要求8
‑
18中任一项所述的方法,其中,计算集群的所述特征使用所述多个基因变异中每一个都是因果关系的似然的先验分布。20.根据权利要求19所述的方法,其中,所述似然的先验分布结合了与基因变异因果关系相关的功能变异的有关已有信息。21.根据权利要求8
‑
20中任一项所述的方法,其中,计算集群的所述特征组还包括考虑提供用于导出输入单元的信息的研究之间的相关性或其他已知关系。22.根据权利要求1
‑
7中任一项所述的方法,其中,所述多个集群包括空集群。23.根据权利要求1
‑
7和22中任一项所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括在所述集群的数量和/或大小上使用先验分布。24.根据权利要求23所述的方法,其中,所述集群的数量和/或大小上的先验分布遵循中国餐馆过程。25.根据权利要求1
‑
7和22
‑
24中任一项所述的方法,其中,所述输入单元的至少一个子集包括概率指标组。26.根据权利要求25所述的方法,其中,每个概率指标量化了多个基因变异中的每一个在输入单元中与所述输入单元的表型有因果关系的证据强度。27.根据权利要求1
‑
7和22
‑
26中任一项所述的方法,其中,将所述每个输入单元到多个集群中的一个的分配包括对于所述输入单元的至少一个子集中的每一个,使用多个基因变异中的每一个的贝叶斯因子来计算似然,所述多个基因变异中的每一个与对应于所述输入单元的表型有因果关系。28.根据权利要求27所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括对于集群的至少一个子集中的每一个,计算分配至所述集群的所述输入单元的贝叶斯因子的乘积。
29.根据权利要求1
‑
7和22
‑
28中任一项所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括使用所述多个基因变异中每一个都是因果关系的似然的先验分布。30.根据权利要求29所述的方法,其中,所述似然的先验分布结合了与基因变异因果关系相关的功能变异的有关已有信息。31.根据权利要求1
‑
7和22
‑
30中任一项所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括考虑提供用于导出输入单元的信息的研究之间的相关性或其他已知关系。32.根据上述任一项权利要求所述的方法,其中,所述每个输入单元到多个集群中的一个的分配还包括在分配到相同集群的输入单元对上或更大集合上...
【专利技术属性】
技术研发人员:克里斯托弗,
申请(专利权)人:基因组学公开有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。