基于条件概率的基因型指派方法技术

技术编号:20626079 阅读:22 留言:0更新日期:2019-03-20 16:04
本发明专利技术公开了基于条件概率的基因型指派方法,利用条件概率计算公式,计算U0中每个ND IMs的所有可能有序基因型的条件概率,在U中寻找条件概率

Genotype Assignment Method Based on Conditional Probability

The invention discloses a method of genotype assignment based on conditional probability, calculates conditional probability of all possible ordered genotypes of ND IMs in U0 by using conditional probability calculation formula, and finds conditional probability in U.

【技术实现步骤摘要】
基于条件概率的基因型指派方法
本专利技术属于数学和遗传学
,涉及基于条件概率的基因型指派方法。
技术介绍
新一代基因测序技术的飞速发展使得人类基因组计划提前完成,核酸数据库、基因的遗传、物理及转录表达图谱已趋完整,这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellitepolymorphisms)或核苷酸多态性(single-nucleotidepolymorphisms,SNP)携带的重要遗传学信息,构建合适的形式化模型,研究分析SNP、基因和表型数据间关系并从中识别人类复杂疾病的致病基因及其发病机理,是生物医学、遗传学等相关领域科学家研究的热点和难点,也是后基因组时代的重要课题。
技术实现思路
本专利技术的目的在于提供基于条件概率的基因型指派方法,本专利技术的有益效果是针对密集SNP的大家族缺失型数据,为遗传学中连锁和关联分析研究提供更准确的数据信息;为复杂疾病的遗传方式研究提供重要依据;为人类遗传学研究中复杂疾病相关基因定位提供新思路和新方法;充分利用家族成员的基因型信息并且尽可能减少循环次数,这样既增加了等位基因的补全率又降低了算法的时间和空间复杂性。本专利技术所采用的技术方案是首先把一个特定个体和特定标记位点的组合称为一个个体-标记,简记为IM,如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定IM,简称为NDIM,令U0表示家族数据中所有NDIMs组成的集合,假设U0中含有t个NDIMs,设M1,M2,…,Mt是U0中IMs的一个特定顺序,对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用表示且有设IMMi涉及到位点u和个体k,用表示位点u和个体k的具有已知有序基因型的位点组成的集合,条件概率的计算公式如下:其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合,当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,是Hoff中孩子O的已知单体型,noff是个体k的孩子数,是Gk中位点u为基因型的多位点基因型,j=1,2,…,s,和分别是多位点基因型中来自个体k的父亲和母亲的两个单体型,由于家族中的始祖没有双亲,所以需要简化上述公式如下:在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示,基因型指派算法如下:Step1利用条件概率计算公式,计算U0中每个NDIMs的所有可能有序基因型的条件概率,令i=1,U=U0;Step2在U中寻找条件概率最大的IMMi,涉及到位点u和个体k及其相应的有序基因型若则给IMMi指派有序基因型然后对标记位点u进行等位基因推断,令i=i+1,U=U-U0,重新计算U中IM的所有可能有序基因型的条件概率,重复执行Step2直到U中最大的条件概率小于λ。具体实施方式下面结合具体实施方式对本专利技术进行详细说明。本专利技术基于条件概率的基因型指派方法,先引入一些术语和符号。把一个特定个体和特定标记位点的组合称为一个个体-标记(individual-marker),简记为IM。如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定(nondeterministic)IM,简称为NDIM。令U0表示家族数据中所有NDIMs组成的集合。假设U0中含有t个NDIMs。设M1,M2,…,Mt是U0中IMs的一个特定顺序。对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用表示且有理论上,计算概率取决于前i-1个IMsM1,M2,…,Mi-1的指派m1,m2,…,mi-1和当前观测的家族数据D。但实际上,利用一个大家族中所有已知信息计算概率几乎是不可行的。因此,缩小搜索范围,只用当前个体及其近亲(父母和孩子)的有用信息来近似计算概率设IMMi涉及到位点u和个体k,用表示位点u和个体k的具有已知有序基因型的位点组成的集合。条件概率的计算公式如下:其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合。当然这些基因型都是在IMsM1,M2,…,Mi-1分别指派了基因型m1,m2,…,mi-1后的数据,是Hoff中孩子O的已知单体型,noff是个体k的孩子数,是Gk中位点u为基因型的多位点基因型,j=1,2,…,s,和分别是多位点基因型中来自个体k的父亲和母亲的两个单体型。由于家族中的始祖没有双亲,所以需要简化上述公式如下:这里涉及到单体型频率的估计。目前对单体型频率估计的方法较多,但大多是针对连续标记位点的单体型而言的。需要考虑带“洞”的单体型频率。在进行基因型指派算法之前,需要设置一个条件概率的阈值,用λ(0<λ≤1)表示。λ的取值直接影响到缺失家族数据的补全率和准确率。基因型指派算法如下:Step1利用条件概率计算公式,计算U0中每个NDIMs的所有可能有序基因型的条件概率。令i=1,U=U0。Step2在U中寻找条件概率最大的IMMi(涉及到位点u和个体k)及其相应的有序基因型若则给IMMi指派有序基因型然后对标记位点u进行等位基因推断。令i=i+1,U=U-U0。重新计算U中IM的所有可能有序基因型的条件概率(注意:这里需要采用适当的策略避免基因型条件概率的重复计算)。重复执行Step2直到U中最大的条件概率小于λ。以上所述仅是对本专利技术的较佳实施方式而已,并非对本专利技术作任何形式上的限制,凡是依据本专利技术的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本专利技术技术方案的范围内。本文档来自技高网...

【技术保护点】
1.基于条件概率的基因型指派方法,其特征在于:首先把一个特定个体和特定标记位点的组合称为一个个体‑标记,简记为IM,如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定IM,简称为NDIM,令U0表示家族数据中所有NDIMs组成的集合,假设U0中含有t个NDIMs,设M1,M2,…,Mt是U0中IMs的一个特定顺序,对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用

【技术特征摘要】
1.基于条件概率的基因型指派方法,其特征在于:首先把一个特定个体和特定标记位点的组合称为一个个体-标记,简记为IM,如果一个IM的基因型无序或含有缺失等位基因,称这个IM为非确定IM,简称为NDIM,令U0表示家族数据中所有NDIMs组成的集合,假设U0中含有t个NDIMs,设M1,M2,…,Mt是U0中IMs的一个特定顺序,对于Mi(i=1,2,…,t),假设有s个可能的有序基因型与之兼容,分别用表示,与这s个有序基因型对应的条件概率分别用表示且有设IMMi涉及到位点u和个体k,用表示位点u和个体k的具有已知有序基因型的位点组成的集合,条件概率的计算公式如下:其中Gk,Gf和Gm分别是个体k及其父亲、母亲在中位点上的部分有序多位点基因型,Hoff是个体k的孩子们在这些位点上的部分已知基因型集合,当然这些基因型都是在IMsM1,M2,…,Mi-1...

【专利技术属性】
技术研发人员:王淑栋李华昱
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1