一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系技术

技术编号:22058780 阅读:94 留言:0更新日期:2019-09-07 16:37
本发明专利技术属于分子生物学和遗传学领域,具体公开了一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。所述构建方法包括对遗传标记数据进行数据分割和遗传标记挑选,或视情况对分割后的数据进行过滤,或对挑选后的遗传标记进行整合优化。采用本发明专利技术所述的方法可成功地使计算的复杂度从O(2

Construction of a Genetic Marker Reference System for Population Differentiation and Identification and a Genetic Marker Reference System

【技术实现步骤摘要】
一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系
本专利技术属于分子生物学和遗传学领域,具体地说,涉及一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。
技术介绍
法医分析的重要任务之一就是明确个体的群体起源和类群来源,从而有效地缩小调查范围。在过去的几十年中,虽然很多类群特异性遗传标记不断被开发出来,然而仅仅个别几类被应用于实际法医检验。近年来,随着基因型分析技术和测序技术的飞速发展,大量的遗传数据涌现,为充分发掘分子遗传标记的应用潜能提供了机遇。事实上,多态性遗传标记已经被成功用于体貌特征的预测和地理来源和家系起源的推断。可以说,法医科学已经进入了“DNA智能”的新时代。SNP标记是人类基因组中最丰富的遗传标记,平均1250个碱基中就有至少一个SNP位点。由于SNP标记的稳定性、在基因组中的丰富性以及其反映其变异的等位基因频率模式的完整性,SNP标记已成为群体鉴别最好的遗传标记。STR标记是另一类多态性遗传标记,前基因组时代在群体遗传分析和医学鉴定中最常用的遗传标记。由于其多态性高、等位基因丰富的特点,特别适合亲缘关系较近的群体和个体的区分识别。在当前法医学领域,STR标记是应用最广泛的遗传标记。近几十年人类群体基因组学和疾病遗传学的研究已经积累了海量的SNP和STR数据资源,使得当前应用SNP和STR进行遗传分析的兴趣持续高涨。然而,很多法医遗传分析中所收集的DNA样品仅仅能满足少数遗传标记位点的遗传分析,很难满足全面的标记分析需要。因此,从海量基因组变异中挑选信息量高的少数SNP和STR位点作为参照系来满足特定的法医遗传分析需要就变得非常重要。同时,近年来人类群体遗传学研究结果表明,上述基于少数遗传标记参照系的策略具有很高的可行性。相关研究发现大量的遗传变异在不同群体中共享,而仅仅一小部分遗传变异才具有群体特异性。这些群体特异性的遗传标记对个体祖源具有指示作用,然而这些位点在群体中的频率很低,因此很难用于类群的有效推断。在群体共享的常见的遗传标记中还存在一些SNP和STR位点,它们在不同群体中的等位基因频率显著不同,即表现为较高的FST值。这些位点也极具类群来源分析的潜力,可用于法医遗传分析,也是当前相关研究关注的焦点之一。此外,由于基因组水平的SNP和STR都处于连锁不平衡(linkagedisequilibria),因此,它们之间的遗传信息在一定程度上存在冗余;少数代表性的高信息丰度SNP或STR参照系即可有效揭示整个基因组水平的遗传差异情况,从而在有效地减少遗传分析中标记的数目同时又不大范围损失遗传材料所包含的信息。这些高信息丰度的遗传标记在法医和医学遗传分析中极具应用潜力。已有一些研究采取经验性的方法从大规模基因组数据中挑选遗传标记参照系。然而,这类筛选方法步骤繁杂,而且无法保证所筛选的参照系包含了最优的,亦或接近最优的遗传标记组合。一种更高效的方法是从通过深入地搜索海量的基因组数据资源,从中挑选信息量最高的SNP和STR标记。然而,当前尚缺乏这类方法为法医调查服务。
技术实现思路
为了解决现有技术中存在的问题,本专利技术的目的是提供一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。一个高效的遗传标记参照系应当同时满足一下两个条件:(1)对类群成员推断的准确性最大化,或者可以达到一个主观设定的准确性阈值;(2)在满足一个准确性阈值的情况下,使得遗传标记参照系中包含的遗传标记的数目最小化。理论上讲,上述两个条件可以通过对整个基因组数据的穷尽式搜索比较来实现,但从计算的角度而言,穷尽式搜索方法无法实现。因为,穷尽式搜索的运算量是所选参照系包含的遗传标记数目的指数函数,亦即计算的复杂度为O(2n)。例如,要挑选含有200个SNP遗传标记的参照系,则需要穷尽式搜索和评估2200种可能的组合形式,这种繁琐的评估方式和巨大的工作量对实际应用来说,是不现实的。而本专利技术所提供的方法,可以克服这一难题。本专利技术所述方法实际为一种用于挑选遗传标记参照系的递归算法,该算法不仅可使所挑选的遗传标记参照系可满足上述两个标准,而且可以有效地将计算的复杂度降低到了O(n2),从而使相关方法可用于基因组水平的遗传标记数据。具体地说,本专利技术的技术方案如下:第一方面,本专利技术提供了一种群体区分和鉴定的遗传标记参照系的构建方法,所述方法如图1所示,包括如下步骤:(1)数据分割:以已知的遗传标记数据库作为样本,按照遗传信息差异对样本数据进行分割,得到多个类;(2)数据过滤:计算各个类中遗传标记的FST值,并据此对各个类中的遗传标记进行降序排列,当数据中包括的遗传标记数目小于或等于50000时,全部用于下一步分析,当数据中包含的遗传标记数目大于50000时,保留各类中排列于前2%~10%个遗传标记;(3)遗传标记挑选:针对数据过滤后得到的全部特征(遗传标记)构成的集合L,以#L表示特征总数量,运用特征选择算法挑选出u<#L个能够极大化累计分类能力(CumulativeClassificationAbility,CCA)的特征序列(特征子集),该序列构成集合,称为极大分类子(特征)集(记为MaC集),即可作为指征性遗传标记参照系;其中,所述特征选择算法如算法一所示:算法一:步骤一:产生#L个以不同特征为起始元素且长度为u的特征序,对于以表示第一个元素为l长度为u的序列,其产生过程如下:S1、对于产生其中l1=l。S2、对于任意2≤i≤u,若已有选可极大化累计分类能力(CCA)的特征作为第i个元素,并产生其中表示子集的余集。步骤二:比较#L条序列的累计分类能力,并选择最优序列作为极大分类(特征)集(MaC集),其中其中,关于累计分类能力说明如下:若存在有限序列Sn={l1,l2,…,ln},满足且此序列的累计分类能力递归计算如下:1、对于S1={l1},定义其中为特征l1的分类能力。2、对于2≤j≤n,Sj=Sj-1∪{lj},定义其中为特征li和lj的标准化互信息。其中,关于特征的分类能力说明如下:若已知类标的集合为K,且对于特征l∈L的各取值在每类中的分布频率已知或者已获得估计,并以pkl(g)表示,即类别k∈K中特征l上取值为g∈G的概率。对于两个不同的类k1,k2∈K,可定义从类别k1到k2在特征l上的KL散度为:特征l的分类能力定义为:即任两两类别在特征l上的绝对KL散度之和。其中,关于标准化互信息说明如下:对于任意两个特征l1,l2∈L,以G1和G2分别表示特征l1和l2所有可能取值的集合,定义特征l1各取值g1∈G1的分布为定义特征l2各取值g2∈G2的分布为以及l1和l2取值的联合分布为特征l1和l2的标准化的互信息可表示为:其中,和分别表示特征l1和l2信息熵,为特征l1和l2的互信息,即(4):整合优化;具体为:运用另一个特征选择算法,将从每个类中挑选的子集整合成一个综合参照系;其中,所述另一个特征选择算法如算法一所示:算法二:基于贪婪式的逐步添加/验证的算法,对由各子类挑选出的MaC集进行优化整合,并产生全局最优特征集合P。若已经根据不同子类的组合筛选出m个MaC集,则步骤一:由于每个MaC集都是一个特征序列,即特征的排列是有顺序的。设置m个指针,并分别指向每个MaC集本文档来自技高网
...

【技术保护点】
1.一种群体区分和鉴定的遗传标记参照系的构建方法,其特征在于,包括如下步骤中的步骤(1)和步骤(3),或包括如下步骤中的步骤(1)‑(3),或包括如下步骤中的(1)、(3)、(4),或包括如下步骤中的(1)‑(4):(1)数据分割:以已知的遗传标记数据库作为样本,按照遗传信息差异对样本数据进行分割,得到多个类;(2)数据过滤:计算各个类中遗传标记的FST值,并据此对各个类中的遗传标记进行降序排列,当数据中包括的遗传标记数目小于或等于50000时,全部用于下一步分析,当数据中包含的遗传标记数目大于50000时,保留各类中排列于前2%~10%个遗传标记;(3)遗传标记挑选:针对数据过滤后的各类遗传标记,运用特征选择算法挑选出可保留每个类的最大区别力的一个子集,该子集的集合即可作为遗传标记参照系;其中,所述特征选择算法如算法一所示:算法一:步骤一:产生#L个以不同特征(遗传标记)为起始元素且长度为u的特征序,对于

【技术特征摘要】
1.一种群体区分和鉴定的遗传标记参照系的构建方法,其特征在于,包括如下步骤中的步骤(1)和步骤(3),或包括如下步骤中的步骤(1)-(3),或包括如下步骤中的(1)、(3)、(4),或包括如下步骤中的(1)-(4):(1)数据分割:以已知的遗传标记数据库作为样本,按照遗传信息差异对样本数据进行分割,得到多个类;(2)数据过滤:计算各个类中遗传标记的FST值,并据此对各个类中的遗传标记进行降序排列,当数据中包括的遗传标记数目小于或等于50000时,全部用于下一步分析,当数据中包含的遗传标记数目大于50000时,保留各类中排列于前2%~10%个遗传标记;(3)遗传标记挑选:针对数据过滤后的各类遗传标记,运用特征选择算法挑选出可保留每个类的最大区别力的一个子集,该子集的集合即可作为遗传标记参照系;其中,所述特征选择算法如算法一所示:算法一:步骤一:产生#L个以不同特征(遗传标记)为起始元素且长度为u的特征序,对于以表示第一个元素为l长度为u的序列,其产生过程如下:S1、对于产生其中l1=l;S2、对于任意2≤i≤u,若已有选可极大化累计分类能力(CCA)的特征作为第i个元素,并产生其中表示子集的余集;步骤二:比较#L条序列的累计分类能力,并选择最优序列作为极大分类(特征)集(MaC集),其中(4):整合优化;具体为:运用另一个特征选择算法,将从每个类中挑选的子集整合成一个综合参照系;其中,所述另一个特征选择算法如算法一所示:算法二:基于贪...

【专利技术属性】
技术研发人员:陈华赵石磊马亮石承民
申请(专利权)人:中国科学院北京基因组研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1