基于Y染色体分子标记高效推断姓氏的方法技术

技术编号:17249053 阅读:27 留言:0更新日期:2018-02-11 07:22
本发明专利技术提供一种基于Y染色体分子标记高效推断姓氏的方法,特别是基于Y‑STR分子标记高效推断姓氏的方法。根据多个DNA的标记信息,通过计算个体间遗传距离的方法来预测样本的姓氏。本发明专利技术提供的方法可根据Y染色体分子标记(如Y‑STR、Y‑SNP、RFLP等)遗传变异信息对中国人群的姓氏进行有效推断,且姓氏推断的准确性随着每个姓氏样本量的增加而提高,随使用的分子标记数目增多而上升。采用本方法可以对中国人群的姓氏进行准确可靠的推断,并具有广阔的实际应用前景。

【技术实现步骤摘要】
基于Y染色体分子标记高效推断姓氏的方法
本专利技术涉及分子生物学、法医学和生物信息
,具体地说,涉及一种基于Y染色体分子标记高效推断姓氏的方法。
技术介绍
基因DNA分子标记的遗传分析技术给法医侦查带来了革命性的变化。近30年来,DNA分析已经成为法医调查的必备手段,各级公安机关都建立了大量相关人群的遗传数据库。其中,Y染色体DNA数据库,特别是微卫星(Y-STR)数据库是建立最早、规模最大、人口覆盖最广的遗传数据库。近年来,随着芯片技术和新一代测序技术的发展,Y染色体SNP数据也在不断积累。虽然,这些数据库及其相应数据的分子标记在亲子鉴定和身份识别方面发挥了重要作用,但是,目前对Y染色体DNA众多分子标记分析结果的信息利用仍非常局限,没有充分发挥Y染色体DNA大数据库的应用潜能。Y染色体绝大部分DNA,即非重组区(Non-combiningregionofY,NRY),遵从严格的父系遗传,即只通过父亲遗传给男性后代。这种遗传模式与我国传统的姓氏继承模式非常相似,即绝大多数新生男丁出生后都随父亲的姓氏。由于Y染色体DNA的进化很大程度上与姓氏的传演相互平行,二者在演化上具有高度相关性,从理论角度,根据男性的Y染色体DNA上的变异模式可以对其姓氏进行推测。同时,中国自古以来就有寻根问祖的传统,对宗脉有着强烈的认同感。从北宋《百家姓》到现在由国务院人口普查办公室统计列出的中国名义上最新姓氏人口数目排名来看,姓氏的组成基本没有变化,其稳定性可有效提升姓氏推测的可靠性和准确性。这类推断结果可以直接应用于法医学分析,指导刑侦调查,尽可能的缩小调查范围,提高侦查效率。然而,目前尚没有根据Y染色体DNA的信息对中国姓氏进行推断的现成方法。因此,发展基于Y染色体DNA分子标记推断姓氏的分析方法非常必要。此外,基于Y染色体DNA分子标记推断姓氏的分析方法还具有广泛的社会人文应用前景。
技术实现思路
本专利技术的目的是提供一种基于Y染色体DNA分子标记高效推断姓氏的方法。为了实现本专利技术目的,本专利技术提供Y染色体分子标记在推断姓氏中的应用。本专利技术还提供基于Y染色体分子标记高效推断姓氏的方法,基于Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间的最小遗传距离,从而得到待测样本的候选姓氏。其中,所述分子标记包括STR、SNP或RFLP等常用的,且位于Y染色体非重组区域的分子遗传标记。本专利技术进一步提供基于Y染色体DNA分子标记高效推断姓氏的方法,以Y-STR标记为例包括以下步骤:步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化试剂盒对样本Y染色体DNA位点进行基因型分析;步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基因或短片段重复数量等,计算待测样本Y与数据库样本X之间的最小遗传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗传距离ds=minX∈Sd(Y,X),其中Sm={X:X姓氏为m};遗传距离ds可根据所使用的Y染色体DNA的数据信息类型进行相应定义;具体地,针对Y-STR数据,可采用以下两种方法计算ds:(1)余弦距离(cosinedistance,dcos)其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复数量;(2)溯祖距离(coalescencedistance)其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数,表示两样本相同STR的位点数目,即给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:其中,步骤3:根据ds对姓氏按升序排列;步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,1≤C≤数据库中姓氏总数目。前述的方法,步骤1中使用的试剂盒可以是AmpFSTRYfilerTMPCR扩增试剂盒或AGCUY18STR荧光检测试剂盒,以及其它可用于Y染色体STR分析的试剂盒。前述的方法,步骤1所述的Y-STR位点包括但不限于DYS19(DYS394)、DYS388、DYS389、DYS390、DYS391、DYS392、DYS393、DYS393(DYS395)、DYS413、DYS425/DYF371、DYS426、DYS434、DYS435、DYS436、DYS437、DYS438、DYS439(Y-GATA-A4)、DYS441、DYS442、DYS443、DYS444、DYS445、DYS446、DYS447、DYS448、DYS449、DYS450、DYS452、DYS453、DYS454、DYS455、DYS456、DYS458、DYS459a&b、DYS460(Y-GATA-A7.1)、DYS461(Y-GATA-A7.2)、DYS462、DYS463、DYS464、DYS481、DYS485、DYS487、DYS490、DYS494、DYS495、DYS497、DYS504、DYS505、DYS508、DYS518、DYS520、DYS522、DYS525、DYS531、DYS532、DYS533、DYS534、DYS540、DYS549、DYS556、DYS557、DYS565、DYS570、DYS572、DYS573、DYS575、DYS576、DYS578、DYS589、DYS590、DYS594、DYS607、DYS612、DYS614、DYS626、DYS627、DYS632、DYS635(Y-GATA-C4)、DYS636、DYS638、DYS641、DYS643、DYS710、DYS714、DYS716、DYS717、DYS724(CDY)、DYS725、DYS726、DYF385S1、DYF387S1a/b、DYF397、DYF399、DYF401、DYF406S1、DYF408、DYF411、DXYS156、YCAIIa&b、Y-GATA-H4、Y-GATA-A10、Y-GGAAT-1B07。优选地,步骤1所述的Y-STR位点为DYS19、DYS389I、DYS389II、DYS390、DYS391、DYS392、DYS393、DYS437、DYS438、DYS439、DYS448、DYS456、DYS458、DYS635和YGATAH4。前述的方法,步骤4中C为1-n之间的整数,其中n为预定的目标姓氏数目。前述的方法,当步骤2中数据库样本量≥50000时,采用余弦距离或溯祖距离计算ds,优选余弦距离,以增加推断时效;当步骤2中样本量<50000时,采用余弦距离或溯祖距离计算ds,优选溯祖距离,以提高准确性。本专利技术还提供一种基于Y染色体DNA分子标记技术开发的用于推断姓氏的装置,所述装置包括计算待测样本与数据库样本之间的最小遗传距离的模块及数据分析模块。其中,计算模块是根据待测样本Y的Y染色体DNA位点信息,计算待测样本Y与数据库样本X之间的最小遗传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗传距离ds3minX∈Sd(Y,X),其中Sm={X:X姓氏为m}。遗传距离d(Y,X)的计算模块可包含但不限于下述两个子模块,其中一个子模块用于计算余弦距离,另一个子模块用于计算溯祖距离。(1)余弦距离(c本文档来自技高网
...
基于Y染色体分子标记高效推断姓氏的方法

【技术保护点】
Y染色体分子标记在推断姓氏中的应用。

【技术特征摘要】
1.Y染色体分子标记在推断姓氏中的应用。2.基于Y染色体分子标记高效推断姓氏的方法,其特征在于,基于Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间的最小遗传距离,从而得到待测样本的候选姓氏。3.根据权利要求2所述的方法,其特征在于,所述分子标记包括位于Y染色体非重组区域的STR、SNP或RFLP分子遗传标记。4.根据权利要求3所述的方法,其特征在于,包括以下步骤:步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化试剂盒对样本Y染色体DNA位点进行基因型分析;步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基因或短片段重复数量,计算待测样本Y与数据库样本X之间的最小遗传距离d(Y,X),定义待测样本与各已知姓氏样本之间的最小遗传距离ds=minY∈Sd(Y,X),其中Sm={X:X姓氏为m};遗传距离ds可根据所使用的Y染色体DNA的数据信息类型进行相应定义;具体地,针对Y-STR数据,定义如下二种距离:(1)余弦距离(cosinedistance,dcos)其中,xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复数量;(2)溯祖距离(coalescencedistance)dcoal(Y,X)=∫0∞tPr(t|μ,n,k,Ne)dt其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5×10-3为STR位点的平均突变速率,n为分析中应用到的STR位点的总数,表示两样本相同STR的位点数目,即给定μ、n、k和Ne两样本溯祖时间为t的概率可表示为:其中,步骤3:根据ds对姓氏按升序排列;步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,1≤C≤数据库中姓氏总数目。5.根据权利要求4所述的方法,其特征在于,步骤1所述的Y-STR位点包括DYS19(...

【专利技术属性】
技术研发人员:陈华严江伟
申请(专利权)人:中国科学院北京基因组研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1