一种基于高通量测序数据的指纹识别方法技术

技术编号:15250825 阅读:54 留言:0更新日期:2017-05-02 13:59
本发明专利技术涉及一种基于高通量测序数据的指纹识别方法,选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;选取的SNP位点选自以下1820个SNP位点的组合,以这些SNP位点作为坐标点,将测序数据的特征进行数据模型化和指纹化,为高通量测序数据构建指纹识别方法,可用于鉴定高通量测序数据是否来自同一个样本,也可用于鉴定是否来自同一个数据生产机构,或者用于鉴定有争议的高通量测序数据是否是同一个数据,还可用于鉴定不同样本间的亲缘关系。本发明专利技术公开的指纹识别方法可以用作司法鉴定领域和商业纠纷判定领域。

Fingerprint identification method based on high throughput sequencing data

The invention relates to a fingerprint identification method of high-throughput sequencing data based on the selection of a number of SNP loci in the human genome as fingerprint feature points, the SNP locus for single base two state, MAF value is 0.35 ~ 0.65, distance between SNP loci on the same chromosome of more than one million bases; portfolio selection SNP loci from 1820 loci of SNP, SNP in these sites as a coordinate point, the feature of sequencing data for data modeling and fingerprinting, construction of fingerprint identification method for high-throughput sequencing data, can be used to identify whether high-throughput sequencing data from the same sample, can also be used to identify whether from the same data production agency, or for the identification of controversial high-throughput sequencing data is the same data, but also can be used for identification of genetic relationship between different samples. The invention discloses a fingerprint identification method which can be used in the field of forensic identification and commercial dispute judgment.

【技术实现步骤摘要】

本专利技术涉及生物信息分析、分子生物学和分子生物检测领域,特别涉及基于二代高通量测序平台的数据分析鉴定识别方法。技术背景基因组DNA序列含有生命秘密的核心信息,第一代DNA测序技术sanger测序法帮助人类打开了了解生命核心信息的大门,以芯片技术为技术核心的高通量并行测序技术,NextGenerationSequencing(NGS),第二代高通量测序技术超越了摩尔定律,将人类带进了个体化精准医疗的领域,2013年底,随着Illumina公司Xten测序平台的问世,将人类基因组30倍覆盖率的测序成本从十几万美元降至1000美元以下,随之带来了颠覆性的市场变化,各种测序应用应运而生,测序数据海量增加,各种问题也随之而来:1.基因序列信息本身也是一种资源,这种资源是属于提供基因组的个人或者家庭,还是医院的医生?是属于医疗单位,还是保险公司,抑或是提供测序服务的公司?目前无论伦理上或者是法理上,都没有很好的界定。2.基因信息是有价值的,它的价值在科学家手中就是学术价值,在医院手中就是医疗价值,在药厂手中就是商业价值,在个人手中就是经济价值,既然有价值,那么就有可能被人盗窃、复制和滥用,那么就需要去辨别该基因信息的最初来源,个人或者机构为了申明该基因是属于自己的,必须提供一系列的证据加以证明这个基因数据是该个人或者机构产生的。例如,患者A将自己的血液样本提供给了制药厂用于某种目的,并同意该制药厂具有独家使用权,制药厂将血液样本交给测序公司进行基因组测序,并签订了一系列保密合同确保基因信息不会外泄,但是有一天,该制药厂发现其竞争对手在使用患者A的基因组信息,并提出了诉讼,那么法庭需要证明两点:第一点是两个制药厂使用的基因数据是否来自同一个人?第二点是该份基因组信息是否是一样的拷贝?通过STR位点或者SNP信息等生物学手段可以证明是否来自同一个人,如果是同一个人,但是不同的拷贝,法庭需要问责患者A,因为其有可能违反协议再一次提供样本给制药厂的竞争对手,如果是同一份拷贝,法庭需要问责测序公司,测序公司有可能由于某种原因导致基因组数据泄露,由此可以看到每一份数据在产生后,必须赋予该份数据一个可供识别并且唯一的ID,就像是每个人的指纹,具有身份鉴定的特性,集合了除生物学信息之外的其他唯一特征。3.高通量测序过程包括了样本核酸的提取、打断、连接、扩增、纯化、测序等多个步骤,这些步骤在物理作用和生物酶的作用下,DNA分子的断裂、再次连接以及扩增的程度都是随机的,从微观角度而言具有不可重复性,比如超声波打断步骤或者外切酶打断步骤,同一来源的样本基因组DNA用相同的人和相同的机器以及相同的步骤进行操作,基因组DNA的断裂情况完全不同;再比如连接和扩增步骤,相同样本的连接效率、DNA分子的连接数量以及扩增效率,最后扩增得到的分子数量都是不一样的,都具有细微的差别,导致每个样本都是不可重复的,这么多步骤造成了每一份测序数据都有其自身的唯一特征,本专利通过技术手段将这些特征进行提取和量化,形成测序数据的指纹,这种指纹不仅包含有样本的生物学信息,而且还包含了数据生产组织机构的信息。
技术实现思路
本专利技术的目的是提供一种基于高通量测序数据的指纹识别方法,具体的技术方案是:a)选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;b)选取的SNP位点选自以下1820个SNP位点的组合:进一步的,通过生物信息分析方法,将含有权利要求1中的SNP位点的唯一的测序片段read的特征参数形成以下数据集合:R(N,M)=[a,b(1~m),c(1~m),d(1~m),e(1~m),f(1~m)],其中N=1~n,n>=24,M=1~m;c)m=包含有该SNP位点的唯一的测序片段read的数量,M的最大值=m;d)a=SNP名称,如rs123456,则a=rs123456;e)b(1~m)=1或者2,正链=1,负链=2;f)c(1~m)=测序片段序列;g)d(1~m)=测序片段序列在参考基因hg19上的所属的染色体,比如9号染色体,则记为d(1~m)=9;h)e(1~m)=测序片段序列在参考基因组hg19上染色体上的起始位置,如9号染色体上12000,则记为e(1~m)=12000;i)f(1~m)=测序片段序列在参考基因组hg19上染色体上的终止位置,如9号染色体上12150,则记为f(1~m)12150;因此,在测序数据中,rs123456的序号记为1,并且包含rs123456位点的唯一的测序片段read有25个,则函数R(1,M)=[R(1,1),R(1,2),…,R(1,25)]该集合为:R(1,M)=|[a,b(1),c(1),d(1),e(1),f(1)]||[a,b(2),c(2),d(2),e(2),f(2)]|......|[a,b(25),c(25),d(25),e(25),f(25)]|依照以上举例,具体而言:R(1,M)=|[rs123456,1,ATGCATGCAT…GTACGTACGT,9,12000,12150]||[rs123456,1,TGCATGCATA…TACGTACGTG,9,12001,12151]|……|[rs123456,2,GCATCGATGC…GTAGCTACG,9,12101,12250]|其中R(1,1)=[rs123456,1,ATGCATGCAT…GTACGTACGT,9,12000,12150]R(1,2)=[rs123456,1,TGCATGCATA…TACGTACGTG,9,12001,12151]……R(1,25)=[rs123456,2,GCATCGATGC…GTAGCTACG,9,12101,12250]进一步的,形成指纹识别的数学模型为T(N,M)=[R(1,M),R(2,M),….R(n,M)],其中N=1~n,n>=24;进一步的,指纹识别所需的数据量要求为N>=24,M>=1,当两个测序数据相互比较是否为同一来源的数据时,至少需要24个SNP位点,每个SNP位点只需要一个R(N,M)数据,当T1(N,M)=T2(N,M)时,则两个测序数据判定为同一来源;进一步的,同一来源是指同一个样本且同一个机构产生的数据。附图说明图1是实施例1测序结果图。具体实施方式实例1:获得高通量测序数据指纹1、将样本按照Illumina官方建议流程进行片段化、测序文库构建以及在Illumina测序平台上进行测序2、按照以下流程进行数据分析a)Samplerawfastqb)Extractpatternreadsc)AlignmentusingBWAd)CallsnpinformationusingSamtoolsmpileupe)Modeling3、以rs10493923位点为例,该SNP位点位于Chr1:100930254,测序完成经过比对后,结果如图所示。4、以rs10493923(GRCh37/hg19)位点为例的R(N,M)为R(1,17)=|[rs10493923,2,ATAATCCTAT…GTATCTTGGA,1,100930115,10093本文档来自技高网
...

【技术保护点】
一种基于高通量测序数据的指纹识别方法,其特征在于:a)选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;b)选取的SNP位点选自以下1820个SNP位点的组合:

【技术特征摘要】
1.一种基于高通量测序数据的指纹识别方法,其特征在于:a)选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;b)选取的SNP位点选自以下1820个SNP位点的组合:2.根据权利要求1所述基于用于高通量测序数据的指纹识别方法,其特征在于通过生物信息分析方法,将含有权利要求1中的SNP位点的唯一的测序片段read的特征参数形成以下数据集合:R(N,M)=[a,b(1~m),c(1~m),d(1~m),e(1~m),f(1~m)],其中N=1~n,n>=24,M=1~m;a)m=包含有该SNP位点的唯一的测序片段read的数量,M的最大值=m;b)a=SNP名称;c)b(1~m)=1或者2,正链=1,负链=2;d)c(1~m)=测序片段序列;e)d(1~m)=测...

【专利技术属性】
技术研发人员:罗俊峰陈云弟
申请(专利权)人:上海阅尔基因技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1