The invention relates to a fingerprint identification method of high-throughput sequencing data based on the selection of a number of SNP loci in the human genome as fingerprint feature points, the SNP locus for single base two state, MAF value is 0.35 ~ 0.65, distance between SNP loci on the same chromosome of more than one million bases; portfolio selection SNP loci from 1820 loci of SNP, SNP in these sites as a coordinate point, the feature of sequencing data for data modeling and fingerprinting, construction of fingerprint identification method for high-throughput sequencing data, can be used to identify whether high-throughput sequencing data from the same sample, can also be used to identify whether from the same data production agency, or for the identification of controversial high-throughput sequencing data is the same data, but also can be used for identification of genetic relationship between different samples. The invention discloses a fingerprint identification method which can be used in the field of forensic identification and commercial dispute judgment.
【技术实现步骤摘要】
本专利技术涉及生物信息分析、分子生物学和分子生物检测领域,特别涉及基于二代高通量测序平台的数据分析鉴定识别方法。技术背景基因组DNA序列含有生命秘密的核心信息,第一代DNA测序技术sanger测序法帮助人类打开了了解生命核心信息的大门,以芯片技术为技术核心的高通量并行测序技术,NextGenerationSequencing(NGS),第二代高通量测序技术超越了摩尔定律,将人类带进了个体化精准医疗的领域,2013年底,随着Illumina公司Xten测序平台的问世,将人类基因组30倍覆盖率的测序成本从十几万美元降至1000美元以下,随之带来了颠覆性的市场变化,各种测序应用应运而生,测序数据海量增加,各种问题也随之而来:1.基因序列信息本身也是一种资源,这种资源是属于提供基因组的个人或者家庭,还是医院的医生?是属于医疗单位,还是保险公司,抑或是提供测序服务的公司?目前无论伦理上或者是法理上,都没有很好的界定。2.基因信息是有价值的,它的价值在科学家手中就是学术价值,在医院手中就是医疗价值,在药厂手中就是商业价值,在个人手中就是经济价值,既然有价值,那么就有可能被人盗窃、复制和滥用,那么就需要去辨别该基因信息的最初来源,个人或者机构为了申明该基因是属于自己的,必须提供一系列的证据加以证明这个基因数据是该个人或者机构产生的。例如,患者A将自己的血液样本提供给了制药厂用于某种目的,并同意该制药厂具有独家使用权,制药厂将血液样本交给测序公司进行基因组测序,并签订了一系列保密合同确保基因信息不会外泄,但是有一天,该制药厂发现其竞争对手在使用患者A的基因组信息,并 ...
【技术保护点】
一种基于高通量测序数据的指纹识别方法,其特征在于:a)选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;b)选取的SNP位点选自以下1820个SNP位点的组合:
【技术特征摘要】
1.一种基于高通量测序数据的指纹识别方法,其特征在于:a)选取人类基因组中多个SNP位点作为指纹特征点,所述SNP位点为单碱基二态,MAF值在0.35~0.65之间,同一染色体上的SNP位点的相互距离大于一百万个碱基;b)选取的SNP位点选自以下1820个SNP位点的组合:2.根据权利要求1所述基于用于高通量测序数据的指纹识别方法,其特征在于通过生物信息分析方法,将含有权利要求1中的SNP位点的唯一的测序片段read的特征参数形成以下数据集合:R(N,M)=[a,b(1~m),c(1~m),d(1~m),e(1~m),f(1~m)],其中N=1~n,n>=24,M=1~m;a)m=包含有该SNP位点的唯一的测序片段read的数量,M的最大值=m;b)a=SNP名称;c)b(1~m)=1或者2,正链=1,负链=2;d)c(1~m)=测序片段序列;e)d(1~m)=测...
【专利技术属性】
技术研发人员:罗俊峰,陈云弟,
申请(专利权)人:上海阅尔基因技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。