用于亲权鉴定的SSR位点的筛选方法和应用技术

技术编号:20124560 阅读:70 留言:0更新日期:2019-01-16 13:24
本发明专利技术提供了一种用于亲权鉴定的SSR位点的筛选方法和应用,涉及生物技术领域。该筛选方法首先从待筛选SSR位点的物种的全基因组序列中找出所有的潜在SSR位点,然后经过依次的筛选和过滤筛选出候选的SSR位点;然后使用模拟筛选的方法,依据待筛选SSR位点的物种的遗传特征,构建模拟亲代并杂交产生子代,以验证能够用于亲权鉴定的SSR位点的特征;然后将候选SSR位点按照PE值排序,然后筛选出符合如下条件的SSR位点:(b1)MAF值≤M;(b2)缺失值比例<10%;(b3)任意两个SSR位点的距离>LD衰减距离;(b4)重复单元≥N;满足上述条件的SSR位点可用于亲权鉴定。

Screening method and application of SSR loci for paternity testing

The invention provides a screening method and application of SSR loci for paternity identification, which relates to the field of biotechnology. The screening method first identifies all potential SSR loci from the whole genome sequence of the species to be screened for SSR loci, and then screens out candidate SSR loci by sequential screening and filtering. Then, based on the genetic characteristics of the species to be screened for SSR loci, simulated parents are constructed and hybridized to produce offspring to verify the SSR loci that can be used for paternity identification. Then the candidate SSR loci were sorted according to PE values, and the SSR loci that met the following criteria were screened: (b1) MAF value < M; (b2) deletion ratio < 10%; (b3) distance between any two SSR loci > LD attenuation distance; (b4) repeat unit < N; and the SSR loci that met the above criteria could be used for paternity identification.

【技术实现步骤摘要】
用于亲权鉴定的SSR位点的筛选方法和应用
本专利技术涉生物
,尤其是涉及一种用于亲权鉴定的SSR位点的筛选方法和应用。
技术介绍
亲权鉴定亦称亲子鉴定,是将生物学、分子遗传学、医学方法结合起来,根据亲本与后代的形态结构和遗传物质进行遗传相似性分析,确定亲代与子代的关系。亲权鉴定的基本原则是应用遗传规则,即后代的遗传标记必须是父母各半。亲权鉴定的遗传学基础是孟德尔分离法则和自由组合法则,法医鉴定最先进行了应用,现在逐渐被应用于遗传育种及保护濒临灭绝的动物。在现代畜牧业发展过程中,遗传谱系已经得到了广泛的关注。错误的系谱信息会导致育种偏差进而导致巨大的经济损失。实际生产中会因各种原因造成系谱记录不详,导致育种选择无法确定优良种公畜,动物亲权鉴定就显得十分重要。亲权鉴定不但在家畜育种具有重要意义,还适用于野生动物繁殖和濒危动物的保护。亲权鉴定是研究动物生活史和估计个体近亲繁殖水平的有力工具。在保护管理中,统计有效的群体、减少近亲繁殖的水平也很重要。在动物具有未知谱系的情况下,还可以使用分子标记来构建群体结构。分子标记在动物育种中变得越来越重要,并且已经成功用于物种的识别,亲权鉴定以及建立群体之间的关系等。分子标记能够直接反映物种之间核苷酸的不同,多态性高、准确度高、具有显性或共显性标记。其主要分为DNA指纹标记、微卫星DNA和单核苷酸多态性(SNP)。其中,SSR标记具有高度多态性、遗传信息丰富、在整个基因组中分布广泛、灵敏度高、分型结果可靠、片段大小合适(一般小于400bp),适于PCR扩增等优点。因此,一种用于亲权鉴定的SSR位点的筛选方法是目前需要的。有鉴于此,特提出本专利技术。
技术实现思路
本专利技术的第一目的在于提供一种用于亲权鉴定的SSR位点的筛选方法,该方法可以有效的筛选出用于亲权鉴定的SSR位点。本专利技术的第二目的在于提供上述用于亲权鉴定的SSR位点的筛选方法的应用。为解决上述技术问题,本专利技术特采用如下技术方案:一种用于亲权鉴定的SSR位点的筛选方法,包括:(S1)筛选出待筛选SSR位点的物种的全基因组序列所有潜在的SSR位点,再筛选出位于基因区间内的SSR位点,再过滤掉单核苷酸重复类型的SSR位点;然后筛选出具有多态性的SSR位点;(S2)然后过滤掉满足如下条件的SSR位点,得到候选SSR位点:(a1)缺失值比例>50%;(a2)哈温平衡检验显著性<0.01;(S3)计算候选SSR位点的LD衰减距离;(S4)将候选SSR位点按照PE值排序,然后筛选出符合如下条件的SSR位点:(b1)MAF值≤M;(b2)缺失值比例<10%;(b3)任意两个SSR位点的距离>LD衰减距离;(b4)重复单元≥N;其中,所述M和所述N按照如下方法得到:模拟产生具有SSR位点的亲代个体,所述亲代个体满足如下条件:(c1)亲代个体的SSR位点距离≥LD衰减距离;(c2)亲代个体的基因型满足哈温平衡;然后将亲代个体作为父本,按照如下条件产生子代个体:(d1)杂交过程完全随机杂交;(d2)重组过程无连锁现象;(d3)个体不产生随机突变;然后模拟计算如下指标:(e1)不同MAF的条件下亲子关系准确率,得到亲子关系准确率至少为99.9%时的MAF值,记为M;(e2)不同SSR分型类型、不同位点规模下CPE的变化,以确定SSR位点的重复单元数,记为N。优选地,以待筛选SSR位点的物种的高通量测序数据作为全基因组序列的数据来源。优选地,从NCBISRA数据库中筛选所述物种的相同测序平台下,并且数据质量整齐度一致的测序样本,然后进行数据校准和整理以及重复序列标记和合并;优选地,所述数据校准和整理包括:收集到的SRA数据首先用sra-toolkit的“fastq-dump-split-3”命令将其转换为FASTQ数据格式,用cutadapt程序去除序列分数<20的低质量测序片段/残基,得到过滤后测序数据。再用Burrows-WheelerAlignment(BWA)tool对比工具的“bwamem-T30-h5”程序将过滤后测序数据比对到牦牛基因组上,同时检查比对质量,把质量分值低于30的过滤掉以减少假阳性。然后用Samtools软件将比对结果进行格式转换及排序,产生对比后BAM数据文件格式;优选地,所述重复序列标记和合并包括:用PicardMarkDuplicates软件来鉴定和标记每个比对后产生的BAM数据文件,将过度重复测到的冗余BAM数据文件进行合并,以保证每个样本产生一个对应的单独BAM数据文件。优选地,使用scikit-learnpackage模拟产生具有SSR位点的亲代个体。优选地,使用VCFtools对候选SSR位点数据进行LD分析,计算位点间的LD水平,并绘制LD衰减图。优选地,所述筛选方法还包括分析潜在的SSR位点的特征,以用于作为模拟筛选的SSR位点库;所述特征包括采用PSRModifyversion统计具有多态性的SSR位点,及未检测到多态性的位点;统计SSR重复类型及其重复性占比;统计群体中每个个体纯合位点及杂合位点的数量;和,统计位点分型及MAF值。优选地,所述筛选方法还包括分析待筛选SSR位点的物种和所述物种的候选SSR位点的群体遗传特征,以用于作为模拟筛选的SSR位点库;所述群体遗传特征包括:群体结构与亲缘关系、SSRs所在区间的多态性水平和统计SSRs在基因各区域的数目。优选地,所述待筛选SSR位点的物种为牦牛。优选地,将牦牛的候选SSR位点按照PE值排序,然后筛选出符合如下条件的SSR位点:(b1)MAF值≤0.3;(b2)缺失值比例<10%;(b3)任意两个SSR位点的距离>2kb;(b4)重复单元≥3。本专利技术还提供了上述SSR位点的筛选方法在如下(x1)-(x4)中的应用:(x1)个体识别;(x2)家系管理;(x3)种质资源鉴定;(x4)遗传多态性位点分析。与现有技术相比,本专利技术具有如下有益效果:本专利技术提供的用于亲权鉴定的SSR位点的筛选方法,可以直接从待筛选SSR位点的物种的全基因组序列中筛选出用于亲权鉴定SSR位点,即使待筛选SSR位点的物种在公共数据库或己发表的相关文献中都没有相关的SSR位点的报道,也可以高效的筛选出能够用于亲权鉴定的SSR位点。因此该方法具有适用范围广泛,筛选效率高,筛选出的SSR位点准确率高的优点。本专利技术提供的上述用于亲权鉴定的SSR位点的筛选方法适用范围广泛,例如可以应用于个体识别,家系管理,种质资源鉴定,和遗传多态性位点分析。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的具有多态性的SSR位点数及未检测到多态性的位点数;图2为本专利技术实施例提供的SSR重复类型及各重复类型的占比;图3A为本专利技术实施例提供的样本中每个个体纯合位点数量和杂合位点数量;图3B为本专利技术实施例提供的样本中每个个体纯合位点数量与杂合位点数量的比值;图4为本专利技术实施例提供的SSR位点在不同分型下的数目及其在不同MAF值下的占比;图5为本专利技术实本文档来自技高网
...

【技术保护点】
1.一种用于亲权鉴定的SSR位点的筛选方法,其特征在于,包括:(S1)筛选出待筛选SSR位点的物种的全基因组序列所有潜在的SSR位点,再筛选出位于基因区间内的SSR位点,再过滤掉单核苷酸重复类型的SSR位点;然后筛选出具有多态性的SSR位点;(S2)然后过滤掉满足如下条件的SSR位点,得到候选SSR位点:(a1)缺失值比例>50%;(a2)哈温平衡检验显著性<0.01;(S3)计算候选SSR位点的LD衰减距离;(S4)将候选SSR位点按照PE值排序,然后筛选出符合如下条件的SSR位点:(b1)MAF值≤M;(b2)缺失值比例<10%;(b3)任意两个SSR位点的距离>LD衰减距离;(b4)重复单元≥N;其中,所述M和所述N按照如下方法得到:模拟产生具有SSR位点的亲代个体,所述亲代个体满足如下条件:(c1)亲代个体的SSR位点距离≥LD衰减距离;(c2)亲代个体的基因型满足哈温平衡;然后将亲代个体作为父本,按照如下条件产生子代个体:(d1)杂交过程完全随机杂交;(d2)重组过程无连锁现象;(d3)个体不产生随机突变;然后模拟计算如下指标:(e1)不同MAF的条件下亲子关系准确率,得到亲子关系准确率至少为99.9%时的MAF值,记为M;(e2)不同SSR分型类型、不同位点规模下CPE的变化,以确定SSR位点的重复单元数,记为N。...

【技术特征摘要】
1.一种用于亲权鉴定的SSR位点的筛选方法,其特征在于,包括:(S1)筛选出待筛选SSR位点的物种的全基因组序列所有潜在的SSR位点,再筛选出位于基因区间内的SSR位点,再过滤掉单核苷酸重复类型的SSR位点;然后筛选出具有多态性的SSR位点;(S2)然后过滤掉满足如下条件的SSR位点,得到候选SSR位点:(a1)缺失值比例>50%;(a2)哈温平衡检验显著性<0.01;(S3)计算候选SSR位点的LD衰减距离;(S4)将候选SSR位点按照PE值排序,然后筛选出符合如下条件的SSR位点:(b1)MAF值≤M;(b2)缺失值比例<10%;(b3)任意两个SSR位点的距离>LD衰减距离;(b4)重复单元≥N;其中,所述M和所述N按照如下方法得到:模拟产生具有SSR位点的亲代个体,所述亲代个体满足如下条件:(c1)亲代个体的SSR位点距离≥LD衰减距离;(c2)亲代个体的基因型满足哈温平衡;然后将亲代个体作为父本,按照如下条件产生子代个体:(d1)杂交过程完全随机杂交;(d2)重组过程无连锁现象;(d3)个体不产生随机突变;然后模拟计算如下指标:(e1)不同MAF的条件下亲子关系准确率,得到亲子关系准确率至少为99.9%时的MAF值,记为M;(e2)不同SSR分型类型、不同位点规模下CPE的变化,以确定SSR位点的重复单元数,记为N。2.根据权利要求1所述的SSR位点的筛选方法,其特征在于,以待筛选SSR位点的物种的高通量测序数据作为全基因组序列的数据来源。3.根据权利要求2所述的SSR位点的筛选方法,其特征在于,从NCBISRA数据库中筛选所述物种的相同测序平台下,并且数据质量整齐度一致的测序样本,然后进行数据校准和整理以及重复序列标记和合并;优选地,所述数据校准和整理包括:收集到的SRA数据首先用sra-toolkit的“fastq-dump-split-3”命令将其转换为FASTQ数据格式,用cutadapt程序去除序列分数<20的低质量测序片段/残基,得到过滤后测序数据。再用Burrows-WheelerAlignment(BWA)tool对比工具的“bwamem-T30-h5”程序将过滤后测序...

【专利技术属性】
技术研发人员:兰道亮陈通吉文汇李键朱育星蔡雯祎熊显荣张大伟
申请(专利权)人:西南民族大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1