当前位置: 首页 > 专利查询>内蒙古大学专利>正文

一种筛选指纹图谱遗传标记的方法技术

技术编号:17912844 阅读:48 留言:0更新日期:2018-05-10 18:31
本发明专利技术涉及生物信息学领域,具体公开了一种筛选指纹图谱遗传标记的方法及M‑strategy(最大化策略)的新用途。本发明专利技术使用M‑strategy,并结合各类遗传标记数据,对核心遗传标记集合进行筛选,然后用于不同物种指纹图谱的构建,解决了传统遗传标记筛选标准单一、选择效率不高、不易实现自动化等问题。该方法考虑了不同遗传标记之间遗传多样性信息的冗余性以及互补性,能够实现对大量遗传标记的高效、快速筛选,从而避免了遗传标记位点多样性信息的冗余,减少了信息浪费,降低了检测成本,提高了筛选效率。

【技术实现步骤摘要】
一种筛选指纹图谱遗传标记的方法
本专利技术涉及生物信息学领域,具体地说,涉及遗传标记的筛选。
技术介绍
指纹图谱是指能够区分生物(包括动物、植物、真菌、细菌、病毒)不同品种或个体的数个遗传标记及其特征谱带或条带的组合。该技术已广泛用于人类亲子鉴定、动植物群体研究以及作物新品种DUS测定等领域。构建指纹图谱的遗传标记有形态学标记(如株高、花色、茎粗等)、细胞学标记(如核型)、生化标记(如同工酶)和DNA标记(如RFLP、SSR、SNP等)四大类。DNA标记以其重复性好、稳定性高、多态性丰富以及灵敏度高等特点,已成为指纹图谱中应用最为广泛的遗传标记。用尽可能少的遗传标记实现生物不同品种或个体的有效区分,是确定指纹图谱中遗传标记的主要原则。在以往的实践中,人们筛选指纹图谱中DNA标记的原则多是扩增效率高、重复性好、遗传距离大以及多态性高(PIC值>0.5)(Reid,Euphytica,2011;Ghislain,MolBreeding,2009)。上述原则既未考虑不同遗传标记间遗传多样性信息的冗余性,也未考虑各遗传标记间遗传多样性信息的互补性。由此造成的后果往往是,指纹图谱中包含的标记数目较多,且并不一定能够完全区分各品种或个体。而对超过实际需求的遗传标记进行分析测定,不仅起不到提高区分率的作用,还会造成人力、物力和财力的浪费。例如,CN105886613A公开了一种大豆品种SSR指纹图谱身份证的构建方法,选取大豆基因组中320对SSR引物,然后根据这些引物在98个大豆品种中多样性指数的大小排序,最后选择多样性指数最高的7对SSR构建了98个大豆品种的指纹图谱。然而,该技术方案的不足在于:1、没有考虑不同遗传标记在样品区分度上的互补性以及不同遗传标记多样性信息的重复性,有可能造成遗传标记间多样性的冗余和信息浪费,增加检测成本;2、筛选遗传标记的标准单一且全部依靠人工操作,选择效率不高,无法实现大量遗传标记的自动化筛选。近年来,随着测序成本的不断降低,基因型分析的通量急剧增加,一次检测的遗传标记(如SSR、SNP)动辄成千甚至上万个。在这种情况下,仅靠人力根本无法确定能够满足区分各品种/个体所需的最少数目的遗传标记及其组合。因此,亟需开发一种高效筛选遗传标记的新方法,既能考虑不同标记间多样性信息的冗余性和互补性,又能在一定程度上实现自动化运行,并能满足大规模的数据运算。申请人研究发现,在样本量较少时(例如5个样品,200个遗传标记),可使用python脚本直接用于构建最小核心遗传标记的集合。但样本量过大时,python脚本的运行时间大幅增加。若按本专利技术实施例2中2457×221的数据量计算,该脚本直接用于筛选核心遗传标记的运行时间为MStrat的55.4倍,PowerCore的1800倍。M-strategy,又称最大化策略,是1993年由Schoen和Brown为构建作物核心种质资源库而开发的一种算法。将表型或基因型数据进行编码,通过最大限度地保留各遗传标记位点上的等位基因类型,从全部资源中选择出数目有限且能最大限度代表全部资源遗传多样性的一个子集,作为全部资源的一套核心种质。M-strategy通过各遗传位点等位基因数目的最大化,即保留系内等位基因型多且系间等位基因尽可能不同的那些品系,实现用多样性高、数目少的少数个体来代表全部资源的遗传变异,达到创建作物核心种质资源库的目的。根据M-strategy,人们开发了数个构建核心资源库的软件,如基于最大化算法的MSEARCH(Schoen和Brown,1993)、MStrat(Gouesnard等,2001)以及基于启发式算法的PowerCore(Kim等,2007)。目前为止,尚未见M-strategy及相关软件用于创建核心种质库之外的其他用途,更未见将M-strategy用于筛选指纹图谱所需遗传标记的报道。
技术实现思路
本专利技术针对传统的筛选方法中过滤条件单一、筛选效率低下、不易实现自动化、不适于大数据量等问题,提供一种高效筛选指纹图谱遗传标记的新方法。将传统用于构建作物核心种质资源库的M-strategy应用于高多态性、低冗余度遗传标记的筛选,实现在大量的遗传标记中快速获取能够用于区分该物种不同品种/个体最少数目的遗传标记组合,可用于生物指纹图谱创建、作物品种鉴定等方面。本专利技术的技术方案如下:一种筛选指纹图谱遗传标记的方法,从大量可数字化的遗传标记中,使用M-strategy选出数量有限但能最大限度保留全部遗传标记多样性的核心遗传标记集合,用于构建指纹图谱。本专利技术以基于最大化算法开发的MStrat软件为例,阐述如何将M-strategy用于筛选指纹图谱的遗传标记。其它基于M-strategy软件(如PowerCore)的工作流程与MStrat基本相似,可参考其说明书。(1)安装MStrat软件从以下网址下载MStrat软件(http://www1.montpellier.inra.fr/gap/MStrat),并按照提示进行安装。(2)将遗传标记进行数字化转换本专利技术适用于任何能够数字化的遗传标记,如各类形态学标记、基于电泳条带的生化标记以及DNA标记等。对于某个特定的DNA标记,按照等位基因频率从低到高的顺序,分别用“1,2,……,X”等整数对其不同的等位基因进行编码,缺失数据用9999表示。(3)输入数据的准备将原本用于构建核心种质库的m×n阶矩阵(m个样品、n个遗传标记)进行转置,形成n×m矩阵。对于MStrat而言,原输入文件由行为样品、列为遗传标记变为行为遗传标记、列为样品。MStrat的输入文件一共有三个,分别命名为input.dat,input.var和input.ker。为保证软件准确识别各个输入文件,所有输入文件格式应严格按照下文的示例进行整理:①input.dat114111132002232031021211112022313999941233112223244020321223412323113213222334351443434399991343224446129999220233232431333……第一列是各个遗传标记的编号,第二列在该格式转换中固定为1,从第三列开始,每一列代表一个样品,数字编码代表该样品在各遗传位点上的等位基因,缺失数据用9999表示。列与列之间用空格间隔。②input.varcode0individu0Sample00121112Sample00221112Sample00321112Sample00421112Sample00521112Sample00621112……前两行是固定格式,从第三行开始,第一列是样品的编号,从第二列到最后是对不同的样品进行权重赋值,并且对各个位点的属性进行定义,格式说明详见MStrat软件使用说明。③input.ker该文件一共两列,第一列是各遗传标记的编号,第二列是用来定义该遗传标记是否为核心种质/遗传标记库的必选项(kernelcore),为了保证遗传标记选取的随机性,本专利技术对此项参数不做差异化设置。(4)根据Redundancy曲线确定指纹图谱所需最少遗传标记的数目j运行Redundancy,获得多样性指数(如NeiIndice)与入选遗传标记数本文档来自技高网
...

【技术保护点】
M‑strategy在筛选指纹图谱遗传标记中的应用,其特征在于,所述遗传标记为可数字化的遗传标记。

【技术特征摘要】
1.M-strategy在筛选指纹图谱遗传标记中的应用,其特征在于,所述遗传标记为可数字化的遗传标记。2.根据权利要求1所述的应用,其特征在于,将样品与遗传标记信息构建m×n阶矩阵,转置形成n×m矩阵,再通过M-strategy筛选出核心遗传标记集合;其中,m表示m个样品,n表示n个遗传标记。3.根据权利要求2所述的应用,其特征在于,m小于等于500。4.根据权利要求2或3所述的应用,其特征在于,在不统计任意两个样品间存在缺失数据遗传标记的情况下,m个样品中,任意两个样品均在所述遗传标记集合中存在一个及以上基因型的差异。5.一种筛选指纹图谱遗传标记的方法,其特征在于,将样品与遗传标记信息构建m×n阶矩阵,转置形成n×m矩阵,再通过M-strategy筛选出核心遗传标记集合;其中,m表示m个样品,n表示n个遗传标记。6.根据权利要求5所述的方法,其特征在于,包括如下步骤:S1、先将可数字化的遗传标记进行数字化转换,再将样品与数字化后遗传标记信息构建的m×n阶矩阵,转置形成n×m矩阵;S2、利用M-strategy获得多样性指数与入选遗传标记数目的二维曲线,曲线拐点处所对应的遗传标记数目j,可被视为能代表全部n个遗传标记多样性的“核心遗传标记”的数目,再根据多样性指数确定最优的j个遗传标记的集合;S3、将m个样品在j个遗传标记处的基因型数据提取出来,形成一个m×j矩阵;比较m个样品两两之间的基因型是否相同;在不统计任意两个样...

【专利技术属性】
技术研发人员:齐建建练群张若芳蒲媛媛
申请(专利权)人:内蒙古大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1