水稻多样本变异整合图谱OsMS-IVMap1.0的创建制造技术

技术编号:18592603 阅读:29 留言:0更新日期:2018-08-04 20:05
本发明专利技术涉及利用基于全基因组测序的3K基因组数据比对参考基因组日本晴所获得的包括SNP、InDel和SV等在内的不同维度变异信息,通过统一整合,生成包含超过3000份样本变异信息的水稻多样本整合图谱OsMS‑IVMap1.0。该图谱的创建过程,一方面基于多样本的多种基因组变异搜寻方法;另一方面对不同维度的变异信息进行统一格式化。利用该图谱可以对水稻的重要遗传变异进行整体分析并高效的对比不同类型的基因组变异分布情况,主要应用于在以水稻为代表的模式生物中进行全基因组的变异检测、标记开发和基因功能等研究。

Establishment of rice multiple sample integration map OsMS-IVMap1.0

The present invention involves using the 3K genome data based on whole genome sequencing to compare the variation information of different dimensions, including SNP, InDel, and SV, which are obtained by the reference genome Japan, and to produce a rice multi sample integration map containing more than 3000 samples of sample variation, OsMS IVMap1.0, by unified integration. The process of creating the map, on the one hand, is based on a variety of genomic mutation searching methods based on multiple samples; on the other hand, the variation information of different dimensions is formatted. This map can be used to analyze the important genetic variation of rice and to compare the distribution of different types of genomes efficiently. It is mainly applied to the research of genome variation detection, marker development and gene function in the model organisms represented by rice.

【技术实现步骤摘要】
水稻多样本变异整合图谱OsMS-IVMap1.0的创建
本专利技术涉及一种利用基于全基因组测序的多个样本所产生的高质量SNP、InDel和SV等变异信息,创建整合图谱。该方法及其创建的图谱OsMS-IVMap1.0,属于作物分子育种领域,适用于在以水稻为代表的模式生物中进行全基因组的变异检测、标记开发和基因功能等研究。
技术介绍
基因组技术与信息技术的结合,使得科研人员可以方便的获取所需要的海量的基因数据并深入的挖掘相关的遗传信息;如何从多样本高质量的测序数据中挖掘有用的变异信息,并把它们与已知的参考图谱进行有效的整合并提供相关领域的研究者们利用是一个重要的问题。基因组测序会产生海量数据,其中包含着不同维度的丰富变异信息,包括单个碱基的变异,如SNP,小片段的变异,如InDel,大片段的插入缺失,如SV等。SNP信息是基因组中多态性最好的分子标记之一,其在基因组中广泛存在,既可以出现在基因内区域,也可以出现在基因间区域。但是在实际利用中,SNP标记的直接检测还是有困难,需要利用芯片或者转化成CAPS或KASPR等其它标记,但是前者需要酶切,后者需要特定的反应系统。InDel相对来说比较容易直接转换成基于PCR扩增的分子标记,操作更为简便。SV则与很多重要基因组的变异有关。目前的水稻图谱,从最早的RFLP、到后来的SSR、单个样本的物理图谱、单个样本的序列图谱等,但是尚缺乏将多样本多维度的变异整合在同一个参考基因组上的多样本变异整合图谱。随着基因组测序技术飞速发展,伴随着测序成本的急剧下降和大量基因组数据的便于获取,如何将多样本的基因组数据与育种实践有效结合,成为摆在分子育种工作者面前的一个重要命题。到目前为止,全球测序的水稻品种已经不下5000份;其中由中国农业科学院作物科学研究所牵头,通过与华大基因及国际水稻研究所合作,共同完成了全球3000余份水稻种质资源的测序工作。如何更加有效的从海量的数据中获取与重要性状相关的多种变异是一个重要的研究课题。如果能够将多维度的基因组变异信息与参考基因组相结合,无疑能够极大的提高分子育种工作标记开发的效率,促进分子遗传学重要变异的研究。
技术实现思路
(一)技术问题本专利技术针对上述研究背景,利用基因组测序技术,通过对基于3K基因组的测序数据比对参考基因组日本晴,获得的不同维度变异信息,包括SNP、InDel和SV等,将它们统一格式。以日本晴基因组为框架,首先生成SNP的图谱、然后在其中根据物理位置,插入InDel和SV等变异信息。在获得一个包含全部SNP、InDel和SV变异位点的物理位置信息框架后,将全部的测序个体的变异情况进行逐个合并,最终获得超过包含超过3000份样本信息的水稻多样本整合图谱OsMS-IVMap1.0。该图谱的创建过程,一方面基于多种全基因组多样本变异搜寻方法,获得不同维度的全基因组变异信息;另一方面对不同维度的变异信息进行格式化,生成统一的格式并借助参考基因组的物理位置信息,生成整合框架图;最后依据整合框架图可以将提供上述变异信息的全部样本进行数据整合,生成最终的多样本变异整合图谱。利用该图谱可以对重要遗传变异进行分析并设计高效的分子标记,主要应用于水稻的分子育种。(二)技术方案1.一种利用全基因组多样本多维度的变异信息创建变异整合图谱OsMS-IVMap1.0的方法,按照如下步骤进行:1)通过基因组重测序获得候选样本的大量基因组reads信息,至少覆盖基因组长度10X以上;2)将上述reads通过常规的序列比对方法与参考基因组进行比对,获取reads的物理位置信息,并生成包含SNP和短片段InDel等变异信息的bam格式文件。3)从bam文件中提取SNP信息数据集;通过设置参数,过滤SNP信息,获得缺失数据最少的高质量SNP数据集;4)设置阈值,从bam文件中提取InDel信息,生成InDel数据集;5)利用NovoBreak或BreakDancer和Delly等软件将各样本基因组与日本晴比较,检测长度在100bp以上的大片段插入、缺失和倒位等结构变异即SV信息,生成SV数据集;6)统一SNP、InDel和SV这三个变异数据集的格式,生成如图1所示的格式;7)依据以上变异在参考基因组日本晴的物理位置信息,将上述变异位点分染色体进行线性排列,生成变异整合框架图,生成如图2所示的格式;8)对照框架图位置,将各个样本所包含的变异信息对照排列,空缺的部分用NA表示,生成包含至少3000以上样本的变异整合图谱数据集OsMS-IVMap1.0,具体样式如图3所示。该图谱的创建方法可以在水稻及其它作物的分子育种中应用,所生成的OsMS-IVMap1.0可以在水稻的分子遗传学和分子育种中应用。(三)有益效果本专利技术与现有技术相比具有以下优点及效果:1.通过整合多样本多维度的变异信息,可以避免少量样本单一类型图谱所带来的技术局限,丰富变异的维度,便于适合育种利用的高性价比分子标记的开发;2.本专利技术获得的OsMS-IVMap1.0包含超过3000份测序样本的多样本变异信息,可以用于水稻重要农艺性状的遗传研究和标记开发,加快育种进程。附图说明图1.三种变异格式的统一格式示例;图2.变异整合框架图的格式示例;图3.多样本变异整合图谱OsMS-IVMap1.0的示意图。具体实施方式下面结合具体实施实例,进一步阐述本专利技术。其中所用方法如无特别说明均为常规方法。以下示例不以任何形式限定本专利技术。(一)亲本材料的基因组信息获取1.供试材料超过3000份水稻样本。2.DNA提取及全基因组高通量测序参考Temnykh等(2000年)的DNA提取方法,对各单株分别提取基因组DNA。考虑成本,基因组测序可以采用基于shot-gun测序技术,建库和测序方法都同常规。获得质量较好的数据覆盖度建议在10X以上。为了保证测序数据的质量,原始数据中如果某个Read超过50%的碱基quality值小于5的或者有接头污染,则予以过滤淘汰。(二)多维度变异信息的提取我们在基因组DNA测序数据的基础上,将每个样本获得的reads与参考基因组(例如Os-Nipponbare-Reference-IRGSP-1.0,IRGSP-1.0)利用免费分析工具如BWA等进行比对分析,将比对的结果生成BAM格式文件。在BAM文件的基础上,利用免费分析工具如GenomeAnalysisToolkit(GATK)等提取SNP信息。为了提高SNP信息提取的可靠性,质量控制参数设置为:每个位点的mapping质量值大于20、变异质量值大于50,而且每个碱基至少有来自2个以上reads数据的支持,MAF值>0.001。长度在100bp一下的InDel提取与SNP相同。对于长度大于100bp和1000bp之间的SV判别采用NovoBreak等软件,采用局部拼接算法检测断点,具体步骤是:先建立单个检测样本的reads数组;接着通过匹配,取出其中与参考基因组相同的序列;然后借助过滤器保留k-mer值高的数据,接着整合生成支持同一个断点的数据集。在此断点数据集的基础上,对断点附近涉及的reads进行拼接,生成contig,接着通过拼接的contig与参考基因组的再比对,最终判断断点附近SV的类型。长度介于100bp和1Mbp之本文档来自技高网
...

【技术保护点】
1.一种利用全基因组多样本多维度的变异信息创建变异整合图谱OsMS‑IVMap1.0的方法,按照如下步骤进行:1)通过基因组重测序获得候选样本的大量基因组reads信息,至少覆盖基因组长度10X以上;2)将上述reads通过常规的序列比对方法与参考基因组进行比对,获取reads的物理位置信息,并生成包含SNP和短片段InDel等变异信息的bam格式文件。3)从bam文件中提取SNP信息数据集;通过设置参数,过滤SNP信息,获得缺失数据最少的高质量SNP数据集;4)设置阈值,从bam文件中提取InDel信息,生成InDel数据集;5)利用NovoBreak或BreakDancer和Delly等软件将各样本基因组与日本晴比较,检测长度在100bp以上的大片段插入、缺失和倒位等结构变异即SV信息,生成SV数据集;6)统一SNP、InDel和SV这三个变异数据集的格式,生成如图1所示的格式;7)依据以上变异在参考基因组日本晴的物理位置信息,将上述变异位点分染色体进行线性排列,生成变异整合框架图,生成如图2所示的格式;8)对照框架图位置,将各个样本所包含的变异信息对照排列,空缺的部分用NA表示,生成包含至少3000以上样本的变异整合图谱数据集OsMS‑IVMap1.0,具体样式如图3所示。...

【技术特征摘要】
1.一种利用全基因组多样本多维度的变异信息创建变异整合图谱OsMS-IVMap1.0的方法,按照如下步骤进行:1)通过基因组重测序获得候选样本的大量基因组reads信息,至少覆盖基因组长度10X以上;2)将上述reads通过常规的序列比对方法与参考基因组进行比对,获取reads的物理位置信息,并生成包含SNP和短片段InDel等变异信息的bam格式文件。3)从bam文件中提取SNP信息数据集;通过设置参数,过滤SNP信息,获得缺失数据最少的高质量SNP数据集;4)设置阈值,从bam文件中提取InDel信息,生成InDel数据集;5)利用NovoBreak或BreakDancer和Dell...

【专利技术属性】
技术研发人员:郑天清黎志康徐建龙王春超王文生赵秀琴陈凯
申请(专利权)人:中国农业科学院作物科学研究所中国农业科学院深圳生物育种创新研究院中国农业科学院深圳农业基因组研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1