一种绵羊全基因组重测序分析方法技术

技术编号:22003043 阅读:44 留言:0更新日期:2019-08-31 06:11
本发明专利技术公开了一种绵羊全基因组重测序分析方法,涉及基因技术领域。本发明专利技术方法包括以下步骤:(1)获取绵羊DNA,检测其纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得绵羊原始测序数据;(2)对所述绵羊原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;(3)将所述目标分析序列数据比对到绵羊参考基因组上,经比对指标质控合格后获得比对上的数据;(4)检测所述比对上的数据的单核苷酸SNP变异、小片段插入缺失变异InDel及染色体结构变异SV,并进行注释,获得绵羊全基因组测序序列中的SNP数据信息、InDel数据信息和SV数据信息。

A method for genome-wide rearrangement analysis in sheep

【技术实现步骤摘要】
一种绵羊全基因组重测序分析方法
本专利技术涉及基因
,尤其涉及一种绵羊全基因组重测序分析方法。
技术介绍
DNA是生物体内一类重要的物质,它以基因的形式荷载遗传信息,并作为基因复制和转录的模板,它在细胞的生长分化和生物个体的发育、代谢及疾病发生等过程中发挥重要作用。细胞所携带的全部遗传信息合称为基因组。全基因组重测序,基于Illumina测序平台,对已有参考基因组序列的物种进行个体或群体的全基因组测序,利用高性能计算平台和生物信息学方法,检测单核苷酸多态性位点(SNP)、插入缺失(InDel)等多态性信息,获得其生物遗传特征,从而进行后续的遗传进化分析及重要性状有关的候选基因的预测,对该物种的分子育种等研究具有重要的指导意义。然而针对绵羊全基因组还未有更详细更具体的测序方法及其有效分析。
技术实现思路
有鉴于此,本专利技术实施例提供了一种绵羊全基因组重测序分析方法。为达到上述目的,本专利技术主要提供了如下技术方案:一方面,本专利技术实施例提供了一种绵羊全基因组重测序分析方法,所述方法包括步骤:(1)获取绵羊DNA,检测所述DNA的纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得绵羊原始测序数据;(2)对所述绵羊原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;(3)将所述目标分析序列数据比对到绵羊参考基因组上,经比对指标质控合格后获得比对上的数据;(4)检测所述比对上的数据的单核苷酸SNP变异、小片段插入缺失变异InDel及染色体结构变异SV,并进行注释,获得绵羊全基因组测序序列中的SNP数据信息、InDel数据信息和SV数据信息。作为优选,所述数据过滤的具体过程为:(1)去除接头污染的序列;其中,序列中接头污染的碱基数大于5bp,对于双端测序,若一端受到接头污染,则去掉两端的序列;(2)去除低质量的序列;其中,序列中质量值Q≤19的碱基占总碱基的50%以上,对于双端测序,若一端为低质量序列,则会去掉两端的序列;(3)去除含N比例大于5%的Reads;其中,对于双端测序,若一端含N比例大于5%,则会去掉两端的序列。作为优选,所述评估测序质量包括评估数据的质量分布信息和数据的碱基分布信息;其中,所述质量分布信息包括统计碱基测序错误率和碱基正确识别率。作为优选,将所述目标分析序列数据比对到绵羊参考基因组上采用软件BWA;比对率为90.2%-99.1%。作为优选,所述比对指标质控包括测序深度分布信息;其中,所述测序深度分布信息包括单碱基深度分布信息和累积深度分布信息。作为优选,所述SNP数据信息是在所述比对上的数据基础上,通过突变分析软件GATK从中提取全基因组中所有的潜在的SNP位点,再根据质量值、深度及重复性做进一步的过滤筛选,最终得到高可信度的SNP数据集,并对其进行注释;然后统计所述数据集中SNP在基因组各区间的分布信息、分析基因组中SNP的杂合比例、统计SNP突变模式的分布信息及统计编码区域的SNP突变功能分类信息。作为优选,所述InDel数据信息是在所述比对上的数据基础上通过突变分析软件GATK从中提取全基因组中所有的潜在的InDel位点,再根据质量值、深度及重复性做进一步的过滤筛选,最终得到高可信度的InDel数据集,并对其进行注释;然后统计所述数据集中InDel在基因组各区间的分布信息、统计InDel突变模式的分布信息及统计编码区域的InDel突变功能分类信息。作为优选,所述SV数据信息是在所述比对上的数据基础上通过染色体结构变异分析软件DELLY从中提取全基因组中所有的潜在的SV位点,再根据质量值、深度及重复性做进一步的过滤筛选,最终得到高可信度的SV数据集,并对其进行注释;然后统计所述数据集中SV的变异类型及各类型在基因组各区间的分布信息、统计SV在基因组上的位置分布信息及统计SV的长度分布信息。作为优选,所述方法包括步骤(5)对所有基因进行功能注释。与现有技术相比,本专利技术的有益效果是:本专利技术针对绵羊全基因进行了详细测序操作,并对测序结果进行了有效分析,发现大量单核算多态性位点SNP、插入缺失位点、结构变异位点和拷贝数变异位点;本专利技术通过生物信息手段,分析了绵羊个体基因组间的结构差异,通过本专利技术方法可为绵羊基因序列差异和结构变异提供科学依据。附图说明图1是本专利技术实施例提供的实验流程图;图2是本专利技术实施例提供的重测序信息分析流程图;图3是本专利技术实施例提供的FASTQ文件格式示例图;图4是本专利技术实施例提供的样品质量值分布图;图5是本专利技术实施例提供的样品单碱基深度分布图;图6是本专利技术实施例提供的样品累积深度分布图。具体实施方式为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下以较佳实施例,对依据本专利技术申请的具体实施方式、技术方案、特征及其功效,详细说明如后。下述说明中的多个实施例中的特定特征、结构、或特点可由任何合适形式组合。实施例1(绵羊全基因组重测序方法与分析)实验流程如图1所示,重测序信息分析流程如图2所示。1、绵羊样本信息:为更加清楚所使用的样本名和最初的样本信息之间的关系,列出样本信息收集表1,如下:表1样本信息收集表(1)SampleID:原始样本名称;(2)SampleName:分析结果中使用的样本名称;(3)SampleDescription:原始样本描述信息。2、数据过滤:样品接收后,首先,对提供的DNA或者从提供的样本中抽提的DNA进行纯度、浓度和体积等方面的检测;其次,对检测合格后的样品进行文库制备和文库质检,文库制备通过提取样品的基因组DNA并随机打断,电泳回收所需长度的DNA片断,并加上接头引物,制备得到所需文库;最后,对质检合格的文库进行上机测序;实验流程如图1所示;(1)原始测序数据:高通量测序(Illumina)得到的原始图像数据文件经CASAVA碱基识别(BaseCalling)分析转化为测序序列(SequencedReads),结果以FASTQ(简称为fq)文件格式存储,称为RawReads。FASTQ文件包含每条测序序列(Read)的名称、碱基序列以及其对应的测序质量信息。在FASTQ格式文件中,每个碱基对应一个碱基质量字符,每个碱基质量字符对应的ASCII码值减去33,即为该碱基的测序质量得分(PhredQualityScore);不同PhredQualityScore代表不同的碱基测序错误率,如PhredQualityScore值为20和30分别表示碱基测序错误率为1%和0.1%;其中FASTQ格式示例如图3所示;图3中,(1)第一行以“@”开头,随后为Illumina测序标识别符(SequenceIdentifiers)和描述文字(选择性部分);(2)第二行是碱基序列;(3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。测序得到的某些原始测序序列含有带接头的、低质量的序列,为了保证信息分析质量,必须对原始序列进行过滤,从而得到CleanReads,后续分析都基于CleanReads。数据处理步骤如下:(1)去除接头污染的Reads(Re本文档来自技高网...

【技术保护点】
1.一种绵羊全基因组重测序分析方法,其特征在于,所述方法包括以下步骤:(1)获取绵羊DNA,检测所述DNA的纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得绵羊原始测序数据;(2)对所述绵羊原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;(3)将所述目标分析序列数据比对到绵羊参考基因组上,经比对指标质控合格后获得比对上的数据;(4)检测所述比对上的数据的单核苷酸SNP变异、小片段插入缺失变异InDel及染色体结构变异SV,并进行注释,获得绵羊全基因组测序序列中的SNP数据信息、InDel数据信息和SV数据信息。

【技术特征摘要】
1.一种绵羊全基因组重测序分析方法,其特征在于,所述方法包括以下步骤:(1)获取绵羊DNA,检测所述DNA的纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得绵羊原始测序数据;(2)对所述绵羊原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;(3)将所述目标分析序列数据比对到绵羊参考基因组上,经比对指标质控合格后获得比对上的数据;(4)检测所述比对上的数据的单核苷酸SNP变异、小片段插入缺失变异InDel及染色体结构变异SV,并进行注释,获得绵羊全基因组测序序列中的SNP数据信息、InDel数据信息和SV数据信息。2.如权利要求1所述的一种绵羊全基因组重测序分析方法,其特征在于,所述数据过滤的具体过程为:(1)去除接头污染的序列;其中,序列中接头污染的碱基数大于5bp,对于双端测序,若一端受到接头污染,则去掉两端的序列;(2)去除低质量的序列;其中,序列中质量值Q≤19的碱基占总碱基的50%以上,对于双端测序,若一端为低质量序列,则会去掉两端的序列;(3)去除含N比例大于5%的Reads;其中,对于双端测序,若一端含N比例大于5%,则会去掉两端的序列。3.如权利要求1所述的一种绵羊全基因组重测序分析方法,其特征在于,所述评估测序质量包括评估数据的质量分布信息和数据的碱基分布信息;其中,所述质量分布信息包括统计碱基测序错误率和碱基正确识别率。4.如权利要求1所述的一种绵羊全基因组重测序分析方法,其特征在于,将所述目标分析序列数据比对到绵羊参考基因组上采用软件BWA;比对率为90.2%-99.1%。5.如权利要求1所述的一种绵羊全基因组重测序分析方法,其特征在于,所...

【专利技术属性】
技术研发人员:依明·苏来曼阿布来提·苏来曼决肯·阿尼瓦什刘武军黄锡霞黄李勇赵雄
申请(专利权)人:新疆农业大学
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1