一种基于二代测序技术的consensus序列统计分析、可视化方法技术

技术编号:29463914 阅读:29 留言:0更新日期:2021-07-27 17:40
本发明专利技术公开了一种基于二代测序技术的consensus序列统计分析、可视化方法,包括如下步骤:S1、获取二代测序数据中的consensus序列;S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;S3、对每条序列中所述gaps和/或简并碱基的类型、个数和位置进行统计,并获取每条序列的长度;S4、分别计算所述每条序列的序列覆盖度和所述gaps和/或简并碱基位置的标准差,输出结果,完成数据统计分析;通过对consensus序列中的gaps及简并碱基的位置、数量、大小和分散程度进行自动化统计分析,确定每条序列中的gaps及简并碱基的具体信息,从而能更高效的剔除这些gaps和简并碱基的片段,完成整个基因组的测序工作。

【技术实现步骤摘要】
一种基于二代测序技术的consensus序列统计分析、可视化方法
本专利技术属于二代测序
,具体涉及一种基于二代测序技术的consensus序列统计分析、可视化方法。
技术介绍
长期以来,测序技术一直是分子生物学相关研究中最常用的技术手段之一。基于测序技术的人类基因组计划、转录组分析、微生物基因组重测序,单核苷酸多态性等方面的分析也同时促进了生物学其他领域研究的进步和发展。DNA测序技术的发展为人类探索自身和其他生命的奥秘提供了可能,同时,基因组学时代的来临对DNA测序技术也提出了更高的要求,推动了DNA测序技术的不断进步。目前科学研究已经进入高通量测序时代,从单一、局部的基因或基因片段的研究转变成了对整个基因组的研究,在基因组从头测序和转录组测序中应用较广,继第一代测序技术之后,随着第二代、第三代测序技术的兴起和发展,测序技术逐步朝着高通量、低成本、高安全性和商业化的方向发展。近几年来,尤其是以单分子实时测序为代表的第三代测序技术开始进入人们的视野,该测序技术跨越了第一代、第二代较短读长而直接对DNA单个分子进行测序的新一代测序本文档来自技高网...

【技术保护点】
1.一种基于二代测序技术的consensus序列统计分析方法,其特征在于,包括如下步骤:/nS1、获取二代测序数据中的consensus序列;/nS2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;/nS3、对每条序列中所述gaps和/或简并碱基的类型、个数和位置进行统计,并获取每条序列的长度;/nS4、分别计算所述每条序列的序列覆盖度和所述gaps和/或简并碱基位置的标准差,输出结果,完成数据统计分析。/n

【技术特征摘要】
1.一种基于二代测序技术的consensus序列统计分析方法,其特征在于,包括如下步骤:
S1、获取二代测序数据中的consensus序列;
S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
S3、对每条序列中所述gaps和/或简并碱基的类型、个数和位置进行统计,并获取每条序列的长度;
S4、分别计算所述每条序列的序列覆盖度和所述gaps和/或简并碱基位置的标准差,输出结果,完成数据统计分析。


2.如权利要求1所述的基于二代测序技术的consensus序列自动分析方法,其特征在于,步骤S1中,所述consensus序列的文本格式为fasta格式。


3.如权利要求1所述的基于二代测序技术的consensus序列自动分析方法,其特征在于,步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。

<...

【专利技术属性】
技术研发人员:司昊睿周鹏
申请(专利权)人:中国科学院武汉病毒研究所
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1