【技术实现步骤摘要】
注释宏病毒组原始测序数据短读序列的方法、系统、存储介质和装置
[0001]本专利技术涉及生物信息学领域,尤其涉及注释宏病毒组原始测序数据短读序列的方法、系统、存储介质和装置。
技术介绍
[0002]被称为人体第二基因组的人体微生物组((human microbiome)是人体内外表面所有微生物所携带遗传物质的总称(Sender R,et al,2016)。全球各国对这一新兴领域异常重视,并启动了多项微生物组研究计划,例如,由法国农业研究院2005牵头发起并于2008年正式成立了国际人体微生物组联盟;2008年,由美国国立卫生研究院主导启动了人体微生物组计划(Human Microbiome Project,HMP)(Meth
éꢀ
Barbara A,et al,2012);及欧盟于2008年启动的“人体肠道微生物宏基因组学(Metagenomics of Human Intestinal Tract MetaHIT)计划”,在其第七框架计划下,欧盟将目光聚焦在了特定的微生物组领域。这些计划的开展,揭示了人体 ...
【技术保护点】
【技术特征摘要】
1.一种注释宏病毒组原始测序数据短读序列的方法,基于windows系统,其特征在于:包括以下步骤:获取原始测序数据,对原始测序数据进行解压并提取短读序列,生成短读序列数据集,调用blastn程序将数据集比对到数据库中;保留每条短读序列的最佳比对结果,并将最佳比对结果中比对质量差的结果去除,然后按照基因id添加病毒种名称;基于脚本库,统计注释到每个病毒种的短读序列数目,计算每个病毒种的短读序列在基因组上比对位置的标准偏差,并按照注释的病毒种提取对应的短读序列序列,输出fasta数据集。2.根据权利要求1所述的一种注释宏病毒组原始测序数据短读序列的方法,其特征在于:所述方法还包括以下初始化步骤:检测特定目录下是否存在判断是否存在blastn索引,如果不存在blastn索引则进一步判断特定目录下是否存在用户提供的fasta数据集,如果存在用户提供的fasta数据集则基于所述fasta数据集构建新的Blastn索引,否则进一步判断特定目录下是否存在RefSeq病毒数据库,如果存在RefSeq病毒数据库则基于所述RefSeq病毒数据库构建新的Blastn索引,否则报错;在存在blastn索引的情况下,完成后续注释步骤。3.根据权利要求1所述的一种注释宏病毒组原始测序数据短读序列的方法,其特征在于:所述脚本库包括数据库自检脚本、毒株名添加脚本和短读序列提取脚本。4.根据权利要求1所述的一种注释宏病毒组原始测序数据短读序列的方法,其特征在于:所述质量差为比对长度小于第一长度和/或相似度小于第一阈值。5.一种注释宏病毒组原始测序数据短读序列的系统,基于windows系统,其特征在于:包括:Blastn分析模块:用于获取原始测序数据,对原始测序数据进行解压并提取短读序列,生成短读序列数据集,调用blastn程序将数据集比对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。