全长转录本的结构注释和比对结果评估方法技术

技术编号:17008240 阅读:129 留言:0更新日期:2018-01-11 04:20
本发明专利技术为全长转录本的结构注释和比对结果评估方法,公开的比对结果评估和基因结构注释方法,其使用了matchAnnot软件,脚本的作用是将已有的注释gtf文件和sam文件按matchAnnot软件所需的格式修改,使用matchAnnot进行结构注释和比对结果评估,优化了matchAnnot结果的展示方式,并进行统计。

【技术实现步骤摘要】
全长转录本的结构注释和比对结果评估方法
本专利技术涉及生物
,特别涉及一种全长转录本的结构注释和比对结果评估方法。
技术介绍
结构注释是指基于全长转录本与参考基因组的比对结果对全长转录本的一级结构进行预测,比对结果评估是指将预测的全长转录本结构与已知基因结构进行比较的结果,用于评估全长转录本与参考基因组的比对情况。目前全长转录本的结构注释和比对结果评估方法为直接采用matchAnnot进行评估。该比对结果评估方法存在如下问题:1)matchAnnot对输入文件有要求,使用常规的gtf和sam文件可能会报错;2)matchAnnot的结果比较冗余,不够清晰明了。
技术实现思路
本专利技术所要解决的技术问题在于针对现有的全长转录本比对结果评估方法所存在上述问题而提供一种优化方法。本专利技术所要解决的技术问题可以通过以下技术方案来实现:比对结果评估和基因结构注释方法,包括如下步骤:(1)获得参考基因组注释gtf文件和全长转录组与参考基因组比对结果sam文件中共有的染色体ID;(2)筛选sam文件中比对上非共有染色体的条目,进行整理后输出到no_annotation.txt(这部分全长转录本可用无参考基因组注释方式进行补充注释,从而获得新基因)中,而比对上共有染色体的条目则输出到tmp.sam中;(3)使用matchAnnot软件进行结构注释和比对结果评估,tmp.sam文件和gtf文件作为输入文件;(4)整理matchAnnot结果,将全长转录本的polyAmotif单独输出到polyA_motif.txt中,对每条全长转录本提取与其最佳匹配的参考基因和参考转录本的信息,结合gtf中该基因的信息一并输出到matchinfo.xls中,对全长转录本与最佳匹配的参考转录本和参考基因的对应关系输出到transcript_summary.txt中(可用于寻找来自同一基因的全长转录本),统计全长转录本的最高匹配得分并用R语言作饼图。由于采用了如上的技术方案,本专利技术的核心部分使用了matchAnnot软件,脚本的作用是将已有的注释gtf文件和sam文件按matchAnnot软件所需的格式修改,使用matchAnnot进行结构注释和比对结果评估,优化了matchAnnot结果的展示方式,并进行统计。附图说明图1为本发专利技术的比对结果评估和结构注释方法的流程图。具体实施方式参见图1,比对结果评估和基因结构注释方法,包括如下步骤:(1)获得参考基因组注释gtf文件和全长转录组与参考基因组比对结果sam文件中共有的染色体ID;(2)筛选sam文件中比对上非共有染色体的条目,进行整理后输出到no_annotation.txt(这部分全长转录本可用无参考基因组注释方式进行补充注释,从而获得新基因)中,而比对上共有染色体的条目则输出到tmp.sam中;(3)使用matchAnnot软件进行结构注释和比对结果评估,tmp.sam文件和gtf文件作为输入文件;(4)整理matchAnnot结果,将全长转录本的polyAmotif单独输出到polyA_motif.txt中,对每条全长转录本提取与其最佳匹配的参考基因和参考转录本的信息,结合gtf中该基因的信息一并输出到matchinfo.xls中,对全长转录本与最佳匹配的参考转录本和参考基因的对应关系输出到transcript_summary.txt中(可用于寻找来自同一基因的全长转录本),统计全长转录本的最高匹配得分并用R语言作饼图。本文档来自技高网...
全长转录本的结构注释和比对结果评估方法

【技术保护点】
比对结果评估和基因结构注释方法,其特征在于,包括如下步骤:(1)获得参考基因组注释gtf文件和全长转录组与参考基因组比对结果sam文件中共有的染色体ID;(2)筛选sam文件中比对上非共有染色体的条目,进行整理后输出到no_annotation.txt中,而比对上共有染色体的条目则输出到tmp.sam中;(3)使用matchAnnot软件进行结构注释和比对结果评估,tmp.sam文件和gtf文件作为输入文件;(4)整理matchAnnot结果,将全长转录本的polyA motif单独输出到polyA_motif.txt中,对每条全长转录本提取与其最佳匹配的参考基因和参考转录本的信息,结合gtf中该基因的信息一并输出到matchinfo.xls中,对全长转录本与最佳匹配的参考转录本和参考基因的对应关系输出到transcript_summary.txt中,统计全长转录本的最高匹配得分并用R语言作饼图。

【技术特征摘要】
1.比对结果评估和基因结构注释方法,其特征在于,包括如下步骤:(1)获得参考基因组注释gtf文件和全长转录组与参考基因组比对结果sam文件中共有的染色体ID;(2)筛选sam文件中比对上非共有染色体的条目,进行整理后输出到no_annotation.txt中,而比对上共有染色体的条目则输出到tmp.sam中;(3)使用matchAnnot软件进行结构注释和比对结果评估,tmp.sam文件和gtf文件作...

【专利技术属性】
技术研发人员:王智健简洁姜丽荣孙子奎
申请(专利权)人:上海派森诺生物科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1