【技术实现步骤摘要】
一种基因注释文件格式及针对该基因注释文件格式的解析工具
本专利技术涉及一种基因注释文件格式,具体涉及一种基因注释文件格式及针对该基因注释文件格式的解析工具,属于生物信息领域。
技术介绍
一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始/终止位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。GFF/GTF是目前贮存这些注释信息的两种文件格式,其中,GFF(generalfeatureformat)主要是用来存储基因组基因注释结果,并且现大部分利用的是第三版,即GFF3;GTF(genetransferformat)主要是用来存储基因组转录本注释结果。当前广泛使用的GTF格式为第二版,即GTF2。其中,GFF3允许使用#作为注释符号,除去注释行外,主体部分共有9列,并且GFF3中每一列的含义:序列编号(seqid)、来源(source)、类型(type)、起始位置(start)、终止位置(end)、得分(score)、链的方向(strand)、相位 ...
【技术保护点】
1.一种基因注释文件格式,其特征在于,所述文件格式共9列,分别为:序列编号、起始、终止、链的方向、层级、特征类型、编号、父序列编号和属性,其中,/n按照序列合成的顺序,所述层级从上到下的序列性质为:基因座位->原始转录本->加工转录本->产物。/n
【技术特征摘要】 【专利技术属性】
1.一种基因注释文件格式,其特征在于,所述文件格式共9列,分别为:序列编号、起始、终止、链的方向、层级、特征类型、编号、父序列编号和属性,其中,
按照序列合成的顺序,所述层级从上到下的序列性质为:基因座位->原始转录本->加工转录本->产物。
2.根据权利要求1所述的基因注释文件格式,其特征在于,所述属性,按照不同的所述层级,有其特定的生物类型值以及调控元件生物类型值。
3.根据权利要求1所述的基因注释文件格式,其特征在于,在所述基因注释文件格式中每一个层级下有共享的特征类型。
4.根据权利要求3所述的基因注释文件格式,其特征在于,当所述特征类型为调控元件时,在第九列的属性中包含调控元件生物类型的值。
5.根据权利要求1所述的基因注释文件格式,其特征在于,通过所述属性中的特定属性来实现生物学功能上的逻辑组织,其序列相似程度从大到小为:产物->产物簇->基因座位名->基因。
技术研发人员:黄子妍,邓操,郝兆楠,刘梦佳,
申请(专利权)人:成都基因坊科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。