【技术实现步骤摘要】
一种基于人类全转录本的微肽候选库及其应用
(一)
[0001]本专利技术涉及一种基于人类全转录本的微肽候选库及其应用。
(二)
技术介绍
[0002]蛋白质是生命的物质基础,是构成细胞的基本有机物,是生命活动的主要承担者,部分蛋白的异常表达和翻译与肿瘤发生密切相关。时至今日,人类基因组中已有近20000个基因被注释为蛋白质编码基因,其中约17000个蛋白质已得到生化实验水平上的验证。而其余98%的基因组中有数量巨大的一部分被转录为“非编码RNA”。正如其命名,长久以来,学界普遍认为这些RNA并不直接编码蛋白质,而是通过其他不同的方式调控细胞的生命活动。
[0003]但随着高通量技术的发展与生物信息学水平的进步,对于这些非编码RNA的认知也逐步更新,越来越多非编码RNA被发现具有编码长度较短的非经典蛋白质,即微肽的能力,这些基因序列被称为“短开放阅读框”(Short open reading frames,sORFs),这进一步说明这些非编码RNA所翻译出的微肽并非是个别的注释错误,而是蛋白质组水平的存在,意味着仍有一批数 ...
【技术保护点】
【技术特征摘要】
1.一种基于人类全转录本的微肽候选库,其特征在于,所述候选库按如下步骤构建:(1)下载人类/小鼠参考全基因组数据和基因注释文件,简称GTF文件;(2)筛选步骤(1)中以ATG、CTG、GTG或TTG中的一种为起始密码子,以TAG、TAA或TGA中的一种为终止密码子,满足三联密码子排布的开放阅读框序列作为待选微肽基因;(3)利用步骤(2)待选微肽基因所在基因组信息计算其在转录本上的相对位置,并将其RNA序列提取出来,计算微肽对应的RNA长度信息,筛选长度介于30
‑
750之间的RNA序列;(4)将步骤(3)RNA序列信息转换成氨基酸序列信息,计算微肽对应的氨基酸长度信息,筛选长度为10到250个氨基酸之间的微肽,获得基于人类/小鼠全转录本的微肽候选库;将筛选的每个微肽的开放阅读框位置、RNA序列、RNA长度、氨基酸序列、氨基酸长度、转录本位置、转录本类型、基因位置、基因名、所属染色体、基因长度、起始密码子,微肽名以所属转录本+开放阅读框位置定义初步命名;按照fasta格式保存。2.如权利要求1所述基于人类全转录本的微肽候选库,其特征在于,步骤(1)人类参考全基因组数据源自http://ftp.ensembl.org/pub/release
‑
103/fasta/homo_sapiens/dna/,GTF文件源自http://ftp.ensembl.org/pub/release
‑
103/gtf/homo_sapiens/。3.如权利要求1所述基于人类全转录本的微肽候选库,其特征在于,步骤(2)利用Ribotricer v.1.3.2软件筛选。4.如权利要求1所述基于人类全转录本的微肽候选库,其特征在于,步骤(3)下载人类所有...
【专利技术属性】
技术研发人员:林爱福,石成瑜,王颖,杨作臻,桑凌杰,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。