一种预测蛋白质在RNA病毒基因中的结合位点的方法技术

技术编号:13623815 阅读:40 留言:0更新日期:2016-09-01 14:50
本发明专利技术涉及一种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列被选为蛋白质结合位点的概率,该方法包括以下步骤:1)获取多条RNA病毒基因序列;2)以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较,获得最大位点信息量及该最大位点信息量所对应的位点信息,根据所述位点信息获得结合位点。与现有技术相比,本发明专利技术能够迅速地、准确地预测蛋白质在RNA病毒基因中的结合位点的方法,为探究RNA病毒的复制机制提供帮助。

【技术实现步骤摘要】

本专利技术涉及生物信息
,尤其是涉及一种预测蛋白质在RNA病毒基因中的结合位点的方法
技术介绍
从1868年F.Miescher发现核素到1953年沃森和克里克正式提出DNA分子的双螺旋结构,再到2005年人类基因组计划测序工作的完成,人类在探索生命奥秘的道路上留下了一串串坚实的脚印。然而近年来随着对RNA分子研究的不断深入,人们逐步意识到RNA具有远比DNA复杂得多的结构和功能上的多样性,RNA研究已经成为新的热点,一个崭新的RNA世界正在逐渐展现在人们的面前。病毒是地球上最丰富的微生物之一,它是由一个核酸分子与蛋白质构成的非细胞结构形态的靠寄生生活的生命体,根据遗传物质的不同可以分为:DAN病毒和RAN病毒。近年来,由RNA病毒引起的新发或再发性流行病经常成为全球性公共卫生问题,例如轮状病毒、艾滋病病毒、SARS病毒、埃博拉病毒(EBOV)、甲型H1N1流感病毒等。病毒基因组的复制与表达是研究病毒致病机理及研制抗病毒药物的核心,RNA病毒特别是单链RNA病毒,依靠其遗传物质不稳定、基因组进化速度非常快的特点,给疫苗的研制带来巨大的挑战。据悉,从1967年在德国的马尔堡首次发现埃博拉病毒到如今已接近五十年,埃博拉病毒曾造成多次大爆发,人体感染初期出现头痛,肌痛、恶心、呕吐、腹泻等,随后可能出现体内外出血、中枢神经紊乱,最终导致死亡,严重威胁着人类的健康和生命。生物信息学是将计算机科学和数学应用于分子生物学而形成的交叉学科,在基因组的研究中发挥着重要的作用。它将从实验室得到的生物学信息转化为计算机能够处理的数字信息,通过对实验数据加工、存储、检索与分析,进而揭示数据所蕴含的生物学意义。信息量是用于分析蛋白质与核酸相互作用的信息理论,可以应用到调节位点的分析,它首先是由Schneider等提出的,后经Berg和Stormo等人
进行了补充完善,其核心是具有相同亲和性的序列在进化过程中有相同的概率被与之作用的蛋白质或酶选为结合位点,而结合的自由能与亲和性直接相关,即寻找与目标病毒类似的病毒核苷酸序列,将其两两比对,若两序列有同样的自由能,就有同样的结合蛋白质的亲和性,而结合的自由能直接与碱基利用率相关。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种能够迅速地、准确地预测蛋白质在RNA病毒基因中的结合位点的方法,为探究RNA病毒的复制机制提供帮助。本专利技术的目的可以通过以下技术方案来实现:一种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列被选为蛋白质结合位点的概率,该方法包括以下步骤:1)获取多条RNA病毒基因序列;2)以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较,获得最大位点信息量及该最大位点信息量所对应的位点信息,根据所述位点信息获得结合位点,其中,所述位点信息量的计算公式为: H l = - Σ b l = A , C , G , T p ( b l ) l n [ p ( b l ) / p 0 ( b l ) ] ]]> H s e q = Σ l = 1 S H l ]]>式中,Hl是位点中每个位置的信息量,Hseq是位点信息量,bl表示碱基,有A、C、G、T四种碱基,p(bl)是各位置中碱基出现的概率,p0(bl)是基因组中碱基出现的概率,S是位点中位置的个数。所述步骤1)中,RNA病毒基因序列通过基因组测序得到或由GenBank数据库中获取。所述步骤1)中,多条RNA病毒基因序列为同一个属或者同一个科的单股正链RNA病毒基因序列。所述步骤1)中,多条RNA病毒基因序列的序列长度差在1%以内。所述步骤2)中的比较过程具体为:201)任意选取一条RNA病毒基因序列作为目标序列,所述目标序列的长度为L,其它序列作为比较序列,将所述目标序列中由第一个碱基开始的一个分析单
位与所有比较序列末尾的一个分析单位进行位点信息量比较,获得一个4×S的碱基概率矩阵,S为单位长度;202)从所述目标序列的第二个碱基依次开始截取一分析单位,将所截取的分析单位与所有比较序列末尾的一个分析单位进行位点信息量比较,直至目标序列所有碱基均比较完成,获得L-S+1个4×S的碱基频率矩阵。所述碱基频率矩阵含有单位长度碱基的位置、每个位置相应的信息量值以及最大位点信息量。与现有技术相比,本专利技术具有以下有益效果:(1)本专利技术通过对序列的分析单位进行位点信息量比对,从而获得RNA病毒基因序列被选为蛋白质结合位点的概率,预测最有可能的结合位点,不仅能快速从众多序列中抽提出结合位点,而且能预测出结合位点中重要的位置。(2)本专利技术在选取RNA病毒基因序列选择同一个属或者同一个科的单股正链RNA病毒基因序列,且序列长度相近,有效提高了预测的准确性。(3)利用本专利技术方法能预测调节蛋白在病毒基因内的结合位点,为定点突变等分子生物学实验提供方向,为弄清蛋白质与RNA病毒基因相互作用奠定基础、最终揭示RNA病毒复制机理做出贡献。附图说明图1为本专利技术的流程示意图;图2为本专利技术结果文本示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。如图1所示,本实施例提供一种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列被选为蛋白质结合位点的概率,该方法包括:步骤S1:获取多条RNA病毒基因序列。RNA病毒基因序列可通过基因组测试得到,也可登录NCBI网站的GenBank数据库下载的相关病毒基因的序列进行整理获取。优选地,多条RNA病毒基因序列为同一个属或者同一个科的单股正链RNA病毒基因序列。更进一步地,多条RNA病毒基因序列的序列长度相近,长度差在1%以内。步骤S2:以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较,其中,所述位点信息量的计算公式为: H l = - Σ b l 本文档来自技高网
...

【技术保护点】
一种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列被选为蛋白质结合位点的概率,其特征在于,该方法包括以下步骤:1)获取多条RNA病毒基因序列;2)以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较,获得最大位点信息量及该最大位点信息量所对应的位点信息,根据所述位点信息获得结合位点,其中,所述位点信息量的计算公式为:Hl=-Σbl=A,C,G,Tp(bl)ln[p(bl)/p0(bl)]]]>Hseq=Σl=1SHl]]>式中,Hl是位点中每个位置的信息量,Hseq是位点信息量,bl表示碱基,有A、C、G、T四种碱基,p(bl)是各位置中碱基出现的概率,p0(bl)是基因组中碱基出现的概率,S是位点中位置的个数。

【技术特征摘要】
1.一种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列被选为蛋白质结合位点的概率,其特征在于,该方法包括以下步骤:1)获取多条RNA病毒基因序列;2)以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较,获得最大位点信息量及该最大位点信息量所对应的位点信息,根据所述位点信息获得结合位点,其中,所述位点信息量的计算公式为: H l = - Σ b l = A , C , G , T p ( b l ) l n [ p ( b l ) / p 0 ( b l ) ] ]]> H s e q = Σ l = 1 S ...

【专利技术属性】
技术研发人员:苏翠珠肖明
申请(专利权)人:上海师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1