一种基于模拟退火算法的假结RNA结构预测方法技术

技术编号:35735536 阅读:13 留言:0更新日期:2022-11-26 18:37
本发明专利技术涉及一种基于模拟退火算法的假结RNA结构预测方法,所述假结RNA结构预测方法涉及RNA二级结构及其自由能,所述RNA二级结构包含一种梯子结构,所述RNA二级结构的自由能能根据近邻热力学参数计算出来,随着RNA序列长度的增加,二级结构候选解的数量也呈指数量级增加。本发明专利技术能有效得到问题最优解,预测效率较高,收敛性较好,弥补了现有现有方法的缺陷。弥补了现有现有方法的缺陷。

【技术实现步骤摘要】
一种基于模拟退火算法的假结RNA结构预测方法


[0001]本专利技术涉及生物工程
,特别涉及一种一种基于模拟退火算法的假结RNA结构预测方法。

技术介绍

[0002]RNA(脱氧核糖核酸)是生物系统内最为重要的分子之一,它在生物体内具备多种功能。在最初的生物中心法则中,RNA被认为在表达遗传信息时作为蛋白质翻译,发挥了一部分短暂的作用。后来的研究发现,RNA除了翻译蛋白质,还具有多种其它功能,如调控基因表达、转运RNA、催化肽链形成和指导蛋白质合成等。随着科研工作者对RNA研究的逐步深入,RNA带给人们的形象也随之发生了变化。RNA被认为不仅仅是DNA到蛋白质之间的一种信息传递中介,它逐渐由功能单一的简单线性碱基序列,演变成种类多样、结构复杂、功能特异的生命核心物,同时RNA在中心法则中,取得了与DNA和蛋白质同样重要的地位。在RNA结构预测算法的研究上,近些年来虽然衍生了许多新的算法,但是从根本上而言,还是在原先经典算法的基础上加以改进的结果。因此从预测效率的角度来看其时间复杂度和空间复杂度并未取得大的改进。目前RNA二级结构预测的算法主要有比较序列分析和热力学最小自由能两种,由于比较序列分析法需要知道多个与之同源的序列及相应的二级结构信息因此相对于后者而言发展缓慢。当仅有一个RNA序列或者序列为差异很小的RNA小家族时,比较序列分析方法根本不适用。而后一种方法依据碱基配对和自由能分配规则,搜索有最小自由能量的二级结构。其基本假设是具有最小自由能量的RNA二级结构是最稳定的,并且最接近真实的RNA生物分子结构。以基于热力学的最小自由能算法是近年来RNA二级结构预测算法的代表,并在此算法基础之上得到了很大的改进和演进,出现很多其他的算法。
[0003]由于生物信息学领域新的数据呈现指数增长,海量的序列数据信息使得最小自由能算法的发展极其迅速。由于RNA分子具有降解速度快,难以结晶等特点,故通过x射线晶体衍射和NMR等实验方法去测定RNA分子的立体结构很不容易。计算机技术的快速发展使得各种复杂的预测算法在计算机上得以实现由此带动各种RNA预测算法的不断涌现。虽然现在各种各样的RNA算法层出不穷,但是大多数是在原先经典算法的基础之上加以改进以求计算精度和时间复杂度等,没有真正解决问题的难点。如,对于RNA二级结构预测问题有核磁共振、图形化暴力破解等传统物理方法可以较为准确的得到RNA结构,然而其结构并不稳定,使得这些物理方法都会消耗巨大的资源和时间且得到的结果也未必是准确的结构。但是通过RNA一级结构去预测其二级结构的过程是相当复杂的,其一,随着RNA分子长度的增加,其预测难度将呈指数级提升,较长的RNA分子十分难去预测;其二,在真实的RNA结构中存在假结,这种假结结构预测准确度更低。当下RNA二级结构主流的预测算法中,基于序列比较分析的算法需要大量的先验已知序列信息,如果信息不足其预测准确度不高;基于动态规划的算法计算成本较高;基于启发式算法,在有限的资源内,通过种群的寻优策略给出一个近似解决方案作为预测结果来预测RNA二级结构,但是这种方式得到最小自由能的近似值往往会导致预测结果录入的是局部最优的结果。RNA二级结构中茎区有时会形成一种
特殊的位置关系,称之为假结(pseudoknot)。假结作为一种特殊的结构,是实现结构功能的重要因素。但是因为碱基相互重叠的特性,生物信息计算对假结的预测难以奏效。预测包含假结的RNA二级结构问题是NP难的,但要分析RNA的真实结构,对假结的准确预测是必须解决的问题。假结结构对RNA分子起着十分重要的作用,假结的相关研究实验也变成了RNA二级结构预测中的重中之重。
[0004]由于RNA是一种强柔性的分子体系,其势函数的维数巨大、表达式本身性态差,存在极多局部极小点,使得模型计算较为复杂,数值计算缓慢且困难。为了得到结构稳定的RNA结构,解决RNA结构预测中数值计算的难点,本专利技术针对RNA最大互补碱基对和最小分组两个优化目标,提出了一种基于模拟退火算法的假结RNA结构预测算法。经典模拟退火算法的主要特点是在搜索的过程中,不仅接受优化解,也以一定的概率接受恶化解,这样就容易陷入局部最优解。本专利技术针对假结RNA结构预测模型中目标函数的多极值多变量的特点,给出了模拟退火算法的新解产生方式,模拟退火算法进行改进。并通过非支配排序和拥挤距离排序来保证迭代点不断向Pareto前沿收敛,直到算法迭代到最大次数从而输出结果集,算法具有更好的计算效率。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术结合最优化技术,提出了一种基于模拟退火算法的假结RNA结构预测方法,有效得到问题最优解,预测效率较高,收敛性较好,弥补了现有方法的缺陷。
[0006]本专利技术的技术方案为:一种基于模拟退火算法的假结RNA结构预测方法,所述假结RNA结构预测方法涉及RNA二级结构及其自由能,所述RNA二级结构包含一种梯子结构,所述RNA二级结构的自由能能根据近邻热力学参数计算出来,随着RNA序列长度的增加,二级结构候选解的数量也呈指数量级增加,所述梯子结构指的是一组依次连续匹配的核苷酸,形成一种梯子状的结构,这种结构被认为是RNA二级结构中的稳定结构梯子结构的预测可以决定几乎整个RNA的二级结构,对于带假结RNA二级结构的预测用到生物信息学中的评价参数:敏感性SE和特异性SP,预测结果中,敏感性指的是正确碱基数占实际碱基数的百分比,而特异性是指在预测结果的所有碱基中正确预测的碱基所占百分比,马休兹相互作用系数MCC是通过比对天然结构与预测结构而计算出来的值,它兼顾了敏感性与特异性,最小值为

1,表示预测结构与天然结构碱基配对相似度为0;最大值为1,表示预测结构与天然结构相似度为1。
[0007]对假结RNA二级结构进行预测,建立一个多目标最优化模型P:
[0008](P)
ꢀꢀꢀ
[0009]其中:
[0010]Ω是以茎区Pair为变量的决策空间,
[0011]X是一个或则多个茎区组成的茎区集合Pairs,
[0012]i表示RNA序列第i个碱基的序列,
[0013]x
i
表示该碱基的配对号,在算法中被看作一个个体,
[0014]f1(X)用于评价RNA二级结构中茎区结构的数量,StemGroup为茎区数量,用来评价RNA二级结构配对碱基对的数量,即总的碱基配对数,
[0015][0016]Q
ij
(X)=M(class(x
i
),class(x
j
))+P(distance(x
i
,x
j
))+K是每个碱基对的匹配得分,其中Class()是类型运算符,输出该碱基类型。Distance()是距离运算符,输出这两个碱基的相对距离,K是常系数,M(class(x
i
),class(x
j
))是匹配类型得分,P(distance(x
i
,x...

【技术保护点】

【技术特征摘要】
1.一种基于模拟退火算法的假结RNA结构预测方法,所述假结RNA结构预测方法涉及RNA二级结构及其自由能,所述RNA二级结构包含一种梯子结构,所述RNA二级结构的自由能能根据近邻热力学参数计算出来,随着RNA序列长度的增加,二级结构候选解的数量也呈指数量级增加,所述梯子结构指的是一组依次连续匹配的核苷酸,形成一种梯子状的结构,对于带假结RNA二级结构的预测用到生物信息学中的评价参数:敏感性SE和特异性SP,预测结果中,敏感性指的是正确碱基数占实际碱基数的百分比,而特异性是指在预测结果的所有碱基中正确预测的碱基所占百分比,马休兹相互作用系数MCC是通过比对天然结构与预测结构而计算出来的值,它兼顾了敏感性与特异性,最小值为

1,表示预测结构与天然结构碱基配对相似度为0;最大值为1,表示预测结构与天然结构相似度为1;其特征是:对假结RNA二级结构进行预测,建立一个多目标最优化模型P:(P)其中:Ω是以茎区Pair为变量的决策空间,X是一个或则多个茎区组成的茎区集合Pairs,i表示RNA序列第i个碱基的序列,x
i
表示该碱基的配对号,在算法中被看作一个个体,f1(X)用于评价RNA二级结构中茎区结构的数量,StemGroup为茎区数量,用来评价RNA二级结构配对碱基对的数量,即总的碱基配对数,Q
ij
(X)=M(class(x
i
),class(x
j
))+P(distance(x
i
,x
j
))+K是每个碱基对的匹配得分,其中Class()是类型运算符,输出该碱基类型;Distance()是距离运算符,输出这两个碱基的相对距离,K是常系数,M(class(x
i
),class(x
j
))是匹配类型得分,P(distance(x
i
,x
j
))是匹配距离得分;用于刻画马休兹相互作用系数,具体衡量公式如下:其中,TN表示正确预测的不配对的碱基的个数;TP表示预测结果...

【专利技术属性】
技术研发人员:宋加磊广心升刘凤永
申请(专利权)人:青岛超蓝生物信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1