当前位置: 首页 > 专利查询>吉林大学专利>正文

基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测方法技术

技术编号:8215822 阅读:282 留言:0更新日期:2013-01-17 14:45
基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测方法属生物信息学研究领域,本发明专利技术使用CPLD按照关联表将RNA序列重新编码。根据编码表和编码关联表中的对应值得到相应的编码序列,由完全匹配表和不完全匹配表,并通过“向右延伸”的策略剔除冗余茎区,得到所有可能的茎区集合,然后给出蚁群算法中二维的启发式信息、初始茎区和下一茎区的选取规则,以及信息素更新策略,构造所有可能的茎区集合的相容子集,最终得到自由能最小的二级结构;本发明专利技术能快速、准确、有效地预测不包含假结的RNA序列的二级结构,并将所得结果以括号法模式输出,在评判RNA序列二级结构预测优劣的两个参数方面,即敏感性和特异性,均优于目前主流预测技术。

【技术实现步骤摘要】

本专利技术属生物信息学研究领域。
技术介绍
研究表明,RNA在基因调控中起到了非常重要的作用,而RNA的功能与结构是密切相关的,因此想要了解RNA序列的功能特性应先从其结构入手。目前已经获得大量的RNA序列一级结构信息,但一级结构包含的有用信息比较少,因此越来越多的研究人员开始关注RNA序列的二级结构和三级结构,但用生物实验的方法来确定RNA的三级结构花费高,难度大,而且此方法并不是对所有分子都有效。由于RNA序列的三级结构很难通过一级结构直接得到,而直接面向三级结构的理论预测,进展也不是很顺利,因此预测二级结构是获取三级结构的必经之路。因此将软件模拟和预测得到的RNA 二级结构,与基于ARM体系的嵌 入式系统结合,形成基于嵌入式的RNA序列二级结构预测方法,从而可以得到一种低成本、高效率且结果具有一定可信度的方式,成为生物信息学的重要手段。
技术实现思路
本专利技术的目的在于提供一种能快速、准确、有效地预测RNA序列二级结构(不含假结)并将所得结果以括号法模式输出的方法。该方法所需要的硬件设备包括处理器、内存、主板、本专利技术包括下列步骤I. RNA序列的预处理,具体包括下列步骤I)将 RNA 序列输入 CPLD。2) CPLD通过编码关联表将RNA序列以编码的形式存储于SRAM中,编码关联表存在于系统中,并可实时调用,它将所获取的RNA序列,转换为易于系统分析的数字模式。2.进行RNA序列二级结构预测,具体包括下列步骤I)根据匹配表得到长度为η的茎区集合,匹配表存在于系统中,并可实时调用,它将已转换的RNA序列信息,组合为长度为η的茎区集合。2)对所有长度为η的茎区采用向右延伸的策略,得到所有长度大于η的茎区集合;使用向右延伸的策略,能够计算出所有长度大于η的茎区集合。3)将得出的相应于RNA序列的所有可能的茎区集合,存储于SDRAM中等待调用;4)利用ARM控制芯片随机选取某一茎区,作为蚁群算法的初始结点;5)利用轮盘赌策略选择下一茎区,直到可选择的茎区集合为空;6)计算每只蚂蚁相应的二级结构的最小自由能,记录并更新能量最小的二级结构;7)按照给定的规则更新茎区之间的信息素值,并再次选取初始结点进行循环运算;8)达到给定的迭代步数或满足循环退出的条件,将RNA序列的二级结构以括号法模式输出到LCD,迭代步数可以预先在系统中设定。本专利技术能有效模拟和预测RNA序列不含假结的二级结构。本专利技术首先将录入的碱基序列进行重新编码,进而由编码关联表中的对应值得到相应的编码序列,并根据完全匹配表和不完全匹配表,通过向右延伸功能剔除冗余茎区,得到所有可能的满足条件的茎区集合,然后根据蚁群算法中二维启发式信息、初始茎区和下一茎区的选取规则及信息素更新策略,构造所有可能的茎区集合的相容子集。本专利技术使用并行技术将RNA序列的二级结构以更快速准 确的预测出来,能够得到自由能最小的相容的茎区集合,本专利技术还能对国际公共数据库中随机选取的序列进行测试与分析,并可将所得结果以括号法模式输出,使结构表达更为直观准确,实验结果表明本专利技术在敏感性和特异性方面均优于目前主流预测技术。附图说明图I为基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测方法流程2为基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测系统结构示意图具体实施例方式本专利技术是一种基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测方法,如图I所示,将所得RNA序列输入CPLD,通过编码关联表把RNA序列进行编码,使RNA序列以编码序列的形式存储于SRAM中,并根据匹配表得到长度为η的茎区集合,对所有长度为η的茎区采用向右延伸的策略得到所有长度大于η的茎区集合,将得出的相应于RNA序列的所有可能的茎区集合存储于SDRAM中等待调用,然后通过ARM控制芯片随机选取某一茎区作为蚁群算法的初始结点,并利用轮盘赌的策略选择下一茎区,直至可选择的茎区集合为空,最后计算每只蚂蚁相应的二级结构的最小自由能,记录并更新能量最小的二级结构,按照给定的规则更新茎区之间的信息素值,并再次选取初始结点进行循环运算,直至达到给定的迭代步数或满足循环退出的条件,以括号法的模式输出RNA序列二级结构到LCD中。权利要求1.一种基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于包括下列步骤 1)进行RNA序列预处理; 2)进行RNA序列二级结构预测。2.按权利要求I所述的基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于步骤I)所述的RNA序列预处理包括下列步骤 1)将RNA序列输入CPLD; 2)通过编码关联表将RNA序列以编码的形式存储于SRAM中。3.按权利要求I所述的基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于步骤2)所述的RNA序列二级结构预测包括下列步骤 1)根据匹配表得到长度为η的茎区集合; 2)对所有长度为η的茎区采用向右延伸的策略,得到所有长度大于η的茎区集合; 3)将得出的相应于RNA序列的所有可能的茎区集合,存储于SDRAM中等待调用; 4)利用ARM控制芯片随机选取某一茎区,作为蚁群算法的初始结点; 5)利用轮盘赌的策略选择下一茎区,直到可选择的茎区集合为空; 6)计算每只蚂蚁相应的二级结构的最小自由能,记录并更新能量最小的二级结构; 7)按照给定的规则更新茎区之间的信息素值,并再次选取初始结点进行循环运算; 8)达到给定的迭代步数或满足循环退出的条件,以括号法模式输出RNA序列的二级结构到LCD。4.按权利要求2所述的基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于步骤2)所述的编码关联表存在于系统中,并可实时调用,它将所获取的RNA序列,转换为易于系统分析的数字模式。5.按权利要求3所述的基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于步骤I)所述的匹配表存在于系统中,并可实时调用,它将已转换的RNA序列信息,组合为长度为η的茎区集合。6.按权利要求3所述的基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于步骤2)所述的向右延伸的策略,能够计算出所有长度大于η的茎区集合。7.按权利要求3所述的基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于步骤8)所述的迭代步数能预先在系统中设置。全文摘要基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测方法属生物信息学研究领域,本专利技术使用CPLD按照关联表将RNA序列重新编码。根据编码表和编码关联表中的对应值得到相应的编码序列,由完全匹配表和不完全匹配表,并通过“向右延伸”的策略剔除冗余茎区,得到所有可能的茎区集合,然后给出蚁群算法中二维的启发式信息、初始茎区和下一茎区的选取规则,以及信息素更新策略,构造所有可能的茎区集合的相容子集,最终得到自由能最小的二级结构;本专利技术能快速、准确、有效地预测不包含假结的RNA序列的二级结构,并将所得结果以括号法模式输出,在评判RNA序列二级结构预测优劣的两个参数方面,即敏感性和特异性,均优于目前主流预测技术。文档编号G06F19/18GK102880811SQ201210407490公开日2013年1月16日 申请日期2本文档来自技高网...

【技术保护点】
一种基于CPLD碱基片段编码和蚁群算法的RNA序列二级结构预测方法,其特征在于包括下列步骤:1)进行RNA序列预处理;2)进行RNA序列二级结构预测。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘元宁余军张浩段云娜张晓旭胡名刚
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1