当前位置: 首页 > 专利查询>吉林大学专利>正文

包含三维自由能的外源性miRNA调控靶基因预测方法技术

技术编号:18084336 阅读:41 留言:0更新日期:2018-05-31 12:45
本发明专利技术公开一种包含三维自由能的外源性miRNA调控的靶基因预测方法,改进传统序列匹配特征,新提出了种子区域的三维能量统计特征及结合位点的空配惩罚函数统计特征,种子区域结合位点特征表示了结合位点的具体配对信息,使得构建的特征输入向量更为精确,而且更加贴合实际,因此提高了miRNA靶点预测的准确度。

【技术实现步骤摘要】
包含三维自由能的外源性miRNA调控靶基因预测方法
本专利技术公开一种包含三维自由能的外源性miRNA调控的靶基因预测方法及装置,属于生物信息学miRNA靶基因预测领域。本专利技术涉及改进传统特征,引入三维自由能特征以及基于位置和空位大小的惩罚函数特征的miRNA靶基因预测方法,并提供了适用于该方法的装置。
技术介绍
一直以来,科学界一致认为,食物中的任何核酸、蛋白质,在消化系统中都会被完全消化并被吸收到体内,然后按照自身需求重新“组装”。但是2011年南京大学张辰宇教授的课题组在《Cellresearch》发表一篇文章中,提出了一项重大发现——植物miRNAs可以通过日常食物摄取的方式进入人体血液和组织器官,并且一旦进入体内,它们将通过调控人体内靶基因表达的方式影响人体的生理功能,进而发挥生物学应用。miRNA是一类约有22核苷酸长度的,属于非编码和内源性的小RNA分子片段,它们在很多如发育、细胞凋亡的生命进程中起到的重要作用,引起了研究人员的广泛关注并为很多生命科学研究带来了进展。值得一提的是miRNAs建立细胞体系的强大作用,它们靶向一个或者多个信使RNA(即mRNAs),指导RNA诱导沉默复合体,通过降解mRNA或翻译抑制下调基因表达。miRNA通过结合到相应的mRNA上影响基因表达,从而导致其失活。目前由miRTarBase最新公布,通过手动考察相关文献,miRNA-靶基因相互作用(MTI)已经累计有3576个经过实验验证的MTIs,这些MTIs属于17个物种,涉及657个miRNAs和2297个靶基因。因此,关于miRNA的靶基因预测对研究具有重要意义。通过传统生物实验手段发现miRNA靶位点是一个即昂贵又费时的过程。从现有的资料来看,利用传统的方法寻找miRNA的靶基因比较艰难,其原因是目标不明确,效率较低。因此利用生物信息学的方法对miRNA靶基因预测能极大地帮助研究人员缩小了潜在靶基因的范围,并作为miRNA靶基因预测的实验指导支持miRNA和mRNA/蛋白质表达水平间的研究。miRNA靶基因预测算法很多,主要的特征包括:作为靶基因识别最重要特征的种子位点的miRNA-mRNA配对特征,位点位置特征,保守性特征,用于评估位点可结合性的最小自由能特征,以及表示靶点间最优距离的复合位点等特征。但是能够合并所有已知的特征并结合三维自由能使其作为参数进行调节的方法还没有。改进基于生物意义的传统特征,包括连续碱基配对个数特征,各元素含量特征,及基于配对值的种子区域结合位点特征。新提出了结合位点的空配惩罚函数统计特征。通过神经网络模型预训练对候选靶基因进行二次筛选并提高了准确性。在miRNA靶基因预测中,对输入的miRNA和靶序列进行基本格式处理后,动态规划及序列比对是基础;将模式匹配后的数据进行规格化处理为一组向量,使其作为神经网络模型的输入向量进行训练。当序列间的高度相似区域以相同顺序或方向出现时,需要使用全局比对算法。这类方法试图在序列间找到一个“全局图”,并在此过程中不允许重叠比对或交叉。两个序列的比对是基于一个比对矩阵计算的,行列数分别由两条序列长度决定,计算方法基于一个置换矩阵和一个空配惩罚函数,这样将得到两条序列的最优匹配。
技术实现思路
本专利技术提供一种包含三维自由能的外源性miRNA调控的靶基因预测方法,能够平衡敏感度和特异性,并且对于长度较大的基因序列,本专利技术仍能有效的对miRNA的靶基因靶点进行预测。本专利技术还提供了实现该方法的装置,该装置通过软件和硬件的结合,大大解决了通过实验手段发现miRNA靶位点的成本高、周期长的弊端。本专利技术有基于ARM11微处理器01的miRNA靶基因预测装置与上位机02进行连接,形成整个系统从而完成工作,采用的ARM11微处理器01适用于普通嵌入式的应用,用于协调和管理各模块统一工作。本专利技术公开的一种包含三维自由能的外源性miRNA调控的靶基因预测方法,具体步骤如下:1)通过上位机的输入单元输入外源性miRNA序列和靶基因序列,并通过以太网接口传至miRNA调控的靶基因预测装置的内存储单元,并进一步将数据读到缓存单元中;2)序列预处理单元从缓存单元中读出miRNA序列、靶基因序列,对输入的序列格式进行判断:数据中miRNA或靶基因序列中含非ATUGC的字母,则立即发出一个高优先级的错误信号通过缓存单元传到内存储单元,再通过以太网接口传回到上位机的显示单元上输出错误信息;通过了序列格式判断后,以miRNA的长度构建滑动窗口;3)序列比对单元利用上述构建的滑动窗口以靶基因序列为模本进行数据的模式匹配,通过填表、回溯找到所有候选靶点集合:当序列间的高度相似区域以相同顺序或方向出现时,需要使用全局比对算法,两个序列的比对基于一个比对矩阵计算的,行列数分别由两条序列长度决定,计算方法基于一个置换矩阵和一个空位惩罚函数,将得到两条序列的最优匹配;计算公式如下:Mi,j=max{Mi,j-1–Pgap,Mi-1,j-Pgap,Mi-1,j-1+W(si,tj)};式中,为置换矩阵;Mi,j-1,Mi-1,j-1为原矩阵;W(si,tj)为权重;为空位惩罚函数;si为组成的第一条序列S中元素;tj是组成的第二条序列T中元素;利用置换矩阵搜索两个序列中具有高度相似性的区域,找到序列间较短共同区域扩展匹配区域作为候选靶点集合;4)特征提取单元对候选靶点集合中所有的匹配序列提取特征向量,建立候选靶点序列的特征矩阵,作为神经网络训练单元的输入;5)神经网络训练单元对所有候选靶点结果进行训练,计算出所有候选靶点的预测值打分,并且对所有靶点以预测值打分高低进行排序,将结果暂存于内存储单元;6)通过最优匹配靶点筛选单元,利用初始设定的参数及部分特征和三维自由能阈值对上述候选靶点集合进行筛选,不满足条件的靶点将会被筛选掉;将筛选后满足条件的靶点集合存于外存储单元;计算公式如下:筛选公式:式中;Target为符合要求的靶点;Sequence为候选靶点集合;E(seq,Ψ)为候选靶点集匹配域三维自由能计算公式;seq为候选靶点集合中的候选靶点;Ψ为初始参数及部分特征;Ê为三维自由能阈值;7)将上述外存储单元中的存储结果以太网接口传回上位机的显示单元输出显示。本专利技术所述的一种基于多特征融合的外源性miRNA调控的靶基因预测的装置,其特征在于:ARM11微处理器(01)由接口部分(011)、存储单元(012)、处理单元(013)组成:1、接口部分(011)包括:USB接口(0111)、以太网接口(0112);USB接口(0111)与外置存储器连接,将miRNA靶基因预测得到的结果数据的转存,实现存储单元的扩增;以太网接口(0112)与上位机(02)的以太网接口(0203)连接,实现ARM11微处理器(01)与上位机(02)的互通信;2、存储单元(012)包括:内存储单元(0121)、缓存单元(0123)及外存储单元(0122);内存储单元(0121)与缓存单元(0123)进行连接,完成RNA二级结构识别的初始数据及中间数据的存储;缓存单元(0123)与内存储单元(0121)及序列预处理单元(0131)连接,实现miRNA靶基因预测的初始数据的存储;外存储单元(0122)与候选靶点筛选单元本文档来自技高网
...
包含三维自由能的外源性miRNA调控靶基因预测方法

【技术保护点】
一种包含三维自由能的外源性miRNA调控靶基因预测方法,包括以下步骤:1)通过上位机的输入单元输入外源性miRNA序列和靶基因序列,并通过以太网接口传至miRNA调控的靶基因预测装置的内存储单元,并进一步将数据读到缓存单元中;2)序列预处理单元从缓存单元中读出miRNA序列、靶基因序列,对输入的序列格式进行判断:数据中miRNA或靶基因序列中含非ATUGC的字母,则立即发出一个高优先级的错误信号通过缓存单元传到内存储单元,再通过以太网接口传回到上位机的显示单元上输出错误信息;通过了序列格式判断后,以miRNA的长度构建滑动窗口;3)序列比对单元利用上述构建的滑动窗口以靶基因序列为模本进行数据的模式匹配,通过填表、回溯找到所有候选靶点集合:当序列间的高度相似区域以相同顺序或方向出现时,需要使用全局比对算法,两个序列的比对基于一个比对矩阵计算的,行列数分别由两条序列长度决定,计算方法基于一个置换矩阵和一个空位惩罚函数,将得到两条序列的最优匹配;计算公式如下:Mi,j = max{Mi,j‑1– Pgap , Mi‑1,j ‑ Pgap , Mi‑1,j‑1 + W(si,tj)} ;式中,

【技术特征摘要】
1.一种包含三维自由能的外源性miRNA调控靶基因预测方法,包括以下步骤:1)通过上位机的输入单元输入外源性miRNA序列和靶基因序列,并通过以太网接口传至miRNA调控的靶基因预测装置的内存储单元,并进一步将数据读到缓存单元中;2)序列预处理单元从缓存单元中读出miRNA序列、靶基因序列,对输入的序列格式进行判断:数据中miRNA或靶基因序列中含非ATUGC的字母,则立即发出一个高优先级的错误信号通过缓存单元传到内存储单元,再通过以太网接口传回到上位机的显示单元上输出错误信息;通过了序列格式判断后,以miRNA的长度构建滑动窗口;3)序列比对单元利用上述构建的滑动窗口以靶基因序列为模本进行数据的模式匹配,通过填表、回溯找到所有候选靶点集合:当序列间的高度相似区域以相同顺序或方向出现时,需要使用全局比对算法,两个序列的比对基于一个比对矩阵计算的,行列数分别由两条序列长度决定,计算方法基于一个置换矩阵和一个空位惩罚函数,将得到两条序列的最优匹配;计算公式如下:Mi,j=max{Mi,j-1–Pgap,Mi-1,j-Pgap,Mi-1,j-1+W(si,tj)};式中,为置换矩阵;Mi,j-1,Mi-1,j-1为原矩阵;W(si,tj)为权重;为空位惩罚函数;si为组成的第一条序列S中元素;tj是组成的第二条序列T中元素;利用置换矩阵搜索两个序列中具有高度相似性的区域,找到序列间较短共同区域扩展匹配区域作为候选靶点集合;4)特征提取单元对候选靶点集合中所有的匹配序列提取特征向量,建立候选靶点序列的特征矩阵,作为神经网络训练单元的输入;5)神经网络训练单元对所有候选靶点结果进行训练,计算出所有候选靶点的预测值打分,并且对所有靶点以预测值打分高低进行排序,将结果暂存于内存储单元;6)通过最优匹配靶点筛选单元,利用初始设定的参数及部分特征和三维自由能阈值对上述候选靶点集合进行筛选,不满足条件的靶点将会被筛选掉;将筛选后满足条件的靶点集合存于外存储单元;筛选公式:式中;Target为符合要求的靶点;Sequence为候选靶点集合;E(seq,µ(Ψ))为候选靶点集匹配域三维自由能计算公式;seq为候选靶点集合中的候选靶点;Ψ为初始参数及部分特征;Ê为三维自由能阈值;7)将上述外存储单元中的存储结果以太网接口传回上位机的显示单元输出显示。2.一种基于多特征融合的外源性miRNA调控的靶基因预测的装置,其特征在于:ARM11微处理器(01)由接口部分(011)、存储...

【专利技术属性】
技术研发人员:刘元宁王林宇徐瑞张浩赵奇段云娜刘海明
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1