一种融合粒子群和遗传算法的基因调控网络构建方法技术

技术编号:13903137 阅读:100 留言:0更新日期:2016-10-26 00:03
一种融合粒子群和遗传算法的基因调控网络构建方法,包括构建样本集;数据预处理以及参数设置;利用粒子群算法对特征进行选择,设置每个粒子的个体极值和全局极值;计算特征子集的适应度并排序;对排序在预设概率之前的粒子使用粒子群算法进行位置和速度更新;对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新;对粒子的个体极值和全局极值进行更新;判断是否满足迭代要求,不满足则转向S4,否则输出全局最优粒子;根据全局最优粒子所选择的特征对支持向量机进行训练构建基因调控网络模型;使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调控网络。本发明专利技术可与现有的优化方法配合使用,具有更广阔的应用前景。

【技术实现步骤摘要】

本专利技术涉及生物信息学和数据挖掘领域。尤其是针对于序列数据的一种融合粒子群和遗传算法的基因调控网络构建方法
技术介绍
MicroRNAs(miRNAs)是一类非常重要的非编码RNA分子,通过触发靶基因降解,从而广泛地参与到基因的转录后调控,或者通过抑制基因的转录,对基因在转录水平上进行调控。miRNA通过与靶mRNA匹配结合实现对生物学功能的调控,因此,研究miRNA与其靶基因的调控关系成为生物界广泛关注的问题。传统的实验验证方法耗费巨大,利用现有的序列数据、基因表达数据或其它生物信息学数据,通过统计学模型或机器学习的方法构建基因调控网络来发现基因之间的关系,能够有效的减少实验花费,对生物学研究者有一定的指导作用。识别miRNA与其靶基因之间的关系的方法主要有两类:基于序列的miRNA靶基因识别和基于机器学习的miRNA靶基因识别。从机器学习的角度来看,基因调控网络构建可以分为非监督学习和监督学习。非监督学习不需要已知的调控关系,只是利用一些生物数据来进行调控网络的构建。监督学习则需要已知的调控关系,可以看出监督学习需要的数据信息多于非监督学习,具有更强的发现能力。有研究表明,在网络推断方面,监督学习优于非监督学习。监督学习需要利用已有的调控关系数据,通过学习调控关系的判别模 型,对未知的调控关系进行判别,需要处理特征生成和分类器选择问题。miRNA与其靶基因的交互的特征包括自由能特征,结构序列特征和基于绑定位置特征,收集这些特征并进行计算,然后使用分类器进行模型的构建。由于支持向量机(Support Vector Machine,SVM)在解决小样本、非线性以及高维问题中表现出的优势,使得它在基因网络构建方面独具一格,已成为近期的研究热点。
技术实现思路
本专利技术的目的是提供一种能够有效预测miRNA与其靶基因之间的调控关系的融合粒子群和遗传算法的基因调控网络构建方法。本专利技术解决现有技术问题所采用的技术方案:一种融合粒子群和遗传算法的基因调控网络构建方法,包括以下步骤:S1、构建样本集:所述样本集包括正样本和负样本,所述正样本搜集来自文献中的具有调控关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性miRNA:mRNA交互信息对组成,使用靶基因预测工具用来生成假阳性miRNA的靶基因作为训练集的负样本;使用靶基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正样本和负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征;S2、数据预处理及参数设置:利用SMOTE方法使正样本与负样本的比例平衡;对所提取的特征进行离散化和标准化处理;S3、利用粒子群算法对粒子的特征进行选择,设置粒子群中每个粒子的个体极值和全局极值:将每一个粒子表示为N维向量,每一维对应一个特征,每一维的值为1或0;1表示对应的特征被选择了,0表示对应的特征没有被选择;每个粒子所选中的特征构成每个粒子的特征子集;个体极值为粒子在整个迭代 过程中的最优位置,初始化为粒子的初始化值;全局极值为所有粒子的最优位置,初始化为整个粒子群的最优值;S4、计算每个粒子的特征子集的适应度,根据适应度进行排序:包括下面几个步骤:A1:计算每个粒子的特征子集的等价类:T=(U,C∪D,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论域;C是条件属性集合,D是决策属性集合;如果Q=C∪D,任意属性q∈Q是一个全映射fq:U→Vq,其中Vq表示属性q所有取值,称为q的值域,且V=∪q∈QVq,f=∪q∈Qfq;每一个属性子集它的不可分辨关系表示为: I N D ( B ) = { ( x , y ) ∈ U × U | ∀ b ∈ B , f b ( x ) = f b ( y )本文档来自技高网
...

【技术保护点】
一种融合粒子群和遗传算法的基因调控网络构建方法,其特征在于,包括以下步骤:S1、构建样本集:所述样本集包括正样本和负样本,所述正样本搜集来自文献中的具有调控关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性miRNA:mRNA交互信息对组成,使用靶基因预测工具用来生成假阳性miRNA的靶基因作为训练集的负样本;使用靶基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正样本和负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征;S2、数据预处理及参数设置:利用SMOTE方法使正样本与负样本的比例平衡;对所提取的特征进行离散化和标准化处理;S3、利用粒子群算法对粒子的特征进行选择,设置粒子群中每个粒子的个体极值和全局极值:将每一个粒子表示为N维向量,每一维对应一个特征,每一维的值为1或0;1表示对应的特征被选择了,0表示对应的特征没有被选择;每个粒子所选中的特征构成每个粒子的特征子集;个体极值为粒子在整个迭代过程中的最优位置,初始化为粒子的初始化值;全局极值为所有粒子的最优位置,初始化为整个粒子群的最优值;S4、计算每个粒子的特征子集的适应度,根据适应度进行排序:包括下面几个步骤:A1:计算每个粒子的特征子集的等价类:T=(U,C∪D,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论域;C是条件属性集合,D是决策属性集合;如果Q=C∪D,任意属性q∈Q是一个全映射fq:U→Vq,其中Vq表示属性q所有取值,称为q的值域,且V=∪q∈QVq,f=∪q∈Qfq;每一个属性子集它的不可分辨关系表示为:令x∈U,U中所有与x满足不可分辨关系IND(B)的对象构成x的一个基于属性集B的等价类[x]B={y|y∈U,(x,y)∈IND(B)}。A2:任意对象子集属性子集X的上近似集为:A3:任意条件属性子集U/D是由等价关系IND(D)诱导出的所有相异的等价类的集合;相对于决策属性集D的B正域定义为:A4:B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:通常0≤k≤1。当k=1,时,称D完全依赖于B;0<k<1时,D部分依赖于B;当k=0时,D完全独立于B;A5:计算每个粒子的适应度,适应度公式如下:其中γB(D)是条件属性集B相对于决策属性集D的依赖度,|C|是总的特征数,|B|是选择的特征数。在这里,α的取值为0.9,β的取值为0.1;A6:根据适应度的大小对粒子进行排序;S5、对排序在预设概率之前的粒子继续使用粒子群算法进行位置和速度更新:A1:速度更新公式如下:vid=w×vid+c1×rand()×(pid‑xid)+c2×rand()×(pgd‑xid),A1:位置更新公式如下:xid=xid+vid,其中第i个粒子表示为xi=(xi1,xi2,...,xid),它的飞行速度为vi=(vi1,vi2,...,vid),在每次迭代中,粒子根据两个极值来对自己进行更新;第一个极值就是粒子本身找到的最优解Pbest,第i个粒子本身的最优解可以表示为pi=(pi1,pi2,...,pid).第二个极值是整个种群目前找到的最优解,这个极值是全局极值gbset;S6、对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新:S7、对粒子的个体极值和全局极值进行更新:S8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子:S9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网络模型:S10、使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调控网络。...

【技术特征摘要】
1.一种融合粒子群和遗传算法的基因调控网络构建方法,其特征在于,包括以下步骤:S1、构建样本集:所述样本集包括正样本和负样本,所述正样本搜集来自文献中的具有调控关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性miRNA:mRNA交互信息对组成,使用靶基因预测工具用来生成假阳性miRNA的靶基因作为训练集的负样本;使用靶基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正样本和负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征;S2、数据预处理及参数设置:利用SMOTE方法使正样本与负样本的比例平衡;对所提取的特征进行离散化和标准化处理;S3、利用粒子群算法对粒子的特征进行选择,设置粒子群中每个粒子的个体极值和全局极值:将每一个粒子表示为N维向量,每一维对应一个特征,每一维的值为1或0;1...

【专利技术属性】
技术研发人员:孟军郝涵
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1