一种基于改进的粒子群寻优算法的代谢组学分析方法技术

技术编号:22884899 阅读:18 留言:0更新日期:2019-12-21 07:38
本发明专利技术属于医学生化检验的人工智能领域,涉及一种通过对代谢组成分进行机器学习和数据分析处理的方法。提出一种基于改进的粒子群寻优算法对代谢组进行分析识别的方法,包括以下步骤:1.建立人血液样本的非目标(non‑targeting)代谢物数据库;2.对代谢组数据进行标准化处理;3.利用改进的粒子群寻优算法以获得支持向量机(Support Vector Machine,简称SVM)的最优参数;4.利用SVM对代谢组数据进行建模分类,对血液样本的特性进行分析识别。本发明专利技术应用于早产儿视网膜病变(ROP)代谢组分析与UCI机器学习标准测试数据集,证实其具有优秀的全局寻优能力和较高的寻优速度,并具有良好的预测精度和稳定性。

Metabonomics analysis method based on Improved Particle Swarm Optimization Algorithm

【技术实现步骤摘要】
一种基于改进的粒子群寻优算法的代谢组学分析方法
本专利技术涉及组学(omics)分析,也涉及人体代谢产物的检测和分析。
技术介绍
后基因组时代,各种组学(omics)迅速发展,对医学生物学数据分析提出了更高的要求。组学的特点是借助高灵敏度的仪器设备,快速大量地获取医学生物学数据,使得统计方法和分析算法成为组学研究的重要内容。不同于其他组学如基因组学、转录组学和蛋白组学,代谢组学通过各种化合物特有的质量-电荷比值以及滞留时间等信息,检测代谢产物的种类和丰度,因此不包含诸如基因或蛋白的序列信息。代谢组学不同于以前的任何化学分析方法,属于非目标检测,即对所有化合物进行无差别取样,以所有化合物的种类和丰度构成代谢组轮廓(profiling),并以轮廓标记样本。由于血液样本中代谢组成分及其含量十分复杂,相应的计算速度就成为数据分析的技术瓶颈。支持向量机(SupportVectorMachine,简称SVM)是根据结构风险最小化原则提出的一种机器学习方法,在小样本、非线性及高维模式识别等方面具有优秀的泛化能力。而参数的选取对支持向量机的性能影响极大,因此如何在最快的时间内找到SVM的最优参数,成为影响支持向量机学习和泛化能力的一个关键问题。由于支持向量机中各参数组合及取值的多样性,通过人工经验进行参数选取十分艰难,工作量也极其繁琐。因此,国内外学者开展了很多寻优函数方面的研究,目前国际上较为常用的优化参数方式有:粒子群算法(ParticleSwarmOptimization,简称PSO)、网格搜索算法、遗传算法等。PSO是通过模拟鸟群觅食行为而提出的一种全局随机搜索算法。在PSO中,每个优化问题的潜在解都是搜索空间中的一个粒子,粒子通过跟踪个体极值与全局极值来更新自己。作为一种启发式算法,PSO的搜索速度快、效率高、算法简单,缺点是容易陷入局部最优,全局搜索能力较弱。网格搜索法将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”,是指定参数值的一种穷举搜索方法,存在复杂度高、运算量大等不足。
技术实现思路
为了解决目前对代谢组数据进行分析时存在的耗时高、参数组合复杂等问题,本专利技术提供了一种快速、准确、高效的基于改进的粒子群寻优算法的组学分析方法。为实现上述专利技术目的,本专利技术所采用的技术方案是:一种基于改进的粒子群寻优算法的代谢组学分析方法,步骤包括:步骤一:对病人和对照血液样本进行非目标检测,获得代谢组数据库,并对血液样本进行分类标记;划分训练集样本与测试集样本;核函数参数g与惩罚函数c作为SVM算法中的超参数,确定参数寻优的最大值与最小值及其差值f;步骤二:初始化粒子群中粒子的速度、位置及个体历史最优和全局最优;步骤三:引入一种新的异步学习函数以及一种新的惯性权重函数,更新粒子的速度与位置;步骤四:对粒子群算法中每次迭代后的种群进行聚集程度分析,将寻到全局最优值的粒子附近一定范围内的粒子聚集程度作为触发变异条件,引入Logistic函数,使该范围内选定的粒子进行混沌变异;步骤五:将粒子群计算得到的参数组合进行自适应调整选参;步骤六:将步骤五得到的参数组合进行数据处理后进行粗糙网格搜索;步骤七:将粗糙网格搜索得到的参数组合进行自适应调整选参;步骤八:将步骤七得到的参数组合进行数据处理后进行精细网格搜索,输出最优参数;步骤九:利用最优参数构建支持向量机,对测试集数据进行测试和分析。所述步骤一中,训练集和测试集都包含ROP患病组与未患病组的样本。本专利技术步骤一是划分训练集样本和测试集样本,步骤二到八是对训练集构建相应的基于改进的粒子群寻优的支持向量机,步骤九是对测试集样本进行病理特性检测和分析。优选的,所述步骤二中,PSO中的粒子通过下面的公式来获取和更新自己的速度和位置:vi=w×vi+c1×r1×(pbesti-xi)+c2×r2×(gbesti-xi)xi=xi+vi在上述公式中,w是惯性权重,i=1,2,...,N,N是种群中的粒子总数;vi是粒子的速度;r1和r2是介于(0,1)之间的随机数;xi是粒子当前位置;c1和c2是学习因子;pbesti是个体最优位置;gbesti是目前为止这个种群中所有粒子发现的最优位置。所述步步骤三中新的异步学习函数公式为:c1=sin(2*t/T+2)+0.2*sin(10*t/T+20)+1c2=-sin(2*t/T+2)-0.2*sin(10*t/T+20)+3其中t为当前迭代次数,T为总迭代次数,c1为认知学习因子,c2为社会学习因子。权重因子包括惯性权重因子w和学习因子c1和c2。使粒子保持着运动惯性,使其具有扩展搜索空间的趋势,形成探索新区域的能力。c1和c2代表将每个粒子推向个体最优和群体最优位置的统计加速项的权值,较低的值允许粒子在被拉回之前可以在目标区域外徘徊,较高的值导致粒子突然地冲向或越过目标区域。所述步步骤三,随迭代次数变化而变化的新分段惯性权重函数,公式为:w=sin(t/(0.66*T)+1.5)+0.1*sin(10*(t/T)-2);其中t为当前迭代次数,T为总迭代次数,w为惯性权重。所述步步骤四,在每一次迭代中计算全局最优值的粒子附近一定范围内的粒子个数;如果超过了设定个数限制,则引入Logistic函数对选定粒子进行混沌变异,计算新粒子适应度;如果新粒子适应度优于原粒子,则新粒子代替原粒子参与迭代,否则使用原粒子继续参与迭代。所述步步骤五,自适应调整选参策略包括以下内容:将粒子群算法得到的参数组合进行交叉验证,并将其得到的准确率进行排序;取出准确率降序排列前5位的参数组合,对排序前4位的惩罚参数值和排序第5的惩罚参数值分别进行差值计算;若差值大于f的1/10,则取最小的惩罚参数对应的参数组合,作为粒子群算法得到的最优参数组合;若某几项差值小于f的1/10,则取该几项中准确率最高的惩罚参数对应的参数组合,作为粒子群算法得到的最优参数组合(c0,g0)。步骤六,粗糙网格搜索包括以下内容:固定惩罚参数为粒子群算法得到的最优惩罚参数,在g0附近一定范围内对核函数进行步长为2~5的粗糙网格搜索。搜索范围是以粒子群算法得到的核函数参数为中心,以核函数参数整体寻优范围的1/5为搜索空间进行网格搜索。步骤七,自适应调整选参策略包括以下内容:将粗糙网格算法得到的参数组合进行交叉验证,并将其得到的准确率进行排序;取出准确率降序排列前10位的参数组合,对排序前9位的核函数参数值和排序第10的核函数参数值分别进行差值计算;若差值大于f的1/10,则取最小的g参数对应的参数组合作为粗糙网格搜索法得到的最优参数组合;若某几项差值小于f的1/10,则取该几项中对应准确率最高的核函数参数所对应的参数组合,作为粗糙网格搜索法得到的最优参数组合。步骤八,精细网格搜索包括以下内容:以粗糙网格搜索法得到的最优参数组合为中心,进本文档来自技高网
...

【技术保护点】
1.一种基于改进的粒子群寻优算法的代谢组学分析方法,其特征在于,包括以下步骤:/n首先:对病人和对照血液样本进行非目标检测,获得代谢组数据库,构建血液样本与病理特性的映射关系,划分训练集样本与测试集样本;/n然后:通过训练集样本构建相应的基于改进的粒子群寻优的支持向量机,对测试集样本进行病理特性检测和分析。/n

【技术特征摘要】
1.一种基于改进的粒子群寻优算法的代谢组学分析方法,其特征在于,包括以下步骤:
首先:对病人和对照血液样本进行非目标检测,获得代谢组数据库,构建血液样本与病理特性的映射关系,划分训练集样本与测试集样本;
然后:通过训练集样本构建相应的基于改进的粒子群寻优的支持向量机,对测试集样本进行病理特性检测和分析。


2.根据权利要求1所述的基于改进的粒子群寻优算法的代谢组学分析方法,其特征在于:所述的构建基于改进的粒子群寻优的支持向量机,包括以下步骤:
将改进的粒子群算法与网格搜索法进行算法结合,在算法结合过程中提出新的自适应调整选参策略;
其中:
改进的粒子群算法包括:
初始化粒子群中粒子的速度、位置及个体历史最优和全局最优;
然后引入异步学习函数以及一种新的惯性权重函数,更新粒子的速度与位置;
再对粒子群算法中每次迭代后的种群进行聚集程度分析,将寻到全局最优值的粒子附近一定范围内的粒子聚集程度作为触发变异条件,引入Logistic函数,使该范围内选定的粒子进行混沌变异。


3.根据权利要求2所述的基于改进的粒子群寻优算法的代谢组学分析方法,其特征在于:所述将改进的粒子群算法与网格搜索法进行算法结合包括:将粒子群算法得到的参数组合经过自适应调整选参后进行粗糙网格搜索,将粗糙网格搜索法得到的参数组合经过自适应调整选参后进行精细网格搜索。


4.根据权利要求2所述的基于改进的粒子群寻优算法的代谢组学分析方法,其特征在于:所述异步学习函数,公式为:
c1=sin(2*t/T+2)+0.2*sin(10*t/T+20)+1
c2=-sin(2*t/T+2)-0.2*sin(10*t/T+20)+3
其中c1和c2是粒子群的学习因子,t为当前迭代次数,T为总迭代次数;
所述新分段惯性权重函数,公式为:
w=sin(t/(0.66*T)+1.5)+0.1*sin(10*(t/T)-2)
其中w是粒子群的惯性权重,t为当前迭代次数,T为总迭代次数。


5.根据权利要求3所述的基于改进的粒子群寻优算法的代谢组学分析方法,其特征在于:所述将粒子群算法经过数据处理得到的最优参数组合进行粗糙网格搜索和精细网格搜索是:固定惩罚参数为粒子群算法得到的最优惩罚参数;在核函数参数附近空间进行步长为2~5的粗糙网格搜索,搜索范围是以粒子群算法得到的核函数参数为中心,以核函数参数整体寻优范围的1/5为搜索空间进行网格搜索;再以粗糙网格搜索法经过数据处理得到的最优参数组合为中心,进行步长为1的精细网格搜索,搜索空间是参数整体寻优最大值与最小值的差值f的1/20。


6.根据权利要求5所述的基于改进的粒子群寻优算法的代谢组学分析方法,其特征在于:所述的将粒子群算法与粗糙网格搜索法结合时的自...

【专利技术属性】
技术研发人员:王馨瑶唐业忠陆方王文波刘杨
申请(专利权)人:中国科学院成都生物研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1