基于极端随机树的混合气体检测模型构建方法技术

技术编号:21971356 阅读:18 留言:0更新日期:2019-08-28 01:27
本发明专利技术公开了一种基于极端随机树的混合气体检测模型构建方法,包括对混合气体进行数据采集,得到数据集,所述数据集包括至少三条气体信号时间序列,并计算气体信号时间序列的最优弯曲路径,利用最优弯曲路径进行筛选;利用主成分分析法对筛选后的气体信号时间序列提取气体特征;利用极端随机数算法建立模型,并对目标混合气体进行分类。本发明专利技术提出基于极端随机树的混合气体检测模型构建方法,较大程度上提高分类准确率和时间效率。

Construction of Mixed Gas Detection Model Based on Extreme Random Tree

【技术实现步骤摘要】
基于极端随机树的混合气体检测模型构建方法
本专利技术涉及机器嗅觉
,特别涉及基于极端随机树的混合气体检测模型构建方法。
技术介绍
在目前混合气体检测领域中,很多研究者已经取得了不错的分类效果,如使用支持向量机(SVM)、人工神经网络(ANN)、K近邻法(KNN)等算法。为了提高分类的准确率,其中有研究者提出一种优化的Adaboost.M2模型,将多分类器融合,进行药品的分类实验,通过不同的融合规则的设定,最终最高识别准确率为91.75%。还有从SVM中提取的后验概率的估计算法,利用机器嗅觉对人血中10种细菌成分检测,识别准确率较高但是时间成本较大。另一部分研究者文献采用概率贝叶斯算法处理解决气源定位中的不确定关系,同时通过Markov决策过程的路径规划算法,提高在实际中气体的定位效率。PCA和人工神经网络(ANN)算法的应用,可以提高分辨土壤中水分含量,但是ANN算法缺乏解释性,而且收敛速度较慢,效率较低。现有技术中并没有一种算法可以使检测精度达到99%以上的水平。而且从未有研究者考虑过气体传感器本身的数据的准确性问题;而对于传统特征提取方式PCA是在维度较高时的算法,在算法维度不高时,需要对其特征进行构建;并且在分类算法中,针对抗拟合能力较强,同时训练时间速度快,以及较高的分类准确度较多算法并不支持。但目前的专利尚未有基于随机森林改进算法的极端随机树算法的模型,来解决混合气体检测领域问题。因此,如何提供一种基于极端随机树的、具有高检测精度的混合气体检测模型构建方法是本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术针对两种混合气体分类准确率低的情况,传统的支持向量机(SVM)等模型分类准确率和时间效率均不够高,因此本专利技术提出基于极端随机树的混合气体检测模型构建方法,较大程度上提高分类准确率和时间效率。具体方案如下:S1、对混合气体进行数据采集,得到数据集,所述数据集包括至少三条气体信号时间序列,并计算气体信号时间序列的最优弯曲路径,利用最优弯曲路径进行气体信号时间序列筛选;S2、利用主成分分析法对筛选后的气体信号时间序列提取气体特征;S3、利用极端随机数算法建立模型,并对目标混合气体进行分类。优选的,所述S1中气体时间序列的最优弯曲路径计算过程如下:S11、构造两条气体信号时间序列的距离矩阵;两条时间序列分别为X=(x1,x2,…xm)、Y=(y1,y2,…yn),其中,两条时间序列长度为m、n。Dm×n为两条时间序列构造的m×n的距离矩阵其中,Dm×n中的元素dij是通过xi和yi坐标距离的计算得到,计算过程为:dij=||xi-yj||w当w=2时,就是欧式距离2-范数,1≤i≤m,1≤j≤n;S12、通过Dm×n寻找一条距离最小的弯曲路径pmin,即最优弯曲路径pmin={p1,p2,…pd,…pk}k∈{max(m,n),m+n+1}其中,pd为搜索至点dij时,弯曲路径的当前累积距离,则pd+1计算式为:pd+1=pd+min[d(i+1)j,d(i+1)(j+1),di(j+1)];S13、舍弃Pmin最大的两组气体信号时间序列,剩余气体信号时间序列作为步骤2的输入数据。优选的,所述S2具体包括:S21、气体信号的原始特征构建;利用交互特征法构建得到气体信号多维原始特征;S22、对所述气体信号多维原始特征采用主成分分析法进行降维处理,得到原始数据样本。优选的,所述S3具体包括:S31、在极端随机树的分类模型中,每个基分类器使用全部原始数据样本进行训练,其中,原始数据集D、样本数量N、特征数量M;S32、根据CART算法生成决策树;在进行结点分裂时,在每个分裂结点随机从M个特征中选择m个特征,随机抽取若干类别放到其中一个分支,剩余类别放入另一个分支,同时计算每个结点的最佳分裂值,选择最优属性分裂,并在分裂中不进行剪枝操作;把分裂出的子集迭代至预设值,生成一颗决策树;S33、将步骤S31、S32重复操作K次,最终生成由K棵决策树组成的极端随机树模型;S34、对训练后的极端随机树模型进行测试,最终通过投票产生最终的分类结果。本专利技术相较现有技术具有以下有益效果:本专利技术提出了基于DTW的动态时间规整算法,将分类准确率提高了26.87%;基于原始特征构建及主成分分析算法,分类准确率提高了25.8%;最终通过极端随机树算法改进了随机森林算法中的时间效率问题,最终分类准确率达到了99.17%,时间效率比随机森林算法提高了66.85%,仅为103.2568秒。通过本专利技术提出的方法,解决了对于混合气体的分类问题,对随机森林算法做出了较大程度的改进,提高了机器嗅觉系统的分类准确率,为模拟嗅觉神经系统的算法提供理论根据。采用极端随机树算法,通过投票决策产生预测结果,泛化能力更强;使用全部原始数据样本训练基分类器,训练结果精度更高;由于结点分裂中是随机选择,随机性大幅增强。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术基于极端随机树的混合气体检测模型构建方法的流程图;图2为本专利技术传感器采集气体数据响应图;图3为本专利技术传感器TGS2602对Et_L_Me_H情况下的动态响应曲线图;图4为本专利技术特征工程抽象三维特征图;图5为本专利技术极端随机树算法示意图;图6为本专利技术DTW后10折交叉验证准确率示意图;图7为本专利技术特征构建后交叉验证准确率示意图;图8为本专利技术算法模型运行时间对比图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供了一种基于极端随机树的混合气体检测模型构建方法,S1动态时间规整算法(DTW)本实施例以乙烯-CH4和乙烯-CO混合得到的混合气体进行检测。每种标签下由6次实验组成不同的数据集,其中,每个标签指代一种气体混合类别。在数据采样阶段持续时间为300秒。最初60秒时间内不通入气。在60秒时将设定好浓度比例的混合气体通入气室内,混合气体通入时间为180秒。最后60秒无混合气体通入。传感器阵列为8个传感器组成,传感器频率设定为50HZ,混合气体数据集由8个传感器采集而得。根据时间规则将数据集进行存储,每个数据集均包含11列数据:时间(s),温度,湿度(%)和TGS2600,TGS2612,TGS2611,TGS2610,TGS2602,TGS2602,TGS2620,TGS2620传感器采集数据。传感器采集数据为其电阻值用A表示,然后通过Rs(KOhm)=10*(3110-A)/A转换为统一值。针对某一次实验的传感器响应图参见说明书附图2,以Et_H_Me_n情况为例,Et表示乙烯H代表高浓度,Me表示甲烷n代表浓度为零,横坐标为时间,纵坐标是转换后的传感器读数。为了探究传感器的采集数据情况,针对TGS2602对同一种标签下(即Et_本文档来自技高网...

【技术保护点】
1.一种基于极端随机树的混合气体检测模型构建方法,其特征在于,包括如下步骤:S1、对混合气体进行数据采集,得到数据集,所述数据集包括至少三条气体信号时间序列,并计算气体信号时间序列的最优弯曲路径,利用最优弯曲路径进行气体信号时间序列筛选;S2、利用主成分分析法对筛选后的气体信号时间序列提取气体特征;S3、利用极端随机数算法建立模型,并对目标混合气体进行分类。

【技术特征摘要】
1.一种基于极端随机树的混合气体检测模型构建方法,其特征在于,包括如下步骤:S1、对混合气体进行数据采集,得到数据集,所述数据集包括至少三条气体信号时间序列,并计算气体信号时间序列的最优弯曲路径,利用最优弯曲路径进行气体信号时间序列筛选;S2、利用主成分分析法对筛选后的气体信号时间序列提取气体特征;S3、利用极端随机数算法建立模型,并对目标混合气体进行分类。2.根据权利要求1所述的一种基于极端随机树的混合气体检测模型构建方法,其特征在于,所述S1中气体时间序列的最优弯曲路径计算过程如下:S11、构造两条气体信号时间序列的距离矩阵;两条时间序列分别为X=(x1,x2,…xm)、Y=(y1,y2,…yn),其中,两条时间序列长度为m、n。Dm×n为两条时间序列构造的m×n的距离矩阵其中,Dm×n中的元素dij是通过xi和yi坐标距离的计算得到,计算过程为:dij=||xi-yj||w当w=2时,就是欧式距离2-范数,1≤i≤m,1≤j≤n;S12、通过Dm×n寻找一条距离最小的弯曲路径pmin,即最优弯曲路径pmin={p1,p2,…pd,…pk}k∈{max(m,n),m+n+1}其中,pd为搜索至点dij时,弯曲路径的当前累积距离,则pd+1计算式为:pd+...

【专利技术属性】
技术研发人员:许永辉孙超赵玺杨子萱
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1