一种增量的工况类别自动检测标注方法及系统技术方案

技术编号:37993139 阅读:9 留言:0更新日期:2023-06-30 10:07
本发明专利技术公开一种增量的工况类别自动检测标注方法及系统,涉及化工工况监测领域,包括获取初始数据集,对初始数据集进行降维处理;设置样本库;选取特征样本;计算第一相似性;计算第二相似性;确定特征样本的最终类别;判断最终类别是否属于历史类别,若否,将特征样本加入样本库并标注类别;若是,根据初始样本的数量以及特征样本的代表性,确定是否将特征样本加入样本库;根据当前时刻点是否为最后一个时刻点,确定返回当前样本库,或选取下一个时刻点对应的增量样本作为特征样本,继续进行计算。本发明专利技术基于降维数据通过相似性识别实现样本库自动扩充以及工况类别的检测标注,可以实现化工过程设备运行数据的自动检测以及运行工况的自动管理。工况的自动管理。工况的自动管理。

【技术实现步骤摘要】
一种增量的工况类别自动检测标注方法及系统


[0001]本专利技术涉及自动化PID控制领域,具体而言,涉及一种增量的工况类别自动检测标注方法及系统。

技术介绍

[0002]近些年化工行业事故频发,不仅会造成经济损失,严重可能危及生命,因此针对化工设备运行的监测诊断尤为重要。
[0003]目前化工设备上都装有大量传感器,为工况运行过程的监测诊断提供了重要基础,如何利用这些已有的传感器数据进行实时监测诊断也成为了重要问题。因为大量的传感器已经收集了海量数据,有的已经达到TB级别,所以基于数据驱动的机器学习以及深度学习方法目前已成为解决化工过程监测诊断的重要方式。目前机器学习和深度学习方法已经非常成熟,但大部分都是有监督的学习方式,即需要样本类别才能对数据进行训练预测,传感器数据量巨多,且通常时间跨度很长,时间采集频率高,如果人工手动对每个时间段的数据进行标注,花费大量的人力可能也无法完成。如果借助一些无监督方法,如聚类、降维等,也只能针对历史存量数据分析标注,无法针对增量数据进行实时标注分析,数据量过大也会使一些传统的分析方法因为计算内存、算力资源等的限制不再适用。
[0004]上述问题都是面对化工过程的传感器数据进行分析检测标注等存在的实际问题,目前已有的技术都无法有效地解决,还是要依赖技术人员的大量投入。因此,为了解决上述问题,亟需提供一种针对增量数据实时进行自动检测标注的方法。

技术实现思路

[0005]本专利技术提供一种增量的工况类别自动检测标注方法及系统,用以克服现有技术中存在的至少一个技术问题。
[0006]一方面,本专利技术实施例提供一种增量的工况类别自动检测标注方法,包括:
[0007]获取传感器增量数据并进行初始化处理后,得到初始数据集;
[0008]对所述初始数据集进行降维处理,得到特征数据集,所述特征数据集包含多个不同时刻点的增量样本;
[0009]设置样本库,所述样本库包含多个历史类别及初始样本;
[0010]选取第一个时刻点对应的所述增量样本作为特征样本;
[0011]计算第一相似性,所述计算第一相似性包括:计算所述特征样本与所述样本库中每个初始样本之间的相似度,得到第一相似性;
[0012]将所述第一相似性按照从大到小的顺序排列,得到排序索引,取前k个排序索引,分别获取前k个排序索引下所述特征样本的类别,记作第一类别;
[0013]初始化所述特征样本的类别,记作第二类别;
[0014]对所述第一类别按照种类进行分类,得到p个分类索引;
[0015]选取第一个分类索引作为计算索引;
[0016]计算第二相似性,所述计算第二相似性包括:计算所述样本库中,所述计算索引对应的第一类别下各初始样本之间的相似度,并通过阈值计算,得到第二相似性;
[0017]根据同一第一类别下所述第一相似性和所述第二相似性的大小关系,判断所述特征样本是否属于该第一类别,若是,确定该第一类别作为所述特征样本的最终类别;若否,所述计算索引加1,判断所述计算索引是否小于等于p,若是,转至计算第二相似性步骤,若否,确定第二类别作为所述特征样本的最终类别;
[0018]判断所述最终类别是否属于历史类别,若否,将所述特征样本加入所述样本库并标注类别;若是,判断所述样本库中所述最终类别对应的初始样本的数量是否达到预定要求,若否,将所述特征样本加入所述样本库并标注类别,若是,判断所述特征样本是否更具代表性,若是,将所述特征样本加入所述样本库并标注类别,若否,直接转至判断当前时刻点是否为最后一个时刻点步骤;
[0019]判断当前时刻点是否为最后一个时刻点,若是,返回当前样本库,若否,选取下一个时刻点对应的所述增量样本作为特征样本,转至计算第一相似性步骤。
[0020]可选地,所述对所述初始数据集进行降维处理,得到特征数据集,具体为:
[0021]通过编码网络将所述初始数据集映射为特征Z1,再通过解码网络将特征Z1映射到所述初始数据集,得到重构数据;
[0022]当所述重构数据与所述初始数据集之间的重构误差满足设定值时,对应的特征Z1为作为所述特征数据集。
[0023]可选地,采用基于距离的计算方式,计算相似度。
[0024]可选地,采用曼哈顿距离计算方式,计算相似度;或采用欧式距离计算方式,计算相似度。
[0025]可选地,通过阈值计算,得到第二相似性,具体为:
[0026]取所述计算索引对应的第一类别下各初始样本之间的相似度的累积分布分位值,作为第二相似性。
[0027]可选地,所述根据该第一类别下所述第一相似性和所述第二相似性的大小关系,判断所述特征样本是否属于该第一类别,具体为:
[0028]比较第一相似性和第二相似性的大小,当所述第一相似性大于所述第二相似性时,所述特征样本属于该第一类别,否则,所述特征样本不属于该第一类别。
[0029]可选地,判断所述特征样本是否更具代表性,具体为:
[0030]用所述特征样本替换所述样本库中所述最终类别对应的任一初始样本后计算方差,记作第一方差;
[0031]计算所述样本库中所述最终类别对应的初始样本的方差,记作第二方差;
[0032]比较所述第一方差和所述第二方差,当所述第一方差大于所述第二方差时,表示所述特征样本更具代表性。
[0033]另一方面,本专利技术还提供一种增量的工况类别自动检测标注系统,包括:
[0034]获取模块,用于获取传感器增量数据并进行初始化处理后,得到初始数据集;
[0035]降维模块,用于对所述初始数据集进行降维处理,得到特征数据集,所述特征数据集包含多个不同时刻点的增量样本;
[0036]设置模块,用于设置样本库,所述样本库包含多个历史类别及初始样本;
[0037]第一选取模块,用于选取第一个时刻点对应的所述增量样本作为特征样本;
[0038]第一计算模块,用于计算第一相似性,所述计算第一相似性包括:计算所述特征样本与所述样本库中每个初始样本之间的相似度,得到第一相似性;
[0039]排序模块,用于将所述第一相似性按照从大到小的顺序排列,得到排序索引,取前k个排序索引,分别获取前k个排序索引下所述特征样本的类别,记作第一类别;
[0040]初始化模块,用于初始化所述特征样本的类别,记作第二类别;
[0041]分类模块,用于对所述第一类别按照种类进行分类,得到m个分类索引;
[0042]第二选取模块,用于选取第一个分类索引作为计算索引;
[0043]第二计算模块,用于计算第二相似性,所述计算第二相似性包括:计算所述样本库中,所述计算索引对应的第一类别下各初始样本之间的相似度,并通过阈值计算,得到第二相似性;
[0044]第一判断模块,用于根据第一类别下所述第一相似性和所述第二相似性的大小关系,判断所述特征样本是否属于该第一类别,若是,确定该第一类别作为所述特征样本的最终类别;若否本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增量的工况类别自动检测标注方法,其特征在于,包括:获取传感器增量数据并进行初始化处理后,得到初始数据集;对所述初始数据集进行降维处理,得到特征数据集,所述特征数据集包含多个不同时刻点的增量样本;设置样本库,所述样本库包含多个历史类别及初始样本;选取第一个时刻点对应的所述增量样本作为特征样本;计算第一相似性,所述计算第一相似性包括:计算所述特征样本与所述样本库中每个初始样本之间的相似度,得到第一相似性;将所述第一相似性按照从大到小的顺序排列,得到排序索引,取前k个排序索引,分别获取前k个排序索引下所述特征样本的类别,记作第一类别;初始化所述特征样本的类别,记作第二类别;对所述第一类别按照种类进行分类,得到p个分类索引;选取第一个分类索引作为计算索引;计算第二相似性,所述计算第二相似性包括:计算所述样本库中,所述计算索引对应的第一类别下各初始样本之间的相似度,并通过阈值计算,得到第二相似性;根据同一第一类别下所述第一相似性和所述第二相似性的大小关系,判断所述特征样本是否属于该第一类别,若是,确定该第一类别作为所述特征样本的最终类别;若否,所述计算索引加1,判断所述计算索引是否小于等于p,若是,转至计算第二相似性步骤,若否,确定第二类别作为所述特征样本的最终类别;判断所述最终类别是否属于历史类别,若否,将所述特征样本加入所述样本库并标注类别;若是,判断所述样本库中所述最终类别对应的初始样本的数量是否达到预定要求,若否,将所述特征样本加入所述样本库并标注类别,若是,判断所述特征样本是否更具代表性,若是,将所述特征样本加入所述样本库并标注类别,若否,直接转至判断当前时刻点是否为最后一个时刻点步骤;判断当前时刻点是否为最后一个时刻点,若是,返回当前样本库,若否,选取下一个时刻点对应的所述增量样本作为特征样本,转至计算第一相似性步骤。2.根据权利要求1所述的一种增量的工况类别自动检测标注方法,其特征在于,所述对所述初始数据集进行降维处理,得到特征数据集,具体为:通过编码网络将所述初始数据集映射为特征Z1,再通过解码网络将特征Z1映射到所述初始数据集,得到重构数据;当所述重构数据与所述初始数据集之间的重构误差满足设定值时,对应的特征Z1为作为所述特征数据集。3.根据权利要求1所述的一种增量的工况类别自动检测标注方法,其特征在于,采用基于距离的计算方式,计算相似度。4.根据权利要求3所述的一种增量的工况类别自动检测标注方法,其特征在于,采用曼哈顿距离计算方式,计算相似度;或采用欧式距离计算方式,计算相似度。5.根据权利要求1所述的一种增量的工况类别自动检测标注方法,其特征在于,通过阈值计算,得到第二相似性,具体为:取所述计算索引对应的第一类别下各初始样本之间的相似度的累积分布分位值,作为
第二相似性。6.根据权利要求1所述的一种增量的工况类别自动检测标注方法,其特征在于,所述根据该第一类别下所述第一相似性和所述第二相似性的大小关系,判断所述特征样本是否属于该第一类别,具体为:比较第一相似性和第二相似性的大小,当所述第一相似性大于所述第二相似性时,所述特征样本属于该第一类别,否则,所述特征样本不属于该第一类别。7.根据权利要求1所述的一种增量的工况类别自动检测标注方法,...

【专利技术属性】
技术研发人员:赵淑晨章展鹏张迪田沛勋张志强王健
申请(专利权)人:清云智通北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1