一种输电线路通道可视化机械类连续告警样本的标注方法技术

技术编号:23213282 阅读:39 留言:0更新日期:2020-01-31 22:03
一种输电线路通道可视化机械类连续告警样本的标注方法,其中:可视化巡视设备图像历史告警数据为图像中出现机械类隐患的告警数据,且带有时间属性;划分聚类,其最佳簇数采用各簇成员到对应簇中心标准误差之和下降达到阈值确定;簇中心和值,指划分聚类后计算各簇中心点的和值,和值最大的簇内成员所对应日期的告警数据即为需要的机械类连续告警样本数据。本发明专利技术能采用无监督划分聚类的方法,自动标注出输电线路通道可视化图像历史告警数据中的机械类连续告警样本,解决了人工标注样本主观性强、工作量大等问题,为后续的应用场景如告警等级智能标注、图像识别模型疑似误报及漏报样本识别提供了基础的数据支撑,进而提高输电线路运检的智能化水平。

A method of labeling visual mechanical continuous alarm samples for transmission lines

【技术实现步骤摘要】
一种输电线路通道可视化机械类连续告警样本的标注方法
本专利技术公开一种输电线路通道可视化机械类连续告警样本的标注方法,属于输电线路智能运检领域,尤指对输电线路通道可视化图像历史告警数据进行分析,自动找出属于机械类连续告警的样本数据。
技术介绍
随着输电线路检修技术的升级,输电线路通道可视化巡视被广泛应用,目前已经实现对可视化信息的自动识别并标注出图像内出现的告警物体,如机械类、烟火类、异物类等。除基础的统计分析报表外,可以基于告警数据做数据挖掘,如识别出机械类连续告警后进行告警等级智能标注、图像识别模型疑似误报及漏报样本识别等,但进行上述场景的应用需要进行机械类连续告警样本标注,这个过程需要技术人员进行人工标注时,一般通过条件筛选缩小样本范围并结合波形可视化来辅助标记,不能实现自动标记,这个过程需要大量的人力而且标注质量受技术人员的主观判断影响很大。综上所述,如何提供一种高效、高质量的机械类连续告警样本标注方法,为输电线路智能检修场景落地提供数据支撑,是目前本领域技术人员亟待解决的问题之一。
技术实现思路
针对现有技术的不足,本专利技术的目的是提供一种输电线路通道可视化机械类连续告警样本的标注方法。本专利技术利用无监督聚类机器学习算法,解决人工标注样本主观性强、工作量大等问题,为输电线路智能检修场景落地提供数据支撑,进而提高输电线路运检的智能化水平。本专利技术为了实现上述目的,所采用的技术方案是:一种输电线路通道可视化机械类连续告警样本的标注方法,其特征在于,包括以下步骤:a、对输电线路某设备的可视化机械类告警数据进行预处理:按时间段划分,对划分时间段内出现可视化机械类告警数据进行数值1赋值;b、用划分聚类结合阈值判定确定出最佳聚类簇数K;c、基于步骤b所得最佳聚类簇数K进行划分聚类,将每个簇对应簇中心各个元素相加得到和值,和值最大的簇内成员所对应日期的告警数据即为机械类连续告警样本数据。根据本专利技术优选的,所述步骤a包含以下详细步骤:a1:从告警数据仓库中抽取输电线路某设备某时间段内的可视化机械类告警数据;某时间段,例如一年;a2:以天为单位,按指定每天采样点数进行时段划分,构建一个值全为0的二维数组;a3:遍历步骤a1所述告警数据,对步骤a2中数组进行赋值;赋值原则为:在某划分的时段内如果有告警数据,则该时段在数组中对应位置的数值为1,同一时段有多条告警数据对应时,在数组中对应位置的数值同样设定为1。即只判断某时间段内是否有对应告警数据,不对具体数量进行处理,以达到采样均匀分布的目的。根据本专利技术优选的,所述步骤b包含以下详细步骤:b1:基于步骤a所得被赋值后的二维数组,按聚类簇数K=2使用k-means算法进行聚类分析;b2:计算各簇中各成员到各自簇中心的标准误差之和S2;b3:将K值增大1,继续进行步骤b1进行聚类分析,此时为“按聚类簇数K=3使用k-means算法进行聚类分析,并计算其对应的标准误差之和Sk,计算误差下降数值Pk=Sk-1-Sk,比较Pk与设定阈值P0的大小,如果大于阈值则重复该步骤,直至在某次按指定簇数K+1进行划分聚类时,所得的各簇成员到对应簇中心标准误差之和与按簇数K相较,下降数值小于阈值,则确定出合理聚类簇数为K。根据本专利技术优选的,所述步骤b1中,聚类时在每条数据后添加日期标签,以便进行结果定位。其中日期标签只用作数据源追踪,不参与聚类分析。根据本专利技术优选的,所述步骤a中机械类告警数据是指,数据属于某可视化巡视设备图像历史告警数据为图像中出现机械类隐患的告警数据,且带有时间属性。根据本专利技术优选的,所述步骤a2所述每天采样点数是指,依据某可视化巡视设备所设定的图像采集间隔计算得来。如某设备设定采样间隔为30分钟,则每天采样点数为24h/0.5h=48。根据本专利技术优选的,所述步骤b1所述聚类分析中,聚类初始中心采用随机初始点。根据本专利技术优选的,所述步骤b3中所述阈值P0的确定方法为:首先,由经验丰富的开发人员标注出开发样本中的机械类连续告警,形成人工标注机械类连续告警;其次,执行步骤a、b、c,所选用的阈值P0从P0=0开始计算;每次执行周期P0增加0.0001,直到通过模型获取到的结果与人工标注的一致;最后,通过模型获取到的结果与人工标注的一致对应得到的确定的阈值P0。P0是根据多次计算并与人工标注结果比对后,形成的最佳值,在本专利中,其为常数4.7561。本专利技术与现有技术相比,具有以下优点和有益效果:(1)本专利技术能对输电线路通道可视化机械类连续告警样本进行自动标注,为后续的应用场景如告警等级智能标注、图像识别模型疑似误报及漏报样本标注提供了基础的数据支撑,进而提高输电线路运检的智能化水平。(2)本专利技术基于划分聚类机器学习算法,不需要任何数据标记,进行无监督学习,解决了人工标注样本主观性强、工作量大等问题。(3)针对现有技术中很难将划分聚类用于样本标记的情形,本专利技术记载一个包括有算法、流程控制、参数定值的完整的模型对数据进行预处理后,将离散的数据进行了填充和序列化,使原本难以用机器学习处理的实时数据规范化。(4)本专利技术还利用标注误差下降数值进行控制确定阈值P0为常数,使本专利技术所述方法所标注出的数据准确率和效率的提升效果明显。附图说明图1是本专利技术中的标注方法的流程示意图。具体实施方式下面结合实施例对本专利技术做进一步说明,但不限于此。实施例、某地输电线路可视化图像告警数据仓库中有一可视化巡视设备的告警数据,ID为99000843117971,共计有3256条数据。告警数据包含告警自增ID、时间、告警内容、图像存储ID等25个字段。设备图像采集间隔为30分钟。本实施例将基于以上数据按一种输电线路通道可视化机械类连续告警样本的标注方法,找出该设备告警数据中属于机械类连续告警的样本数据。本实施例中模型根据多次运行评估及与人工标注结果比对后,得到最佳阈值P0为4.7561,在本模型中其为常数;所述阈值P0的确定方法为:首先,由经验丰富的开发人员标注出开发样本中的机械类连续告警,形成人工标注机械类连续告警;其次,执行步骤a、b、c,所选用的阈值P0从P0=0开始计算;每次执行周期P0增加0.0001,直到通过模型获取到的结果与人工标注的一致;最后,通过模型获取到的结果与人工标注的一致对应得到的确定的阈值P0。P0是根据多次计算并与人工标注结果比对后,形成的最佳值,在本专利中,其为常数4.7561。但不仅限于本实施例。本实施例所述一种输电线路通道可视化机械类连续告警样本的标注方法,包括步骤如下:a、本实施例对3256条数据进行标注,获取到设备ID为99000843117971,近1年机械类告警数量为118条,其余3138条数据时间超过1年或为非机械类数据。告警数据只保留时间属性,时间跨度为2019-4-1710:本文档来自技高网...

【技术保护点】
1.一种输电线路通道可视化机械类连续告警样本的标注方法,其特征在于,包括以下步骤:/na、对输电线路某设备的可视化机械类告警数据进行预处理:按时间段划分,对划分时间段内出现可视化机械类告警数据进行数值1赋值;/nb、用划分聚类结合阈值判定确定出最佳聚类簇数K;/nc、基于步骤b所得最佳聚类簇数K进行划分聚类,将每个簇对应簇中心各个元素相加得到和值,和值最大的簇内成员所对应日期的告警数据即为机械类连续告警样本数据。/n

【技术特征摘要】
1.一种输电线路通道可视化机械类连续告警样本的标注方法,其特征在于,包括以下步骤:
a、对输电线路某设备的可视化机械类告警数据进行预处理:按时间段划分,对划分时间段内出现可视化机械类告警数据进行数值1赋值;
b、用划分聚类结合阈值判定确定出最佳聚类簇数K;
c、基于步骤b所得最佳聚类簇数K进行划分聚类,将每个簇对应簇中心各个元素相加得到和值,和值最大的簇内成员所对应日期的告警数据即为机械类连续告警样本数据。


2.根据权利要求1所述的一种输电线路通道可视化机械类连续告警样本的标注方法,其特征在于,所述步骤a包含以下详细步骤:
a1:从告警数据仓库中抽取输电线路某设备某时间段内的可视化机械类告警数据;
a2:以天为单位,按指定每天采样点数进行时段划分,构建一个值全为0的二维数组;
a3:遍历步骤a1所述告警数据,对步骤a2中数组进行赋值;
赋值原则为:在某划分的时段内如果有告警数据,则该时段在数组中对应位置的数值为1,同一时段有多条告警数据对应时,在数组中对应位置的数值同样设定为1。


3.根据权利要求2所述的一种输电线路通道可视化机械类连续告警样本的标注方法,其特征在于,所述步骤b包含以下详细步骤:
b1:基于步骤a所得被赋值后的二维数组,按聚类簇数K=2使用k-means算法进行聚类分析;
b2:计算各簇中各成员到各自簇中心的标准误差之和S2;
b3:将K值增大1,继续进行步骤b1进行聚类分析,并计算其对应的标准误差之和Sk,计算误差下降数值Pk=Sk-1-Sk,比较Pk与设定阈值P0的大小...

【专利技术属性】
技术研发人员:赵东山李小龙张立臣杨帆陶宗娇颜廷萌
申请(专利权)人:智洋创新科技股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1