一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具制造技术

技术编号:7898469 阅读:227 留言:0更新日期:2012-10-23 04:33
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,它由数据分解器(1)、聚类器(2)、结果处理器(3)组成,用于分类处理输变电设备缺陷数据。本发明专利技术具有把目前杂乱能力输变电设备缺陷数据分类的能力,能从文字描述中提取关键信息,能自主学习,自我完善。主要核心算法是最大匹配算法的两种变体的中文单词识别(MMSEG)、词频、反文档算法(TFIDF)和支持向量机(SVM),MMSEG用于分解知识,词频、反文档算法用于评估信息内某类信息的重要程度,SVM用来处理机器学习问题。

【技术实现步骤摘要】

本专利技术涉及一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,尤其是能处理杂乱数据的工具
技术介绍
随着电力行业的发展,输变电设备缺陷已经影响到电网的安全,为加强对输变电设备的缺陷管理,提高设备健康水平,对输变电设备缺陷数据的收集处理是一个重要环节,然而目前输变电设备缺陷数据杂乱无章,不能将输变电设备缺陷归类处理。目前对输变电设备缺陷的管理还没有完全统一的标准方式,所以形成了大量的历史杂乱数据,人工对海量历史数据的处理需要大量的人力成本,机器学习自主学习判断可以很大减少成本,更经济,更有效。MMSEG算法实现了前面讨论的最大匹配算法的简单和复杂形式。更进一步来说,为了消除未被复杂最大匹配算法所消除的歧义,又实现消除歧义的规则。词频、反文档算法(TFIDF)是文档特征权值表示常用方法。该方法简单易行,通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习的问题的新工具,它是一种新的机器学习方法,它以结构风险最小为原则,它本质上是求解凸二次规划问题,在解决小样本、非线性和高维模式识别问题中有较大优势。
技术实现思路
本专利技术的目的是提供一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,配置设定后,无需要人工干涉,自主独立的对输变电设备缺陷数据进行聚类处理,分类过程中能自我完善知识样本库,精确化分析判断能力。为了实现上述目的,本专利技术提供如下技术方案一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,本专利技术特征在于,,它由数据分解器、聚类器、结果处理器依序连接组成;其中在数据分解器内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;在聚类器内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;在结果处理器内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块;经由数据分解器把数据分解成机器能识别的单元数据,聚类器把单元数据处理归类后再还原为原始数据,结果处理器把处理结果以文件,数据库储存等已配置好的方式分发到相应目标类别;上述的词频、反文档算法是以词、字、或更小单位为输入的计算评估方法,所以拿到数据后要先把它们分解为其能识别的单位数据,基分解方法是最大匹配算法的两种变体的中文单词识别(MMSEG)和Aho-Corasick算法实现;本专利技术所述的支持向量机把对样本数据以词频、反文档算法训练的结果以文件方式记忆存储于知识库,当拿到数据时,它用训练好的方法来分类数据;本专利技术步骤如下其数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下I)其将缺陷数据分为三类设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0 9则判断为数字数据。 2)其数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;3)其中文数据分解为词,其特征在于,用基于最大匹配算法的两种变体的中文单词识别(丽SEG)算法实现;4)其英文数据分词,其特征在于,用Ah0-C0raSick(以下简称AC)算法实现。3、其聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;I)其练识别方法以词频、反文档算法为方法基础,以支持向量机为智能学习算法,以文本样本为知识内容;2)其记忆方法及结果训练以文件的方式存储训练结果,以供判断使用;3)其问题分析训练后它以文件的方式存储训练结果,以供分析判断使用。其结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。本系统的有益效果是,本系统实现了一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,能自主分类处理输变电设备缺陷数据。把目前杂乱无章的输变电设备缺陷数据规范化,标准化,训练机器学习知识库让其自主判断聚类输变电设备缺陷数据从技术上改变了输变电设备缺陷数据的分析处理方式,它有自主学习功能,实现了以机器代替人力的工作。附图说明图I是本专利技术的结构示意图。具体实施例方式如图I所示,一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,本专利技术特征在于,它由数据分解器I、聚类器2、结果处理器3依序连接组成;其中在数据分解器I内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;在聚类器2内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;在结果处理器3内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块;本专利技术数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下I)将缺陷数据分为三类设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0 9则判断为数字数据;2)数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文; 3)中文数据分解为词用基于最大匹配算法的两种变体的中文单词识别MMSEG算法实现;4)英文数据分词用Aho-Corasick算法实现。本专利技术聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;I)练识别方法以词频、反文档算法为方法基础,以支持向量机为机器智能学习算法,以文本样本为知识内容;2)记忆方法及结果训练后它以文件的方式存储训练结果,以供判断使用; 3)问题分析在训练后它以文件的方式存储训练结果,以供分析判断使用; 本专利技术结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。本专利技术由数据分解器I、聚类器2、结果处理器3组成;该数据分解器I聚类器2通过信息交互后把结果传送到结果处理器3,结果处理器把信息分发后再与聚类器2交互,形成结果处理器3新的知识库。如图I所示,具体实施方案如下其数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据。具体分解过程如下I)其将缺陷数据分为三类设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0 9则判断为数字数据。2)其数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文。3)其中文数据分解为词,其特征在于,用基于最大匹配算法的两种变体的中文单词识别(丽SEG)算法实现。4)其英文数据分词,其特征在于,用Aho-Corasick (以下简称AC)算法实本文档来自技高网...

【技术保护点】
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,其特征在于,它由数据分解器(1)、聚类器(2)、结果处理器(3)依序连接组成;其中:在数据分解器(1)内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;在聚类器(2)内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;在结果处理器(3)内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块。

【技术特征摘要】

【专利技术属性】
技术研发人员:李锐海刘磊廖永力杨晴邓安明高尚飞尹福荣邓丽林张玉龙邓全燕陈达杨远帜陆叶
申请(专利权)人:南方电网科学研究院有限责任公司昆明能讯科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1