一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具制造技术

技术编号：7898469 阅读：227 留言：0更新日期：2012-10-23 04:33

一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具，它由数据分解器（1）、聚类器（2）、结果处理器（3）组成，用于分类处理输变电设备缺陷数据。本发明专利技术具有把目前杂乱能力输变电设备缺陷数据分类的能力，能从文字描述中提取关键信息，能自主学习，自我完善。主要核心算法是最大匹配算法的两种变体的中文单词识别（MMSEG）、词频、反文档算法（TFIDF）和支持向量机（SVM），MMSEG用于分解知识，词频、反文档算法用于评估信息内某类信息的重要程度，SVM用来处理机器学习问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具，尤其是能处理杂乱数据的工具
技术介绍
随着电力行业的发展，输变电设备缺陷已经影响到电网的安全，为加强对输变电设备的缺陷管理，提高设备健康水平，对输变电设备缺陷数据的收集处理是一个重要环节，然而目前输变电设备缺陷数据杂乱无章，不能将输变电设备缺陷归类处理。目前对输变电设备缺陷的管理还没有完全统一的标准方式，所以形成了大量的历史杂乱数据，人工对海量历史数据的处理需要大量的人力成本，机器学习自主学习判断可以很大减少成本，更经济，更有效。MMSEG算法实现了前面讨论的最大匹配算法的简单和复杂形式。更进一步来说，为了消除未被复杂最大匹配算法所消除的歧义，又实现消除歧义的规则。词频、反文档算法(TFIDF)是文档特征权值表示常用方法。该方法简单易行，通过修改TFIDF中IDF的表达式，来增加那些在一个类中频繁出现的词条的权重，用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。支持向量机是数据挖掘中的一项新技术，是借助于最优化方法解决机器学习的问题的新工具，它是一种新的机器学习方法，它以结构风险最小为原则，它本质上是求解凸二次规划问题，在解决小样本、非线性和高维模式识别问题中有较大优势。
技术实现思路
本专利技术的目的是提供一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具，配置设定后，无需要人工干涉，自主独立的对输变电设备缺陷数据进行聚类处理，分类过程中能自我完善知识样本库，精确化分析判断能力。为了实现上述目的，本专利技术提供如下技术方案一种基于机器学习算法的输变电设备缺陷数...

【技术保护点】
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具，其特征在于，它由数据分解器（1）、聚类器（2）、结果处理器（3）依序连接组成；其中：在数据分解器（1）内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块；在聚类器（2）内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块；在结果处理器（3）内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块。

【技术特征摘要】

【专利技术属性】
技术研发人员：李锐海，刘磊，廖永力，杨晴，邓安明，高尚飞，尹福荣，邓丽林，张玉龙，邓全燕，陈达，杨远帜，陆叶，
申请(专利权)人：南方电网科学研究院有限责任公司，昆明能讯科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人