一种基于KNN算法的断路器缺陷等级划分方法技术

技术编号：11973316 阅读：67 留言：0更新日期：2015-08-28 10:48

本发明专利技术涉及一种基于KNN算法的断路器缺陷等级划分方法。现有的等级划分方法为通过运维人员经验判断，费时费力且正确率受人为影响较大。本发明专利技术首先建立“断路器缺陷文本词库”，然后针对断路器缺陷文本属于短文本的特点，提出了文本预处理方法，将其转化为可直接计算的向量。接着采用KNN算法，寻找与待分类缺陷文本最相近的几条文本，并加权计算出待分类缺陷文本所属的缺陷等级。本发明专利技术对断路器缺陷文本的分类计算效率高，方便应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电力系统
，具体是设及一种基于脚W算法的断路器缺陷等级划分方法。
技术介绍
断路器的历史缺陷文本是断路器历史缺陷情况的载体，可被用于断路器的状态评价中W完善断路器的状态评价模型，是断路器可靠性的一大表征。断路器的历史缺陷文本中包含设备型式、电压等级、厂家、出厂时间、名称、所在变电所等基本设备信息，还包含缺陷发现时间、缺陷描述文本、缺陷等级等缺陷内容。其中缺陷等级是断路器历史缺陷文本评判的核屯、。缺陷等级通常采用运维人员现场运行经验判断，不仅费时费力，而且存在相同缺陷被不同运维人员判断为不同等级的情况。因此需要对其进行科学分类。由于缺陷文本通常采用中文自然语言记录，采用机器分析具有难度，目前鲜见缺陷文本被处理的相关研究。
技术实现思路
本专利技术的目的在于针对现有技术的不足，提供一种基于脚W算法的断路器缺陷等级划分方法。本专利技术方法包括W下步骤：步骤1 ;建立"断路器缺陷文本词库"，该是根据电力专业知识由专利技术人人工建立。步骤2 ;分词，依据步骤1建立的词库，将缺陷文本中的中文字符串合理地切分成词语序列，该是中文文本信息处理必备且最为基础的环节。步骤3 ;词频统计，是对文本中所有词进行出现频次的统计并据此排序。完整的词频统计结果包括了文本中出现的所有词，可用该些词构成文本向量的向量空间。每个词对应向量空间中一维。[000引步骤4;去除停用词，去除无法表征文本的词，执行中考虑先建立停用词表，再将词频统计结果和停用词表中的词进行对照，删去词频统计结果中的停用词。步骤5 ;文本向量化，是把经...

【技术保护点】
一种基于KNN算法的断路器缺陷检测方法，其特征在于该方法包括以下步骤：步骤1：建立断路器缺陷文本词库；步骤2：分词；依据步骤1建立的词库，将缺陷文本中的中文字符串切分成词语序列；步骤3：词频统计；对文本中所有词进行出现频次的统计并据此排序；完整的词频统计结果包括了文本中出现的所有词，可用这些词构成文本向量的向量空间；每个词对应向量空间中一维；步骤4：去除停用词，即去除无法表征文本的词，建立停用词表，再将词频统计结果和停用词表中的词进行对照，删去词频统计结果中的停用词；步骤5：文本向量化，即把经过上述处理的文本转化为数字向量的表示结果；每一条文本对应一个特征向量，特征向量的每一维对应词频统计结果中的每一个词；具体是根据文本向量的向量空间，再根据分词结果，将每条文本中的词与向量空间每一维对应的词作对照，如果相同，则在该文本对应的特征向量中，将该词对应的维记为1，否则为0；步骤6：量化缺陷文本的缺陷程度，紧急为3，重要为2，一般为1；步骤7：针对每一个缺陷文本，重复步骤2～6，建立缺陷文本库；步骤8：计算待归类文本与缺陷文本库中每个文本的文本相近程度；对待归类缺陷文本执行步骤2～5，完成文本...

【技术特征摘要】

【专利技术属性】
技术研发人员：王慧芳，马润泽，邱剑，余佳文，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人