当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于KNN算法的断路器缺陷等级划分方法技术

技术编号:11973316 阅读:67 留言:0更新日期:2015-08-28 10:48
本发明专利技术涉及一种基于KNN算法的断路器缺陷等级划分方法。现有的等级划分方法为通过运维人员经验判断,费时费力且正确率受人为影响较大。本发明专利技术首先建立“断路器缺陷文本词库”,然后针对断路器缺陷文本属于短文本的特点,提出了文本预处理方法,将其转化为可直接计算的向量。接着采用KNN算法,寻找与待分类缺陷文本最相近的几条文本,并加权计算出待分类缺陷文本所属的缺陷等级。本发明专利技术对断路器缺陷文本的分类计算效率高,方便应用。

【技术实现步骤摘要】

本专利技术属于电力系统
,具体是设及一种基于脚W算法的断路器缺陷等级 划分方法。
技术介绍
断路器的历史缺陷文本是断路器历史缺陷情况的载体,可被用于断路器的状态评 价中W完善断路器的状态评价模型,是断路器可靠性的一大表征。断路器的历史缺陷文本 中包含设备型式、电压等级、厂家、出厂时间、名称、所在变电所等基本设备信息,还包含缺 陷发现时间、缺陷描述文本、缺陷等级等缺陷内容。其中缺陷等级是断路器历史缺陷文本评 判的核屯、。缺陷等级通常采用运维人员现场运行经验判断,不仅费时费力,而且存在相同缺 陷被不同运维人员判断为不同等级的情况。因此需要对其进行科学分类。由于缺陷文本通 常采用中文自然语言记录,采用机器分析具有难度,目前鲜见缺陷文本被处理的相关研究。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于脚W算法的断路器缺陷等 级划分方法。 本专利技术方法包括W下步骤: 步骤1 ;建立"断路器缺陷文本词库",该是根据电力专业知识由专利技术人人工建立。 步骤2 ;分词,依据步骤1建立的词库,将缺陷文本中的中文字符串合理地切分成 词语序列,该是中文文本信息处理必备且最为基础的环节。 步骤3 ;词频统计,是对文本中所有词进行出现频次的统计并据此排序。完整的词 频统计结果包括了文本中出现的所有词,可用该些词构成文本向量的向量空间。每个词对 应向量空间中一维。[000引步骤4;去除停用词,去除无法表征文本的词,执行中考虑先建立停用词表,再将 词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词。 步骤5 ;文本向量化,是把经过上述处理的文本转化为数字向量的表示结果。每一 条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词。具体方法 为根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应 的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0。 步骤6 ;量化缺陷文本的缺陷程度,紧急为3,重要为2, 一般为1。本步骤由专家组 根据专业知识完成。 步骤7 ;针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库。 步骤8 ;计算待归类文本与缺陷文本库中每个文本的文本相近程度。对待归类缺 陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每 一个文本的相似度: (1)[001 引【主权项】1. 一种基于KNN算法的断路器缺陷检测方法,其特征在于该方法包括以下步骤: 步骤1 :建立断路器缺陷文本词库; 步骤2 :分词; 依据步骤1建立的词库,将缺陷文本中的中文字符串切分成词语序列; 步骤3 :词频统计; 对文本中所有词进行出现频次的统计并据此排序;完整的词频统计结果包括了文本中 出现的所有词,可用这些词构成文本向量的向量空间;每个词对应向量空间中一维; 步骤4 :去除停用词,即去除无法表征文本的词, 建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中 的停用词; 步骤5 :文本向量化,即把经过上述处理的文本转化为数字向量的表示结果;每一条文 本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词; 具体是根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每 一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否 则为〇 ; 步骤6 :量化缺陷文本的缺陷程度,紧急为3,重要为2, 一般为1 ; 步骤7 :针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库; 步骤8 :计算待归类文本与缺陷文本库中每个文本的文本相近程度;对待归类缺陷文 本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个 文本的相似度Sij:式中,Su为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,W η为文 本i的特征向量的第1维的值,W#为文本j的特征向量的第1维的值; 步骤9 :按照文本相似度,在文本库中选出与待归类文本最相似的k条文本; 步骤10 :利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi:其中,Y1为第1条缺陷文本描述的缺陷严重程度。2. 根据权利要求1所述的一种基于KNN算法的断路器缺陷检测方法,其特征在于:根 据步骤10计算结果将该缺陷的严重程度归类,计算结果为 yi e (1,1. 5],则归为一般类,计 算结果为Yie (1.5, 2. 5),则归为严重类,计算结果为yie [2. 5, 3),则归为紧急类。【专利摘要】本专利技术涉及一种基于KNN算法的断路器缺陷等级划分方法。现有的等级划分方法为通过运维人员经验判断,费时费力且正确率受人为影响较大。本专利技术首先建立“断路器缺陷文本词库”,然后针对断路器缺陷文本属于短文本的特点,提出了文本预处理方法,将其转化为可直接计算的向量。接着采用KNN算法,寻找与待分类缺陷文本最相近的几条文本,并加权计算出待分类缺陷文本所属的缺陷等级。本专利技术对断路器缺陷文本的分类计算效率高,方便应用。【IPC分类】G06F17-30【公开号】CN104866574【申请号】CN201510267932【专利技术人】王慧芳, 马润泽, 邱剑, 余佳文 【申请人】浙江大学【公开日】2015年8月26日【申请日】2015年5月23日本文档来自技高网...

【技术保护点】
一种基于KNN算法的断路器缺陷检测方法,其特征在于该方法包括以下步骤:步骤1:建立断路器缺陷文本词库;步骤2:分词;依据步骤1建立的词库,将缺陷文本中的中文字符串切分成词语序列;步骤3:词频统计;对文本中所有词进行出现频次的统计并据此排序;完整的词频统计结果包括了文本中出现的所有词,可用这些词构成文本向量的向量空间;每个词对应向量空间中一维;步骤4:去除停用词,即去除无法表征文本的词,建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词;步骤5:文本向量化,即把经过上述处理的文本转化为数字向量的表示结果;每一条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词;具体是根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0;步骤6:量化缺陷文本的缺陷程度,紧急为3,重要为2,一般为1;步骤7:针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库;步骤8:计算待归类文本与缺陷文本库中每个文本的文本相近程度;对待归类缺陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个文本的相似度Sij:Sij=Σl=1MWil×WjlΣl=1MWil2Σl=1MWjl2---(1)]]>式中,Sij为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,Wil为文本i的特征向量的第l维的值,Wjl为文本j的特征向量的第l维的值;步骤9:按照文本相似度,在文本库中选出与待归类文本最相似的k条文本;步骤10:利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi:yi=Σl=1kSilylΣl=1kSil---(2)]]>其中,yl为第l条缺陷文本描述的缺陷严重程度。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王慧芳马润泽邱剑余佳文
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1