System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及配电网故障识别领域,特别是涉及一种基于多层关键词筛选的电网故障原因分类方法及系统。
技术介绍
1、我国广袤的山区和丘陵地带遍布配电网架空线路,山区配网线路长、辐射广、分支多、架空裸导线数量占比高,且线路通道多穿越林区牧区,树障问题严重,极易因“设备线夹熔断”、“线碰树”等问题引发火情,因此各地区电网公司一直将配网线路设备山火防控作为一项重点工作。
2、目前,配网针对各类故障的识别多基于人工排查后上报产生的故障单,随后再经由电网故障系统自动识别并分类。然而,经由系统自动识别并分类的故障单难免存在错报漏报的情况,而采用人工筛选故障的方法效率太低,在山火高发季节需要提取山火导致电网故障的相关数据时,缺乏有效的统计分析手段。
技术实现思路
1、本专利技术的目的是提供一种基于多层关键词筛选的电网故障原因分类方法及系统,从而实现电网故障的准确分类。
2、为实现上述目的,本专利技术提供了如下方案:
3、一方面,本专利技术提供了一种基于多层关键词筛选的电网故障原因分类方法,包括:
4、获取故障原因信息;所述故障原因信息包括未分类的故障原因文本、已正确分类的故障原因文本和已正确分类的故障原因文本的故障类型;
5、将所述已正确分类的故障原因文本输入故障文本特征提取模型中,输出已正确分类的故障原因文本对应的一个或者多个特征关键词;
6、将所述未分类的故障原因文本输入故障文本特征提取模型中,输出未分类的故障原因文本的特征
7、其中,所述故障文本特征提取模型包括分词组件、viterbi算法模型和关键词提取子模型;所述分词组件包括预设词典和自定义词典;
8、以所述已正确分类的故障原因文本的故障类型以及已正确分类的故障原因文本对应的一个或者多个特征关键词为筛选条件,对所述未分类的故障原因文本的特征关键词进行多层筛选,确定未分类的故障原因文本的故障类型。
9、可选地,特征关键词的提取过程包括:
10、采用分词组件对故障原因文本进行分词,得到分词结果;所述分词结果为由第一词序列组成的结果,或由第一词序列和未分词的故障原因文本组成的结果;
11、判断所述分词结果中是否存在未分词的故障原因文本,若是,则采用viterbi算法模型对未分词的故障原因文本进行分词,得到第二词序列,并将第一词序列和第二词序列组合,得到组合后的词序列;若否,则将第一词序列确定为组合后的词序列;将组合后的词序列输入至关键词提取子模型中,得到故障原因文本的特征关键词。
12、可选地,所述未分词的故障原因文本为存在不属于预设词典和自定义词典的词语的故障原因文本。
13、可选地,将组合后的词序列输入至关键词提取子模型中,得到故障原因文本的特征关键词,具体包括:
14、利用关键词提取算法从组合后的词序列中提取出关键词,按照每个关键词出现频率从大到小进行排序,并将出现频率位于前若干个的关键词确定为故障原因文本的特征关键词。
15、可选地,利用关键词提取算法从组合后的词序列中提取出关键词包括:将所述组合后的词序列作为输入量输入关键词提取子模型中,以得到输出层向量;对输出层向量的每个元素进行归一化处理,归一化的结果用来表示概率;将归一化的结果转换为词汇表,得到组合后的词序列中的关键词。
16、可选地,以所述已正确分类的故障原因文本的故障类型以及已正确分类的故障原因文本对应的一个或者多个特征关键词为筛选条件,对所述未分类的故障原因文本的特征关键词进行多层筛选,确定未分类的故障原因文本的故障类型,具体包括:
17、判断标记文本对应的特征关键词与目标文本对应的特征关键词是否符合第一设定条件,得到第一判断结果;所述标记文本为任一已正确分类的故障原因文本;所述目标文本为未分类的故障原因文本;所述第一设定条件为:标记文本的每个特征关键词都与目标文本中的至少一个特征关键词的相似度值大于设定阈值;
18、若第一判断结果表示是,则将标记文本对应的故障类型确定为目标文本的故障类型;
19、若第一判断结果表示否,则将标记文本更新为未经过判断的已正确分类的故障原因文本,返回步骤:判断标记文本对应的特征关键词与目标文本对应的特征关键词是否符合第一设定条件,直至确定出未分类的故障原因文本的故障类型。
20、可选地,判断标记文本对应的特征关键词与目标文本对应的特征关键词是否符合第一设定条件,得到第一判断结果,具体包括:
21、计算目标文本对应的每个特征关键词分别与标记文本中标记特征关键词的相似度值;所述标记特征关键词为所述标记文本中任一特征关键词;
22、判断目标文本对应的特征关键词与标记文本中标记特征关键词是否符合第二设定条件,得到第二判断结果;所述第二设定条件为:标记文本中标记特征关键词与目标文本对应的至少一个特征关键词的相似度值大于设定阈值;
23、若所述第二判断结果表示是,则将标记文本中的标记特征关键词更新为未计算相似度值的特征关键词,返回步骤:计算目标文本对应的每个特征关键词分别与标记文本中标记特征关键词的相似度值,直至遍历标记文本中的所有特征关键词;若目标文本对应的特征关键词与标记文本中的所有标记特征关键词均满足第二设定条件,则判定所述第一设定条件成立;
24、若所述第二判断结果表示否,则直接判定所述第一设定条件不成立。
25、另一方面,本专利技术还提供了一种基于多层关键词筛选的电网故障原因分类系统,包括:
26、故障原因信息获取模块,用于获取故障原因信息;所述故障原因信息包括未分类的故障原因文本、已正确分类的故障原因文本和已正确分类的故障原因文本的故障类型;
27、第一特征关键词模块,用于将所述已正确分类的故障原因文本输入故障文本特征提取模型中,输出已正确分类的故障原因文本对应的一个或者多个特征关键词;
28、第二特征关键词模块,用于将所述未分类的故障原因文本输入故障文本特征提取模型中,输出未分类的故障原因文本的特征关键词;
29、其中,所述故障文本特征提取模型包括分词组件、viterbi算法模型和关键词提取子模型;所述分词组件包括预设词典和自定义词典;
30、故障类型识别模块,用于以所述已正确分类的故障原因文本的故障类型以及已正确分类的故障原因文本对应的一个或者多个特征关键词为筛选条件,对所述未分类的故障原因文本的特征关键词进行多层筛选,确定未分类的故障原因文本的故障类型。
31、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
32、本专利技术提出的基于多层关键词筛选的电网故障原因分类方法,从故障原因文本中提取出多个关键词,并进行了多层关键词筛选,在保证全面的搜索范围的前提下,有效地避免分类过程中的错分漏分,分类更加准确。
33、同时,本专利技术基于故障原因文本的特性进行分类,适用于各种类型电网故障的提取,并且本文档来自技高网...
【技术保护点】
1.一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,特征关键词的提取过程包括:
3.根据权利要求2所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,所述未分词的故障原因文本为存在不属于预设词典和自定义词典的词语的故障原因文本。
4.根据权利要求2所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,将组合后的词序列输入至关键词提取子模型中,得到故障原因文本的特征关键词,具体包括:
5.根据权利要求4所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,利用关键词提取算法从组合后的词序列中提取出关键词,具体包括:
6.根据权利要求1所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,以所述已正确分类的故障原因文本的故障类型以及已正确分类的故障原因文本对应的一个或者多个特征关键词为筛选条件,对所述未分类的故障原因文本的特征关键词进行多层筛选,确定未分类的故障原因文本的故障类
7.根据权利要求6所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,判断标记文本对应的特征关键词与目标文本对应的特征关键词是否符合第一设定条件,得到第一判断结果,具体包括:
8.一种基于多层关键词筛选的电网故障原因分类系统,其特征在于,包括:
...【技术特征摘要】
1.一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,特征关键词的提取过程包括:
3.根据权利要求2所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,所述未分词的故障原因文本为存在不属于预设词典和自定义词典的词语的故障原因文本。
4.根据权利要求2所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,将组合后的词序列输入至关键词提取子模型中,得到故障原因文本的特征关键词,具体包括:
5.根据权利要求4所述的一种基于多层关键词筛选的电网故障原因分类方法,其特征在于,...
【专利技术属性】
技术研发人员:周瑶,何建波,余武强,柳明贤,沈雪明,李祚朋,唐炳南,王恒康,吴凤斌,潘科,谭一元,何晓斌,李翌,和智高,和耀南,何鹏,宁文军,
申请(专利权)人:云南电网有限责任公司丽江供电局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。