一种适用于继电保护装置缺陷分析的专业词典构建方法制造方法及图纸

技术编号:28978790 阅读:26 留言:0更新日期:2021-06-23 09:24
本发明专利技术提供一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。首先,对缺陷记录进行清洗,删除重复记除、空白记录等无意义记录,之后按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。其次,基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。随后,经过基于jieba分词和人工修正的两次分词过程,获得质量更高的专业词典。最后,依靠人工识别并存储的方式实现同义词的合并。上述方法一方面考虑了继电保护装置实际运维中缺陷记录的主要属性,另一方面根据继保专业语料对分词结果中专业词汇进行修正,修正结果提升了机器分词的准确性和专业性,所得分词结果为文本挖掘技术在缺陷分析中的应用提供了基础。

【技术实现步骤摘要】
一种适用于继电保护装置缺陷分析的专业词典构建方法
本专利技术涉及继电保护
,尤其涉及一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。
技术介绍
继电保护系统是电力系统安全、稳定运行的第一道防线,继电保护系统能否正确动作,各类继电保护装置的缺陷管理工作十分关键和重要。继电保护的四项基本要求中快速性、选择性和灵敏性可通过整定计算得以保障,但可靠性与保护装置本身的缺陷情况息息相关,即使动作定值、时间整定和设备配套方案设置合理,装置自身缺陷所引起的二次系统功能缺失会使电网安全稳定运行失去保障,从而导致故障范围扩大、负荷大面积损失、设备损坏、人身伤亡等不利情况。目前,继电保护行业已经积累了大量的继电保护装置缺陷信息数据。随着缺陷数据量的增长,传统数据分析方法开始向机器学习算法过渡,这为缺陷数据的分析提供了新的思路。值得注意的是,传统数据分析应用均基于现场人员填写好的规范数据开展,忽略了缺陷数据根本上是一种非规范的文本型数据。因此,借助自然语言处理算法的文本挖掘技术值得尝试。但是,文本挖掘技术特殊性在于其对专业领域词典依赖性很高,因此,建立适用于继保装置缺陷分析的专业词典具有较强的实际意义。
技术实现思路
本专利技术的目的是提供一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。该方法能较好地实现对缺陷文本记录分词并修正从而建立专业词典的目标,为基于文本挖掘技术开展缺陷定级或缺陷信息抽取提供基础。本专利技术的目的是通过以下技术方案实现的:一种适用于继电保护装置缺陷分析的专业词典构建方法,所述方法包括:步骤1、继电保护缺陷记录文本数据预处理。步骤2、继电保护缺陷记录停用词表构建。步骤3、继电保护缺陷记录文本分词。步骤4、继电保护缺陷记录同义词合并。所述步骤1中,文本数据预处理包括文本数据清洗,删除重复缺陷记录、空白缺陷记录等无意义数据,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。所述步骤2中,停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。所述步骤3中,文本数据分词共涉及两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典。所述步骤4中,同义词合并主要基于人工识别并存储。由上述本专利技术提供的技术方案可以看出,上述方法一方面考虑了继电保护装置实际运维中缺陷记录的主要属性,另一方面根据继电保护专业语料对分词结果中专业词汇进行修正,修正结果提升了机器分词的准确性和专业性,所得分词结果为文本挖掘技术在缺陷分析中的应用提供了基础。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显然,下面描述中的附图仅是本专利技术的部分实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例所述的继电保护装置缺陷分析专业词典构建方法的流程示意图;图2为本专利技术实施例所述的停用词表构建所采用的正则表达式方法流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅为本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。步骤1、继电保护缺陷记录文本数据预处理。首先,对缺陷文本数据进行清洗,删除重复缺陷记录、空白缺陷记录等无意义数据;然后,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。重复缺陷记录剔除、空白缺陷记录删除及按照缺陷等级的缺陷文本划分通过excel软件筛选完成;之后将三组文本转换为txt格式文档存储以备调用。步骤2、继电保护缺陷记录停用词表构建。基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。具体的,停用词提取分别有如下几类:(1)厂站名、线路名:属于专有名词,需要将其准确的从分词文本中识别出来,否则可能会影响其他正常词汇的准确切分。厂站名和线路名集合提取自缺陷数据中的厂站名称和一次设备名称。运用正则表达式的方法,去除其中的电压等级,将记录中的变电站和发电厂区分开,从中提取出所需的厂站名集合。(2)设备型号:缺陷记录中如LCS5678H、NSR3111F、PCS-222EA-G、CSC101B等保护型号,每个型号在文本记录中出现次数太少,对于文本分析意义不大;由于人工记录,存在不同的书写格式,不易识别;出现的型号本身不一定完整,甚至存在记录错误。因此,对于在文本记录中出现的保护型号,只从中提取“CSC”、“PSL”等表明发生故障的装置所属的序列。(3)人名:人名因为占比很少,目前采用人工识别的方式,同时考虑获取运维人员名单并导入以进行正则化抽取。停用词表借助正则表达式方法构建,基于正则表达式匹配某些特定数据。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同。使用正则表达式进行匹配的流程如附图2所示。正则表达式的匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。正则表达式可以用来匹配多种数据形式:字符组、匹配多个单词、区间、特殊字符、匹配目标数据、取反、匹配空白、单词边界、开始结束、可选的任意字符、重复区间及开闭区间。步骤3、继电保护缺陷记录文本分词。继电保护缺陷文本记录数据分词共涉及两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典,提升分词结果的准确性。在该步骤3中,主要的分词约束包含以下内容:①对于出现的厂站,将具体名称替换为“变电站”、“发电厂”或“风电场”,出现的线路,将具体名称替换为“线路”,从而降低文本语料的特征空间维数,并且体现缺陷发生的地点属性;②专属实体名合并,例如故障/录波器、CPU/插件、重合/闸等;③不切分出单字实词,例如光电/口、接线/头等,当作短语处理;④必要的虚词前后缀(尤其否定前缀),例如无/异常、不/影响等;⑤出现数字后,先判断其后一个词是否为有意义的时间、电流、电压等计量单位。若是,则保留;若不是,考虑直接删除。步骤4、继电保护缺陷记录同义词合并。同义词合并主要基于人工识别并存储。目前继电保护装置缺陷处理中的近义词汇较少,如“主变”和“主变压器”,多通过人工添加进行筛选。下面再以具体的实例对上述缺陷数据修正方法进行论证与说明:以2016-2本文档来自技高网...

【技术保护点】
1.一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,所述方法包括:/n步骤1、继电保护缺陷记录文本数据预处理;/n步骤2、继电保护缺陷记录停用词表构建;/n步骤3、继电保护缺陷记录文本分词;/n步骤4、继电保护缺陷记录同义词合并。/n

【技术特征摘要】
1.一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,所述方法包括:
步骤1、继电保护缺陷记录文本数据预处理;
步骤2、继电保护缺陷记录停用词表构建;
步骤3、继电保护缺陷记录文本分词;
步骤4、继电保护缺陷记录同义词合并。


2.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤1中,文本数据预处理包括文本数据清洗和缺陷文本划分:
文本数据清洗包括删除重复缺陷记录、空白缺陷记录等无意义数据,缺陷文本划分需按照缺陷等级将缺陷文本分为危急、严重、一般三部分,并将三组文本转换为txt格式存储用于后续分词处理。


3.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤2中,停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等,具体地:
1)厂站名和线路名集合缺陷数据中的厂站名称和一次设备名称中提取,运用正则表达式的方法,去除其中的电压等级,将记录中的变电站和发电厂区分开,从中提取出所需的厂站名...

【专利技术属性】
技术研发人员:薛安成刘中硕吴超章家欢陈乾田铭威陶畅欧阳明浩景子洋
申请(专利权)人:华北电力大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1