一种适用于继电保护装置缺陷分析的专业词典构建方法制造方法及图纸

技术编号：28978790 阅读：26 留言：0更新日期：2021-06-23 09:24

本发明专利技术提供一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。首先，对缺陷记录进行清洗，删除重复记除、空白记录等无意义记录，之后按照缺陷等级将缺陷文本分为危急、严重、一般三部分，分别进行分词处理。其次，基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。随后，经过基于jieba分词和人工修正的两次分词过程，获得质量更高的专业词典。最后，依靠人工识别并存储的方式实现同义词的合并。上述方法一方面考虑了继电保护装置实际运维中缺陷记录的主要属性，另一方面根据继保专业语料对分词结果中专业词汇进行修正，修正结果提升了机器分词的准确性和专业性，所得分词结果为文本挖掘技术在缺陷分析中的应用提供了基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于继电保护装置缺陷分析的专业词典构建方法
本专利技术涉及继电保护
，尤其涉及一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。
技术介绍
继电保护系统是电力系统安全、稳定运行的第一道防线，继电保护系统能否正确动作，各类继电保护装置的缺陷管理工作十分关键和重要。继电保护的四项基本要求中快速性、选择性和灵敏性可通过整定计算得以保障，但可靠性与保护装置本身的缺陷情况息息相关，即使动作定值、时间整定和设备配套方案设置合理，装置自身缺陷所引起的二次系统功能缺失会使电网安全稳定运行失去保障，从而导致故障范围扩大、负荷大面积损失、设备损坏、人身伤亡等不利情况。目前，继电保护行业已经积累了大量的继电保护装置缺陷信息数据。随着缺陷数据量的增长，传统数据分析方法开始向机器学习算法过渡，这为缺陷数据的分析提供了新的思路。值得注意的是，传统数据分析应用均基于现场人员填写好的规范数据开展，忽略了缺陷数据根本上是一种非规范的文本型数据。因此，借助自然语言处理算法的文本挖掘技术值得尝试。但是，文本挖掘技术特殊性在于其对专业领域词典依赖性很高，因此，建立适用于继保装置缺陷分析的专业词典具有较强的实际意义。
技术实现思路
本专利技术的目的是提供一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。该方法能较好地实现对缺陷文本记录分词并修正从而建立专业词典的目标，为基于文本挖掘技术开展缺陷定级或缺陷信息抽取提供基础。本专利技术的目的是通过以下技术方案实现的：一...

【技术保护点】
1.一种适用于继电保护装置缺陷分析的专业词典构建方法，其特征在于，所述方法包括：/n步骤1、继电保护缺陷记录文本数据预处理；/n步骤2、继电保护缺陷记录停用词表构建；/n步骤3、继电保护缺陷记录文本分词；/n步骤4、继电保护缺陷记录同义词合并。/n

【技术特征摘要】
1.一种适用于继电保护装置缺陷分析的专业词典构建方法，其特征在于，所述方法包括：
步骤1、继电保护缺陷记录文本数据预处理；
步骤2、继电保护缺陷记录停用词表构建；
步骤3、继电保护缺陷记录文本分词；
步骤4、继电保护缺陷记录同义词合并。

2.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法，其特征在于，在所述步骤1中，文本数据预处理包括文本数据清洗和缺陷文本划分：
文本数据清洗包括删除重复缺陷记录、空白缺陷记录等无意义数据，缺陷文本划分需按照缺陷等级将缺陷文本分为危急、严重、一般三部分，并将三组文本转换为txt格式存储用于后续分词处理。

3.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法，其特征在于，在所述步骤2中，停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等，具体地：
1）厂站名和线路名集合缺陷数据中的厂站名称和一次设备名称中提取，运用正则表达式的方法，去除其中的电压等级，将记录中的变电站和发电厂区分开，从中提取出所需的厂站名...

【专利技术属性】
技术研发人员：薛安成，刘中硕，吴超，章家欢，陈乾，田铭威，陶畅，欧阳明浩，景子洋，
申请(专利权)人：华北电力大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人