一种电网调度故障处理知识图谱的构建方法及装置制造方法及图纸

技术编号:26173133 阅读:15 留言:0更新日期:2020-10-31 13:54
本发明专利技术公开了一种电网故障处理知识图谱的构建方法及装置,通过领域高质量专业短语挖掘、命名实体识别,以及设备、事件、操作等关系抽取,从海量的电网运行数据、故障处理预案等结构化和非结构化数据中自动提取知识,构建电网调度故障处理知识图谱,很好地突破传统电网调度专家系统规则化定制知识、周期长、更新慢的限制,实现电网调度故障处理知识的计算机智能自主获取、跨领域分析和全时段学习。

【技术实现步骤摘要】
一种电网调度故障处理知识图谱的构建方法及装置
本专利技术涉及一种电网调度故障处理知识图谱的构建方法及装置,属于电网故障处理

技术介绍
电网值班调度员故障处理时,需要遵照调度规程和安全稳定运行规定,汇总分系电网运行、电网故障、设备检修、气象环境、调度日志、风险评估等信息,结合故障预案、运行方式安排、负荷快速转移方案等预定方针,形成故障处理方案。其中,调度规程、安全稳定运行规定、故障预案、运行方式安排与调整、负荷快速转移方案等信息通常以文本形式存在,电网运行、电网故障、设备检修、气象环境、调度日志、风险评估等信息分散在不同系统中的不同位置,很多工作需要直板调度员人工查阅和汇总,存在无法自动化搜集、关联、分析信息,处置故障时效率不高等问题。
技术实现思路
本专利技术的目的在于针对传统电网调度专家系统无法自动化获取知识的局限,提出一种电网调度故障处理知识图谱的构建方法及装置,通过机器学习、自然语言处理等人工智能技术,从海量的电网运行数据、故障处理预案等结构化和半结构化数据中自动提取知识,构建电网调度故障处理知识图谱,实现电网调度故障处理知识的计算机智能自主获取、跨领域分析和全时段学习,极大地提升电网故障处理的效率。为达到上述目的,本专利技术采用的技术方案如下:本专利技术一方面提供一种电网调度故障处理知识图谱的构建方法,包括:对电网调度故障处理领域文本语料进行专业短语识别;对识别后的电网调度故障处理领域专业短语进行命名实体识别;对命名实体识别后的电网调度故障处理领域专业短语进行实体关系抽取并融合,构建多领域融合的电网调度故障处理知识图谱。进一步的,所述对电网调度故障处理领域文本语料进行专业短语识别,包括:将故障预案、运行方式和调度日志的领域语料进行中文分词;采用N-Gram频次统计模型构建短语字典树节点,得到频次大于预设值的短语序列,作为候选短语;基于候选短语的统计指标特征进行高质量候选短语筛选;所述高质量候选短语是指频次高,但对于电调度故障处理领域不重要的短语;计算高质量候选短语的质量评分;基于高质量候选短语的质量评分对中文分词后的故障预案、运行方式和调度日志的领域语料进行迭代切割,最终识别出电网调度故障处理领域专业短语。进一步的,所述基于候选短语的统计指标特征进行高质量候选短语筛选,包括:将候选短语按照9:1的比例划分训练集和验证集,并人工标注出训练集中高质量候选短语;针对每一个人工标注样本,采用决策树分类器进行训练、测试与验证,构建基于短语统计指标特征的分类器,用于识别高质量候选短语;所述统计指标特征包括:候选短语u的C-value(u)值、NC-value(u)值、PMI值、左邻字熵和右邻字熵。进一步的,所述计算高质量候选短语的质量评分,包括:F(u)=weight(c-value)*(C-value(u))+weight(nc-value)*(NC-value(u))+weight(pmi)*PMI(u)+weight(HL)*HL(u)+weight(HR)*HR(u);其中,F(u)为候选短语u的质量评分,C-value(u)、NC-value(u)、PMI(u)、HL(u)、HR(u)分别为候选短语u的C-value(u)值、NC-value(u)值、PMI值、左邻字熵、右邻字熵,weight(c-value)、weight(nc-value)、weight(pmi)、weight(HL)、weight(HR)分别为候选短语u的C-value(u)值、NC-value(u)值、PMI值、左邻字熵、右邻字熵值的权重。进一步的,所述基于高质量候选短语的质量评分对中文分词后的故障预案、运行方式和调度日志的领域语料进行迭代切割,最终识别出电网调度故障处理领域专业短语,包括:将高质量候选短语按质量评分从大到小进行排序,获取质量评分最大的前N个高质量候选短语;对中文分词后的故障预案、运行方式和调度日志的领域语料基于前N个高质量候选短语进行迭代切割,更新候选短语,并重新计算更新后的候选短语的统计指标特征和质量评分,直至最终的候选短语的质量评分不变,输出最终质量评分最大的前N个候选短语,作为电网调度故障处理领域专业短语。进一步的,所述对识别后的电网调度故障处理领域专业短语进行命名实体识别,包括:对电网调度故障处理领域专业短语进行语料标注,标注出厂站,设备,事件和操作,一行一个分词以及对应的标注符号;将语料标注后生成的标注信息转换为BIO标注格式;对语料标注后的电网调度故障处理领域专业短语进行数据增强和预处理;将数据增强和预处理后的专业短语划分训练集和验证集,以Albert-zh模块作为文本特征提取,采用Bi-LSTM序列标注算法进行模型训练与验证,得到电网调度故障处理领域中厂站、设备、事件和操作的命名实体识别模型。进一步的,所述对语料标注后的电网调度故障处理领域专业短语进行数据增强和预处理,包括:对电网调度故障处理领域专业短语中的分句进行bigram、trigram拼接,生成新的分句;对于已标注为厂站、设备、事件和操作的实体,利用收集到的命名实体词典,采用随机替换的方式,替换同类型的实体,得到增强语料;对所有语料去除空行与句号,统一符号状态,统一字母大小写,以及去掉无意义的词。进一步的,还包括:在已识别的厂站和设备中,基于名称缩写文本模式,识别厂站和设备的同义词与缩略词,共同作为电网调度故障处理知识图谱构建的实体。进一步的,所述对命名实体识别后的电网调度故障处理领域专业短语进行实体关系抽取并融合,构建多领域融合的电网调度故障处理知识图谱,包括:对命名实体识别后的电网调度故障处理领域专业短语进行实体、实体属性,以及实体与实体、实体与属性间的关系抽取;基于实体、实体属性,以及实体与实体、实体与属性间的关系,形成故障预案子图模型,运行方式调整发文子图模型,管辖范围信息子图模型,检修单子图模型,风险预警子图模型和历史故障日志子图模型;所述故障预案子图模型表征故障设备、设备所属厂站、故障事件、故障前运行方式、故障后运行方式、故障处置操作以及相互之间的关系;所述运行方式调整发文子图模型表征调整通知相关的设备、调整目的、调整时间、调整后的正常运行方式、检修运行方式、设备的稳定限额以及相互之间的关系;所述管辖范围信息子图模型表征设备所属厂站和机构,其中,设备为管辖设备或者许可设备;所述检修单子图模型表征设备所属厂站,设备检修单的停电事件、工作内容和工作时间,以及相互之间的关系;所述风险预警子图模型表征设备所属厂站,设备风险事件,风险事件的停电事由、运行安全风险分析和风控要求,以及相互之间的关系;所述历史故障日志子图模型表征故障设备,故障设备所属厂站与机构,故障事件,故障事件时间,故障后运行方式以及相互之间的关系;将所述故障预案子图模型,运行方式调整发文子图模型,管辖范围信息子图模型,检本文档来自技高网...

【技术保护点】
1.一种电网调度故障处理知识图谱的构建方法,其特征在于,包括:/n对电网调度故障处理领域文本语料进行专业短语识别;/n对识别后的电网调度故障处理领域专业短语进行命名实体识别;/n对命名实体识别后的电网调度故障处理领域专业短语进行实体关系抽取并融合,构建多领域融合的电网调度故障处理知识图谱。/n

【技术特征摘要】
1.一种电网调度故障处理知识图谱的构建方法,其特征在于,包括:
对电网调度故障处理领域文本语料进行专业短语识别;
对识别后的电网调度故障处理领域专业短语进行命名实体识别;
对命名实体识别后的电网调度故障处理领域专业短语进行实体关系抽取并融合,构建多领域融合的电网调度故障处理知识图谱。


2.根据权利要求1所述的一种电网调度故障处理知识图谱的构建方法,其特征在于,所述对电网调度故障处理领域文本语料进行专业短语识别,包括:
将故障预案、运行方式和调度日志的领域语料进行中文分词;
采用N-Gram频次统计模型构建短语字典树节点,得到频次大于预设值的短语序列,作为候选短语;
基于候选短语的统计指标特征进行高质量候选短语筛选;所述高质量候选短语是指频次高,但对于电调度故障处理领域不重要的短语;
计算高质量候选短语的质量评分;
基于高质量候选短语的质量评分对中文分词后的故障预案、运行方式和调度日志的领域语料进行迭代切割,最终识别出电网调度故障处理领域专业短语。


3.根据权利要求2所述的一种电网调度故障处理知识图谱的构建方法,其特征在于,所述基于候选短语的统计指标特征进行高质量候选短语筛选,包括:
将候选短语按照9:1的比例划分训练集和验证集,并人工标注出训练集中高质量候选短语;
针对每一个人工标注样本,采用决策树分类器进行训练、测试与验证,构建基于短语统计指标特征的分类器,用于识别高质量候选短语;所述统计指标特征包括:候选短语u的C-value(u)值、NC-value(u)值、PMI值、左邻字熵和右邻字熵。


4.根据权利要求2所述的一种电网调度故障处理知识图谱的构建方法,其特征在于,所述计算高质量候选短语的质量评分,包括:
F(u)=weight(c-value)*(C-value(u))+weight(nc-value)*(NC-value(u))+weight(pmi)*PMI(u)+weight(HL)*HL(u)+weight(HR)*HR(u);
其中,F(u)为候选短语u的质量评分,C-value(u)、NC-value(u)、PMI(u)、HL(u)、HR(u)分别为候选短语u的C-value(u)值、NC-value(u)值、PMI值、左邻字熵、右邻字熵,weight(c-value)、weight(nc-value)、weight(pmi)、weight(HL)、weight(HR)分别为候选短语u的C-value(u)值、NC-value(u)值、PMI值、左邻字熵、右邻字熵值的权重。


5.根据权利要求2所述的一种电网调度故障处理知识图谱的构建方法,其特征在于,所述基于高质量候选短语的质量评分对中文分词后的故障预案、运行方式和调度日志的领域语料进行迭代切割,最终识别出电网调度故障处理领域专业短语,包括:
将高质量候选短语按质量评分从大到小进行排序,获取质量评分最大的前N个高质量候选短语;
对中文分词后的故障预案、运行方式和调度日志的领域语料基于前N个高质量候选短语进行迭代切割,更新候选短语,并重新计算更新后的候选短语的统计指标特征和质量评分,直至最终的候选短语的质量评分不变,输出最终质量评分最大的前N个候选短语,作为电网调度故障处理领域专业短语。


6.根据权利要求1所述的一种电网调度故障处理知识图谱的构建方法,其特征在于,所述对识别后的电网调度故障处理领域专业短语进行命名实体识别,包括:
对电网调度故障处理领域专业短语进行语料标注,标注出厂站,设备,事件和操作,一行一个分词以及对应的标注符号;
将语料标注后生成的标注信息转换为BIO标注格式;
对语料标注后的电网调度故障处理领域专业短语进行数据增强和预处理;
将数据增强和预处理后的专业短语划分训练集和验证集,以Albert-zh模块作为文本特征提取,采用Bi-LSTM序列标注算法进行模型训练与验证,得到电网调度故障处理领域中厂站、设备、事件和操作的命名实体识别模型。


7.根据权利要求6所述的一种电网调度故障处理知识图谱的构建方法,其特征在于,所述对语料标注后的电网调度故障处理领域专业短语进行数据增强和预处理,包括:
对电网调度故障处理领域专业短语中的分句进行bigram、trigram拼接,生成新的分句;
对于已标注为厂站、设备、事件和操作的实体,利用收集到的命名实体词典,采用随机替换的方式,替换同类型的实体,得到增强语料;
对所有语料去除空行与句号,统一符号状态,统一字母大小写,以及去掉无意义的词。


8.根据权利要求6所述的一种电网调度故障处理知识图谱的构建方法,其特征在于,还包括:
在已识别的厂站和设备中,基于名称缩写文本模式,识别厂站和设备的同义词与缩略词,共同作为电网调度故障处理知识图谱构建的实体。


9.根据权利要求1...

【专利技术属性】
技术研发人员:李杰梁文腾李艺丰严晴谢峰李红李昊张韬旷文腾李子祺
申请(专利权)人:国网江苏省电力有限公司国网电力科学研究院有限公司国电南瑞科技股份有限公司国家电网有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1