一种组合深度学习和概念图谱的电力故障事件抽取方法技术

技术编号:23984722 阅读:64 留言:0更新日期:2020-04-29 12:58
本发明专利技术提出了一种组合深度学习和概念图谱的电力故障事件抽取方法,在特征选取阶段,摒弃复杂的特征设计,只选用基础的分布式语义词向量特征、依存句法结构特征和位置特征,在此基础上使用基于中文知识图谱的概念图谱实现电力故障文本的概念扩展。使用长短期记忆循环神经网络,自动进行特征学习,并以模型训练的结果替代原始特征,并作为触发词识别和事件元素识别的基础。在元素识别阶段,将事件元素识别任务转换为触发词‑实体、触发词‑触发词的关系抽取任务,结合动态多池化卷积神经网络进行训练,同时识别出简单事件和复杂事件的事件元素。根据电力领域特征制定规则,对识别结果进行进一步的优化。该发明专利技术方法简单,执行效率与准确率高。

A method of power fault event extraction based on combination of deep learning and concept map

【技术实现步骤摘要】
一种组合深度学习和概念图谱的电力故障事件抽取方法
本专利技术涉及电力和计算机应用,尤其涉及一种组合深度学习和概念图谱的电力故障事件抽取方法。
技术介绍
随着新能源、分布式电源的发展,以及电力下游应用的日益丰富,电网运行的不确定性显著增强,传统的基于机理及物理建模的在线安全分析功能的调度模式已经逐渐不能满足电网的要求,充分挖掘调度规程、故障预案、调度日志等电网运行文本,利用自然语言处理技术、知识图谱技术及相应的大数据分析技术,挖掘上述数据中的经验规则,将对大型混联电网电网态势感知、智能决策和辅助调度具有十分重要的作用。然而,目前的自然语言处理技术和知识图谱技术虽然在实体和关系识别方面已经取得了一定的研究进展,但针对形成经验规则最重要的领域事件特别是电网领域事件,目前并没有获得较大的突破。在电力和电网领域的自然语言处理还没有开展系统和深层次的研发,目前的研发主要集中于电力文本的实体识别,对于电力故障事件识别方面,无论从研究和应用的角度仍然处于空白,限制了电力文本对电网智能决策和辅助调度的应用支撑。
技术实现思路
针对上述问题,本专利技术提出了一种组合深度学习和概念图谱的电力故障事件抽取方法。本专利技术的技术方案为一种组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于,包括以下步骤:步骤1:定义电网故障事件触发词以及电网故障事件元素;步骤2:电网故障事件触发词和电网故障事件的特征词提取;步骤3:事件元素抽取与事件生成;作为优选,步骤1中所述电网故障事件都由触发词和事件元素构成,触发词只能有一个,可以是一个词或由多个词构成,事件元素根据事件类型的不同可能有一个或多个,每个事件元素可以是一个词或是另一个事件;而每个触发词和事件元素都可能被不同的事件共享,即一个词可能在多个不同类型的事件中扮演触发词或事件要素的角色;步骤1中所述电网故障事件元素用于记录电网故障信息,具体包括:设备信息、故障信息、故障处置、故障原因及其它;所述设备信息为:设备名称、电压等级、设备类型、故障元件类型、故障元件、厂站1-n名称、所属地区、所属调度、设备型号、设备厂家、设备额定容量、投运时间、线路长度、是否同杆并架、是否电缆、是否紧凑型杆塔;所述故障信息为:故障时间、故障相别、保护与安控动作情况、重合闸情况、直流再启动情况、停运类型、厂站1-n测距、厂站1-n天气、厂站1-n人员到站时间、综合智能告警是否正确推出、告警源、故障详细情况,所述故障详细情况汇总故障发生、处置、恢复等全过程详细情况,应至少包括发生日期、时间、故障设备名称、故障相别、故障后果等关键故障信息;所述故障处置为:故障影响及处置、恢复时间、设备消缺情况、巡线任务、故障原因/巡线结果;所述故障原因为:一段描述造成故障的文字;所述其它部分(可选)包括:故障性质分类、故障原因分类、关联故障;作为优选,步骤2中所述电网故障事件触发词和电网故障事件的特征词提取具体为:首先对原始的实验语料进行预处理,接着使用分布式语义词向量结合依存句法结构特征和电网元素特征,生成向量形式的语义表示;使用组合的深度学习模型进行触发词抽取,具体为:由长短期记忆循环神经网络抽取含有时序语义的深层特征,再接着用卷积神经网络完成触发词和事件类别的同步抽取;使用概念图谱对故障文本和电力文献数据进行扩展,构建电力故障特征词-概念语义网络;其中概念图谱可以选对中文Dbpedia、中文Probase+或二者相结合的版本;对于上述内容,将其转换成向量形式,形成4个方面的向量:词向量、依存句法结构特征、其它电网事件相关的特征向量,以及通过概念图谱扩展的电力故障特征词-概念语义网络向量;具体如下:采用的是DistributedRepresentation方式表达词向量、电网相关特征及概念图谱,使用基于神经网络的word2vec,使用skipgram模型作为学习框架,选取最大窗口为11来训练;采用GDep进行依存句法分析,提取依存句法特征;采用循环神经网络提取深层特征,采用卷积神经网络抽取触发词,也就说说在提取基本语义特征生成输入向量之后,先使用循环神经网络进一步提取句子的时序特征,将得到的深层特征作为卷积神经网络的输入;这里的循环神经网络使用长短期记忆(LSTM)结构,系统由两个相反的循环神经网络并列组成,再将两个网络的输出进行拼接,得到最终代表句子的深层特征;输入向量X=(x1,x2,...,xn)代表当前训练的句子,对句子中的每个词xi逐个训练,对于每一步训练的xi,需要计算出隐藏向量αi,αi是基于当前输入向量xi和上一步的隐藏向量αi-1获得的,使用非线性转移函数θ:αi=θ(xi,αi-1);每次的循环从句子的第一个词到句子末尾结束,从而得到每个句子的隐藏特征为RNN->(x1,x2,…,xn)=(α1,α2,…,αn);这样的循环机制使得对于每个αi,都可以得到从句子的第一个词到当前词间的所有语义特征;需要训练第二个RNN网络,以获取当前词之后的语义信息;这个RNN网络与第一个RNN结构相同,只是从每个句子的最后一个词开始反向训练,直到句子的第一个词结束,可以得到隐藏特征RNN<-(xn,xn-1,…,x1)=(α'n,α'n-1,…,α'1);最后是一个连接层,将两个网络中训练的隐藏层进行连接,得到真正需要的深层特征H,H=(h1,h2,…,hn),hi=(αi,α'i);电力故障特征词-概念语义网络向量也采用LSTM-RNN的方式生成,它由4个部分组成:单词-单词子网络(TWW),表示单词与单词的相互影响力;概念-概念子网络(TCC),表示概念与概念的相互影响力;单词-概念子网络(TWC),表示目标单词与候选概念的可能性;概念-单词子网络(TCW)表示目标概念与对应单词的可能性。接下来,需要对这四个子网络进行节点和关系边的构建;将整个语义网络表示为T=(V,B);V=VW∪VC表示图中的顶点集合,其中VW表示单词向量集合,其大小为nW=|VW|;VC表示候选概念集合,大小为nC=|VC|;B=BWW∪BWC∪BCC∪BCW表示图中的边集合,其中BWW表示单词与单词之间的关系边,BCC表示概念与概念之间的关系边,BCW和BWC表示单词与概念相互之间的关系边;综合来看T=TWW+TWC+TCC+TCW,从而可以得到网络矩阵:对T进行进一步的拆分,可以理解为网络中所有顶点与边的集合,表示为T=(VWW,BWW)∪(VWC,BWC)∪(VCC,BCC)∪(VCW,BCW);使用共现分析的方法来计算特征之间的相关性;使用的是Jaccard指数,也称为并交比,能够根据特征之间的共现频率来比较数据集的相似性和多样性的统计量:其中,A和B分别代表特征词A和B,|A∩B|表示A和B在短本文档来自技高网...

【技术保护点】
1.一种组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于,包括以下步骤:/n步骤1:定义电网故障事件触发词以及电网故障事件元素;/n步骤2:电网故障事件触发词和电网故障事件的特征词提取;/n步骤3:事件元素抽取与事件生成。/n

【技术特征摘要】
1.一种组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于,包括以下步骤:
步骤1:定义电网故障事件触发词以及电网故障事件元素;
步骤2:电网故障事件触发词和电网故障事件的特征词提取;
步骤3:事件元素抽取与事件生成。


2.根据权利要求1所述的组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于:步骤1中所述电网故障事件都由触发词和事件元素构成,触发词只能有一个,可以是一个词或由多个词构成,事件元素根据事件类型的不同可能有一个或多个,每个事件元素可以是一个词或是另一个事件;
而每个触发词和事件元素都可能被不同的事件共享,即一个词可能在多个不同类型的事件中扮演触发词或事件要素的角色;
步骤1中所述电网故障事件元素用于记录电网故障信息,具体包括:设备信息、故障信息、故障处置、故障原因及其它;
所述设备信息为:设备名称、电压等级、设备类型、故障元件类型、故障元件、厂站1-n名称、所属地区、所属调度、设备型号、设备厂家、设备额定容量、投运时间、线路长度、是否同杆并架、是否电缆、是否紧凑型杆塔;
所述故障信息为:故障时间、故障相别、保护与安控动作情况、重合闸情况、直流再启动情况、停运类型、厂站1-n测距、厂站1-n天气、厂站1-n人员到站时间、综合智能告警是否正确推出、告警源、故障详细情况,所述故障详细情况汇总故障发生、处置、恢复等全过程详细情况,应至少包括发生日期、时间、故障设备名称、故障相别、故障后果等关键故障信息;
所述故障处置为:故障影响及处置、恢复时间、设备消缺情况、巡线任务、故障原因/巡线结果;
所述故障原因为:一段描述造成故障的文字;
所述其它部分(可选)包括:故障性质分类、故障原因分类、关联故障。


3.根据权利要求1所述的组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于:步骤2中所述电网故障事件触发词和电网故障事件的特征词提取具体为:
首先对原始的实验语料进行预处理,接着使用分布式语义词向量结合依存句法结构特征和电网元素特征,生成向量形式的语义表示;
使用组合的深度学习模型进行触发词抽取,具体为:
由长短期记忆循环神经网络抽取含有时序语义的深层特征,再接着用卷积神经网络完成触发词和事件类别的同步抽取;
使用概念图谱对故障文本和电力文献数据进行扩展,构建电力故障特征词-概念语义网络;其中概念图谱可以选对中文Dbpedia、中文Probase+或二者相结合的版本;
对于上述内容,将其转换成向量形式,形成4个方面的向量:词向量、依存句法结构特征、其它电网事件相关的特征向量,以及通过概念图谱扩展的电力故障特征词-概念语义网络向量;
具体如下:
采用的是DistributedRepresentation方式表达词向量、电网相关特征及概念图谱,使用基于神经网络的word2vec,使用skipgram模型作为学习框架,选取最大窗口为11来训练;
采用GDep进行依存句法分析,提取依存句法特征;
采用循环神经网络提取深层特征,采用卷积神经网络抽取触发词,也就说说在提取基本语义特征生成输入向量之后,先使用循环神经网络进一步提取句子的时序特征,将得到的深层特征作为卷积神经网络的输入;
这里的循环神经网络使用长短期记忆(LSTM)结构,系统由两个相反的循环神经网络并列组成,再将两个网络的输出进行拼接,得到最终代表句子的深层特征;
输入向量X=(x1,x2,...,xn)代表当前训练的句子,对句子中的每个词xi逐个训练,对于每一步训练的xi,需要计算出隐藏向量αi,αi是基于当前输入向量xi和上一步的隐藏向量αi-1获得的,使用非线性转移函数θ:αi=θ(xi,αi-1);
每次的循环从句子的第一个词到句子末尾结束,从而得到每个句子的隐藏特征为RNN->(x1,x2,…,xn)=(α1,α2,…,αn);
这样的循环机制使得对于每个αi,都可以得到从句子的第一个词到当前词间的所有语义特征;
需要训练第二个RNN网络,以获取当前词之后的语义信息;
这个RNN网络与第一个RNN结构相同,只是从每个句子的最后一个词开始反向训练,直到句子的第一个词结束,可以得到隐藏特征RNN<-(xn,xn-1,…,x1)=(α'n,α'n-1,…,α'1);
最后是一个连接层,将两个网络中训练的隐藏层进行连接,得到真正需要的深层特征H,H=(h1,h2,…,hn),hi=(αi,α'i);
电力故障特征词-概念语义网络向量也采用LSTM-RNN的方式生成,它由4个部分组成:
单词-单词子网络(TWW),表示单词与单词的相互影响力;
概念-概念子网络(TCC),表示概念与概念的相互影响力;
单词-概念子网络(TWC),表示目标单词与候选概念的可能性;
概念-单词子网络(TCW)表示目标概念与对应单词的可能性;接下来,需要对这四个子网络进行节点和关系边的构建;
将整个语义网络表示为T=(V,B);
V=VW∪VC表示图中的顶点集合,其中VW表示单词向量集合,其大小为nW=|VW|;
VC表示候选概念集合,大小为nC=|VC|;
B=BWW∪BWC∪BCC∪BCW表示图中的边集合,其中BWW表示单词与单词之间的关系边,BCC表示概念与概念之间的关系边,BCW和BWC表示单词与概念相互之间的关系边;
综合来看T=TWW+TWC+TCC+TCW,从而可以得到网络矩阵:



对T进行进一步的拆分,可以理解为网络中所有顶点与边的集合,表示为T=(VWW,BWW)∪(VWC,BWC)∪(VCC,BCC)∪(VCW,BCW);
使用共现分析的方法来计算特征之间的相关性;
使用的是Jaccard指数,也称为并交...

【专利技术属性】
技术研发人员:汪旸王春明窦建中鄢发齐罗深增刘阳陈文哲夏添吴怡菲孙涛曲亮肖慧颖
申请(专利权)人:国家电网公司华中分部武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1