当前位置: 首页 > 专利查询>浙江大学专利>正文

一种针对电力巡检文本的错误识别方法技术

技术编号:19934082 阅读:113 留言:0更新日期:2018-12-29 04:30
本发明专利技术提出了一种针对电力巡检文本的错误识别方法。本发明专利技术首先利用自然语言处理技术,抽取与电力设备健康状态相关的关键信息。其次通过神经网络语言模型,结合实际巡检文本特点加入筛选规则,将关键信息的表述整合为规范化表述,并寻找各个关键信息之间的联系。然后,以关键信息树的形式对所有关键信息及其联系进行表示,并将新录入的电力巡检文本映射为已构建的关键信息树中的对应结点。最后,总结新录入的电力巡检文本可能存在的错误类型,针对巡检文本在关键信息树中的映射结果制定搜索策略,以识别电力巡检文本中存在的错误。本发明专利技术具有良好的可解释性,且能有效避免数据偏斜的影响,在电力巡检文本的错误识别上具有可行性和有效性。

【技术实现步骤摘要】
一种针对电力巡检文本的错误识别方法
本专利技术属于电力系统领域,具体地说是一种针对电力巡检文本的错误识别方法。
技术介绍
在电力系统的日常巡检过程中,需要记录大量关于电力设备状态的文本。这些巡检文本作为第一手资料,其包含的信息直接关系到电力设备健康状态评估与检修决策的准确性。然而,由于巡检人员的知识和经验局限,时常会在记录巡检文本时出现人为错误,如信息遗漏、前后信息矛盾等问题,从而影响了后续的电力设备状态评价等一系列工作。手持移动智能终端设备在电力巡检文本录入过程的应用,为这一问题的解决提供了硬件条件。如果在终端设备中加入识别录入巡检文本中存在的错误的功能,在现场录入信息有错误时给出提示,就可以从源头上保证巡检文本的质量。对于电力文本的错误识别问题,各种相关研究提出了不同的识别方法。一些研究采用文本数据中的冗余信息进行双重验证,以检测电力文本的信息矛盾现象。一些研究进一步地提出了结合领域知识、冗余信息和数据统计的方法,进行错误信息的识别。此外,一些研究采用基于机器学习的分类模型,从电力文本语料库中学习相应的规律,再用于新文本的正误分类,以实现电力文本的错误识别。然而,具体针对电力巡检文本时,由于巡检文本的信息量有限,绝大多数文本不会包含冗余信息,故难以利用单条文本信息的冗余进行错误识别;而数据统计和机器学习是基于数据驱动的方法,可解释性较差,难以直观地反映巡检文本中包含的各个关键信息之间的联系,且错误识别的效果容易受到数据特征(如数据偏斜度)的影响。因此,上述研究方法的可行性和准确性不尽如人意。
技术实现思路
本专利技术所要解决的技术问题是针对电力巡检文本中存在的错误,提出一种在巡检文本录入过程中进行错误识别的方法。本专利技术的主要技术构思:首先,利用自然语言处理技术,包括词切分、词性标注等,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,包括文本中所记录的电力设备和部件,部件的现象与状态以及对应的定性与定量描述等。再根据词性标注结果,结合国家电网公司输变电设备缺陷用语规范(以下简称“用语规范”)将关键信息归类,即分为设备、部件、现象与状态、定性描述、定量描述5类。其次,借助于神经网络方法,并结合实际的电力巡检文本特点加入相关规则,对经过归类的关键信息进行整合,将表述不同、含义相同的信息整合为同一个规范化的表述。再利用机器学习方法,寻找各个关键信息之间的联系,并将所有关键信息及其联系整理为关键信息树,该关键信息树包含了所有在正确巡检文本语料库中出现的关键信息。然后,对新录入的电力巡检文本进行处理,包括词切分、词性标注、关键信息抽取、关键信息整合等,再将每一条巡检文本映射到已构建的关键信息树中。最后,通过分析电力巡检文本的记录方式和内容,总结实际工作中新录入的电力巡检文本可能存在的错误类型,例如:关键信息缺失、信息歧义、信息前后矛盾等。再利用基于树的搜索方法,对照电力巡检文本可能存在的错误类型,针对巡检文本在关键信息树中的映射结果制定搜索策略,以识别出巡检文本中存在的具体错误。本专利技术采用以下具体步骤:步骤1:利用自然语言处理技术,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,并对关键信息进行归类。具体方法为:(1)利用条件随机场(ConditionalRandomField,CRF)模型,并加入电力词典进行辅助,对现有语料库中的所有巡检文本进行词切分,将每一条巡检文本的各个词进行分隔;(2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的词性进行标注;(3)在词性标注的基础上,抽取出具有名词、动词、形容词、副词和量词词性的词,并将具有名词词性的词归为设备与部件信息,将具有动词词性的词归为现象与状态信息,将具有形容词和副词词性的词归为定性描述信息,将具有量词词性的词归为定量描述信息;(4)对照用语规范,将代表设备与部件信息的词进一步划分为代表设备信息的词和代表部件信息的词。最终将巡检文本语料库中提取出来的关键信息划分为5类,即设备、部件、现象与状态、定性描述、定量描述。步骤2:基于神经网络模型,并结合实际的电力巡检文本特点加入筛选规则,对经过归类的关键信息进行整合。具体方法为:(1)利用深度学习领域的神经网络语言模型(NeuralNetworkLanguageModel,NNLM),将步骤1中切分出的每个词作为NNLM的标签,该词在巡检文本中的相邻两个词作为NNLM的输入,从而通过NNLM的输出和标签的比对,对NNLM进行调整和迭代训练,最终利用NNLM将语料库中所有巡检文本包含的词转化为200维的词向量;(2)计算各个词对应的词向量之间的欧式距离,从而刻画出所有词两两之间的语义相似度。两个200维词向量v1、v2之间的欧式距离为:其中,v1i、v2i分别代表词向量v1、v2的第i个元素(i=1,2,…,200),经过参数寻优,将欧式距离小于6的词向量所对应的词进行两两合并,形成多个词对;(3)在每个词对中,检查词对的两个词的词性是否一致,若不一致则将词对删去;(4)在剩余的词对中,检查词对的两个词是否有在语料库的同一条巡检文本中共现,若是则将词对删去;(5)将所有含有相同词的词对合并为一个词集合,从而将表述不同但含义相同的信息整合在同一个词集合中,最终形成若干个词集合,并在每个词集合中任意取一个词作为该词集合中其他词的规范化表述。步骤3:利用机器学习方法,寻找所有关键信息两两之间的联系。首先确定各类关键信息联系的形式。由于在树结构中,信息的联系通过结点的上下级关系体现,因此需要规定电力巡检文本包含的5类关键信息的上下级关系。根据电力领域知识,规定:1)设备类信息为部件类信息的上级;2)部件类信息之间存在上下级关系;3)部件类信息为现象与状态类信息的上级;4)现象与状态类信息为定性描述类信息的上级;5)现象与状态类信息为定量描述类信息的上级。然后,对步骤1中提取出的所有关键信息之间的联系进行两两判别。除了对于两个均属于部件类的关键信息需要判别其是否存在联系和上下级关系以外,对于其他满足上述1)3)4)5)类型的两个关键信息,由于其上下级关系已确定,只要判别其是否存在联系即可。判别时采用基于机器学习的支持向量机(SupportVectorMachine,SVM)模型,SVM模型的训练集取自用语规范,对于待判别联系的两个关键信息,其输入SVM模型的特征选为两个关键信息在电力巡检文本中的相对位置,以及两者之间间隔词的词性和数量。步骤4:基于关键信息两两之间的联系,构建关键信息树。具体方法为:(1)从一个根结点出发,将所有设备类信息作为该根结点的子结点;(2)按照步骤3中设备类信息和部件类信息的联系判别结果,对于每一个设备类信息,将与其存在联系的所有部件类信息作为其子结点;(3)按照步骤3中部件类信息之间的联系判别结果,将存在联系的部件类信息按照上下级关系进行连结,其中下级信息作为上级信息的子结点;(4)按照步骤3中部件类信息和现象与状态类信息的联系判别结果,对于每一个部件类信息,将与其存在联系的所有现象与状态类信息作为其子结点;(5)按照步骤3中现象与状态类信息和定性描述类信息、定量描述类信息的联系判别结果,对于每一个现象本文档来自技高网...

【技术保护点】
1.一种针对电力巡检文本的错误识别方法,其特征在于该方法包括以下步骤:步骤1:利用自然语言处理技术,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,并对关键信息进行归类,具体是:(1)利用条件随机场模型,并加入电力词典进行辅助,对现有语料库中的所有巡检文本进行词切分,将每一条巡检文本的各个词进行分隔;(2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的词性进行标注;(3)在词性标注的基础上,抽取出具有名词、动词、形容词、副词和量词词性的词,并将具有名词词性的词归为设备与部件信息,将具有动词词性的词归为现象与状态信息,将具有形容词和副词词性的词归为定性描述信息,将具有量词词性的词归为定量描述信息;(4)对照国家电网公司输变电设备缺陷用语规范,将代表设备与部件信息的词进一步划分为代表设备信息的词和代表部件信息的词;最终将巡检文本语料库中提取出来的关键信息划分为五类,即设备、部件、现象与状态、定性描述、定量描述;步骤2:基于神经网络模型,并结合实际的电力巡检文本特点加入筛选规则,对经过归类的关键信息进行整合,具体是:(1)利用深度学习领域的神经网络语言模型,将步骤1中切分出的每个词作为神经网络语言模型的标签,该词在巡检文本中的相邻两个词作为神经网络语言模型的输入,通过神经网络语言模型的输出和标签的比对,对神经网络语言模型进行调整和迭代训练,最终利用神经网络语言模型将语料库中所有巡检文本包含的词转化为200维的词向量;(2)计算各个词对应的词向量之间的欧式距离,从而刻画出所有词两两之间的语义相似度,经过参数寻优,将欧式距离小于6的词向量所对应的词进行两两合并,形成多个词对;(3)在每个词对中,检查词对的两个词的词性是否一致,若不一致则将词对删去;(4)在剩余的词对中,检查词对的两个词是否有在语料库的同一条巡检文本中共现,若是则将词对删去;(5)将所有含有相同词的词对合并为一个词集合,从而将表述不同但含义相同的信息整合在同一个词集合中,最终形成若干个词集合,并在每个词集合中任意取一个词作为该词集合中其他词的规范化表述;步骤3:利用机器学习方法,寻找所有关键信息两两之间的联系,具体是:(1)确定各类关键信息联系的形式,信息的联系通过结点的上下级关系体现,规定:1)设备类信息为部件类信息的上级;2)部件类信息之间存在上下级关系;3)部件类信息为现象与状态类信息的上级;4)现象与状态类信息为定性描述类信息的上级;5)现象与状态类信息为定量描述类信息的上级;(2)对步骤1中提取出的所有关键信息之间的联系进行两两判别;除了对于两个均属于部件类的关键信息需要判别其是否存在联系和上下级关系以外,对于其他满足上述1)3)4)5)类型的两个关键信息,由于其上下级关系已确定,只要判别其是否存在联系即可;步骤4:基于关键信息两两之间的联系,构建关键信息树,具体是:(1)从一个根结点出发,将所有设备类信息作为该根结点的子结点;(2)按照步骤3中设备类信息和部件类信息的联系判别结果,对于每一个设备类信息,将与其存在联系的所有部件类信息作为其子结点;(3)按照步骤3中部件类信息之间的联系判别结果,将存在联系的部件类信息按照上下级关系进行连结,其中下级信息作为上级信息的子结点;(4)按照步骤3中部件类信息和现象与状态类信息的联系判别结果,对于每一个部件类信息,将与其存在联系的所有现象与状态类信息作为其子结点;(5)按照步骤3中现象与状态类信息和定性描述类信息、定量描述类信息的联系判别结果,对于每一个现象与状态类信息,将与其存在联系的所有定性描述类信息、定量描述类信息作为其子结点;步骤5:对新录入的电力巡检文本进行处理,并将每一条巡检文本映射到已构建的关键信息树中,具体是:(1)利用条件随机场模型并借助电力词典,对新录入巡检文本进行词切分;(2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的进行词性标注;(3)基于词性标注的结果,抽取出每一条巡检文本的关键信息;(4)对于每一条巡检文本,查找其每个关键信息是否在步骤2最后产生的若干个词集合之中出现,若有关键信息出现在某个词集合中,则将该关键信息替换为该词集合的规范化表述;(5)对于规范化后的每一条巡检文本,在步骤4构建的关键信息树中,标注与巡检文本包含的所有关键信息对应的结点,从而将巡检文本映射为关键信息树中的若干个结点;步骤6:通过分析电力巡检文本的记录方式和内容,总结实际工作中新录入的电力巡检文本可能存在的错误类型,电力巡检文本可能存在以下错误类型:(1)设备信息有误,包括:...

【技术特征摘要】
1.一种针对电力巡检文本的错误识别方法,其特征在于该方法包括以下步骤:步骤1:利用自然语言处理技术,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,并对关键信息进行归类,具体是:(1)利用条件随机场模型,并加入电力词典进行辅助,对现有语料库中的所有巡检文本进行词切分,将每一条巡检文本的各个词进行分隔;(2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的词性进行标注;(3)在词性标注的基础上,抽取出具有名词、动词、形容词、副词和量词词性的词,并将具有名词词性的词归为设备与部件信息,将具有动词词性的词归为现象与状态信息,将具有形容词和副词词性的词归为定性描述信息,将具有量词词性的词归为定量描述信息;(4)对照国家电网公司输变电设备缺陷用语规范,将代表设备与部件信息的词进一步划分为代表设备信息的词和代表部件信息的词;最终将巡检文本语料库中提取出来的关键信息划分为五类,即设备、部件、现象与状态、定性描述、定量描述;步骤2:基于神经网络模型,并结合实际的电力巡检文本特点加入筛选规则,对经过归类的关键信息进行整合,具体是:(1)利用深度学习领域的神经网络语言模型,将步骤1中切分出的每个词作为神经网络语言模型的标签,该词在巡检文本中的相邻两个词作为神经网络语言模型的输入,通过神经网络语言模型的输出和标签的比对,对神经网络语言模型进行调整和迭代训练,最终利用神经网络语言模型将语料库中所有巡检文本包含的词转化为200维的词向量;(2)计算各个词对应的词向量之间的欧式距离,从而刻画出所有词两两之间的语义相似度,经过参数寻优,将欧式距离小于6的词向量所对应的词进行两两合并,形成多个词对;(3)在每个词对中,检查词对的两个词的词性是否一致,若不一致则将词对删去;(4)在剩余的词对中,检查词对的两个词是否有在语料库的同一条巡检文本中共现,若是则将词对删去;(5)将所有含有相同词的词对合并为一个词集合,从而将表述不同但含义相同的信息整合在同一个词集合中,最终形成若干个词集合,并在每个词集合中任意取一个词作为该词集合中其他词的规范化表述;步骤3:利用机器学习方法,寻找所有关键信息两两之间的联系,具体是:(1)确定各类关键信息联系的形式,信息的联系通过结点的上下级关系体现,规定:1)设备类信息为部件类信息的上级;2)部件类信息之间存在上下级关系;3)部件类信息为现象与状态类信息的上级;4)现象与状态类信息为定性描述类信息的上级;5)现象与状态类信息为定量描述类信息的上级;(2)对步骤1中提取出的所有关键信息之间的联系进行两两判别;除了对于两个均属于部件类的关键信息需要判别其是否存在联系和上下级关系以外,对于其他满足上述1)3)4)5)类型的两个关键信息,由于其上下级关系已确定,只要判别其是否存在联系即可;步骤4:基于关键信息两两之间的联系,构建关键信息树,具体是:(1)从一个根结点出发,将所有设备类信息作为该根结点的子结点;(2)按照步骤3中设备类信息和部件类信息的联系判别结果,对于每一个设备类信息,将与其存在联系的所有部件类信息作为其子结点;(3)按照步骤3中部件类信息之间的联系判别结果,将存在联系的部件类信息按照上下级关系进行连结,其中下级信息作为上级信息的子结点;(4)按照步骤3中部件类信息和现象与状态类信息的联系判别结果,对于每一个部件类信息,将与其存在联系的所有现象与状态类信息作为其子结点;(5)按照步骤3中现象与状态类信息和定性描述类信息、定量描述类信息的联系判别结果,对于每一个现象与状态类信息,将与其存在联系的所有定性描述类信息、定量描述类信息作为其子结点;步骤5:对新录入的电力巡检文本进行处理,并将每一条巡检文本映射到已构建的关键信息树中,具体是:(1)利用条件随机场模型并借助电力词典,对新录入巡检文本进行词切分;(2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的进行词性标注;(3)基于词性标注的结果,抽取出每一条巡检文本的关键信息;(4)对于每一条巡检文本,查找其每个关键信息是否在步骤2最后产生的若干个词集合之中出现,若有关键信息出现在某个词集合中,则将该关键信息替换为该词集合的规范化表述;(5)对于规范化后的每一条巡检文本,在步骤4构建的关键...

【专利技术属性】
技术研发人员:王慧芳刘梓权
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1