This invention discloses a text structured method for the case of power grid fault, identifies the unstructured text by naming entity, and constructs an entity dictionary facing the field of power grid to assist the entity recognition and text segmentation, extracts the attribute values and describes the state quantity of each attribute, and the state quantity is divided into digital state according to the type. The quantity and non digital state quantity, the rule based method is used to extract and match the modified attributes of the digital state quantity; the non digital state quantity is refined and divided into the state quantity based on the phrase form and the state based on the sentence form. The state quantity eventually generates some two tuples formed by attributes and corresponding state quantities to complete text structure.
【技术实现步骤摘要】
一种面向电网故障案例的文本结构化方法
本专利技术涉及一种面向电网故障案例的文本结构化方法。
技术介绍
在电力系统的检修与维护环节,电网企业积累了大量的故障案例报告,这些文本包含检修试验记录,巡检消缺记录,故障问题描述,故障原因描述等,主要以非结构化的形式呈现,这些描述信息通过自然语言的规范和逻辑组织而成,而并没有预定义的数据模型或文字模板。对于各种设备状态的描述,散落在文本的不同地方,文本信息结构化的目的就是通过对非结构文本的分析和处理,得到对设备故障进行描述的状态量,并填充到预定义的数据模型中。现有的文本结构化方法通常仅是对一些通用属性的结构化信息抽取,例如:时间、地点、人物、特定关系等。这种通用性的方法对于电网领域的可用性不大,因为电力故障案例文本中的属性具有领域性特点,描述属性的状态量,可以从类型上划分为两种,一种是数字类型,例如电压等级,故障时间等,另一种则是非数字类型,以文字来描述状态量,例如故障现象和原因等。因此,对不同类型的状态量需要使用不同的方法来分析,而目前的文本结构化方法明显没有进行区别分析。
技术实现思路
本专利技术为了解决上述问题,提出了一种面 ...
【技术保护点】
一种面向电网故障案例的文本结构化方法,其特征是:包括以下步骤:(1)对非结构化文本进行命名实体识别,并构建面向电网领域的实体字典来辅助实体识别和文本分词;(2)提取属性值以及描述各属性的状态量,状态量按照类型分为数字型状态量和非数字型状态量,基于规则的方法来提取并对数字型状态量修饰属性进行匹配;(3)将非数字型状态量进行细化,划分为基于词组形式的状态量和基于句子形式的状态量,分别提取其修饰的属性;(4)根据识别出的属性以及对应的状态量,最终生成若干由属性和对应状态量形成的二元组,完成文本结构化。
【技术特征摘要】
1.一种面向电网故障案例的文本结构化方法,其特征是:包括以下步骤:(1)对非结构化文本进行命名实体识别,并构建面向电网领域的实体字典来辅助实体识别和文本分词;(2)提取属性值以及描述各属性的状态量,状态量按照类型分为数字型状态量和非数字型状态量,基于规则的方法来提取并对数字型状态量修饰属性进行匹配;(3)将非数字型状态量进行细化,划分为基于词组形式的状态量和基于句子形式的状态量,分别提取其修饰的属性;(4)根据识别出的属性以及对应的状态量,最终生成若干由属性和对应状态量形成的二元组,完成文本结构化。2.如权利要求1所述的一种面向电网故障案例的文本结构化方法,其特征是:所述步骤(1)中,在标注训练语料阶段,采用字典匹配的方法来自动进行标注,并且通过基于CRF++的半监督命名实体识别方法来不断完善实体字典。3.如权利要求2所述的一种面向电网故障案例的文本结构化方法,其特征是:具体包括:(1-1)构建初始的种子实体词典;(1-2)构建训练集用于CRF++的训练:采用基于完全匹配的方法进行自动标注,当实体字典内的实体词出现在故障案例文本中时,将该词标注为命名实体,完成命名实体自动标注后,将其转化为CRF++训练文件的格式以方便后续的模型训练;(1-3)利用CRF++工具对构建的训练语料进行训练,模型训练完成后,对测试语料进行预测,发现新的命名实体;(1-4)对识别出来的新实体进行筛选,筛选通过后,即加入到实体词典中进行实体扩充;(1-5)重复步骤(1-1)-(1-4),直到不能发现新的有效实体。4.如权利要求1所述的一种面向电网故障案例的文本结构化方法,其特征是:所述步骤(...
【专利技术属性】
技术研发人员:杨祎,马艳,白德盟,胡博,闫丹凤,郭诗瑶,辜超,郭志红,陈玉峰,李贞,朱振华,林颖,李程启,秦佳峰,郑文杰,
申请(专利权)人:国网山东省电力公司电力科学研究院,北京邮电大学,国家电网公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。