一种基于序列标注的电网设计指标抽取方法技术

技术编号:12585425 阅读:100 留言:0更新日期:2015-12-24 01:56
本发明专利技术的目的在于提供一种基于序列标注的电网评审设计指标抽取方法,该指标抽取方法包括如下步骤:指标体系构建、特征选择方法、序列标注方法、后处理方法。本发明专利技术方法从电网工程可行性研究报告和电网工程初步设计报告中自动化提取大量指定设计指标的智能方法,从而提高电网评审人员的工作效率和工作质量,以达到降低编码器复杂度的目的。

【技术实现步骤摘要】

本专利技术涉及数据处理领域和电力系统设计领域,尤其涉及基于序列标注的电网设 计评审报告指标抽取方法。
技术介绍
近年来,随着用电需求快速增长,电网工规模迅速扩大,电网公司大力优化电网结 构、强化管理能力、提高投资效益的需求越来越强烈。就电网工程设计报告评审而言,结构 复杂的电网中,输变电项目建设影响因素多,导致不同设计规模、不同参数条件、不同地区 的输变电工程设计方案千差万别。同时,电网工程初步设计说明书和可行性研究报告中的 关键工程技术指标繁多,报告内容丰富篇幅较长,电网初步设计说明书和可行性研究报告 评审人员需要花费大量的人力物力进行评审。倘若可以从这些研究报告中提取关键技术指 标将使得评审人员轻松且高效。针对质量参差不齐的电网工程设计报告,现有完全依赖专 家的评审方式,要求评审专家现场获取大量关键技术指标信息,存在评审标准不统一、评审 效率低、评审效果差等缺点。因此,迫切需要建立科学的评审体系、开发智能的关键工程技 术指标提取系统来辅助专家进行评审。 从有大量包含结构化或半结构化数据的文本开始,人们就希望从这些文本中提取 结构化数据。通常情况下,文本中需要提取的指标不多且不复杂,且通常情况下拥有的训练 语料较多。但部分实际应用面临单篇文档中的文本很长且需要提取的指标多,比如电网系 统中的研究报告文本,文本很长,需要提取的各类指标数量上百,且有部分指标是同一指标 在不同限定条件下的取值。这导致人工标注费用高,不能人工标注大量文本。在有限的标 注语料下,抽取出所要的信息,达到用户满意的效果。对于需要提取的指标不多且不复杂的 问题,一般结合使用规则和正则匹配就能获得一定效果。但由于人工构建大量规则和正则 表达式不现实,所以规则和正则匹配方法对于长文本的大量复杂指标提取并不能够适用于 电网评审设计指标的抽取。如何高效的从长文本中自动化提取大量技术指标的智能方法, 从而提高电网评审人员的工作效率和工作质量是一个亟待解决的问题。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种基于序列标注的电网设计评审报 告指标抽取方法 本专利技术的目的可通过以下的技术措施来实现: -种基于序列标注的电网设计评审报告抽取方法,其特征在于,包括如下步骤: 指标体系构建:根据电网评审设计指标列表和指标类型,重新构建指标体系,以适 应专家人工标注和系统自动标注; 人工标注指标:构建专家指标标注系统,使专家对少量电网设计评审报告进行人 工标注;专家对电网设计评审报告进行人工标注的数量为约200份。 对评审报告进行序列标注:构建电网评审设计报告标注工具,对电网评审设计报 告进行专家人工标注的结果转换为序列标注形式,采用序列标注方法学习指标和特征的对 应关系,对未经人工标注的文档进行自动化标注;对评审报告进行特征抽取提高序列标注 效果; 指标后处理:将序列标注结果转换为人工标注一致的格式,将序列标注方法应用 于电网评审设计报告时产生的边界性问题进行规则修正。 所述指标体系构建包括如下步骤: 指标和属性归并:对电网评审设计指标的类型按照同类指标归并、同类指标相同 属性归并的原则进行归并。所述电网评审设计指标的类型包括数值型、句子型。 指标体系层次构建:将归并后的各个不同的指标之间定义指标层级关系,每个指 标和属性之间定义从属关系。 所述人工标注指标包括如下步骤: 人工标注系统构建:构建一个满足电网评审专家对电网设计报告指标标注的交互 式人工标注系统; 人工标注系统的指标体系构建:根据已构建完成的指标体系,针对人工标注按照 层次查找、后标注属性的习惯,构建符合人工标注系统的标注指标体系; 人工标注获取训练样例:专家在人工标注系统上对少量电网设计报告指标进行标 注,得到电网设计指标体系下每个指标的取值和位置信息作为训练样例。 所述对评审报告进行序列标注包括如下步骤: 获取序列标注格式文本:将评审报告进行格式转换成序列标注格式; 对评审报告进行特征抽取:针对电网评审设计指标体系,根据不同类别指标特点 分别选取特征,以提高序列标注方法的效果; 获取序列标注模型:利用人工标注完成的训练样例和特征抽取步骤获取的特征, 按照指标体系分类,采用序列标注方法进行训练,得到序列标注模型。 所述对评审报告进行特征抽取包括如下步骤: 通用特征抽取:对每一个字符的通用特征进行抽取。所述通用特征包括上下文、词 性、所属字词。 电网行业词典特征抽取:构建电网设计工程行业词典,对评审报告中的词典内词 语进行特征抽取; 规则特征抽取:根据指标常出现的特点,人工定义规则模版,对符合这些规则模版 的文本片段进行特征抽取; 获取序列标注结果:对评审报告根据序列模型对序列标注格式的评审报告进行序 列标注,得到初步序列标注结果; 所述指标后处理包括如下步骤: 序列标注标号修复:对初步序列标注结果采用规则方法修正断裂和混乱的序列标 号,得到标号修复后的序列标注结果; 句子型指标重标注:根据句子型指标标注的证据结果,重定位到指标句子上,对 标号修复后的序列标注结果中句子型指标进行重新标注,得到重标注修复后的序列标注结 果; 获取指标值:将重标注修复后的序列标注结果转换成人工标注一致的指标格式, 得到电网设计指标值。 本专利技术的有益效果是:本专利技术提出一种基于序列标注的电网设计评审报告指标抽 取方法,构建电网设计指标体系和人工标注系统,利用人工标注系统标注少量数据通过序 列标注方法自动的对电网设计评审报告中的相关指标进行抽取,避免了评审专家人工抽取 指标的重复劳动。【附图说明】 图1是本专利技术基于序列标注的电网设计指标抽取方法的流程图; 图2是本专利技术方法的指标体系构建流程图; 图3是本专利技术方法的指标和属性合并图流程图; 图4是本专利技术方法的人工标注指标方法流程图; 图5是本专利技术方法的对评审报告进行序列标注流程图; 图6是本专利技术方法的指标后处理流程图。【具体实施方式】 如图1所示,本专利技术公开了,包括如 下步骤: 步骤100 :指标体系构建:根据电网评审设计指标列表和指标类型,重新构建指标 体系,以适应专家人工标注和系统自动标注。如图2所示,在指标体系构建步骤中,包括如 下步骤: 步骤110 :指标和属性归并:按照同类指标归并、同类指标相同属性归并的原则进 行归并。如图3所示,在指标和属性归并中,包括如下步骤: 步骤111 :指标归并:对相同类型(如"数值型","句子型"等)的电力设计指标进 行归并。 步骤112 :属性归并:对同类指标起描述性作用的相同类型的属性进行归并。 步骤120 :指标体系层次构建:电网评审设计指标具有一定的层次关系,将归并后当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种基于序列标注的电网设计评审报告抽取方法,其特征在于,包括如下步骤:指标体系构建:根据电网评审设计指标列表和指标类型,重新构建指标体系,以适应专家人工标注和系统自动标注;人工标注指标:构建专家指标标注系统,使专家对少量电网设计评审报告进行人工标注;对评审报告进行序列标注:构建电网评审设计报告标注工具,对电网评审设计报告进行专家人工标注的结果转换为序列标注形式,采用序列标注方法学习指标和特征的对应关系,对未经人工标注的文档进行自动化标注;对评审报告进行特征抽取提高序列标注效果;指标后处理:将序列标注结果转换为人工标注一致的格式,将序列标注方法应用于电网评审设计报告时产生的边界性问题进行规则修正。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈锟陈清财邓小玉汤步洲吴小蕙曾兰
申请(专利权)人:广东电网有限责任公司电网规划研究中心
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1