一种电网设计评审指标结构信息识别方法技术

技术编号:13010610 阅读:69 留言:0更新日期:2016-03-10 23:54
本发明专利技术提供了一种电网工程设计评审指标结构信息识别方法,该结构信息识别方法包括如下步骤:抽取文档章节段落结构信息、抽取分工程信息、抽取指标对应属性信息,抽取指标对应所属方案信息。本发明专利技术能够从电网设计评审报告中将技术指标的文档结构信息进行抽取,包括使用结构信息识别将文本中使用的分工程的简称或别称与分工程的完整规范名称进行匹配的方法,并准确识别每个分工程的作用域;识别每个方案的作用域并识别文档作者推荐的方案的方法;识别复杂指标值的属性的方法。识别指标结构信息能够精确指标的描述对象,并有助于提高指标抽取的效果。

【技术实现步骤摘要】

本专利技术涉及数据处理领域和电力系统设计领域,尤其涉及一种电网设计评审指标 结构信息识别方法。
技术介绍
一直以来,在电网工程设计评审应用领域,存在无法从电网工程设计文档中准确 提取关键技术指标供评审的问题。导致评审专家需要现场获取大量关键技术指标信息,评 审标准不统一、评审效率低、评审效果差。通过机器学习方法,可以利用专家知识对电网工 程设计评审报告文档中的有意义的指标值(如新建变电站主变的功率、新建线路工程的曲 折系数)进行抽取。然而,由于电网工程设计评审文档中需要抽取的指标不仅存在通过电 网工程和指标名称可唯一确定的简单指标,而且大量存在电网工程设计评审体系中的复杂 指标需要综合考虑各种文档结构信息才能够有效识别,例如对于可行性研究报告中存在多 个线路工程的情况,任何一个线路指标均需要确定其所对应的线路工程。对于电力设计评 审报告文档的指标识别,需要解析其文档描述对应指标的结构信息。 经过研究发现,电网工程初步设计文档和电网工程可行性研究报告文档作为指导 电网工程建设的设计文档,具有较为复杂的文档结构,有以下几大特点: (1)文档段落结构复杂,不同研究院或不同编写团队提交的文档段落结构不一致, 但是一般每个章节或小章节只涉及一类或部分类别指标。文档章节段落结构信息能够有效 的排除或初筛一部分指标,提尚识别效率和性能。 (2)部分复杂指标具有层级结构,如"接线方式",其属性有"工期"和"电压等级"。 对于该类复杂指标,需要确定其各个层级属性的取值。 (3)往往在电网工程文档会同时罗列几套方案供对比参考,只有一套方案被推荐 采用,而推荐采用的方案内的指标通常是更应该被关注的内容。 (4)对于电网工程可行性研究报告,每份报告中会同时提及几个分工程,一个报告 文档中可能获得多个不同取值的指标,这些指标分别对应不同的分工程,需要将分工程提 及的指标分别对应至相应的分工程。
技术实现思路
为解决现有技术的问题,本专利技术的目的在于提供一种电网设计评审指标结构信息 识别方法。 本专利技术的目的可通过以下的技术措施来实现: ,包括如下步骤: 段落信息识别:识别文章段落结构,对文本切分并按照切分后的段落所涉及的类 别归并; 指标对应属性识别:匹配每个待识别所对应属性的指标的多个属性值;指标可选方案匹配:匹配每个指标的所对应的备选方案,并确定何种候选方案为 推荐方案; 电网分工程识别与指标对应:识别分工程的作用域,匹配每个指标对应的分工程 信息。 所述段落信息识别包括如下步骤: 文档归一化处理:将文档转换为以行为单位的文本流,同时修正因转换格式带来 的错误; 章节识别与去噪:识别正确的章节目录信息,去掉错误的噪音信息; 章节标题抽取:抽取得到正确的章节标题和文档结构; 章节信息识别:提供对每一个章节标题进行分类、关键词抽取、上下文结构对应的 功能。 所述章节信息识别步骤包括如下步骤: 章节分类:对章节按照章节标题进行文本分类,分成六类章节; 章节关键词抽取:对章节抽取最能体现章节信息的关键词; 上下为结构对应:提供任意章节的父章节、子章节列表和兄弟章节列表。 所述指标对应属性识别步骤包括如下步骤: 属性归并:分析指标体系结构,将同类指标的同类属性进行合并; 属性抽取:将对属性按照归并后的指标体系进行抽取; 指标属性对应:确定指标和属性的对应关系。 所述指标可选方案匹配包括如下步骤: 方案作用域确定:通过查找方案描述关键词,确定方案作用域; 指标方案匹配:确定指标和方案的匹配关系; 推荐方案确定:识别电网设计评审报告中描述推荐方案的语句,确定推荐方案。 所述电网分工程识别与指标对应中包括如下步骤: 电网分工程名称识别:从电网设计评审报告中抽取其描述的分工程名称; 电网分工程链接对应:通过给定的标注分工程名称,模糊匹配对应到电网设计评 审报告抽取的分工程名称; 电网分工程作用域识别:确定任意指标其所对应的电网评审设计报告抽取的分工 程名称; 指标分工程对应:确定任意指标其所对应的规范的工程名称。 本专利技术对比现有技术,有如下优点: 本专利技术能够从电网设计评审报告中将技术指标的文档结构信息进行抽取,包括使 用结构信息识别将文本中使用的分工程的简称或别称与分工程的完整规范名称进行匹配 的方法,并准确识别每个分工程的作用域;识别每个方案的作用域并识别文档作者推荐的 方案的方法;识别复杂指标值的属性的方法。识别指标结构信息能够精确指标的描述对象, 并有助于提尚指标抽取的效果。【附图说明】 图1是本专利技术的电网设计评审指标结构信息识别方法的流程图; 图2是本专利技术方法的段落信息识别流程图; 图3是本专利技术方法的章节信息识别流程图; 图4是本专利技术方法的指标对应属性识别流程图; 图5是本专利技术方法的指标可选方案匹配流程图; 图6是本专利技术方法的电网分工程识别与指标对应流程图。【具体实施方式】 如图1所示,本专利技术公开了,包括如下 步骤: 步骤100 :段落信息识别,准确识别文章段落结构,将可以实现文本切分并按照切 分后的段落所涉及的类别归并。如图2所示,在段落信息识别中,包括如下步骤: 步骤110 :文档归一化处理:将文档转换为以行为单位的文本流,同时修正因转换 格式带来的错误。 步骤120 :章节识别与去噪:识别正确的章节目录信息,去掉错误的噪音信息。 步骤130 :章节标题抽取:从文档中抽取得到正确的章节标题和文档结构。 步骤140 :章节信息识别:提供对每一个章节标题进行分类、关键词抽取、上下文 结构对应的功能。 如图3所示,在章节信息识别中,包括如下步骤: 步骤141:章节分类:对章节按照章节标题进行文本分类,分成六类(变电二次、变 电一次、电缆信息、建设规模、土建、线路工程)章节。 步骤142:章节关键词抽取:对章节抽取最能体现章节信息的关键词。 步骤143:上下文结构对应:提供任意章节的父章节、子章节列表和兄弟章节列 表。 步骤200 :指标对应属性识别:准确匹配每个待识别所对应属性的指标的多个属 性值。如图4所示,指标对应属性识别包括如下步骤: 步骤210 :属性归并:分析指标体系结构,将同类指标的同类属性进行合并。 步骤220 :属性抽取:将对属性按照归并后的指标体系进行抽取。 步骤230 :指标属性对应:确定技术指标和属性的对应关系。 步骤300 :指标可选方案匹配:准确匹配每个指标的所对应的备选方案,并确定何 种候选方案为推荐方案。如图5所示,指标可选方案匹配包括如下步骤: 步骤310 :方案作用域确定:通过查找方案描述关键词,确定方案作用域。 步骤320 :指标方案匹配:确定指标和方案的匹配关系。 步骤330 :推荐方案确定:识别电当前第1页1 2 3 本文档来自技高网
...
一种电网设计评审指标结构信息识别方法

【技术保护点】
一种电网设计评审指标结构信息识别方法,其特征在于包括如下步骤:段落信息识别:识别文章段落结构,对文本切分并按照切分后的段落所涉及的类别归并;指标对应属性识别:匹配每个待识别所对应属性的指标的多个属性值;指标可选方案匹配:匹配每个指标的所对应的备选方案,并确定何种候选方案为推荐方案;电网分工程识别与指标对应:识别分工程的作用域,匹配每个指标对应的分工程信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈锟陈清财邓小玉汤步洲吴小蕙曾兰
申请(专利权)人:广东电网有限责任公司电网规划研究中心
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1