一种基于结构化数据模型的标准信息分析方法技术

技术编号:14165516 阅读:58 留言:0更新日期:2016-12-12 12:53
本发明专利技术提出一种基于结构化数据模型的标准信息分析方法,包括定义结构化标准文本,确定元数据模型XSD;利用页面文本编辑器编辑结构化标准文本;构建标准语义标签库,获取结构化标准文本在对应语义标签库中的位置,并设置占位符;建立标准结构关系库;根据表头信息与标准规范的参照关系,构建参照关系库;资源定位RDF文档,并以规范的目录结构进行存储。本方法在标准内容细粒度管理的基础上,实现了标准元素的细粒度定位,方便检索利用,在标准特性调整时,对于供用电、工交运输等反应灵敏的公用事业及时自动下发,调整服务规范有其现实的意义和潜在巨大的市场空间。

【技术实现步骤摘要】

本专利技术涉及一种信息分析方法,具体涉及一种基于结构化数据模型的标准信息分析方法
技术介绍
目前面向电力系统的标准管理、知识处理等都采用手工方式居多,标准体系的管理处于初级信息化应用水平上,标准文本的管理和使用也多是采用PDF、Word等非结构化文本来管理,而且管理成本高昂,因此开发、开放程度不高,国内外均存在相应的问题,有必要针对该问题提出相应的高效率管理与应用方法。目前国内外应用结构化文本,结合可视化技术对标准的管理和推广应用的专利居于空白状态。授权专利CN102646125B“一种结构化数字内容析取与重组方法”中,提出了包括将数字化出版的备选内容存储在以可扩展标记语言(XML)格式为代表的非结构化数据存储器内;将所述的数据存储器内的信息单元,依据结构化数字内容析取与重组的标准定义的析取信息单元的标签进行格式化,形成信息主体的主题块;使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档;对所述的结构化文档通过可扩展样式语言(XSL)及可扩展样式语言转换(XSLT)根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。采用本专利技术,能适应未来出版物内容承载形式多元化,展示形式和终端多样化的特点;但是针对结合可视化技术对标准的管理和推广应用方面的研究仍为提出建设性合理化方案和具有借鉴性的创新。
技术实现思路
为弥补上述空白,本专利技术提出一种基于结构化数据模型的标准文本知识分析方法,支持电力行业中各类参考模型,对描述业务领域的基础数据实现结构化,尤其是智能电网标准体系的相关参考模型的结构化,支持标准的细粒度数据交换,支持标准条款之间、标准之间、标准体系之间的细粒度索引。本专利技术的目的是采用下述技术方案实现的:一种基于结构化数据模型的标准信息分析方法,所述方法包括:S1定义结构化标准文本,确定元数据模型XSD;S2利用页面文本编辑器编辑结构化标准文本;S3获取结构化标准文本在对应规范术语库中的位置,并设置占位符,构建标准语义标签库;S4建立标准结构关系库,并根据表头信息与标准规范的参照关系,构建参照关系库;S5资源定位RDF文档,并以规范的目录结构进行存储。优选的,所述步骤S1具体包括,定义XML Schema文件为结构化标准文本,将该文本扫描并由标准头信息录入管理器,上载至标准头信息录入页面,输出元数据模型XSD。优选的,所述步骤S2的结构化标准文本采用JavaScript编辑器显示于数据编辑页面上,用于完成结构化标准文本信息的录入和修改。优选的,所述步骤S3构建语义标签库包括,遍历和提取业务描述领域的关键词信息,生成包含一级术语和二级术语在内的语义标签;根据XML Schema规范,以树状形式将语义标签写入语义标签库;在构建语义标签库之前,若系统自身已包含该业务描述领域的规范术语库,则建立语义标签与规范术语之间的映射关系,并使用RDF模型对该映射关系进行描述;若所述规范术语与语义标签仅语义相同,则将规范术语库中的规范术语定义为语义标签的备选标签,并作为元数据的组成部分。优选的,所述步骤S4中,建立标准结构关系库包括以下步骤:S401提取文本按照章节编号和段落起始顺序排序并编号;S402按照元数据定义的分类编码规则对元数据类别进行编码;所述分类编码规则,即对表格中的各列表项进行编码,使用XML文档结构分别描述分类的层次以及表头和列表项;S403根据元数据定义的联结关系获取术语、语义块和段落之间的关系,包括主被动关系、因果关系、并列关系、互斥关系、及于关系和集合关系,并采用Schema规范的XML文档结构对上述关系进行描述;S404利用RDF模型描述非结构化资源,其包括图形、公式、声音和视频资源。优选的,所述步骤S4中,根据头信息和标准信息提取参照关系,建立参照关系库包括:首先,以标记语言记录标准规则在标准体系中的顺序位置及其作用描述;其次,采用RDF模型分别记录与标准体系内外其他标准之间的依赖与参照关系;再次,采用RDF模型记录与其他标准体系的替代和引用关系,以及采用标记语言进行相关差异的编码和描述;最后,采用RDF模型对引用文献进行描述。进一步地,所述标准体系,是指符合国家标准GB/T 3935.1-1996《标准化和有关领域的通用术语第一部分:基本术语》中对标准的定义的所有指导性文件。优选的,所述步骤S5包括,使用Schema所规范的XML文档结构对标准的头信息进行编码和描述;将扫描完成的文档结构按照Schema规范的XML文档结构进行整理,形成一组交换语法XML/RDF结构化文档,并按照规范的目录结构将相关的非结构化资源置入相应的目录结构中,最后将完整的目录打包发布至公有云或分布式文件系统中,同时发布该标准RDF的URI。与现有技术相比,本专利技术达到的有益效果是:本方法支持电力行业中各类参考模型,可对描述业务领域的基础数据实现结构化,尤其是智能电网标准体系的相关参考模型的结构化,支持标准的细粒度数据交换,以及标准条款之间、标准之间、标准体系之间的细粒度索引;应用范围广泛且通用性强。通过结构化标准文本,在实现标准内容细粒度管理的基础上,实现标准元素的细粒度定位,方便检索利用;有助于实现标准规范在工艺设计、生产加工、服务过程的自动化应用;有着鲜明的现实意义和潜在巨大的市场空间。将标准特性植入自动化过程中,一旦标准特性调整就可实现生产、服务过程的自动参数调整。同时支持产业内各厂商对标准规范的一致性理解和应用,降低沟通成本。对于供用电、工交运输等反应灵敏的公用事业,标准要求、参数等能够实时自动下发,可大大降低由于人工操作带来的成本,尤其是在规模大、覆盖面广的应用领域。附图说明图1为基于结构化数据模型的标准信息分析方法总流程图;图2标准文本的结构化部件结构示意图;图3为标准文本结构化分析方法的具体实施流程图;具体实施方式下面结合附图对本专利技术的具体实施方式做进一步的详细说明。本专利技术提出了一种基于结构化数据模型的标准信息分析方法;通过结构化标准文本,在实现标准内容细粒度管理的基础上,实现标准元素的细粒度定位,方便检索利用,解决标准规范不能自动化利用的技术问题。如图1所示,包括:S1定义结构化标准文本,确定元数据模型XSD;步骤S1具体包括,定义XML Schema文件为结构化标准文本,将该文本扫描并由标准头信息录入管理器,上载至标准头信息录入页面,输出元数据模型XSD。S2利用页面文本编辑器编辑结构化标准文本;如图2所示。步骤S2的结构化标准文本采用JavaScript编辑器显示于数据编辑页面上,用于完成结构化标准文本信息的录入和修改。S3获取结构化标准文本在对应规范术语库中的位置,并设置占位符,构建标准语义标签库;步骤S3构建语义标签库包括,遍历和提取业务描述领域的关键词信息,生成包含一级术语和二级术语在内的语义标签;根据XML Schema规范,以树状形式将语义标签写入语义标签库;在构建语义标签库之前,若系统自身已包含该业务描述领域的规范术语库,则建立语义标签与规范术语之间的映射关系,并使用RDF模型对该映射关系进行描述;若所述规范术语与语义标签仅语义相同,则将规范术语库中的规范术语定义为语义标签的备选标签,并作为元数本文档来自技高网...
一种基于结构化数据模型的标准信息分析方法

【技术保护点】
一种基于结构化数据模型的标准信息分析方法,其特征在于,所述方法包括:S1定义结构化标准文本,确定元数据模型XSD;S2利用页面文本编辑器编辑结构化标准文本;S3获取结构化标准文本在对应规范术语库中的位置,并设置占位符,构建标准语义标签库;S4建立标准结构关系库,并根据表头信息与标准规范的参照关系,构建参照关系库;S5资源定位RDF文档,并以规范的目录结构进行存储。

【技术特征摘要】
1.一种基于结构化数据模型的标准信息分析方法,其特征在于,所述方法包括:S1定义结构化标准文本,确定元数据模型XSD;S2利用页面文本编辑器编辑结构化标准文本;S3获取结构化标准文本在对应规范术语库中的位置,并设置占位符,构建标准语义标签库;S4建立标准结构关系库,并根据表头信息与标准规范的参照关系,构建参照关系库;S5资源定位RDF文档,并以规范的目录结构进行存储。2.如权利要求1所述的方法,其特征在于,所述步骤S1具体包括,定义XML Schema文件为结构化标准文本,将该文本扫描并由标准头信息录入管理器,上载至标准头信息录入页面,输出元数据模型XSD。3.如权利要求1所述的方法,其特征在于,所述步骤S2的结构化标准文本采用JavaScript编辑器显示于数据编辑页面上,用于完成结构化标准文本信息的录入和修改。4.如权利要求1所述的方法,其特征在于,所述步骤S3构建语义标签库包括,遍历和提取业务描述领域的关键词信息,生成包含一级术语和二级术语在内的语义标签;根据XML Schema规范,以树状形式将语义标签写入语义标签库;在构建语义标签库之前,若系统自身已包含该业务描述领域的规范术语库,则建立语义标签与规范术语之间的映射关系,并使用RDF模型对该映射关系进行描述;若所述规范术语与语义标签仅语义相同,则将规范术语库中的规范术语定义为语义标签的备选标签,并作为元数据的组成部分。5.如权利要求1所述的方法,其特征在于,所述步骤S4中,建立标准结构关系库包括以下步骤:S401提取文本按照章节编号和段落起始顺序排序并编号;S402按照元数...

【专利技术属性】
技术研发人员:冯泽健白晓民盛万兴崔全胜王立岩董伟杰刘永梅李建祥
申请(专利权)人:中国电力科学研究院国家电网公司国网山东省电力公司国网山东省电力公司电力科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1