一种标准文献全文数字化方法及软件技术

技术编号:4164266 阅读:217 留言:0更新日期:2012-04-11 18:40
一种标准文献全文数字化方法及软件,属于标准文献和信息技术领域,解决对标准文献全文检索和精细化检索的问题,实现标准信息文本挖掘。从标准文献应用前景出发,建立包括图像化、字符化和结构化过程,由扫描图像处理、OCR识别校对、标准题录录入和结构化全文制作等模块组成数字化加工方法,定义了标准全文XML格式著录定义文件和标准全文XML文件,依据标准全文XML格式著录定义XML文件和标准全文XML文件定义schema文件开发软件,实现标准题录、单层PDF文件、双层PDF文件、全文TXT文件、表、图等数据加工,实现在标准的前言、引言、范围、引用文件、术语等确定范围内和对图、表进行检索和导出数据。

A method and software for full text digitization of standard literature

A standard full text digitization method and software belongs to the standard literature and information technology field, and solves the problems of full-text retrieval and fine retrieval of standard documents, and realizes the standard information text mining. Starting from the application of standard documents, including the establishment of image, character and structure, digital processing method consists of scanning image processing and recognition of OCR standard bibliography entry and proofreading, structured full-text production module, defines the standard text XML cataloging standard text definition file and the XML file, the XML format description according to the standard definition of XML the XML file defines the standard file and schema file software development, to achieve the standard single titles, PDF files, PDF files, the double TXT file, table, chart data processing, realized in the standard introduction, introduction, scope, reference documents, determine the scope and terms of charts and tables for retrieval and export data.

【技术实现步骤摘要】

本专利技术属于标准文献和信息
,具体涉及标准文献、信息结构化技术、文档 排版结构,以及扩展标记语言(XML)技术。
技术介绍
标准是技术积累的结晶,标准文献是属于科技文献的一种,是现代化企业组织生 产、提高产品质量、促进产品进出口的必备技术文献,也是技术监督部门、商品检验部门进 行产品检验的法律依据。特别是当今科技高速发展的情况下,最新发布的标准往往是新技 术的载体。在当今全球一体化的激烈竞争中,标准成为了企业参与竞争的先决条件。目前 查询相关标准都是首先通过标准题录数据库进行查询,然后索取标准文本。由于标准题录 数据库涉及标准中规范的内容很少,很难反映出标准涉及规范的全部内容,所以很难满足 有关主题的标准查全的要求,往往查找的结果不全,即使查到相关标准,也很难看到相关规 范内容,结果查找的准确性不高。 目前,虽然有能对word、 PDF等格式的标准文献全文文件进行检索的软件工具, 但很难满足用户对标准信息的需求,主要由于(l)由于标准文献数量巨大,题录检索和手 工查找难于满足要求;(2)纸质的标准文献,通过扫描制作成PDF等格式的电子文件,建立 了全文数据库,虽然实现了电子化馆藏,但由于本身未进行文字识别,实现不了全文检索功 能;(3)word、 PDF等格式标准文献全文文件为非结构化数据,很难实现如结构化数据那样 的检索、过滤、提取、挖掘和分析等功能。
技术实现思路
本专利技术的目的在于提出了一种基于扩展标记语言(XML)的标准文献全文数字化方法和软件,该数字化方法从标准文献应用角度,结合标准文献特点及其排版结构要求,利用XML技术实现对标准全文的结构化,实现了标准文献全文检索的功能。 标准文献全文数字化方法主要包括标准文献图像化、字符化和结构化加工过程。 标准文献图像化加工过程是对纸质的标准文献通过扫描和图像处理,制作标准文献的图像文件。 标准文献数字化加工过程是对标准文献的图像文件进行版面分析、OCR和校对的 过程,制作标准文献双层PDF、单层PDF、全文TXT文件。 标准文献结构化加工过程是标准题录录入和结构化全文制作的过程,制作题录数据和全文XML文件。 标准文献结构化的方法如下 首先建立一个对标准全文XML格式著录的定义文件,在这个文件中保存了全文 XML中的所有通用元素和可选元素的设置。这些设置包括元素的类型、名称、别名、定义、标 记、注释等信息,以及元素是否多值、是否必需等数据完整性方面的特征。这一文件可以在 符合规范的前提下进行修改,例如对通用元素进行维护、增加或删除标准类型、对某种标准类型的可选元素进行维护等等。 标准全文XML格式著录定义文件包括一个schema文件和一个XML文件。在schema 文件中对标准全文XML格式著录定义文件的编写进行了规范。标准全文XML格式著录 schema文件的结构如下表 <table>table see original document page 4</column></row><table><table>table see original document page 5</column></row><table><table>table see original document page 5</column></row><table> 以上为标准全文XML格式著录定义文件中所有的Element和Attribute的定义和 约束,标准全文XML格式著录定义文件需要满足下列要求 1.著录元素分为两类必备元素和可选元素,一个标准全文XML中均需著录必备 元素,此外还需要根据此标准的类别著录属于此类别的可选元素; 2.在格式著录定义文件中要每一个元素的名称、别名、标签、定义和注释进行描 述; 3.元素的类型分为四种文字、图片、公式和表格,对这四种元素要著录不同的信 息; 4.要设定元素的ID、名称、是否必需著录、是否多值等进行设定,这些设置会决定 全文XML的创建方式; 5.元素的ID以下列规则命名必备元素的ID为A1、A2、A3、 编码,第一种标准类型的元素ID为B1、B2、B3、……,第二种标准类型的元素ID为C1、C2、C3、……,依此 类推; 6.元素的ID是其唯一标识符,在整个加工过程中一旦确定,不得更改。否则就无 法找到以原ID著录的数据了。 标准文献全文XML格式著录定义的schema文件如下 〈? xml version =〃 1.0〃 encoding = 〃 UTF-8 standalone = 〃 yes > 〈xs:schema xmlns:xs = 〃 http://www.w3.org/2001/ XMLSchema〃 elementFormDefault =〃 qualified > 〈xs:element name = 〃 Alias type = 〃 xs:string〃 />5 〈xs:element name =〃 Define type =〃 xs: string〃 /〉 〈xs: element name =〃 Name〃 type =〃 xs: string〃 /〉 〈xs:element name =〃 Normal Standard 〃 〉 〈xs: complexType〉 〈xs: sequence〉 〈xs:element ref = 〃 Section〃 maxOccurs =〃 unbounded /〉 〈/xs: sequence〉 〈/xs: complexType〉 〈/xs:element> 〈xs: element name =〃 Note〃 type =〃 xs: string〃 /〉 〈xs:element name =〃 Other-Names〃 〉 〈xs: co,lexType〉 〈xs: sequence〉 〈xs:element ref = 〃 Alias〃 maxOccurs = 〃 unbounded /〉 〈/xs: sequence〉 〈/xs: complexType〉 〈/xs:element〉 〈xs:element name = 〃 Section〉 〈xs: complexType〉 〈xs: sequence〉 〈xs: element ref =〃 Name〃 /〉 〈xs: element ref = 〃 Other-Names 〃 minOccurs = 〃 0〃 /〉 〈xs:element ref = 〃 Tag minOccurs = 〃 0〃 /〉 〈xs:element ref = 〃 Define〃 minOccurs = 〃 0〃 /〉 〈xs: element ref = 〃 Note〃 minOccurs =〃 0〃 /〉 〈/xs: sequence〉 〈xs:attribute name 二 〃 id 〃 type = 〃 xs: string 〃 use =〃 required /〉 〈xs:attr本文档来自技高网...

【技术保护点】
一种标准文献全文数字化方法及软件,其特征在于标准文献全文数字化方法由标准文献图像化、字符化和结构化模块构成及标准文献结构化方法,依据以上方法开发了由标准文献数字化加工系统、数据库系统、标准文献数字化管理系统和标准信息挖掘平台组成的标准文献全文数字化软件。

【技术特征摘要】
一种标准文献全文数字化方法及软件,其特征在于标准文献全文数字化方法由标准文献图像化、字符化和结构化模块构成及标准文献结构化方法,依据以上方法开发了由标准文献数字化加工系统、数据库系统、标准文献数字化管理系统和标准信息挖掘平台组成的标准文献全文数字化软件。2. 如权利要求1所述的标准文献结构化方法,其特征在于标准文献XML格式著录定义 文件和标准全文XML文件。标准文献XML格式著录定义文件由schema文件和XML文件组 成,标准全文XML文件由schema文件和XML文件组成。3. 如权利要求2所述的标准文献XML格式著录定义schema文件,其特征在于文档 丰艮兀素有两个子兀素NormalStanard禾口 SpecialStandard。 NormalStanard为必备兀素; SpecialStandard为可选元素,数目为0至无限,必选属性stchtype必须设定,表示标准类 型。这两个子元素都包括Section子元素,数目为l至无限。4. 如权利要求3所述的Section元素,其特征在于有属性id、 necessary、 section-type、 multi-value、 sub_section,有子兀素Name、 Other-Name、 Alias、 Tag、 Def ine、 Note 。其中属性id必须设定,必备元素设为Al 、 A2、 A3…,第一个标准类型的可 选元素设为Bl、 B2、 B3…,第二个标准类型的可选元素设为Cl、 C2、 C3…,依此类推;属性 section-type取值有Text、 Images、 Tables、 Formulas。5. 如权利要求2所述的标准全文XML文件定义schema文件,其特征在于文档根元素 Standard有属性std-no、 n謙,子元素Section。其中属性std-no为标准号、n謙为标...

【专利技术属性】
技术研发人员:刘华陈洪江黎东初毛君浩张晓丹
申请(专利权)人:广东省标准化研究院
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1