一种标准文献全文数字化方法及软件技术

技术编号：4164266 阅读：239 留言：0更新日期：2012-04-11 18:40

一种标准文献全文数字化方法及软件，属于标准文献和信息技术领域，解决对标准文献全文检索和精细化检索的问题，实现标准信息文本挖掘。从标准文献应用前景出发，建立包括图像化、字符化和结构化过程，由扫描图像处理、ＯＣＲ识别校对、标准题录录入和结构化全文制作等模块组成数字化加工方法，定义了标准全文ＸＭＬ格式著录定义文件和标准全文ＸＭＬ文件，依据标准全文ＸＭＬ格式著录定义ＸＭＬ文件和标准全文ＸＭＬ文件定义ｓｃｈｅｍａ文件开发软件，实现标准题录、单层ＰＤＦ文件、双层ＰＤＦ文件、全文ＴＸＴ文件、表、图等数据加工，实现在标准的前言、引言、范围、引用文件、术语等确定范围内和对图、表进行检索和导出数据。

A method and software for full text digitization of standard literature

A standard full text digitization method and software belongs to the standard literature and information technology field, and solves the problems of full-text retrieval and fine retrieval of standard documents, and realizes the standard information text mining. Starting from the application of standard documents, including the establishment of image, character and structure, digital processing method consists of scanning image processing and recognition of OCR standard bibliography entry and proofreading, structured full-text production module, defines the standard text XML cataloging standard text definition file and the XML file, the XML format description according to the standard definition of XML the XML file defines the standard file and schema file software development, to achieve the standard single titles, PDF files, PDF files, the double TXT file, table, chart data processing, realized in the standard introduction, introduction, scope, reference documents, determine the scope and terms of charts and tables for retrieval and export data.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于标准文献和信息
，具体涉及标准文献、信息结构化技术、文档排版结构，以及扩展标记语言(XML)技术。
技术介绍
标准是技术积累的结晶，标准文献是属于科技文献的一种，是现代化企业组织生产、提高产品质量、促进产品进出口的必备技术文献，也是技术监督部门、商品检验部门进行产品检验的法律依据。特别是当今科技高速发展的情况下，最新发布的标准往往是新技术的载体。在当今全球一体化的激烈竞争中，标准成为了企业参与竞争的先决条件。目前查询相关标准都是首先通过标准题录数据库进行查询，然后索取标准文本。由于标准题录数据库涉及标准中规范的内容很少，很难反映出标准涉及规范的全部内容，所以很难满足有关主题的标准查全的要求，往往查找的结果不全，即使查到相关标准，也很难看到相关规范内容，结果查找的准确性不高。目前，虽然有能对word、 PDF等格式的标准文献全文文件进行检索的软件工具，但很难满足用户对标准信息的需求，主要由于(l)由于标准文献数量巨大，题录检索和手工查找难于满足要求；(2)纸质的标准文献，通过扫描制作成PDF等格式的电子文件，建立了全文数据库，虽然实现了电子化馆藏，但由于本身未进行文字识别，实现不了全文检索功能；(3)word、 PDF等格式标准文献全文文件为非结构化数据，很难实现如结构化数据那样的检索、过滤、提取、挖掘和分析等功能。
技术实现思路
本专利技术的目的在于提出了一种基于扩展标记语言(XML)的标准文献全文数字化方法和软件，该数字化方法从标准文献应用角度，结合标准文献特点及其排版结构要求，利用XML技术实现对标准全文...

【技术保护点】
一种标准文献全文数字化方法及软件，其特征在于标准文献全文数字化方法由标准文献图像化、字符化和结构化模块构成及标准文献结构化方法，依据以上方法开发了由标准文献数字化加工系统、数据库系统、标准文献数字化管理系统和标准信息挖掘平台组成的标准文献全文数字化软件。

【技术特征摘要】
一种标准文献全文数字化方法及软件，其特征在于标准文献全文数字化方法由标准文献图像化、字符化和结构化模块构成及标准文献结构化方法，依据以上方法开发了由标准文献数字化加工系统、数据库系统、标准文献数字化管理系统和标准信息挖掘平台组成的标准文献全文数字化软件。2. 如权利要求1所述的标准文献结构化方法，其特征在于标准文献XML格式著录定义文件和标准全文XML文件。标准文献XML格式著录定义文件由schema文件和XML文件组成，标准全文XML文件由schema文件和XML文件组成。3. 如权利要求2所述的标准文献XML格式著录定义schema文件，其特征在于文档丰艮兀素有两个子兀素NormalStanard禾口 SpecialStandard。 NormalStanard为必备兀素； SpecialStandard为可选元素，数目为0至无限，必选属性stchtype必须设定，表示标准类型。这两个子元素都包括Section子元素，数目为l至无限。4. 如权利要求3所述的Section元素，其特征在于有属性id、 necessary、 section-type、 multi-value、 sub_section，有子兀素Name、 Other-Name、 Alias、 Tag、 Def ine、 Note 。其中属性id必须设定，必备元素设为Al 、 A2、 A3…，第一个标准类型的可选元素设为Bl、 B2、 B3…，第二个标准类型的可选元素设为Cl、 C2、 C3…，依此类推；属性 section-type取值有Text、 Images、 Tables、 Formulas。5. 如权利要求2所述的标准全文XML文件定义schema文件，其特征在于文档根元素 Standard有属性std-no、 n謙，子元素Section。其中属性std-no为标准号、n謙为标...

【专利技术属性】
技术研发人员：刘华，陈洪江，黎东初，毛君浩，张晓丹，
申请(专利权)人：广东省标准化研究院，
类型：发明
国别省市：81[中国|广州]

全部详细技术资料下载我是这个专利的主人