当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于XML的PDF文档信息抽取系统的方法技术方案

技术编号:2858553 阅读:304 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于XML的PDF文档信息抽取系统的方法,它是一种信息转化的方法,属于信息技术类,其步骤为:(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取存放PDF文档中各页的内容流,并进行解码,然后将PDF文档的物理结构转化为逻辑结构,外部信息元数据的提取,内部信息元数据的提取;(3)生成XML文档。本发明专利技术可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。

【技术实现步骤摘要】

本专利技术是一种信息转化的方法,属于信息技术类,确切地说,它是一种基于XML的PDF文档信息抽取系统的方法
技术介绍
结构化的文档格式PDF是由美国的Adobe公司提出的。PDF文件格式以其卓越的特性成为在Internet上进行电子文档发行和格式化信息传播的理想文档格式。当前,在Internet中的科技论文以PDF格式提交变得越来越流行。如万方数据库等。但是,PDF重在描述文档的打印格式,并没有描述原始文档内容的数据结构。这成为制约人们信息检索的瓶颈。因此,对PDF进行信息抽取的研究显得十分重要。XML是W3C推荐的数据交换的标准。它的出现推进了网络表达的语言集合。XML是Internet环境中跨平台的,依赖于内容的技术,是这个时代中处理分布式结构信息的选择工具。XML是面向内容的,因此它能够弥补PDF文件格式在语义描述方面的不足。经检索还没有见到一种基于XML的PDF文档信息抽取系统的方法方面的文献报道。
技术实现思路
本专利技术的目的在于专利技术一种基于XML的PDF文档信息抽取系统的方法。本专利技术是这样实现的其步骤为(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取存放PDF文档中各页的内容流,并进行解码,然后将PDF文档的物理结构转化为逻辑结构,外部信息元数据的提取,内部信息元数据的提取;(3)生成XML文档。本专利技术可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。附图说明图1为本专利技术的PDF的物理结构图;图2为本专利技术的页面树结构示意图;图3为本专利技术的目录树管理书签结构示意图;图中1为文件头(head);2为文件体(body);3为交叉引用表(cross table);4为文件尾(tailer)。以下将结合实施例对本专利技术进行进一步的描述具体实施例方式PDF文档信息抽取系统设计的工作流程DTD(文档类型定义)的设计要将PDF文档中的语义信息较好地表现出来,首要的一步是制定规范XML文档中元素和标志的规则及相互关系的DTD文档。我们参考了广受欢迎的DocBook元素的子集Simplified DocBook,根据科技论文具有篇章结构和用语规范的特点,分析并选择出以下两类基本的信息(1)外部信息元数据(Articleinfo)描述科技论文外部特征的元数据,包括author(作者),address(作者地址),edition(出版),bibliography(参考文献)等。外部信息元数据是用户进行信息检索的重要依据。<!ELEMENT Articleinfo(authorgroup,edition,bibiography)> <!ELEMENT authorgroup(address,author+)> <!ELEMENT address(department,city,zip,email)> <!ELEMENT author(name,birth,sex,degree,research)> <!ELEMENT edition(ediname,pagenums,volumenum,issuenum,pubdate)> <!ELEMENT bibliography(bibliodiv+)> <!ELEMENT bibliodiv(title,biblioentry)> <!ELEMENT biblioentry((authorgroup,title,publisher,date)|ulink)> <!ELEMENT authorgroup(author_name+)> <!ELEMENT publisher(publishername,address)> <!ELEMENT department(#PCDATA)> <!ELEMENT city(#PCDATA)> ...... <!ELEMENT ulink(#PCDATA)> <!ATTLIST ulink url CDATA> (2)内部信息元数据描述文章语义信息的元数据,包括Title,Abstract,Keywordset,Section,Para等。利用文章的语义信息进行检索,能在很大程度上提高用户信息检索的效率。①Title(文章标题)最直接地反映了文章的核心内容。<!ELEMENT Title (#PCDATA)> ②Abstract论文的摘要<!ELEMENT Abstract(#PCDATA)> ③Keywordset论文关键词的集合<!ELEMENT Keywordset(keyword+)> <!ELEMENT keyword(#PCDATA)> ④Section文章的章节。为了更好地实现文章信息的分类和检索,我们有必要对文章的篇章结构进行分析。文章由章节Section组成,Section中包含段落Para子元素,并且可以嵌套Section。我们工作中很重要的一项任务是完成对章节主题以及段落主题的判断。<!ELEMENT Section(sect_theme,(Section|para+)*)> <!ELEMENT sect_theme(#PCDATA)> <!ELEMENT para(para_theme*)> <!ELEMENT para_theme(#PCDATA)> <!ATTLIST paraid ID #REQUIRED> PDF的文件格式要实现对PDF文档的语义信息的抽取,必须十分清楚PDF的文件格式。PDF的对象组成PDF文档的基本元素是PDF对象(PDF Object)。PDF支持七种基本的对象类型Boolean(布尔型),String(字符串型),Name(名字型),Dictionary(字典型),Number(数值型),Array(数组型),Null(空对象),Stream(流对象)。其中,字典对象是PDF文档的主要构成部分。PDF文档中的页面,字库等部分都用字典对象表示。PDF对象可以分成直接对象(direct object)和间接对象(indirect object)。其中,PDF间接对象是一个被标志过的对象。它由对象标志符,直接对象和关键字endobj组成。PDF文档中使用了大量的间接对象和间接引用。PDF的物理结构PDF的物理结构(文件结构)由四个部分组成。从图1可知(1)文件尾中主要包含了交叉引用表的地址,文件体的根对象Cata本文档来自技高网...

【技术保护点】
一种基于XML的PDF文档信息抽取系统的方法,其特征在于:其步骤为:(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取存放PDF文档中各页的内容流,并进行解码,然 后将PDF文档的物理结构转化为逻辑结构,外部信息元数据的提取,内部信息元数据的提取;(3)生成XML文档。

【技术特征摘要】
1.一种基于XML的PDF文档信息抽取系统的方法,其特征在于其步骤为(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取存放PDF文档中各页的内容流,并进行解码,然后将PDF文档的物理结构转化为逻辑结构,外部信息元数据的提取,内部信息元数据的提取;(3)生成XML文档。2.根据权利要求1所述的一种基于XML的PDF文档信息抽取系统的方法,其特征在于其步骤(2)外部信息元数据,包括作者,作者地址,版本,参考文献。3.根据权利要求1所述的一种基于XML的PDF文档信息抽取系统的方法,其特征在于其步骤(2)内部信息元数据,包括文章标题,论文的摘要,关键词,文章的章节。4.根据权利要求1所述的一种基于XML的PDF文档信息抽取系统的方法,其特征在于其步骤(2)提取存放PDF文档中各页的内容流,并进行解码,其具体实现的流程为a、从文件尾...

【专利技术属性】
技术研发人员:张文德宋艳娟杨传耀朱丹红陈俊林
申请(专利权)人:福州大学
类型:发明
国别省市:35[中国|福建]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1