一种文档信息提取装置及方法制造方法及图纸

技术编号:16427997 阅读:38 留言:0更新日期:2017-10-21 23:00
本发明专利技术提供了一种文档信息提取装置及方法,所述的文档信息提取装置包括:读取模块,用于将文档转化成对象库;识别模块,用于从对象库中识别需要提取的特征项内容;提取模块,用于对识别模块中识别到的特征项内容进行提取。所述的方法包括:读取模块将文档转化为对象库;识别模块从对象库中识别特征项内容;提取模块提取特征项内容并生成excel表格。通过将文档转化为对象库,然后从对象库中提取特征项,实现审阅信息的快速提取,提高工作效率。

Document information extraction device and method

The invention provides a device and method for extracting document information, document information extraction device comprises: a reading module, used for converting the document into object library; identification module is used to identify the object from the library to feature content extraction; extraction module, identification module for the identification of the characteristic items extraction. The method includes: reading module transforms document into object library; identification module identifies feature item from object library; extraction module extracts feature item and generates excel form. By transforming the document into the object library, and then extracting the feature items from the object library, the quick extraction of the review information can be realized, and the work efficiency can be improved.

【技术实现步骤摘要】
一种文档信息提取装置及方法
本专利技术涉及计算机
,具体的说是一种文档信息提取装置及方法。
技术介绍
在产品开发过程中,除了可交付的实际产品,还包括产品开发过程中的文档,以及产品开发的数据。文档不仅是产品的一个组成部分,而且是产品开发项目的一种非常重要的管理工具,在产品开发项目各角色之间起多种桥梁作用。因此,文档的重要性不言而喻。目前,在文档的审阅及发布环节,大多都是经过专人撰写、分发审阅,然后汇总评审意见,组织讨论后报批发布的。特别是对于汇总评审意见这一环节,需要专门的人员逐个打开文档,并将文档中审阅信息一一粘贴复制到一个汇总表格或文档中,导致费时费力,工作效率很低。
技术实现思路
为了解决上述问题,提供了一种文档信息提取装置及方法,通过将文档转化为对象库,然后从对象库中提取特征项,实现审阅信息的快速提取,提高工作效率。本专利技术实施例提供了一种文档信息提取装置,所述的文档信息提取装置包括:读取模块,用于将文档转化成对象库;识别模块,用于从对象库中识别需要提取的特征项内容;提取模块,用于对识别模块中识别到的特征项内容进行提取。进一步的,所述的提取模块还用于:建立excel表格,并插入与特征项一一对应的表头以及特征项内容。进一步的,所述的特征项内容包括文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期。进一步的,所述的文档信息提取装置还包括:索引模块,用于设定文档获取的目标地址。本专利技术实施例还提供了一种文档信息提取方法,所述的方法包括:读取模块将文档转化为对象库;识别模块从对象库中识别特征项内容;提取模块提取特征项内容并生成excel表格。进一步的,读取模块将文档转化为对象库步骤之前还包括:索引模块设定文档获取的目标地址。进一步的,所述的特征项内容包括文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期。进一步的,读取模块将文档转化为对象库的具体实现过程为:利用import方式,将文档转化为com对象库。进一步的,识别模块从对象库中识别特征项内容的具体实现过程为:识别模块利用特征项生成检索字段,通过检索比对从com对象库中获取特征项内容。进一步的,提取模块提取特征项内容并生成excel表格得具体实现过程为:提取模块建立excel表格,插入特征项中文全称作为表头,并将特征项内容插入对应表头下方的表格中。
技术实现思路
中提供的效果仅仅是实施例的效果,而不是专利技术所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:1、本专利技术实施例通过将文档转化为对象库,然后从对象库中提取特征项,降低了直接从文档中提取信息的难度,同时,实现审阅信息的快速提取,提高了信息提取的效率,大大提高了工作效率。2、通过设定文档获取的地址,用户只需要将文件存储在设定地址,就能实现文档的自动获取,进一步的减少了人工获取文档的时间,大大提高了工作效率。附图说明图1是实施例1对应文档信息提取装置的原理图;图2是实施例1对应的文档信息提取方法流程图;图3是实施例2对应文档信息提取装置的原理图;图4是实施例2对应的文档信息提取方法流程图。具体实施方式为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。实施例1如图1所示的一种文档信息提取装置,该文档信息提取装置主要针对office中的word文档,所述的文档信息提取装置包括读取模块、识别模块、提取模块。读取模块主要用于将文档转化成对象库,便于信息的提取。识别模块主要用于从对象库中识别需要提取的特征项内容,所述的特征项内容包括文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期。提取模块主要用于对识别模块中识别到的特征项内容进行提取,提取完成后,提取模块还要建立excel表格,并插入与特征项一一对应的表头以及特征项内容。如图2所示,针对实施例1的装置,还提供了一种文档信息提取方法,所述的方法包括:1、读取模块将文档转化为对象库,具体实现过程为:利用import方式,将文档转化为com对象库,主要是生成一些.dll、.olb等格式的文档。2、识别模块从对象库中识别特征项内容,具体实现过程为:识别模块利用特征项生成检索字段,对于本申请来说,检索字段为文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期等内容的中英文全称,根据这些检索字段,通过检索比对从com对象库中获取特征项内容。3、提取模块提取特征项内容并生成excel表格,具体实现过程为:提取模块建立excel表格,插入特征项中文全称作为表头,并将特征项内容插入对应表头下方的表格中。实施例2如图3所示的一种文档信息提取装置,该文档信息提取装置主要针对office中的word文档,所述的文档信息提取装置包括索引模块、读取模块、识别模块、提取模块。索引模块主要用于设定文档获取的目标地址,比如和一个文件夹建立映射关系,读取模块就能从这个文件夹自动获取目标文档。读取模块主要用于从目标地址获取目标文档,并将将文档转化成对象库,便于信息的提取。识别模块主要用于从对象库中识别需要提取的特征项内容,所述的特征项内容包括文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期。提取模块主要用于对识别模块中识别到的特征项内容进行提取,提取完成后,提取模块还要建立excel表格,并插入与特征项一一对应的表头以及特征项内容。如图4所示,针对实施例2的装置,还提供了一种文档信息提取方法,所述的方法包括:1、索引模块设定文档获取的目标地址,具体实现过程为:选择一个文件夹作为目标地址,并建立读取模块与目标文件夹的映射关系,实现读取模块从目标地址获取文件的功能。2、读取模块将文档转化为对象库,具体实现过程为:读取文件获取目标地址的文档后,利用import方式,将文档转化为com对象库,主要是生成一些.dll、.olb等格式的文档。3、识别模块从对象库中识别特征项内容,具体实现过程为:识别模块利用特征项生成检索字段,对于本申请来说,检索字段为文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期等内容的中英文全称,根据这些检索字段,通过检索比对从com对象库中获取特征项内容。4、提取模块提取特征项内容并生成excel表格,具体实现过程为:提取模块建立excel表格,插入特征项中文全称作为表头,并将特征项内容插入对应表头下方的表格中。对于实施例1和实施例2来说,获得汇总的excel表格以后,都需要把汇总后的excel表格通过邮件群发给所有相关人员,该过程通过现有技术也可以实现自动群发,无需人工操作。尽管说明书及附图和实施例对本专利技术创造已进行了详细的说明,但是,本领域技术人员应当理解,仍然可以对本专利技术创造进行修改或者等同替换;而一切不脱离本专利技术创造的精神和范围的技术方案及其改本文档来自技高网
...
一种文档信息提取装置及方法

【技术保护点】
一种文档信息提取装置,其特征是:所述的文档信息提取装置包括:读取模块,用于将文档转化成对象库;识别模块,用于从对象库中识别需要提取的特征项内容;提取模块,用于对识别模块中识别到的特征项内容进行提取。

【技术特征摘要】
1.一种文档信息提取装置,其特征是:所述的文档信息提取装置包括:读取模块,用于将文档转化成对象库;识别模块,用于从对象库中识别需要提取的特征项内容;提取模块,用于对识别模块中识别到的特征项内容进行提取。2.根据权利要求1所述的一种文档信息提取装置,其特征是:所述的提取模块还用于:建立excel表格,并插入与特征项一一对应的表头以及特征项内容。3.根据权利要求1所述的一种文档信息提取装置,其特征是:所述的特征项内容包括文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期。4.根据权利要求1-3任意一项所述的一种文档信息提取装置,其特征是:所述的文档信息提取装置还包括:索引模块,用于设定文档获取的目标地址。5.一种文档信息提取方法,其特征是:所述的方法包括:读取模块将文档转化为对象库;识别模块从对象库中识别特征项内容;提取模块提取特征项内容并生成excel表格。6.根据权利要求5所...

【专利技术属性】
技术研发人员:丁建华
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1