The invention provides a device and method for extracting document information, document information extraction device comprises: a reading module, used for converting the document into object library; identification module is used to identify the object from the library to feature content extraction; extraction module, identification module for the identification of the characteristic items extraction. The method includes: reading module transforms document into object library; identification module identifies feature item from object library; extraction module extracts feature item and generates excel form. By transforming the document into the object library, and then extracting the feature items from the object library, the quick extraction of the review information can be realized, and the work efficiency can be improved.
【技术实现步骤摘要】
一种文档信息提取装置及方法
本专利技术涉及计算机
,具体的说是一种文档信息提取装置及方法。
技术介绍
在产品开发过程中,除了可交付的实际产品,还包括产品开发过程中的文档,以及产品开发的数据。文档不仅是产品的一个组成部分,而且是产品开发项目的一种非常重要的管理工具,在产品开发项目各角色之间起多种桥梁作用。因此,文档的重要性不言而喻。目前,在文档的审阅及发布环节,大多都是经过专人撰写、分发审阅,然后汇总评审意见,组织讨论后报批发布的。特别是对于汇总评审意见这一环节,需要专门的人员逐个打开文档,并将文档中审阅信息一一粘贴复制到一个汇总表格或文档中,导致费时费力,工作效率很低。
技术实现思路
为了解决上述问题,提供了一种文档信息提取装置及方法,通过将文档转化为对象库,然后从对象库中提取特征项,实现审阅信息的快速提取,提高工作效率。本专利技术实施例提供了一种文档信息提取装置,所述的文档信息提取装置包括:读取模块,用于将文档转化成对象库;识别模块,用于从对象库中识别需要提取的特征项内容;提取模块,用于对识别模块中识别到的特征项内容进行提取。进一步的,所述的提取模块还用于:建立excel表格,并插入与特征项一一对应的表头以及特征项内容。进一步的,所述的特征项内容包括文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期。进一步的,所述的文档信息提取装置还包括:索引模块,用于设定文档获取的目标地址。本专利技术实施例还提供了一种文档信息提取方法,所述的方法包括:读取模块将文档转化为对象库;识别模块从对象库中识别特征项内容;提取模块提取特征项内容并生成exce ...
【技术保护点】
一种文档信息提取装置,其特征是:所述的文档信息提取装置包括:读取模块,用于将文档转化成对象库;识别模块,用于从对象库中识别需要提取的特征项内容;提取模块,用于对识别模块中识别到的特征项内容进行提取。
【技术特征摘要】
1.一种文档信息提取装置,其特征是:所述的文档信息提取装置包括:读取模块,用于将文档转化成对象库;识别模块,用于从对象库中识别需要提取的特征项内容;提取模块,用于对识别模块中识别到的特征项内容进行提取。2.根据权利要求1所述的一种文档信息提取装置,其特征是:所述的提取模块还用于:建立excel表格,并插入与特征项一一对应的表头以及特征项内容。3.根据权利要求1所述的一种文档信息提取装置,其特征是:所述的特征项内容包括文档页码、批注所在的行数、被批注的原文、批注的内容、批注人、批注日期。4.根据权利要求1-3任意一项所述的一种文档信息提取装置,其特征是:所述的文档信息提取装置还包括:索引模块,用于设定文档获取的目标地址。5.一种文档信息提取方法,其特征是:所述的方法包括:读取模块将文档转化为对象库;识别模块从对象库中识别特征项内容;提取模块提取特征项内容并生成excel表格。6.根据权利要求5所...
【专利技术属性】
技术研发人员:丁建华,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。