基于OCR云识别的信息系统监理知识采集和归档方法技术方案

技术编号:21453929 阅读:34 留言:0更新日期:2019-06-26 04:46
本发明专利技术公开了一种基于OCR云识别的信息系统监理知识采集和归档方法,包括如下步骤:A)OCR转换服务从项目资料库中提取项目信息;B)将所述项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件;C)所述OCR转换服务将所述项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的所述项目原文件和OCR转换文件添加对应的项目的属性信息。实施本发明专利技术的基于OCR云识别的信息系统监理知识采集和归档方法,具有以下有益效果:能准确找到需要的项目资料、检索效率较高、OCR识别能力不受限制。

【技术实现步骤摘要】
基于OCR云识别的信息系统监理知识采集和归档方法
本专利技术涉及项目监理领域,特别涉及一种基于OCR云识别的信息系统监理知识采集和归档方法。
技术介绍
信息系统监理在项目监理过程中会积累一定的项目资料,包括招、投标文件、合同、技术文档等。这些资料常规管理的方式包括以下几种:共享目录访问、监理业务系统、文控管理系统。监理工作人员在项目监理过程中常常需要查询历史项目资料作为参考以提高监理效率、服务水平和质量。但是常规的方式在资料访问时存在一些缺点,监理项目资料通常是扫描件,无法进行文本搜索,难以准确找出所需要的资料。当一个单位积累的项目越来越多时,检索效率也就越来越低下。在此基础上的一种改进的方式是,在项目资料入库前,人工将扫描件通过OCR软件进行转换成可识别文件的文件类型或者资料管理系统在上传过程中通过OCRSDK自动转换。现有技术存在如下缺点:(1)无法准确找到需要的项目资料。未作OCR转换的扫描件无法进行文件搜索,不能对资料的内容进行检索过滤,找不到需要的资料。(2)检索效率低。对于未作OCR转换的扫描件只能通过人工浏览来选择项目资料,在大量的项目资料面前找出想到的资料需要花费大量的时间。即使项目资料做了OCR转换,支持全文检索,但当面对海量的资料,若不能对结果进行有效的过滤,也难以检索出需要的资料。(3)OCR识别能力限制。一款OCR软件的识别水平在某个时间点是一定的,随着技术水平的,为获取更高的识别能力,则需要重新购买新版的软件,同时可能会由于接口的变化,引起资料管理系统的同步更新升级。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能准确找到需要的项目资料、检索效率较高、OCR识别能力不受限制的基于OCR云识别的信息系统监理知识采集和归档方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于OCR云识别的信息系统监理知识采集和归档方法,包括如下步骤:A)OCR转换服务从项目资料库中提取项目信息;B)将所述项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件;C)所述OCR转换服务将所述项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的所述项目原文件和OCR转换文件添加对应的项目的属性信息。在本专利技术所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述步骤B)进一步包括:B1)设置OCR云识别服务的访问地址、应用标识和访问密码;B2)所述OCR转换服务提取监理项目资料;所述监理项目资料包括项目信息和项目附件列表;B3)判断项目附件类型是否是要转换的文件,添加到转换队列;B4)判断所述转换队列是否不为空,如是,执行步骤B5);否则,执行步骤C);B5)设置转换参数并上传项目附件至所述OCR云识别服务;所述转换参数包括文本类型、源文件类型、目标类型和转换语言;B6)每隔设定时间查询所述OCR云识别服务的转换任务的状态;B7)判断OCR云识别服务的转换任务是否完成或出错,如果完成,则执行步骤B8);如果未完成,则返回步骤B6);如果出错,则执行步骤B9);B8)从所述OCR云识别服务下载转换后的OCR转换文件,执行步骤B9);B9)所述OCR转换服务从所述转换队列中移除所述要转换的文件,返回步骤B4)。在本专利技术所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述要转换的文件为图片类型或PDF类型,所述图片类型至少包括BMP格式、JPG格式、TIFF格式和PNG格式。在本专利技术所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述OCR云识别服务支持从图片中提取打印文本和手写文本,支持将图片或PDF文件转换成能搜索的PDF格式、Word格式、Excel格式或PPT格式。在本专利技术所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述属性信息至少包括项目名称、项目编号、项目类别、项目领域、建设方、承建方和项目规模。在本专利技术所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述监理知识体系结构至少包括产品与案例知识、业务模板和流程知识、工具与方法知识以及政策与规范标准知识。在本专利技术所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述设定时间为5秒。实施本专利技术的基于OCR云识别的信息系统监理知识采集和归档方法,具有以下有益效果:由于本专利技术在信息系统监理业务的管理过程中,自动提取项目资料并应用OCR云识别技术将各类扫描资料进行自动转换成可进行文本搜索的文件类型。OCR云识别基于云计算和先进的深度学习算法可提供无限扩展计算能力和识别各种内容能力,大大提高OCR识别效率和识别精度。专利技术定义了信息系统监理知识库结构构建的一种方法,按照本专利技术的所述方法进行知识资料的分层次,分类别存放。在进行知识检索过程中,使用知识库文件采集和归档时附加的项目属性,对全文检索的结果进行过滤可大大提供知识的检索效率、提高知识的共享水平;因此本专利技术能准确找到需要的项目资料、检索效率较高、OCR识别能力不受限制。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于OCR云识别的信息系统监理知识采集和归档方法一个实施例中的流程图;图2为所述实施例中基于OCR云识别的信息系统的架构图;图3为所述实施例中将项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件的具体流程图;图4为所述实施例中OCR转换服务工作的流程图;图5为所述实施例中监理知识体系结构图;图6为所述实施例中监理业务产品与案例结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术基于OCR云识别的信息系统监理知识采集和归档方法实施例中,该基于OCR云识别的信息系统监理知识采集和归档方法的流程图如图1所示。图1中,该基于OCR云识别的信息系统监理知识采集和归档方法包括如下步骤:步骤S01OCR转换服务从项目资料库中提取项目信息:项目资料库中存放单位原始的监理项目基本信息和监理过程文件。本步骤中,OCR转换服务从项目资料库中提取项目信息。步骤S02将项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件:本步骤中,将项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件。OCR云识别服提供开放的、高性能、高识别能力和高安全性的OCR转换服务。步骤S03OCR转换服务将项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的项目原文件和OCR转换文件添加对应的项目的属性信息:本步骤中,OCR转换服务将项目原文件和OCR转本文档来自技高网...

【技术保护点】
1.一种基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,包括如下步骤:A)OCR转换服务从项目资料库中提取项目信息;B)将所述项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件;C)所述OCR转换服务将所述项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的所述项目原文件和OCR转换文件添加对应的项目的属性信息。

【技术特征摘要】
1.一种基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,包括如下步骤:A)OCR转换服务从项目资料库中提取项目信息;B)将所述项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件;C)所述OCR转换服务将所述项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的所述项目原文件和OCR转换文件添加对应的项目的属性信息。2.根据权利要求1所述的基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,所述步骤B)进一步包括:B1)设置OCR云识别服务的访问地址、应用标识和访问密码;B2)所述OCR转换服务提取监理项目资料;所述监理项目资料包括项目信息和项目附件列表;B3)判断项目附件类型是否是要转换的文件,添加到转换队列;B4)判断所述转换队列是否不为空,如是,执行步骤B5);否则,执行步骤C);B5)设置转换参数并上传项目附件至所述OCR云识别服务;所述转换参数包括文本类型、源文件类型、目标类型和转换语言;B6)每隔设定时间查询所述OCR云识别服务的转换任务的状态;B7)判断OCR云识别服务的转换任务是否完成或出错,如果完成,则执行步骤B8);如果未完成,则返回步骤B6);...

【专利技术属性】
技术研发人员:邱全兵胡宇辉陈进才张冉刘沛鹏
申请(专利权)人:广东省计算技术应用研究所
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1