一种提取电子文档关键信息的方法及装置制造方法及图纸

技术编号:25185166 阅读:26 留言:0更新日期:2020-08-07 21:13
本发明专利技术公开了提取电子文档关键信息的方法及装置,所述方法包括:获取待提取关键信息的电子文档,当不存在与所述电子文档对应的提取模型时,进入模型构建流程,获取用户标注的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将其配置到提取模型中;获取用户的第一指令,基于所述第一指令存储所述模型。通过本发明专利技术的方法,不需要重新开发提取程序,通过设计和配置提取参数,就能够精确、快速地提取电子文档中指定关键字段的内容,实现非结构化电子文档的结构化存储,最大程度的节约了设备的处理能力。

【技术实现步骤摘要】
一种提取电子文档关键信息的方法及装置
本专利技术实施例涉及信息处理
,特别涉及一种提取电子文档关键信息的方法及装置。
技术介绍
随着无纸化办公应用越来越广泛,对电子文档内容进行提取和检索的需求也日渐凸出,例如,当需要将电子文档内容并入关系数据库,或者,电子文档的部分内容需要和信息系统对接时,就需要将把电子文档中的关键信息提取出来,并进行结构化存储。现有技术中,针对电子文档提取关键信息主要采用以下两种方式:1、使用文档抽取工具ETL,将电子文档中的内容以单个字符串的方式提取到数据库中;2、使用程序提取,通过编程的方式从电子文档中提取文本。上述方式1中,笼统地提取所有文字信息,再从中筛选得到所需要的信息,所提取出来的信息冗杂、多余,且不必要地浪费了设备的处理能力,不能精确、快速地提取电子文档中指定关键字段的内容,而方式2则需要对每一种电子文档类型或样式单独研发程序,当针对特定电子文档的类型或样式发生变化时,也需要重新研发程序,带来了额外的开发负担。此外,上述两种方式中均未涉及到如何在多个装置之间共享、同步电子文档提取模型,不利于提取模型的统一化。综上,如何在不需要开发的前提下即可精确、快速地提取电子文档中指定关键字段的内容,最大程度的节约设备的处理能力,如何满足电子文档更新后的提取需求,以及如何在多个装置之间共享、同步电子文档提取模型,成为了亟需解决的问题。
技术实现思路
针对现有技术中的问题,本专利技术提供一种提取电子文档关键信息的方法及装置。本专利技术提供一种提取电子文档关键信息的方法,所述方法包括:S101,获取待提取关键信息的电子文档;S102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;S103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;S104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;S105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;S106,获取用户的第一指令,基于所述第一指令存储所述模型;所述步骤S105具体为:S1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;S1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;S1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。优选的,所述步骤S106具体为,获取用户的第一指令,基于所述第一指令存储所述模型,其中,所述第一指令中携带所述提取模型的第一属性,所述第一属性可以为私有模型、有限公有模型、公有模型。若用户的第一指令中携带的第一属性为私有模型,则将所述模型存储在本地,若用户的第一指令中携带的第一属性为有限公有模型,则将所述模型存储在本地后,根据所述第一指令中携带的有限公有范围,向属于所述有限公有范围的其他装置发送所述模型。若用户的第一指令中携带的第一属性为公有模型,则将所述模型存储在本地后,还将其上传到云服务器。优选的,本专利技术的方法还包括:S201,获取更新前电子文档和更新后电子文档;S202,标注所述更新前电子文档的关键特征,识别所述更新前电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,确定与所述更新前电子文档对应的提取模型;S203,加载所述提取模型,基于所述提取模型提取所述更新前电子文档的关键信息;S204,确定所述关键信息在更新后电子文档中的第一位置信息,基于所述第一位置信息更新所述提取模型中的提取策略;S205,保存所述更新后的提取模型。优选的,在步骤S205之后,执行步骤206,根据所述提取模型的第一属性,对有限公有范围的其他装置、云服务器中存储的提取策略进行更新。本专利技术提供一种提取电子文档关键信息的装置,所述装置包括:第一获取单元,用于获取待提取关键信息的电子文档;标注识别单元,用于标注所述电子文档的关键特征,还用于识别所述的电子文档中表格的至少一个属性;判断单元,用于基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,触发提取单元,否则,触发模型构建单元;所述提取单元,用于加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;所述模型构建单元,用于执行模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;第二获取单元,用于获取用户的第一指令,触发所述模型构建单元。所述模型构建单元,还用于响应于第二获取单元的触发,基于所述第一指令将所述模型存储到存储单元中;所述模型构建单元所执行的模型构建流程,具体为:获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息;所述存储单元,用于存储提取模型。优选的,所述第一指令中还携带所述提取模型的第一属性,所述第一属性可以为私有模型、有限公有模型、公有模型。所述装置还包括:同步单元,用于根据第二获取单元的触发而执行相应操作,具体的,在用户的第一指令中携带的第一属性为有限公有模型时,所述第二获取单元触发所述同步单元根据所述第一指令中携带的有限公有范围,向属于所述有限公有范围的其他装置发送所述模型,在用户的第一指令中携带的第一属性为公有模型时,所述第二获取单元触发所述同步单元将所述模型上传到云服务器。优选的,所述装置还包括更新单元,用于基于更新前后的电子文档更新提取模型,具体的,获取更新前电子文档和更新后电子文档;标注所述更新前电子文档的关键特征,识别所述更新前电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,确定与所述更新前电子文档对应的提取模型;加载所述提取模型,基于所述提取模型提取所述更新前电子文档的关键信息;确定所述关键信息在更新后电子文档中的第一位置信息,基于所述第一位置信息更新所述提取模型中的提取策略;将所述更新后的提取模型存储在存储单元中,优选的,所述更新单元,还用于获取所述关键信息对应的关键字段名称在所述更新后电子文档中的第二位置信息,基于所述第一位置信息和第二位置信息更新所述提取模型中的提取策略。本专利技术还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所本文档来自技高网...

【技术保护点】
1.一种提取电子文档关键信息的方法,其特征在于,所述方法包括:/nS101,获取待提取关键信息的电子文档;/nS102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;/nS103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;/nS104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;/nS105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;/nS106,获取用户的第一指令,基于所述第一指令存储所述模型;/n所述步骤S105具体为:/nS1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;/nS1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;/nS1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。/n...

【技术特征摘要】
1.一种提取电子文档关键信息的方法,其特征在于,所述方法包括:
S101,获取待提取关键信息的电子文档;
S102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;
S103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;
S104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
S105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
S106,获取用户的第一指令,基于所述第一指令存储所述模型;
所述步骤S105具体为:
S1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;
S1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;
S1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。


2.根据权利要求1所述的方法,其特征在于,所述提取模型中包括至少一个关键字段名称、与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个提取策略;所述S104中的基于所述提取模型提取所述电子文档的关键信息,具体为,使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,得到所述电子文档的关键信息。


3.根据权利要求2所述的方法,其特征在于,所述提取模型还包括与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个过滤策略;所述S104中的基于所述提取模型提取所述电子文档的关键信息,具体为,使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,使用对应的过滤策略对提取到的关键字段取值进行过滤,得到所述电子文档的关键信息。


4.根据权利要求1所述的方法,其特征在于,在S1053之后,还执行S1054,获取用户配置的至少一个过滤策略,将所述过滤策略配置到提取模型中,根据所述过滤策略对上述提取到的关键字段取值进行过滤,得到所述电子文档的关键信息,输出所述电子文档的关键信息。


5.一种提取电子文档关键信息的装置,其特征在于,所述装置包括:
第一获取单元,用于获取待提取关键信息的电子文档;
标注识别单元,用于标注所述电子文档的关键特征,还用于识别所述的电子文档中表格的至少一个属性;
判断单元,用于基于所述关键特征和所述表格的至少一个属性,...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:创景未来北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1