【技术实现步骤摘要】
一种提取电子文档关键信息的方法及装置
本专利技术实施例涉及信息处理
,特别涉及一种提取电子文档关键信息的方法及装置。
技术介绍
随着无纸化办公应用越来越广泛,对电子文档内容进行提取和检索的需求也日渐凸出,例如,当需要将电子文档内容并入关系数据库,或者,电子文档的部分内容需要和信息系统对接时,就需要将把电子文档中的关键信息提取出来,并进行结构化存储。现有技术中,针对电子文档提取关键信息主要采用以下两种方式:1、使用文档抽取工具ETL,将电子文档中的内容以单个字符串的方式提取到数据库中;2、使用程序提取,通过编程的方式从电子文档中提取文本。上述方式1中,笼统地提取所有文字信息,再从中筛选得到所需要的信息,所提取出来的信息冗杂、多余,且不必要地浪费了设备的处理能力,不能精确、快速地提取电子文档中指定关键字段的内容,而方式2则需要对每一种电子文档类型或样式单独研发程序,当针对特定电子文档的类型或样式发生变化时,也需要重新研发程序,带来了额外的开发负担。此外,上述两种方式中均未涉及到如何在多个装置之间共享、同步电子文档提取模型,不利于提取模型的统一化。综上,如何在不需要开发的前提下即可精确、快速地提取电子文档中指定关键字段的内容,最大程度的节约设备的处理能力,如何满足电子文档更新后的提取需求,以及如何在多个装置之间共享、同步电子文档提取模型,成为了亟需解决的问题。
技术实现思路
针对现有技术中的问题,本专利技术提供一种提取电子文档关键信息的方法及装置。本专利技术提供一种 ...
【技术保护点】
1.一种提取电子文档关键信息的方法,其特征在于,所述方法包括:/nS101,获取待提取关键信息的电子文档;/nS102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;/nS103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;/nS104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;/nS105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;/nS106,获取用户的第一指令,基于所述第一指令存储所述模型;/n所述步骤S105具体为:/nS1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;/nS1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;/nS1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信 ...
【技术特征摘要】
1.一种提取电子文档关键信息的方法,其特征在于,所述方法包括:
S101,获取待提取关键信息的电子文档;
S102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;
S103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;
S104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
S105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
S106,获取用户的第一指令,基于所述第一指令存储所述模型;
所述步骤S105具体为:
S1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;
S1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;
S1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
2.根据权利要求1所述的方法,其特征在于,所述提取模型中包括至少一个关键字段名称、与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个提取策略;所述S104中的基于所述提取模型提取所述电子文档的关键信息,具体为,使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,得到所述电子文档的关键信息。
3.根据权利要求2所述的方法,其特征在于,所述提取模型还包括与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个过滤策略;所述S104中的基于所述提取模型提取所述电子文档的关键信息,具体为,使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,使用对应的过滤策略对提取到的关键字段取值进行过滤,得到所述电子文档的关键信息。
4.根据权利要求1所述的方法,其特征在于,在S1053之后,还执行S1054,获取用户配置的至少一个过滤策略,将所述过滤策略配置到提取模型中,根据所述过滤策略对上述提取到的关键字段取值进行过滤,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
5.一种提取电子文档关键信息的装置,其特征在于,所述装置包括:
第一获取单元,用于获取待提取关键信息的电子文档;
标注识别单元,用于标注所述电子文档的关键特征,还用于识别所述的电子文档中表格的至少一个属性;
判断单元,用于基于所述关键特征和所述表格的至少一个属性,...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:创景未来北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。