信息提取模板生成方法及装置、介质、设备制造方法及图纸

技术编号:38073016 阅读:10 留言:0更新日期:2023-07-06 08:41
本发明专利技术提供一种信息提取模板生成方法及装置、介质、设备。方法包括:获取预先设置的标定样本;对所述标定样本进行解析,得到标定参数;其中,所述标定参数包括文本信息类参数和区域信息类参数;根据所述文本信息类参数和/或所述区域信息类参数,生成文字信息提取模板;其中,所述文字信息提取模板为针对所述标定样本所属类型的待提取材料的信息提取规则;保存所述文字信息提取模板。本发明专利技术不需要依赖大量的样本且不需要经历样本清洗、样本标注、训练、测试以及部署等环节,可见减少开发精力,对于工作人员的要求不高。而且,由于本发明专利技术实施例提供的方法的要求不高,因此针对各种场景具有广泛的适用性,也易于实现。也易于实现。也易于实现。

【技术实现步骤摘要】
信息提取模板生成方法及装置、介质、设备


[0001]本专利技术涉及自定义模板
,特别是涉及一种信息提取模板生成方法及装置、介质、设备。

技术介绍

[0002]在文字信息相关的应用场景中,文字信息提取是技术产生价值的关键。例如,在数字政府建设中,常见的身份证、营业执照等材料,需要提取出其中的字段信息,如“姓名:张三”、“统一社会信用代码:123NX456”等。
[0003]根据应用场景的不同,文字信息提取的技术方案和难易程度区别很大。对于简单的应用场景,如仅有一条由“字段:信息”组成的数据,直接可以通过符号切割出信息,或者采用正则表达式提取信息。对于稍微复杂一些的场景,例如有多条“字段:信息;
……
;字段:信息”组成的数据,可以将正则表达式组合使用,达到提取多条字段信息的目的。对于更复杂的场景,例如“字段:信息”不明显、跨行、表格等情况,一些研究者常采用自定义模板来提取字段信息。另外,对于大篇幅文字信息的场景,如合同、规划书等,一些研究者常采用基于自然语言处理技术进行语义分析,提取指定信息。
[0004]然而,依次来看各种技术方案,很难实现广泛的适用性。虽然自然语言处理技术具有比较强的适用性,但在面对复杂的场景时,需要依赖大量的样本,且要经历样本清洗、样本标注、训练、测试以及部署等环节,各个环节都将花费大量精力开发,对研究者的开发水平要求颇高。由此,若没有一套成熟的开发流程,将难以维系业务开展,最终技术难以落地。

技术实现思路

[0005]针对以上至少一个技术问题,本专利技术实施例提供一种信息提取模板生成方法及装置、介质、设备。
[0006]根据第一方面,本专利技术实施例提供的信息提取模板生成方法包括:
[0007]获取预先设置的标定样本;
[0008]对所述标定样本进行解析,得到标定参数;其中,所述标定参数包括文本信息类参数和区域信息类参数;
[0009]根据所述文本信息类参数和/或所述区域信息类参数,生成文字信息提取模板;其中,所述文字信息提取模板为针对所述标定样本所属类型的待提取材料的信息提取规则;
[0010]保存所述文字信息提取模板。
[0011]根据第二方面,本专利技术实施例提供的信息提取模板生成装置,包括:
[0012]样本获取模块,用于获取预先设置的标定样本;
[0013]样本解析模块,用于对所述标定样本进行解析,得到标定参数;其中,所述标定参数包括文本信息类参数和区域信息类参数;
[0014]模板生成模块,用于根据所述文本信息类参数和/或所述区域信息类参数,生成文字信息提取模板;其中,所述文字信息提取模板为针对所述标定样本所属类型的待提取材
料的信息提取规则;
[0015]模板保存模块,用于保存所述文字信息提取模板。
[0016]根据第三方面,本专利技术实施例提供计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行实现第一方面提供的方法。
[0017]根据第四方面,本专利技术实施例提供的计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的方法。
[0018]本专利技术实施例提供的信息提取模板生成方法及装置、介质、设备,各自或者组合具有如下有益效果:
[0019](1)首先获取预先设置的标定样本,然后对所述标定样本进行解析,得到标定参数,再根据所述文本信息类参数和/或所述区域信息类参数,生成文字信息提取模板,所述文字信息提取模板为针对所述标定样本所属类型的待提取材料的信息提取规则;最后保存所述文字信息提取模板。可见本专利技术实施例提供的方法针对某一种文字信息提取场景,利用少量的标定样本便可以实现文字识别模板的自动生成,不需要依赖大量的样本且不需要经历样本清洗、样本标注、训练、测试以及部署等环节,可见减少开发精力,对于工作人员的要求不高。而且,由于本专利技术实施例提供的方法的要求不高,因此针对各种场景具有广泛的适用性,也易于实现。
[0020](2)在一个实施例中,利用文字识别模板提取信息时,可以实现自定义的返回字段,还可以实现生僻字纠错、区域偏移纠正、一些信息的删除和不必要信息的不提取等功能,可见具有易部署、适用性强、快速适配、便于管理、无代码开发等需求,极大提升了文字信息提取的准确性和利用效率。
附图说明
[0021]图1为本专利技术一实施例中信息提取模板生成方法的流程示意图;
[0022]图2为本专利技术一个实施例中S120~S140的流程示意图;
[0023]图3为本专利技术一个实施例中标定区域的示意图;
[0024]图4为本专利技术一个实施例中在应用信息提取模板时部署的系统架构的示意图。
具体实施方式
[0025]第一方面,本专利技术实施例提供一种信息提取模板生成方法,参见图1,该方法包括如下步骤S110~S140:
[0026]S110、获取预先设置的标定样本;
[0027]在实际场景中,在执行S110之前,需要选择标准的样本材料,通过前端操作界面或者其他辅助工具,按照一定规则在样本材料上标定出信息区域并填写信息区域的相关参数,例如参见图3。标定的信息可以分为两类:一类是文本信息类参数和区域信息类参数,区域信息类参数包括对信息区域的标定,文本信息类参数包括对区域中相关字段的标定。然后将标定好的样本作为标定样本存储在介质中,供算法查询使用。在需要生成信息提取模板时,则从介质中获取标定样本。
[0028]S120、对所述标定样本进行解析,得到标定参数;其中,所述标定参数包括文本信息类参数和区域信息类参数;
[0029]也就是说,按照一定的规则解析出所述标定样本中的标定参数。
[0030]其中,标定参数中的文本信息类参数可以包括文本类型、显示字段对、隐式字段对、删除字段、非必要字段、替换字段,区域信息类参数可以包括信息区域,例如,边界标识区域、特定识别区域等。
[0031]在一个实施例中,所述文本信息类参数可以包括显示字段对和隐式字段对;其中:
[0032]所述显示字段对为从符合“键—值”结构的信息中提取出的字段对,所述显示字段对由第一字段和第二字段形成,所述第二字段与所述标定样本中所述值对应的字段名称一致,所述第一字段为所述第二字段的英文形式;
[0033]所述隐式字段对为从符合“第一字符串



第二字符串”结构的信息中提取出的字段对,所述隐式字段对由第三字段和第四字段形成,所述第四字段与所述标定样本中所述第一字符串的名称一致,所述第三字段为所述第四字段的英文形式。
[0034]其中,“键—值”结构是指“key

value”,例如“姓名:张三”、“性别:男”等。从“姓名:张三”提取出的字段名称为“姓名”,即这一结构信息中的值为“张三”,“张三”对应的字段名称为“姓名”,因此将“姓名”作为第二字段,第一字段为“姓名”的英文形式,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取模板生成方法,其特征在于,包括:获取预先设置的标定样本;对所述标定样本进行解析,得到标定参数;其中,所述标定参数包括文本信息类参数和区域信息类参数;根据所述文本信息类参数和/或所述区域信息类参数,生成文字信息提取模板;其中,所述文字信息提取模板为针对所述标定样本所属类型的待提取材料的信息提取规则;保存所述文字信息提取模板。2.根据权利要求1所述的方法,其特征在于,所述文本信息类参数包括显示字段对和隐式字段对;其中:所述显示字段对为从符合“键—值”结构的信息中提取出的字段对,所述显示字段对由第一字段和第二字段形成,所述第二字段与所述标定样本中所述值对应的字段名称一致,所述第一字段为所述第二字段的英文形式;所述隐式字段对为从符合“第一字符串



第二字符串”结构的信息中提取出的字段对,所述隐式字段对由第三字段和第四字段形成,所述第四字段与所述标定样本中所述第一字符串的名称一致,所述第三字段为所述第四字段的英文形式。3.根据权利要求2所述的方法,其特征在于,所述文本信息类字段还包括删除字段、非必要字段和替换字段;其中:所述删除字段为所述标定样本中需要删除的字段或字符;所述非必要字段为所述标定样本中不需要提取的字段或字符;所述替换字段为所述标定样本中存在文字相似性变种的字段或字符。4.根据权利要求3所述的方法,其特征在于,所述根据所述文本信息类参数和/或所述区域信息类参数,生成文字信息提取模板,包括:对所述显示字段对进行解析,获得第一返回字段和第一文本字段;其中,所述第一返回字段为所述第一字段对应的信息返回字段,所述第一文本字段为所述第二字段;对所述隐式字段对进行解析,获得第二返回字段和第二文本字段;其中,所述第二返回字段为所述第三字段对应的信息返回字段,所述第二文本字段为所述第四字段;对所述第一文本字段、所述第二文本字段、所述删除字段、所述非必要字段和...

【专利技术属性】
技术研发人员:仇恒坦
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1