一种针对已抽取的票据信息进行再加工的方法以及系统技术方案

技术编号:32489571 阅读:18 留言:0更新日期:2022-03-02 09:55
本发明专利技术提供了一种针对已抽取的票据信息进行再加工的方法及系统,所述票据信息再加工的方法包括:对于NER模型抽取的所有票据信息,检索抽取要素的标签名,并同时获取对应的实体内容进行拆解,所述拆解的方法通过AC自动机原理和KMP算法来实现;对于NER模型抽取的所有票据信息进行标准化处理以及信息补全。本发明专利技术的已抽取的票据信息再加工的方法针对不同的票据信息问题给予不同的解决方案,以实现在不同票据的NER(命名体识别)的基础上进行二次拆解和标准化。和标准化。和标准化。

【技术实现步骤摘要】
一种针对已抽取的票据信息进行再加工的方法以及系统


[0001]本专利技术涉及票据信息处理领域,具体而言,涉及一种针对已抽取的票据信息进行再加工的方法以及系统。

技术介绍

[0002]随着人工智能的技术成熟,票据信息抽取(NER)已经开始在实际生产中部署落地,相应的模型框架的也如雨后春笋。比如预训练模型代表作有百度的ERINE

LAYOUT,微软LAYOUTLM等,端对端的有PICK等。
[0003]然而这些模型只负责抽取想要的票据内容,对抽取的内容不做任何加工和修改。可在实际生产中,不同的单据对信息的表述有可能不同的形式,比如,日期,有的是英文格式,有的是纯数字格式。这给下级任务的使用带来很大的不便。
[0004]此外,模型训练时(预训练的fine

tune)我们需要预先定义抽取信息的颗粒度,太小的信息颗粒会加大模型的学习难度,同时也会增加标注任务的复杂度,从而导致标注成本增加和标注效率下降。
[0005]除此之外,模型抽取信息的完整性依赖OCR任务中文字识别效果,模型不会对这类错误进行矫正。后续很多工作都是基于专家规则,这些规则几乎固定不变,识别的错误会最终导致规则失配。
[0006]有鉴于此,特提出本专利技术。

技术实现思路

[0007]有鉴于此,本专利技术公开了一种针对已抽取的票据信息进行再加工的方法,该方法实现了针对不同的票据信息问题给予不同的解决方案,以实现在不同票据的NER(命名体识别)的基础上进行二次拆解和标准化。<br/>[0008]具体地,本专利技术是通过以下技术方案实现的:
[0009]第一方面,本专利技术公开了一种针对已抽取的票据信息进行再加工的方法,所述方法包括:
[0010]对于NER模型抽取的所有票据信息,检索抽取要素的标签名,并同时获取对应的实体内容进行拆解,所述拆解的方法主要通过AC自动机和KMP算法来实现然后标准化处理;
[0011]或对于NER模型抽取的所有票据信息进行标准化处理以及信息补全。
[0012]第二方面,本专利技术公开了一种针对已抽取的票据信息进行再加工的系统,包括:
[0013]拆解模块:用于对NER模型抽取的所有票据信息,检索抽取要素的标签名,并同时获取对应的实体内容进行拆解,所述拆解的方法主要通过AC自动机和KMP算法来实现;
[0014]标准化模块:用于对NER模型抽取的所有票据信息进行标准化处理以及信息补全。
[0015]第三方面,本专利技术公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述票据信息进行再加工的方法的步骤。
[0016]第四方面,本专利技术公开了一种计算机设备,包括存储器、处理器及存储在存储器上
并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述票据信息进行再加工的方法的步骤。
[0017]本专利技术提供的针对已抽取的票据信息进行再加工的方法,实现了对票据抽取要素的二次拆解,二次拆解的操作方式能够大大降低模型抽取难度和标准任务的复杂程度,提高了操作效率,同时也对模型结果提供标准化输出的解决方案和技巧,从而提高复杂票据的信息抽取和理解的智能化。
附图说明
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019]图1为本专利技术实施例提供的已抽取的票据信息的拆解方法流程图;
[0020]图2为本专利技术实施例提供的已抽取的票据信息的标准化方法流程图;
[0021]图3为本专利技术实施例提供的票据信息进行再加工的系统的结构示意图;
[0022]图4为本专利技术实施例提供的一种计算机设备的结构示意图;
[0023]图5为本专利技术实施例提供的需要标准化处理的不同模块类型。
具体实施方式
[0024]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0025]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0026]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0027]本专利技术公开了一种针对已抽取的票据信息进行再加工的方法,所述方法包括:
[0028]对于NER模型抽取的所有票据信息,检索抽取要素的标签名,并同时获取对应的实体内容进行拆解,所述拆解的方法通过AC自动机原理和KMP算法来实现然后标准化处理;
[0029]或对于NER模型抽取的所有票据信息进行标准化处理以及信息补全。
[0030]上述两个方案拆解与标准化处理可以按照步骤进行,比如假若拆解后实体内容需要标准化,就会走标准化流程,比如,商品名和价格被一起抽取出来,拆解为:(商品名,价格),价格有可能需要走标准化流程,当然也可以直接进行标准化处理。
[0031]图1为本专利技术实施例公开的针对票据信息进行拆解的方法,参照图1所示,所述方
法包括如下步骤:
[0032]S101、是NER模型的输出结果,包括实体内容和实体内容所对应的标签类型。
[0033]S102、检索抽取要素的标签名,获取需要拆解的实体内容。该过程中,本专利技术已经假设提前知道需要做二次拆解的要素。根据标签名称,获取其对应的实体内容。
[0034]S103、起辅助作用,OCR文字识别是基于统计概率,因此不能保证其百分之百的识别准确率,同时导致其出错的规律是不可观察的。为解决这个问题,本专利技术通过计算编辑距离来辅助拆解。没有使用传统的方法来计算,比如欧式距离,因为实体内容的字符序列对我们判断实体抽取情况也很重要。首先,我们需要准备一份标准语料库。然后计算抽取的实体内容与语料库的每句话的编辑距离。最后,找到编辑距离最小的语句,替换最初抽取的实体内容。
[0035]S104、该步骤是核心步骤。该步骤中,本专利技术先在AC自动机原理基础上,加入获取索引信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对已抽取的票据信息进行再加工的方法,其特征在于,包括如下步骤:对于NER模型抽取的所有票据信息,检索抽取要素的标签名,并同时获取对应的实体内容进行拆解,所述拆解的方法主要通过AC自动机原理和KMP算法来实现,然后标准化处理;或对于NER模型抽取的所有票据信息进行标准化处理以及信息补全。2.根据权利要求1所述的票据信息进行再加工的方法,其特征在于,在拆解过程中,通过计算编辑距离辅助所述拆解过程。3.根据权利要求2所述的票据信息进行再加工的方法,其特征在于,计算编辑距离的方法包括:通过标准语料库,计算抽取的实体内容与所述标准语料库的每句话的编辑距离;找到编辑距离最小的语句,替换获取的实体内容。4.根据权利要求1所述的票据信息进行再加工的方法,其特征在于,所述拆解的方法包括:采用AC自动机识别关键字和及其所在的位置区间,以定义实体内容所需标签类型;采用KMP算法识别特殊字符及其所在的位置,以对实体内容进行拆解归类。5.根据权利要求1所述的票据信息进行再加工的方法,其特征在于,所述标准化处理的过程包括:先判断抽取的票据信息是否需要标准化,然后根据不同票据信息的类型进行内容标准化。6.根据权利要求5所...

【专利技术属性】
技术研发人员:张强豪
申请(专利权)人:金科览智科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1