一种针对已抽取的票据信息进行再加工的方法以及系统技术方案

技术编号：32489571 阅读：18 留言：0更新日期：2022-03-02 09:55

本发明专利技术提供了一种针对已抽取的票据信息进行再加工的方法及系统，所述票据信息再加工的方法包括：对于NER模型抽取的所有票据信息，检索抽取要素的标签名，并同时获取对应的实体内容进行拆解，所述拆解的方法通过AC自动机原理和KMP算法来实现；对于NER模型抽取的所有票据信息进行标准化处理以及信息补全。本发明专利技术的已抽取的票据信息再加工的方法针对不同的票据信息问题给予不同的解决方案，以实现在不同票据的NER(命名体识别)的基础上进行二次拆解和标准化。和标准化。和标准化。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对已抽取的票据信息进行再加工的方法以及系统

[0001]本专利技术涉及票据信息处理领域，具体而言，涉及一种针对已抽取的票据信息进行再加工的方法以及系统。

技术介绍

[0002]随着人工智能的技术成熟，票据信息抽取(NER)已经开始在实际生产中部署落地，相应的模型框架的也如雨后春笋。比如预训练模型代表作有百度的ERINE
‑
LAYOUT，微软LAYOUTLM等，端对端的有PICK等。
[0003]然而这些模型只负责抽取想要的票据内容，对抽取的内容不做任何加工和修改。可在实际生产中，不同的单据对信息的表述有可能不同的形式，比如，日期，有的是英文格式，有的是纯数字格式。这给下级任务的使用带来很大的不便。
[0004]此外，模型训练时(预训练的fine
‑
tune)我们需要预先定义抽取信息的颗粒度，太小的信息颗粒会加大模型的学习难度，同时也会增加标注任务的复杂度，从而导致标注成本增加和标注效率下降。
[0005]除此之外，模型抽取信息的完整性依赖OCR任务中文字识别效果，模型不会对这类错误进行矫正。后续很多工作都是基于专家规则，这些规则几乎固定不变，识别的错误会最终导致规则失配。
[0006]有鉴于此，特提出本专利技术。

技术实现思路

[0007]有鉴于此，本专利技术公开了一种针对已抽取的票据信息进行再加工的方法，该方法实现了针对不同的票据信息问题给予不同的解决方案，以实现在不同票据的NER(命名体识别)的基础上进行二次拆解和标准化。<...

【技术保护点】

【技术特征摘要】
1.一种针对已抽取的票据信息进行再加工的方法，其特征在于，包括如下步骤：对于NER模型抽取的所有票据信息，检索抽取要素的标签名，并同时获取对应的实体内容进行拆解，所述拆解的方法主要通过AC自动机原理和KMP算法来实现，然后标准化处理；或对于NER模型抽取的所有票据信息进行标准化处理以及信息补全。2.根据权利要求1所述的票据信息进行再加工的方法，其特征在于，在拆解过程中，通过计算编辑距离辅助所述拆解过程。3.根据权利要求2所述的票据信息进行再加工的方法，其特征在于，计算编辑距离的方法包括：通过标准语料库，计算抽取的实体内容与所述标准语料库的每句话的编辑距离；找到编辑距离最小的语句，替换获取的实体内容。4.根据权利要求1所述的票据信息进行再加工的方法，其特征在于，所述拆解的方法包括：采用AC自动机识别关键字和及其所在的位置区间，以定义实体内容所需标签类型；采用KMP算法识别特殊字符及其所在的位置，以对实体内容进行拆解归类。5.根据权利要求1所述的票据信息进行再加工的方法，其特征在于，所述标准化处理的过程包括：先判断抽取的票据信息是否需要标准化，然后根据不同票据信息的类型进行内容标准化。6.根据权利要求5所...

【专利技术属性】
技术研发人员：张强豪，
申请(专利权)人：金科览智科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人