合同文本识别方法及装置制造方法及图纸

技术编号:34347986 阅读:60 留言:0更新日期:2022-07-31 05:10
本申请提供合同文本识别方法及装置,其中,合同文本识别方法包括:通过获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;对目标文本内容进行类型识别,得到目标文本内容的文本类型;在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。通过上述方法,可以大大降低类型识别的数据处理量,提高了类型识别的效率,并且提升了合同文本识别的精度。并且提升了合同文本识别的精度。并且提升了合同文本识别的精度。

Contract text recognition method and device

【技术实现步骤摘要】
合同文本识别方法及装置


[0001]本申请涉及人工智能
,特别涉及一种合同文本识别方法。本申请同时涉及一种合同文本识别装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。
[0003]随着人工智能技术的不断发展,人工智能技术在自然语言处理领域中已得到深入的应用,尤其是针对合同文本,人工智能技术的引入,可以实现对合同文本的类型自动识别,能够大大提升企业的效率。传统的人工智能方法中,直接将合同文本输入预先训练的基于深度学习的类型识别模型中,即可得到合同文本的类型。
[0004]然而,合同文本的篇幅越来越长、类型越来越多,而基于深度学习的类型识别模型受训练样本的限制,在训练样本有限的情况下,难免会出现识别错误的情况。因此,需要提供更为高效、准确的合同文本识别方案。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种合同文本识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种合同文本识别装置,一种计算设备,以及一种计算机可读存储介质。
[0006]根据本申请实施例的第一方面,提供了一种合同文本识别方法,包括:
[0007]获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;
[0008]对目标文本内容进行类型识别,得到目标文本内容的文本类型;
[0009]在文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。
[0010]根据本申请实施例的第二方面,提供了一种合同文本识别装置,包括:
[0011]筛选模块,被配置为获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;
[0012]识别模块,被配置为对目标文本内容进行类型识别,得到目标文本内容的文本类型;
[0013]提取模块,被配置为在文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。
[0014]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0015]存储器和处理器;
[0016]存储器用于存储计算机可执行指令,处理器执行计算机可执行指令时实现本申请实施例第一方面提供的合同文本识别方法。
[0017]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请实施例第一方面提供的合同文本识别方法。
[0018]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现本申请实施例第一方面提供的合同文本识别方法。
[0019]本申请提供的合同文本识别方法,通过获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;对目标文本内容进行类型识别,得到目标文本内容的文本类型;在文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。通过上述方法,从合同文本中提取符合预设条件的目标文本内容并对目标文本内容进行类型识别,可以大大降低类型识别的数据处理量,提高了类型识别的效率。并且在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,从而确定合同文本的识别结果,通过对合同文本中符合预设条件的目标文本内容进行提取,结合类型识别,对合同文本的类型进行初步识别,再经过对指定类型的目标文本内容中的实体信息进行提取,结合实体信息确定合同文本的识别结果,从而提升了合同文本识别的精度。
附图说明
[0020]图1示出了根据本申请实施例提供的一种合同文本识别系统的结构示意图;
[0021]图2示出了根据本申请一实施例提供的一种合同文本识别方法的流程图;
[0022]图3示出了根据本申请一实施例提供的一种合同文本识别方法中提取目标文本内容的流程图;
[0023]图4示出了根据本申请一实施例提供的一种合同文本识别方法中文本分类模型训练的流程图;
[0024]图5示出了根据本申请一实施例提供的一种合同文本识别方法中实体识别模型训练的流程图;
[0025]图6示出了根据本申请一实施例提供的一种合同文本识别方法中确定合同文本的识别结果的流程图;
[0026]图7示出了本申请一实施例提供的一种应用于账款类型合同的合同文本识别方法的处理流程图;
[0027]图8示出了本申请一实施例提供的一种合同文本识别装置的结构示意图;
[0028]图9示出了根据本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0029]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0030]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而
非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0031]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0032]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0033]信息抽取:指从结构化、半结构化或非结构化文本中提取结构化信息的技术。
[0034]BERT(Bidirectional Encoder Representation from Transformers):一种开源的预训练语言模型。
[0035]命名实体识别(NER,Named Entity Recognition):指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
[0036]文本分类:指在给定的分类体系中,将文本指定分到某个或某几个类别中。
[0037]实体:指文本中具有特定意义的实体词汇或者短语描述。
[0038]账款类型:可以反映合同收、付款方角色信息的文本句子。
[0039]在本申请中,提供了一种合同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合同文本识别方法,其特征在于,包括:获取合同文本,提取所述合同文本中符合预设条件的目标文本内容,其中,所述预设条件基于指定类型的特征信息设置;对所述目标文本内容进行类型识别,得到所述目标文本内容的文本类型;在所述文本类型为所述指定类型的情况下,提取所述目标文本内容中的实体信息,确定所述合同文本的识别结果。2.根据权利要求1所述的方法,其特征在于,所述提取所述合同文本中符合预设条件的目标文本内容,包括:对所述合同文本进行划分,得到所述合同文本中的各文本内容;针对任一文本内容,将该文本内容中的词语与预设行为关键词库进行匹配,若匹配结果符合预设匹配条件,则确定该文本内容为目标文本内容,其中,所述预设行为关键词库中记录有指定类型下的行为关键词。3.根据权利要求2所述的方法,其特征在于,所述预设匹配条件为文本内容中与所述预设行为关键词库匹配的词语占比达到预设占比阈值。4.根据权利要求1所述的方法,其特征在于,所述指定类型的目标文本内容为多条;所述确定所述合同文本的识别结果,包括:对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果;利用所述实体融合结果,对各所述实体信息进行校正,获得校正后的实体信息;整合所述文本类型和所述校正后的实体信息,获得所述合同文本的识别结果。5.根据权利要求4所述的方法,其特征在于,所述提取所述目标文本内容中的实体信息,包括:选择预设数目条所述指定类型的目标文本内容,依次提取预设数目条所述指定类型的目标文本内容中的实体信息;所述对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果,包括:对预设数目条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果。6.根据权利要求4或5所述的方法,其特征在于,所述实体信息包括所述指定类型的目标文本内容中的实体词语,其中,所述指定类型的目标文本内容中的实体词语携带有对应的实体标签;所述对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果,包括:对多条所述指定类型的目标文本内容中具有相同实体标签的实体词语进行统计;根据统计结果,得到实体融合结果。7.根据权利要求4或5所述的方法,其特征在于,所述利用所述实体融合结果,对各所述实体信息进行校正,获得校正后的实体信息,包括:将所述实体融合结果与各所述实体信息进行匹配;确定匹配成功的实体信息作为校正后的实体信息,并删除匹配失败的实体信息。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述目标文本内容进行类型识别,得到所述目标文本内容的文本类型,包括:将所述目标文本内容输入文本分类模型,得到所述目标文本内容的文本类型,其中,所述文本分类模型基于携带有类型标签的样本文本预先训练得到。9.根据权利要求8所述的方法,其特征在于,在所述将所述目标文本内容输入文本分类模型,得到所述目标文本内容的文本类型之前,还包括:获取第一训练集和第一待标注样本文本,其中,所述第一训练集包括多个携带有类型标签的样本文本...

【专利技术属性】
技术研发人员:弓源李长亮
申请(专利权)人:成都金山互动娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1