合同文本识别方法及装置制造方法及图纸

技术编号：34347986 阅读：60 留言：0更新日期：2022-07-31 05:10

本申请提供合同文本识别方法及装置，其中，合同文本识别方法包括：通过获取合同文本，提取合同文本中符合预设条件的目标文本内容，其中，预设条件基于指定类型的特征信息设置；对目标文本内容进行类型识别，得到目标文本内容的文本类型；在目标文本内容的文本类型为指定类型的情况下，提取目标文本内容中的实体信息，确定合同文本的识别结果。通过上述方法，可以大大降低类型识别的数据处理量，提高了类型识别的效率，并且提升了合同文本识别的精度。并且提升了合同文本识别的精度。并且提升了合同文本识别的精度。

Contract text recognition method and device

全部详细技术资料下载

【技术实现步骤摘要】
合同文本识别方法及装置

[0001]本申请涉及人工智能
，特别涉及一种合同文本识别方法。本申请同时涉及一种合同文本识别装置、一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(AI，Artificial Intelligence)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。
[0003]随着人工智能技术的不断发展，人工智能技术在自然语言处理领域中已得到深入的应用，尤其是针对合同文本，人工智能技术的引入，可以实现对合同文本的类型自动识别，能够大大提升企业的效率。传统的人工智能方法中，直接将合同文本输入预先训练的基于深度学习的类型识别模型中，即可得到合同文本的类型。
[0004]然而，合同文本的篇幅越来越长、类型越来越多，而基于深度学习的类型识别模型受训练样本的限制，在训练样本有限的情况下，难免会出现识别错误的情况。因此，需要提供更为高效、准确的合同文本识别方案。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种合同文本识别方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种合同文本识别装置，一种计算设备，以及一种计算机可读存储介质。
[0006]根据本申请实施例的第一方面，提供了一种合同文本识别方法，包括：
[0007]获取合同文本，提取合同文...

【技术保护点】

【技术特征摘要】
1.一种合同文本识别方法，其特征在于，包括：获取合同文本，提取所述合同文本中符合预设条件的目标文本内容，其中，所述预设条件基于指定类型的特征信息设置；对所述目标文本内容进行类型识别，得到所述目标文本内容的文本类型；在所述文本类型为所述指定类型的情况下，提取所述目标文本内容中的实体信息，确定所述合同文本的识别结果。2.根据权利要求1所述的方法，其特征在于，所述提取所述合同文本中符合预设条件的目标文本内容，包括：对所述合同文本进行划分，得到所述合同文本中的各文本内容；针对任一文本内容，将该文本内容中的词语与预设行为关键词库进行匹配，若匹配结果符合预设匹配条件，则确定该文本内容为目标文本内容，其中，所述预设行为关键词库中记录有指定类型下的行为关键词。3.根据权利要求2所述的方法，其特征在于，所述预设匹配条件为文本内容中与所述预设行为关键词库匹配的词语占比达到预设占比阈值。4.根据权利要求1所述的方法，其特征在于，所述指定类型的目标文本内容为多条；所述确定所述合同文本的识别结果，包括：对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理，得到实体融合结果；利用所述实体融合结果，对各所述实体信息进行校正，获得校正后的实体信息；整合所述文本类型和所述校正后的实体信息，获得所述合同文本的识别结果。5.根据权利要求4所述的方法，其特征在于，所述提取所述目标文本内容中的实体信息，包括：选择预设数目条所述指定类型的目标文本内容，依次提取预设数目条所述指定类型的目标文本内容中的实体信息；所述对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理，得到实体融合结果，包括：对预设数目条所述指定类型的目标文本内容中的实体信息进行信息融合处理，得到实体融合结果。6.根据权利要求4或5所述的方法，其特征在于，所述实体信息包括所述指定类型的目标文本内容中的实体词语，其中，所述指定类型的目标文本内容中的实体词语携带有对应的实体标签；所述对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理，得到实体融合结果，包括：对多条所述指定类型的目标文本内容中具有相同实体标签的实体词语进行统计；根据统计结果，得到实体融合结果。7.根据权利要求4或5所述的方法，其特征在于，所述利用所述实体融合结果，对各所述实体信息进行校正，获得校正后的实体信息，包括：将所述实体融合结果与各所述实体信息进行匹配；确定匹配成功的实体信息作为校正后的实体信息，并删除匹配失败的实体信息。
8.根据权利要求1至5任一项所述的方法，其特征在于，所述对所述目标文本内容进行类型识别，得到所述目标文本内容的文本类型，包括：将所述目标文本内容输入文本分类模型，得到所述目标文本内容的文本类型，其中，所述文本分类模型基于携带有类型标签的样本文本预先训练得到。9.根据权利要求8所述的方法，其特征在于，在所述将所述目标文本内容输入文本分类模型，得到所述目标文本内容的文本类型之前，还包括：获取第一训练集和第一待标注样本文本，其中，所述第一训练集包括多个携带有类型标签的样本文本...

【专利技术属性】
技术研发人员：弓源，李长亮，
申请(专利权)人：成都金山互动娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人