System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种合同文档的数据提取方法和装置制造方法及图纸_技高网

一种合同文档的数据提取方法和装置制造方法及图纸

技术编号:40059030 阅读:9 留言:0更新日期:2024-01-16 22:23
本申请公开了一种合同文档的数据提取方法和装置,所述方法包括以下步骤:从产品库获取合同文档索引链对目标产品的非结构化合同文档进行分类;根据分类结果,将所述目标产品的非结构化合同文档转换为半结构化合同文档;根据要素规则库中预先配置的要素规则、预训练推理模型和所述半结构化合同文档构建结构化合同文档。本申请的方法能够适用不同格式的电子合同解析,信息覆盖度全面、准确率高,通过自定义配置的启发式要素规则并结合文本匹配与问答模型的技术方案,在缩减了合同解析时间的同时,提升了提取要素的准确度。

【技术实现步骤摘要】

本申请涉及数据处理,特别涉及一种合同文档的数据提取方法和装置


技术介绍

1、目前基于预训练语言模型的端到端信息抽取方法,依赖于大量训练样本,不适用于私募领域信息披露程度低的情况。私募基金行业数据不宜获取、样本量少,且通用合同结构化方法垂直领域覆盖度不广、准确性不高、信息不完整。


技术实现思路

1、为了解决现有技术的问题,本申请实施例提供了一种合同文档的数据提取方法和装置。所述技术方案如下:

2、第一方面,提供一种合同文档的数据提取方法,包括以下步骤:

3、从产品库获取合同文档索引链对目标产品的非结构化合同文档进行分类;

4、根据分类结果,将所述目标产品的非结构化合同文档转换为半结构化合同文档;

5、根据要素规则库中预先配置的要素规则、预训练推理模型和所述半结构化合同文档构建结构化合同文档。

6、可选的,所述从产品库获取合同文档索引链对目标产品的非结构化合同文档进行分类,包括:

7、从产品库获取合同文档索引链,根据所述合同文档索引链对目标产品的非结构化合同文档进行分类,确定所述目标产品的合同类型、合同格式和合同种类。

8、可选的,所述将目标产品的非结构化合同文档转换为半结构化合同文档,包括:

9、识别并提取所述非结构化合同文档中的半结构化合同文档要素,其中,所述半结构化合同文档要素包括章节、段落、语句、表格、图片和公式;

10、通过所述半结构化合同文档要素构建文档对象,得到所述半结构化合同文档。

11、可选的,所述根据要素规则库中预先配置的要素规则、预训练推理模型和所述半结构化合同文档构建结构化合同文档,包括:

12、根据答案路径,从所述半结构化合同文档中,获取目标要素和对应的答案类型;

13、根据答案匹配、答案问答推理和答案召回算法,从半结构化文档中提取所述目标要素对应的答案;

14、根据所述目标要素、所述对应的答案类型和所述对应的答案,构建结构化合同文档。

15、可选的,所述方法还包括:

16、对所述结构化合同文档中的半结构化合同文档要素进行校验。

17、可选的,所述方法还包括:

18、根据校验结果更新所述要素规则库中预先的配置规则和预训练推理模型。

19、第二方面,提供一种合同文档的数据提取装置,包括:

20、分类模块,用于从产品库获取合同文档索引链对目标产品的非结构化合同文档进行分类;

21、解析模块,用于根据分类解结果,将所述目标产品的非结构化合同文档转换为半结构化合同文档;

22、处理模块,用于根据要素规则库中预先配置的要素规则、预训练推理模型和所述半结构化合同文档构建结构化合同文档。

23、可选的,所述分类模块,具体用于:

24、从产品库获取合同文档索引链,根据所述合同文档索引链对目标产品的非结构化合同文档进行分类,确定所述目标产品的合同类型、合同格式和合同种类。

25、可选的,所述解析模块,具体用于:

26、识别并提取所述非结构化合同文档中的半结构化合同文档要素,其中,所述半结构化合同文档要素包括章节、段落、语句、表格、图片和公式;

27、通过所述半结构化合同文档要素构建文档对象,得到所述半结构化合同文档。

28、可选的,所述处理模块,具体用于:

29、根据答案路径,从所述半结构化合同文档中,获取目标要素和对应的答案类型;

30、根据答案匹配、答案问答推理和答案召回算法,从半结构化文档中提取所述目标要素对应的答案;

31、根据所述目标要素、所述对应的答案类型和所述对应的答案,构建结构化合同文档。

32、第三方面,提供一种电子设备,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的合同文档的数据提取方法。

33、第四方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述第一方面所述的合同文档的数据提取方法。

34、本申请实施例提供的技术方案带来的有益效果是:本申请实施例中,从产品库获取合同文档索引链对目标产品的非结构化合同文档进行分类;根据分类结果,将所述目标产品的非结构化合同文档转换为半结构化合同文档;根据要素规则库中预先配置的要素规则、预训练推理模型和所述半结构化合同文档构建结构化合同文档。本申请的方法能够适用不同格式的电子合同解析,信息覆盖度全面、准确率高,通过自定义配置的启发式要素规则并结合文本匹配与问答模型的技术方案,在缩减了合同解析时间的同时,提升了提取要素的准确度。

本文档来自技高网...

【技术保护点】

1.一种合同文档的数据提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述从产品库获取合同文档索引链对目标产品的非结构化合同文档进行分类,包括:

3.根据权利要求1所述的方法,其特征在于,所述将目标产品的非结构化合同文档转换为半结构化合同文档,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据要素规则库中预先配置的要素规则、预训练推理模型和所述半结构化合同文档构建结构化合同文档,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.一种合同文档的数据提取装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述分类模块,具体用于:

9.根据权利要求7所述的装置,其特征在于,所述解析模块,具体用于:

10.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于:

11.一种电子设备,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一项所述的合同文档的数据提取方法。

12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任一项所述的合同文档的数据提取方法。

...

【技术特征摘要】

1.一种合同文档的数据提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述从产品库获取合同文档索引链对目标产品的非结构化合同文档进行分类,包括:

3.根据权利要求1所述的方法,其特征在于,所述将目标产品的非结构化合同文档转换为半结构化合同文档,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据要素规则库中预先配置的要素规则、预训练推理模型和所述半结构化合同文档构建结构化合同文档,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.一种合同文档的数据提取装置,其特征在于,包括:

8.根据权利要求7所述的装置,其...

【专利技术属性】
技术研发人员:谢恺章炣
申请(专利权)人:上海诺亚投资管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1