合约信息提取方法及装置制造方法及图纸

技术编号:33449535 阅读:18 留言:0更新日期:2022-05-19 00:34
本申请提供合约信息提取方法及装置,其中合约信息提取方法包括:获取目标合约文本,提取目标合约文本中的目标段落,目标段落包含合约方实体信息;将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到;确定目标合约方标识对应的至少一个目标信息集;根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。还提高了合约信息的精准度。还提高了合约信息的精准度。

【技术实现步骤摘要】
合约信息提取方法及装置


[0001]本申请涉及数据处理
,特别涉及一种合约信息提取方法。本申请同时涉及一种合约信息提取装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。自然语言处理、机器人、计算机视觉成为了人工智能最为热门的三个产业方向。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。随着计算机技术的发展,自然语言处理领域也得到了快速发展,自然语言处理(NLP,Natural Language Processing)是计算机科学领域的一个重要研究方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。
[0003]书面语言是指人们在书写和阅读文章时所使用的语言,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章,如使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。
[0004]文本也是计算机的一种文档类型。随着计算机技术的应用范围越来越广泛,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等合约文本。
[0005]随着大数据时代的到来,合约文本的数量也越来越多,为了减少数据处理量,需要对合约文本的信息进行提取。从合约文本中抽取出合约方信息是合约信息提取的关键一部分,合约方信息提取不仅涉及到实体的识别,还要找出实体之间的关系。现有技术中,利用命名实体识别模型抽取合约文本中的合约方信息,仅仅能够识别出相应的实体,实体之间的关系只能通过预定义的规则判断;此外合约文本的格式多种多样,使用预定义的规则难以覆盖所有可能的情况,并且命名实体识别模型结果错误会直接影响后续实体之间的关系判断。因此,亟需一种有效的方案以解决上述问题。

技术实现思路

[0006]有鉴于此,本申请实施例提供了一种合约信息提取方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种合约信息提取装置,一种计算设备,以及一种计
算机可读存储介质。
[0007]根据本申请实施例的第一方面,提供了一种合约信息提取方法,包括:
[0008]获取目标合约文本,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;
[0009]将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;
[0010]确定目标合约方标识对应的至少一个目标信息集;
[0011]根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。
[0012]根据本申请实施例的第二方面,提供了一种合约信息提取装置,包括:
[0013]提取模块,被配置为获取目标合约文本,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;
[0014]输入模块,被配置为将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;
[0015]第一确定模块,被配置为确定目标合约方标识对应的至少一个目标信息集;
[0016]第二确定模块,被配置为根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。
[0017]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0018]存储器和处理器;
[0019]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述合约信息提取方法的步骤。
[0020]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述合约信息提取方法的步骤。
[0021]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该计算机指令被芯片执行时实现所述合约信息提取方法的步骤。
[0022]本申请提供的合约信息提取方法,通过获取目标合约文本,提取目标合约文本中的目标段落,然后将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,进一步确定目标合约方标识对应的至少一个目标信息集,根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。通过上述方法,将目标段落输入至预先训练的信息集抽取模型中,确定目标段落对应的至少一个信息集,在提取出合约方实体信息的同时,还提取出了表征实体信息与合约方标识之间的关系的信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。
附图说明
[0023]图1是本申请一实施例提供的一种合约信息提取系统的结构示意图;
[0024]图2是根据本申请实施例提供的一种合约信息提取方法的流程图;
[0025]图3是根据本申请实施例提供的一种合约信息提取方法中,获取目标合约文本的方法的流程图;
[0026]图4是根据本申请实施例提供的一种合约信息提取方法中,确定目标段落的方法的流程图;
[0027]图5是根据本申请实施例提供的一种合约信息提取方法中,确定初始段落的方法的流程图;
[0028]图6是根据本申请实施例提供的一种合约信息提取方法中,确定信息集的方法的流程图;
[0029]图7是根据本申请实施例提供的一种合约信息提取方法中,确定合约方标识的方法的流程图;
[0030]图8是根据本申请实施例提供的一种合约信息提取方法中,训练信息集抽取模型的方法的流程图;
[0031]图9是根据本申请实施例提供的一种合约信息提取方法中,调整参数的方法的流程图;
[0032]图10是根据本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合约信息提取方法,其特征在于,包括:获取目标合约文本,提取所述目标合约文本中的目标段落,其中,所述目标段落包含合约方实体信息;将所述目标段落输入至预先训练的信息集抽取模型中,得到所述目标段落对应的至少一个信息集,其中,所述信息集中包含合约方标识、信息类别和合约方实体信息,所述信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,所述信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;确定目标合约方标识对应的至少一个目标信息集;根据各所述目标信息集中的所述信息类别和所述合约方实体信息,确定所述目标合约方标识对应的合约信息。2.根据权利要求1所述的方法,其特征在于,所述获取目标合约文本,包括:获取初始合约文本;在所述初始合约文本的格式为非目标格式的情况下,将所述初始合约文本的格式转换为目标格式,得到所述目标合约文本。3.根据权利要求1所述的方法,其特征在于,所述提取所述目标合约文本中的目标段落,包括:提取所述目标合约文本中的至少一个初始段落,其中,所述初始段落包含合约方实体信息;确定各所述初始段落在所述目标合约文本中的段落序号;将所述段落序号相连的多个初始段落进行整合,得到目标段落;将不存在相邻段落序号的初始段落,确定为目标段落。4.根据权利要求3所述的方法,其特征在于,所述提取所述目标合约文本中的至少一个初始段落,包括:利用预先训练的分类模型,分别判断所述目标合约文本中的各段落是否包含所述合约方实体信息,其中,所述分类模型基于携带有段落标签的样本文本训练得到,所述段落标签为所述样本文本中包含合约方实体信息的段落;若是,则将包含所述合约方实体信息的段落确定为初始段落。5.根据权利要求1所述的方法,其特征在于,所述信息集抽取模型包括合约方识别层和关系抽取层;所述将所述目标段落输入至预先训练的信息集抽取模型中,得到所述目标段落对应的至少一个信息集,包括:将所述目标段落输入至所述合约方识别层,得到所述目标段落对应的合约方标识;将所述目标段落和所述目标段落对应的合约方标识输入至所述关系抽取层,得到所述合约方标识对应的信息类别和合约方实体信息;根据所述合约方标识和所述合约方标识对应的信息类别和合约方实体信息,确定所述目标段落对应的至少一个信息集。6.根据权利要求5所述的方法,其特征在于,所述合约方识别层包括向量转换单元和矩阵变化单元;所述将所述目标段落输入至所述合约方识别层,得到所述目标段落对应的合约方标
识,包括:将所述目标段落输入至所述向量转换单元,得到所述目标段落中各文字单元对应的向量;将各所述文字单元对应的向量分别输入至所述矩阵变化单元,得到各所述文字单元相对于各合约方标识的概率值;针对各所述文字单元中的任一文字单元,将该文字单元对应的目标概率值对应的合约方标识,确定为该文字单元对应的合约方标识,其中,所述目标概率值为大于预设值的概率值。7.根据权利要求5所述的方法,其特征在于,所述将所述目标段落输入至预先训练的信息集抽取模型中,得到所述目标段落对应的至少一个信息集之前,还包括:提取第一样本段落,将所述第一样本段落输入至第一网络模型的识别层,得到所述第一样本段落对应的预测合约方标识;将所述第一样本段落和所述预测合约方标识输入至所述第一网络模型的抽取层,得到所述预测合约方标识对应的预测信息类别和预测合约方实体信息;根据所述预测合约方标识、所述预测信息类别和所述预测合约方实体信息,确定所述第一样本段落对应的预测信息集;对比所述预测信息集与所述第一样本段落携带的所述信息集标签,得到差异值;若所述差异值大于预设阈值,则调整所述识别层和所述抽取层的参数,并返回执行所述提取第一样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的识...

【专利技术属性】
技术研发人员:侯依宁李长亮
申请(专利权)人:成都金山互动娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1