合约信息提取方法及装置制造方法及图纸

技术编号：33449535 阅读：18 留言：0更新日期：2022-05-19 00:34

本申请提供合约信息提取方法及装置，其中合约信息提取方法包括：获取目标合约文本，提取目标合约文本中的目标段落，目标段落包含合约方实体信息；将目标段落输入至预先训练的信息集抽取模型中，得到目标段落对应的至少一个信息集，信息集中包含合约方标识、信息类别和合约方实体信息，信息集抽取模型基于携带有信息集标签的第一样本段落训练得到；确定目标合约方标识对应的至少一个目标信息集；根据各目标信息集中的信息类别和合约方实体信息，确定目标合约方标识对应的合约信息。利用信息集抽取模型自动学习实体之间的关系，避免了使用人工规则确定信息集的局限性，不仅提高了确定合约信息的效率，还提高了合约信息的精准度。还提高了合约信息的精准度。还提高了合约信息的精准度。

全部详细技术资料下载

【技术实现步骤摘要】
合约信息提取方法及装置

[0001]本申请涉及数据处理
，特别涉及一种合约信息提取方法。本申请同时涉及一种合约信息提取装置、一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligence；AI)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。自然语言处理、机器人、计算机视觉成为了人工智能最为热门的三个产业方向。人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。随着计算机技术的发展，自然语言处理领域也得到了快速发展，自然语言处理(NLP，Natural Language Processing)是计算机科学领域的一个重要研究方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。自然语言处理面临四大挑战：一是在词法、句法、语义、语用和语音等不同层面存在不确定性；二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性；三是数据资源的不充分使其难以覆盖复杂的语言现象；四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述，语义计算需要参数庞大的非线性计算。
[0003]书面语言是指人们在书写和阅读文章时所使用的语言，通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。文本是指书面语言的...

【技术保护点】

【技术特征摘要】
1.一种合约信息提取方法，其特征在于，包括：获取目标合约文本，提取所述目标合约文本中的目标段落，其中，所述目标段落包含合约方实体信息；将所述目标段落输入至预先训练的信息集抽取模型中，得到所述目标段落对应的至少一个信息集，其中，所述信息集中包含合约方标识、信息类别和合约方实体信息，所述信息集抽取模型基于携带有信息集标签的第一样本段落训练得到，所述信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签；确定目标合约方标识对应的至少一个目标信息集；根据各所述目标信息集中的所述信息类别和所述合约方实体信息，确定所述目标合约方标识对应的合约信息。2.根据权利要求1所述的方法，其特征在于，所述获取目标合约文本，包括：获取初始合约文本；在所述初始合约文本的格式为非目标格式的情况下，将所述初始合约文本的格式转换为目标格式，得到所述目标合约文本。3.根据权利要求1所述的方法，其特征在于，所述提取所述目标合约文本中的目标段落，包括：提取所述目标合约文本中的至少一个初始段落，其中，所述初始段落包含合约方实体信息；确定各所述初始段落在所述目标合约文本中的段落序号；将所述段落序号相连的多个初始段落进行整合，得到目标段落；将不存在相邻段落序号的初始段落，确定为目标段落。4.根据权利要求3所述的方法，其特征在于，所述提取所述目标合约文本中的至少一个初始段落，包括：利用预先训练的分类模型，分别判断所述目标合约文本中的各段落是否包含所述合约方实体信息，其中，所述分类模型基于携带有段落标签的样本文本训练得到，所述段落标签为所述样本文本中包含合约方实体信息的段落；若是，则将包含所述合约方实体信息的段落确定为初始段落。5.根据权利要求1所述的方法，其特征在于，所述信息集抽取模型包括合约方识别层和关系抽取层；所述将所述目标段落输入至预先训练的信息集抽取模型中，得到所述目标段落对应的至少一个信息集，包括：将所述目标段落输入至所述合约方识别层，得到所述目标段落对应的合约方标识；将所述目标段落和所述目标段落对应的合约方标识输入至所述关系抽取层，得到所述合约方标识对应的信息类别和合约方实体信息；根据所述合约方标识和所述合约方标识对应的信息类别和合约方实体信息，确定所述目标段落对应的至少一个信息集。6.根据权利要求5所述的方法，其特征在于，所述合约方识别层包括向量转换单元和矩阵变化单元；所述将所述目标段落输入至所述合约方识别层，得到所述目标段落对应的合约方标
识，包括：将所述目标段落输入至所述向量转换单元，得到所述目标段落中各文字单元对应的向量；将各所述文字单元对应的向量分别输入至所述矩阵变化单元，得到各所述文字单元相对于各合约方标识的概率值；针对各所述文字单元中的任一文字单元，将该文字单元对应的目标概率值对应的合约方标识，确定为该文字单元对应的合约方标识，其中，所述目标概率值为大于预设值的概率值。7.根据权利要求5所述的方法，其特征在于，所述将所述目标段落输入至预先训练的信息集抽取模型中，得到所述目标段落对应的至少一个信息集之前，还包括：提取第一样本段落，将所述第一样本段落输入至第一网络模型的识别层，得到所述第一样本段落对应的预测合约方标识；将所述第一样本段落和所述预测合约方标识输入至所述第一网络模型的抽取层，得到所述预测合约方标识对应的预测信息类别和预测合约方实体信息；根据所述预测合约方标识、所述预测信息类别和所述预测合约方实体信息，确定所述第一样本段落对应的预测信息集；对比所述预测信息集与所述第一样本段落携带的所述信息集标签，得到差异值；若所述差异值大于预设阈值，则调整所述识别层和所述抽取层的参数，并返回执行所述提取第一样本段落的步骤，直至达到训练停止条件，停止训练，确定完成训练的识...

【专利技术属性】
技术研发人员：侯依宁，李长亮，
申请(专利权)人：成都金山互动娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人