一种基于句首语义的文本要素抽取方法及系统技术方案

技术编号：35774788 阅读：23 留言：0更新日期：2022-12-01 14:18

本发明专利技术提供一种基于句首语义的文本要素抽取方法及系统，首先获取用于训练的合同文本，然后基于目标分割符对用于进行训练的合同文本进行篇章级文本切分，得到分割后的段落文本；再利用预训练模型对分割后的段落文本进行编码，并对编码后的段落文本进行池化；再然后对分割后的段落文本打标签，并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练，得到文本要素抽取模型；最后从待进行文本要素抽取的合同文本中，结构化抽取并输出篇章级段落文本要素信息。本申请可以解决篇章级文本抽取错误、遗漏的问题，可以让机器学习段落文本之间的关联，提高篇章级文本要素抽取模型的准确率，大大降低人工审核的时间，提高效率。提高效率。提高效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于句首语义的文本要素抽取方法及系统

[0001]本专利技术涉及计算机视觉
，特别是涉及一种基于句首语义的文本要素抽取方法。

技术介绍

[0002]某公司聚焦钢铁产业金融，为生态圈中小企业提供小额高频的供应链金融业务，智能风控能力是保障业务高质量运行的重中之重。授信贷款业务场景中，对于客户经营及财务情况的分析意见篇幅长，非关键信息夹杂，无法结构化，审批人员需要花费大量的时间逐一阅读。因此，随着计算机视觉技术的发展，专利技术人发现，通过神经网络模型抽取合同中的文本要素可以节约时间，提高处理效率。但是，现有的要素模型抽取篇章级文本要素信息的方法存在遗漏、抽取错误的问题，导致的原因有：
[0003](1)篇章级文本由多个段落文本组成，每个段落文本可能存在过长的情况，使用bert(基于语义理解的深度双向预训练Transformer)按单个字符为单位编码全部篇章级文本时，肯定会超过bert编码的最大长度，如果按bert的最大编码长度截取，则会丢失上下文语义信息，显然用bert对单个字符编码的最大长度无法满足篇章级文本编码的需求；
[0004](2)需要抽取的要素是段落文本，而传统的要素抽取模型以单个字符作为输入，放入要素抽取模型后会导致抽取的要素字段范围不准确，出现偏差，因为段落文本跨度太大，无法精确抽取所需段落文本的每一个字符，这样也时无法满足实际生成需求。

技术实现思路

[0005]鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种基于句首语义的文本要素抽取方法及系统，用于解...

【技术保护点】

【技术特征摘要】
1.一种基于句首语义的文本要素抽取方法，其特征在于，所述方法包括以下步骤：获取用于训练的合同文本，其中，用于训练的合同文本包括：待进行文本要素抽取的合同文本、普通合同文本；基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分，得到分割后的段落文本；利用预训练模型对分割后的段落文本进行编码，并对编码后的段落文本进行池化；对分割后的段落文本打标签，并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练，得到文本要素抽取模型；利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息，并输出抽取到的篇章级段落文本要素信息。2.根据权利要求1所述的基于句首语义的文本要素抽取方法，其特征在于，利用预训练模型对分割后的段落文本进行编码的过程包括：判断分割后的段落文本是否超过预设字符数量；如果分割后的段落文本超过预设字符数量，则从分割后的段落文本找出第一个句号出现的位置，并以所述位置为界限对分割后的段落文本进行截断，利用预训练模型对截断后的段落文本进行编码；如果分割后的段落文本未超过预设字符数量，则利用预训练模型对分割后的段落文本进行编码。3.根据权利要求1或2所述的基于句首语义的文本要素抽取方法，其特征在于，所述预训练模型包括bert模型，所述bert模型基于语义理解的深度双向预训练Transformer得到。4.根据权利要求1或2所述的基于句首语义的文本要素抽取方法，其特征在于，基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括：将换行符作为所述目标分割符；利用所述换行符对所述合同文本进行篇章级文本切分，得到分割后的段落文本。5.根据权利要求1或2所述的基于句首语义的文本要素抽取方法，其特征在于，所述待进行文本要素抽取的合同文本包括授信贷款审批意见书。6.根据权利要求2所述的基于句首语义的文本...

【专利技术属性】
技术研发人员：陆宇峰，武宝杰，赵璇，季勇，黄国珉，叶超，
申请(专利权)人：上海欧冶金融信息服务股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人