一种基于句首语义的文本要素抽取方法及系统技术方案

技术编号:35774788 阅读:23 留言:0更新日期:2022-12-01 14:18
本发明专利技术提供一种基于句首语义的文本要素抽取方法及系统,首先获取用于训练的合同文本,然后基于目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后从待进行文本要素抽取的合同文本中,结构化抽取并输出篇章级段落文本要素信息。本申请可以解决篇章级文本抽取错误、遗漏的问题,可以让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。提高效率。提高效率。

【技术实现步骤摘要】
一种基于句首语义的文本要素抽取方法及系统


[0001]本专利技术涉及计算机视觉
,特别是涉及一种基于句首语义的文本要素抽取方法。

技术介绍

[0002]某公司聚焦钢铁产业金融,为生态圈中小企业提供小额高频的供应链金融业务,智能风控能力是保障业务高质量运行的重中之重。授信贷款业务场景中,对于客户经营及财务情况的分析意见篇幅长,非关键信息夹杂,无法结构化,审批人员需要花费大量的时间逐一阅读。因此,随着计算机视觉技术的发展,专利技术人发现,通过神经网络模型抽取合同中的文本要素可以节约时间,提高处理效率。但是,现有的要素模型抽取篇章级文本要素信息的方法存在遗漏、抽取错误的问题,导致的原因有:
[0003](1)篇章级文本由多个段落文本组成,每个段落文本可能存在过长的情况,使用bert(基于语义理解的深度双向预训练Transformer)按单个字符为单位编码全部篇章级文本时,肯定会超过bert编码的最大长度,如果按bert的最大编码长度截取,则会丢失上下文语义信息,显然用bert对单个字符编码的最大长度无法满足篇章级文本编码的需求;
[0004](2)需要抽取的要素是段落文本,而传统的要素抽取模型以单个字符作为输入,放入要素抽取模型后会导致抽取的要素字段范围不准确,出现偏差,因为段落文本跨度太大,无法精确抽取所需段落文本的每一个字符,这样也时无法满足实际生成需求。

技术实现思路

[0005]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于句首语义的文本要素抽取方法及系统,用于解决现有技术中存在的问题。
[0006]为实现上述目的及其他相关目的,本专利技术提供一种基于句首语义的文本要素抽取方法,所述方法包括以下步骤:
[0007]获取用于训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;
[0008]基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;
[0009]利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;
[0010]对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;
[0011]利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。
[0012]可选地,利用预训练模型对分割后的段落文本进行编码的过程包括:
[0013]判断分割后的段落文本是否超过预设字符数量;
[0014]如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;
[0015]如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。
[0016]可选地,所述预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练Transformer得到。
[0017]可选地,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:
[0018]将换行符作为所述目标分割符;
[0019]利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。
[0020]可选地,所述待进行文本要素抽取的合同文本包括授信贷款审批意见书。
[0021]可选地,预设字符数量为510个字符。
[0022]本申请还提供一种基于句首语义的文本要素抽取系统,所述系统包括有:
[0023]训练文本模块,用于获取进行训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;
[0024]文本切分模块,用于根据目标分割符对所述合同文本进行篇章级文本切分,得到分割后的段落文本;
[0025]编码模块,用于利用预训练模型对分割后的段落文本进行编码;
[0026]池化模块,用于对编码后的段落文本进行池化;
[0027]模型训练模块,用于对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;
[0028]文本要素抽取模块,用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。
[0029]可选地,所述编码模块利用预训练模型对分割后的段落文本进行编码的过程包括:
[0030]判断分割后的段落文本是否超过预设字符数量;
[0031]如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;
[0032]如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。
[0033]可选地,所述预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练Transformer得到。
[0034]可选地,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:
[0035]将换行符作为所述目标分割符;
[0036]利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。
[0037]如上所述,本专利技术提供一种基于句首语义的文本要素抽取方法及系统,具有以下有益效果:
[0038]本申请首先获取用于训练的合同文本,然后基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。由此可知,本申请提出了基于“句首语义”的paragraph

embedding的方式进行段落特征提取的方法,可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练Transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过LSTM(Long Short

Term Memory,长短期记忆网络模型,简称LSTM)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。
附图说明
[0039]图1为一实施例提供的基于句首语义的文本要素抽取方法的流程示意图;
[0040本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于句首语义的文本要素抽取方法,其特征在于,所述方法包括以下步骤:获取用于训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。2.根据权利要求1所述的基于句首语义的文本要素抽取方法,其特征在于,利用预训练模型对分割后的段落文本进行编码的过程包括:判断分割后的段落文本是否超过预设字符数量;如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。3.根据权利要求1或2所述的基于句首语义的文本要素抽取方法,其特征在于,所述预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练Transformer得到。4.根据权利要求1或2所述的基于句首语义的文本要素抽取方法,其特征在于,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:将换行符作为所述目标分割符;利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。5.根据权利要求1或2所述的基于句首语义的文本要素抽取方法,其特征在于,所述待进行文本要素抽取的合同文本包括授信贷款审批意见书。6.根据权利要求2所述的基于句首语义的文本...

【专利技术属性】
技术研发人员:陆宇峰武宝杰赵璇季勇黄国珉叶超
申请(专利权)人:上海欧冶金融信息服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1