一种基于段落区间划分的篇章级合同抽取方法技术

技术编号:34174554 阅读:73 留言:0更新日期:2022-07-17 11:35
本发明专利技术提供一种基于段落区间划分的篇章级合同抽取方法,首先获取篇章级文本,然后对篇章级文本进行段落分割,拆分为多个段落文本;基于篇章级文本中章节信息的模式,结合正则表达式,抽取出对应的章节文本内容,并获取章节信息的索引下标;通过章节信息的索引下标获取每个段落文本的章节所属,并添加至段落文本的起始位置;对添加章节内容后的段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;通过条件随机场从文本表征中获取对应句子的上下文信息,抽取出篇章级文本的要素信息。本发明专利技术采用段落级文本内容作为模型输入,在面对长文本内容时,能够以较高准确率抽出长文本要素信息。文本要素信息。文本要素信息。

A text level contract extraction method based on paragraph interval division

【技术实现步骤摘要】
一种基于段落区间划分的篇章级合同抽取方法


[0001]本专利技术涉及自然语言
,特别是涉及一种基于段落区间划分的篇章级合同抽取方法。

技术介绍

[0002]目前,在面对文本要素抽取任务时,现有技术中的方案是将篇章级文本按照段落内容进行划分,然后以单个段落文本为基本单位作为模型输入,这使得模型无法利用当前段落的章节信息,缺少章节信息限制,对易混淆字段会产生偏置。此外,由于现有任务方法无法利用章节信息,同时易混淆字段的文本内容特征差异性不大,从而缺少章节信息的限制,导致易混淆字段信息错误率较高。因此,目前的要素抽取模型在抽取篇章级要素信息时,还存在以下问题:(1)篇章级文本段落较长,当前段落无法利用章节信息;(2)对于易混淆字段,由于文本内容特征差异性不大,容易识别错误,准确率低。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于段落区间划分的篇章级合同抽取方法,用于解决现有技术在进行文本要素抽取时抽取不完整和准确率低的问题。
[0004]为实现上述目的及其他相关目的,本专利技术提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于段落区间划分的篇章级合同抽取方法,其特征在于,所述方法包括以下步骤:获取待进行文本要素抽取的篇章级文本;按照预设分隔符对所述篇章级文本的文本内容进行段落分割,将所述篇章级文本拆分为多个段落文本,并获取所有段落文本的下标;基于篇章级文本中章节信息的模式,结合正则表达式,抽取出所述篇章级文本中对应的章节文本内容,并获取与所述章节文本内容对应的章节信息的索引下标;通过所述章节信息的索引下标获取每个段落文本的章节所属,并将对应的章节内容添加至所述段落文本的起始位置;获取添加章节内容后的段落文本,记为目标段落文本;利用预训练模型对每个目标段落文本中的句子进行编码,并通过注意力机制从编码结果中聚合每个句子的文本信息,得到每个句子的文本表征;通过条件随机场从每个句子的文本表征中获取对应句子的上下文信息,抽取出所述篇章级文本的要素信息。2.根据权利要求1所述的基于段落区间划分的篇章级合同抽取方法,其特征在于,利...

【专利技术属性】
技术研发人员:张婷婷杨凌石贇赵璇王蓓王姗姗徐玉莹
申请(专利权)人:上海欧冶金融信息服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1