结构化法律文本获取方法、装置、设备及存储介质制造方法及图纸

技术编号:38838554 阅读:13 留言:0更新日期:2023-09-17 09:53
本发明专利技术实施例提供的一种结构化法律文本获取方法、装置、设备及存储介质,涉及法律文本处理技术领域。所述结构化法律文本获取方法:首先获取待处理法律文本,待处理法律文本为非结构化法律文本;然后,利用预先训练的案件要素提取模型,提取待处理法律文本中的用于描述案件的关键案情信息的每个案件要素;再根据每个案件要素,生成结构化法律文本,从而提高法律文本的转化效率。律文本的转化效率。律文本的转化效率。

【技术实现步骤摘要】
结构化法律文本获取方法、装置、设备及存储介质


[0001]本专利技术涉及法律文本处理
,具体而言,涉及一种结构化法律文本获取方法、装置、设备及存储介质。

技术介绍

[0002]为了加快案件审理过程,需将非结构化文本状态的、承载案件的案情关键信息的法律文本转化为可被机器识别的结构化文本,以消除地域、法官、撰写方式等干扰因素的影响。
[0003]在上述法律文本的转化过程中,案件要素提取是关键一步,目前通常是通过人工的方式,从字里行间提取出案件要素,再将提取出的案件要素按照标准模板进行录入,得到可被机器识别的结构化文本。由于各类案件的数量巨大、且每个案件的法律文本的内容繁琐,受限于人力资源的规模以及个人能力差异,法律文本的转化效率往往较低。

技术实现思路

[0004]本专利技术实施例提供了一种结构化法律文本获取方法、装置、设备及存储介质,其能够提高法律文本的转化效率。
[0005]本专利技术实施例的技术方案可以这样实现:
[0006]第一方面,本专利技术实施例提供一种结构化法律文本获取方法,所述方法包括:
[0007]获取待处理法律文本,所述待处理法律文本为非结构化法律文本;
[0008]利用预先训练的案件要素提取模型,提取所述待处理法律文本中的每个案件要素,所述案件要素用于描述案件的关键案情信息;
[0009]根据每个所述案件要素,生成结构化法律文本。
[0010]可选地,所述案件要素提取模型是通过以下方式训练得到的:
[0011]获取第一样本文本和第二样本文本,所述第一样本文本和第二样本文本为同一文本类别下标注了不同案件要素的非结构化法律文本;
[0012]利用由第一样本文本训练得到的第一案件要素提取模型,初始化处理预先构建的第二案件要素提取模型,得到初始化处理后的第二案件要素提取模型;
[0013]基于第二样本文本和初始化处理后第二案件要素提取模型,得到目标案件要素提取模型。
[0014]可选地,所述基于第二样本文本和初始化处理后第二案件要素提取模型,得到目标案件要素提取模型的步骤包括:
[0015]利用所述第二样本文本,对初始化处理后的第二案件要素提取模型进行验证测试,得到验证测试结果;
[0016]根据所述验证测试结果,计算第一对抗损失函数,所述第一对抗损失函数用于评价初始化处理后的第二案件要素提取模型;
[0017]若所述第一对抗损失函数满足第一预设条件,则将初始化处理后的第二案件要素
提取模型作为所述目标案件要素提取模型。
[0018]可选地,所述基于第二样本文本和初始化处理后第二案件要素提取模型,得到目标案件要素提取模型的步骤还包括:
[0019]若所述第一对抗损失函数不满足第一预设条件,则利用所述第二样本文本训练初始化处理后第二案件要素提取模型,得到训练后的第二案件要素提取模型;
[0020]基于所述第一样本文本和训练后的第二案件要素提取模型,得到所述目标案件要素提取模型。
[0021]可选地,所述基于所述第一样本文本和训练后的第二案件要素提取模型,得到所述目标案件要素提取模型的步骤包括:
[0022]利用训练后的第二案件要素提取模型,初始化处理所述第一案件要素提取模型,得到初始化处理后的第一案件要素提取模型;
[0023]基于所述第一样本文本和初始化处理后的第一案件要素提取模型,得到所述目标案件要素提取模型。
[0024]可选地,基于所述第一样本文本和初始化处理后的第一案件要素提取模型,得到所述目标案件要素提取模型的步骤包括:
[0025]基于所述第一样本文本,获取用于评价初始化处理后的第一案件要素提取模型的第二对抗损失函数;
[0026]利用所述第一样本文本训练初始化处理后的第一案件要素提取模型,得到待定案件要素提取模型和所述待定案件要素提取模型的循环一致性损失函数;
[0027]根据所述第一对抗损失函数、所述第二对抗损失函数以及所述循环一致性损失函数,确定所述待定案件要素提取模型是否能够作为所述目标案件要素提取模型。
[0028]可选地,所述根据所述第一对抗损失函数、所述第二对抗损失函数以及所述循环一致性损失函数,确定所述待定案件要素提取模型是否能够作为所述目标案件要素提取模型的步骤包括:
[0029]对所述第一对抗损失函数、所述第二对抗损失函数以及所述循环一致性损失函数进行预设运算,得到运算结果;
[0030]若所述运算结果满足第二预设条件,则将述待定案件要素提取模型作为所述目标案件要素提取模型。
[0031]第二方面,本专利技术实施例提供一种结构化法律文本获取装置,所述装置包括:
[0032]获取模块,用于获取待处理法律文本,所述待处理法律文本为非结构化法律文本;
[0033]提取模块,用于利用预先训练的案件要素提取模型,提取所述待处理法律文本中的每个案件要素,所述案件要素用于描述案件的关键案情信息;
[0034]生成模块,用于根据每个所述案件要素,生成结构化法律文本。
[0035]第三方面,本专利技术实施例提供一种计算机设备,其包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如前述第一方面所述的结构化法律文本获取方法。
[0036]第四方面,本专利技术实施例提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述结构化法律文本获取方法。
[0037]相较于现有技术,本专利技术实施例提供的一种结构化法律文本获取方法、装置、设备
及存储介质,首先获取待处理法律文本,待处理法律文本为非结构化法律文本;然后,利用预先训练的案件要素提取模型,提取待处理法律文本中的用于描述案件的关键案情信息的每个案件要素;再根据每个案件要素,生成结构化法律文本。由于本专利技术实施例利用预先训练的案件要素提取模型来提取非结构化的待处理法律文本中的每个案件要素,再根据提取出的案件要素生成结构化法律文本,从而提高法律文本的转化效率。
附图说明
[0038]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0039]图1为本专利技术实施例提供的一种结构化法律文本获取方法的流程示意图;
[0040]图2为本专利技术实施例提供的一种案件要素提取模型训练过程示意图;
[0041]图3为本专利技术实施例提供的一种结构化法律文本获取装置的功能单元框图;
[0042]图4为本专利技术实施例提供的一种计算机设备的结构示意框图。
[0043]图标:100

结构化法律文本获取装置;101

获取模块;102

提取模块;103
...

【技术保护点】

【技术特征摘要】
1.一种结构化法律文本获取方法,其特征在于,所述方法包括:获取待处理法律文本,所述待处理法律文本为非结构化法律文本;利用预先训练的案件要素提取模型,提取所述待处理法律文本中的每个案件要素,所述案件要素用于描述案件的关键案情信息;根据每个所述案件要素,生成结构化法律文本。2.如权利要求1所述的方法,其特征在于,所述案件要素提取模型是通过以下方式训练得到的:获取第一样本文本和第二样本文本,所述第一样本文本和第二样本文本为同一文本类别下标注了不同案件要素的非结构化法律文本;利用由第一样本文本训练得到的第一案件要素提取模型,初始化处理预先构建的第二案件要素提取模型,得到初始化处理后的第二案件要素提取模型;基于第二样本文本和初始化处理后第二案件要素提取模型,得到目标案件要素提取模型。3.如权利要求2所述的方法,其特征在于,所述基于第二样本文本和初始化处理后第二案件要素提取模型,得到目标案件要素提取模型的步骤包括:利用所述第二样本文本,对初始化处理后的第二案件要素提取模型进行验证测试,得到验证测试结果;根据所述验证测试结果,计算第一对抗损失函数,所述第一对抗损失函数用于评价初始化处理后的第二案件要素提取模型;若所述第一对抗损失函数满足第一预设条件,则将初始化处理后的第二案件要素提取模型作为所述目标案件要素提取模型。4.如权利要求3所述的方法,其特征在于,所述基于第二样本文本和初始化处理后第二案件要素提取模型,得到目标案件要素提取模型的步骤还包括:若所述第一对抗损失函数不满足第一预设条件,则利用所述第二样本文本训练初始化处理后第二案件要素提取模型,得到训练后的第二案件要素提取模型;基于所述第一样本文本和训练后的第二案件要素提取模型,得到所述目标案件要素提取模型。5.如权利要求4所述的方法,其特征在于,所述基于所述第一样本文本和训练后的第二案件要素提取模型,得到所述目标案件要素提取模型的步骤包括:利用训练后的第二案件要素提取模型,初始化处理所述第一案件要素提...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名翁洋李鑫王嘉宝王恺璇请求不公布姓名请求不公布姓名
申请(专利权)人:成都数之联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1