当前位置: 首页 > 专利查询>清华大学专利>正文

一种预训练语言模型的训练方法及装置制造方法及图纸

技术编号:38468507 阅读:16 留言:0更新日期:2023-08-11 14:45
本申请涉及一种预训练语言模型的训练方法及装置,其中,预训练语言模型包括编码器及至少一个解码器,该方法包括:获取法律文书样本;法律文书样本包括表示基本事实的第一文本;对第一文本中的至少一个字符进行替换处理,得到第一替换文本;根据标志符和第一替换文本对编码器进行训练,并根据基本事实向量和第二文本对至少一个解码器进行训练;其中,基本事实向量为编码器输出的表征第一文本语义的向量,第二文本为法律文书样本中除所述第一文本以外的文本;本申请提供的预训练语言模型的训练方法可以捕获法律文书不同结构之间的联系,增强预训练语言模型对关键法律要素的理解,提升预训练语言模型在法律领域的检索效果。果。果。

【技术实现步骤摘要】
一种预训练语言模型的训练方法及装置


[0001]本申请涉及计算机信息检索领域,尤其涉及一种预训练语言模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]类案检索是现代智能法律系统的重要组成部分。为了维护司法公平,法律从业者必须阅读、分析许多与给定案件相似的法律文书,以便在判决新案件时做出正确的判断。目前效果较好的类案检索模型通常是使用大规模的标注数据训练的神经网络模型。然而,由于需要专业的法律知识,标注法律相关的大型数据集的成本十分昂贵。因此,研究人员提出了使用预训练语言模型进行检索,即在没有监督数据的情况下训练大规模神经模型进行语言理解。但现有的预训练语言模型存在以下缺点:一是对长文档进行建模的能力有限,并且不能建模法律文书不同结构之间的关系;二是难以理解法律相关性概念和关键法律要素。因此,现有的预训练语言模型在法律领域的检索性能不佳。

技术实现思路

[0003]有鉴于此,本申请提出了一种预训练语言模型的训练方法、装置、电子设备和存储介质,可以捕获法律文书不同结构之间的联系,增强预训练语言模型对关键法律要素的理解,提升预训练语言模型在法律领域的检索效果。
[0004]根据本申请的一方面,提供了一种预训练语言模型的训练方法,所述预训练语言模型包括编码器及至少一个解码器,所述方法包括:获取法律文书样本;所述法律文书样本包括表示基本事实的第一文本;对所述第一文本中的至少一个字符进行替换处理,得到第一替换文本;根据标志符和所述第一替换文本对所述编码器进行训练,并根据基本事实向量和第二文本对所述至少一个解码器进行训练;其中,所述基本事实向量为所述编码器输出的表征所述第一文本语义的向量,所述第二文本为所述法律文书样本中除所述第一文本以外的文本。
[0005]在一种可能的实现方式中,所述第二文本包括裁判分析过程文本,所述至少一个解码器包括裁判分析过程解码器;所述根据基本事实向量和第二文本对所述至少一个解码器进行训练,包括:对所述裁判分析过程文本中的至少一个字符进行替换处理,得到第二替换文本;根据所述基本事实向量和所述第二替换文本,对所述裁判分析过程解码器进行训练;和/或,所述第二文本包括法院判决结果文本,所述至少一个解码器包括法院判决结果解码器;所述根据基本事实向量和第二文本对所述至少一个解码器进行训练,包括:对所述法院判决结果文本中的至少一个字符进行替换处理,得到第三替换文本;根据所述基本事实向量和所述第三替换文本,对所述法院判决结果解码器进行训练。
[0006]在一种可能的实现方式中,所述根据标志符和所述第一替换文本对所述编码器进行训练,包括:根据第一映射关系,得到所述标志符对应的第一向量和所述第一替换文本中各字符对应的第一文本向量;所述第一文本向量包括第一字符向量和第一字符位置向量;
将所述第一向量和所述第一文本向量输入至所述编码器,对所述编码器进行训练。
[0007]在一种可能的实现方式中,所述根据所述基本事实向量和所述第二替换文本,对所述裁判分析过程解码器进行训练,包括:根据第二映射关系,得到所述第二替换文本中各字符对应的第二文本向量;所述第二文本向量包括第二字符向量和第二字符位置向量;将所述基本事实向量和所述第二文本向量输入至所述裁判分析过程解码器,对所述裁判分析过程解码器进行训练。
[0008]在一种可能的实现方式中,所述根据所述基本事实向量和所述第三替换文本,对所述法院判决结果解码器进行训练,包括:根据第三映射关系,得到所述第三替换文本中各字符对应的第三文本向量;所述第三文本向量包括第三字符向量和第三字符位置向量;将所述基本事实向量和所述第三文本向量输入至所述法院判决结果解码器,对所述法院判决结果解码器进行训练。
[0009]在一种可能的实现方式中,所述根据标志符和所述第一替换文本对所述编码器进行训练,并根据基本事实向量和第二文本对所述至少一个解码器进行训练,包括:获取根据标志符和所述第一替换文本对所述编码器进行训练过程中的第一损失函数;获取根据基本事实向量和第二文本对所述至少一个解码器进行训练过程中的第二损失函数;根据所述第一损失函数和所述第二损失函数,确定目标损失函数;根据所述目标损失函数,更新所述编码器和所述至少一个解码器。
[0010]在一种可能的实现方式中,所述方法还包括:根据训练好的所述编码器和所述至少一个解码器,得到训练好的预训练语言模型;所述训练好的预训练语言模型用于法律文书类案检索。
[0011]在一种可能的实现方式中,所述编码器的层数大于所述至少一个解码器中任一解码器的层数。
[0012]根据本申请的另一方面,提供了一种预训练语言模型的训练装置,所述装置包括:获取模块,用于获取法律文书样本;所述法律文书样本包括表示基本事实的第一文本;替换模块,用于对所述第一文本中的至少一个字符进行替换处理,得到第一替换文本;训练模块,用于根据标志符和所述第一替换文本对所述编码器进行训练,并根据基本事实向量和第二文本对所述至少一个解码器进行训练;其中,所述基本事实向量为所述编码器输出的表征所述第一文本语义的向量,所述第二文本为所述法律文书样本中除所述第一文本以外的文本。
[0013]根据本申请的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述预训练语言模型的训练方法。
[0014]根据本申请的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述预训练语言模型的训练方法。
[0015]根据本申请的另一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述预训练语言模型的训练方法。
[0016]本申请提供的预训练语言模型的训练方法可以利用法律文书的结构进行预训练,
通过使用编码器

解码器的结构来显式建模并捕获法律文书不同结构之间的联系,可以增强预训练语言模型对关键法律要素的理解,提升预训练语言模型在法律领域的检索效果。
[0017]根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
[0018]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
[0019]图1示出根据本申请一实施例的Lawformer模型捕捉长距离依赖的示意图。
[0020]图2示出根据本申请一实施例的法律文书的撰写过程示意图。
[0021]图3示出根据本申请一实施例的一种预训练语言模型的训练方法的流程图。
[0022]图4示出根据本申请一实施例的一种预训练语言模型的训练方法的示意图。
[0023]图5示出根据本申请一实施例的一种预训练语言模型的训练装置的结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的训练方法,其特征在于,所述预训练语言模型包括编码器及至少一个解码器,所述方法包括:获取法律文书样本;所述法律文书样本包括表示基本事实的第一文本;对所述第一文本中的至少一个字符进行替换处理,得到第一替换文本;根据标志符和所述第一替换文本对所述编码器进行训练,并根据基本事实向量和第二文本对所述至少一个解码器进行训练;其中,所述基本事实向量为所述编码器输出的表征所述第一文本语义的向量,所述第二文本为所述法律文书样本中除所述第一文本以外的文本。2.根据权利要求1所述的方法,其特征在于,所述第二文本包括裁判分析过程文本,所述至少一个解码器包括裁判分析过程解码器;所述根据基本事实向量和第二文本对所述至少一个解码器进行训练,包括:对所述裁判分析过程文本中的至少一个字符进行替换处理,得到第二替换文本;根据所述基本事实向量和所述第二替换文本,对所述裁判分析过程解码器进行训练;和/或,所述第二文本包括法院判决结果文本,所述至少一个解码器包括法院判决结果解码器;所述根据基本事实向量和第二文本对所述至少一个解码器进行训练,包括:对所述法院判决结果文本中的至少一个字符进行替换处理,得到第三替换文本;根据所述基本事实向量和所述第三替换文本,对所述法院判决结果解码器进行训练。3.根据权利要求1所述的方法,其特征在于,所述根据标志符和所述第一替换文本对所述编码器进行训练,包括:根据第一映射关系,得到所述标志符对应的第一向量和所述第一替换文本中各字符对应的第一文本向量;所述第一文本向量包括第一字符向量和第一字符位置向量;将所述第一向量和所述第一文本向量输入至所述编码器,对所述编码器进行训练。4.根据权利要求2所述的方法,其特征在于,所述根据所述基本事实向量和所述第二替换文本,对所述裁判分析过程解码器进行训练,包括:根据第二映射关系,得到所述第二替换文本中各字符对应的第二文本向量;所述第二文本向量包括第二字符向量和第二字符位置向量;将所述基本事实向量和所述第二文本向量输入至所述裁判分析过程解码器,对所述裁判分析过程解...

【专利技术属性】
技术研发人员:李海涛刘奕群艾清遥陈佳董骞吴玥悦
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1