一种预训练语言模型的训练方法及装置制造方法及图纸

技术编号：38468507 阅读：16 留言：0更新日期：2023-08-11 14:45

本申请涉及一种预训练语言模型的训练方法及装置，其中，预训练语言模型包括编码器及至少一个解码器，该方法包括：获取法律文书样本；法律文书样本包括表示基本事实的第一文本；对第一文本中的至少一个字符进行替换处理，得到第一替换文本；根据标志符和第一替换文本对编码器进行训练，并根据基本事实向量和第二文本对至少一个解码器进行训练；其中，基本事实向量为编码器输出的表征第一文本语义的向量，第二文本为法律文书样本中除所述第一文本以外的文本；本申请提供的预训练语言模型的训练方法可以捕获法律文书不同结构之间的联系，增强预训练语言模型对关键法律要素的理解，提升预训练语言模型在法律领域的检索效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
一种预训练语言模型的训练方法及装置

[0001]本申请涉及计算机信息检索领域，尤其涉及一种预训练语言模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]类案检索是现代智能法律系统的重要组成部分。为了维护司法公平，法律从业者必须阅读、分析许多与给定案件相似的法律文书，以便在判决新案件时做出正确的判断。目前效果较好的类案检索模型通常是使用大规模的标注数据训练的神经网络模型。然而，由于需要专业的法律知识，标注法律相关的大型数据集的成本十分昂贵。因此，研究人员提出了使用预训练语言模型进行检索，即在没有监督数据的情况下训练大规模神经模型进行语言理解。但现有的预训练语言模型存在以下缺点：一是对长文档进行建模的能力有限，并且不能建模法律文书不同结构之间的关系；二是难以理解法律相关性概念和关键法律要素。因此，现有的预训练语言模型在法律领域的检索性能不佳。

技术实现思路

[0003]有鉴于此，本申请提出了一种预训练语言模型的训练方法、装置、电子设备和存储介质，可以捕获法律文书不同结构之间的联系，增强预训练语言模型对关键法律要素的理解，提升预训练语言模型在法律领域的检索效果。
[0004]根据本申请的一方面，提供了一种预训练语言模型的训练方法，所述预训练语言模型包括编码器及至少一个解码器，所述方法包括：获取法律文书样本；所述法律文书样本包括表示基本事实的第一文本；对所述第一文本中的至少一个字符进行替换处理，得到第一替换文本；根据标志符和所述第一替换文本对所述编码器进行训练，并根据基本事实向量和第二文...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的训练方法，其特征在于，所述预训练语言模型包括编码器及至少一个解码器，所述方法包括：获取法律文书样本；所述法律文书样本包括表示基本事实的第一文本；对所述第一文本中的至少一个字符进行替换处理，得到第一替换文本；根据标志符和所述第一替换文本对所述编码器进行训练，并根据基本事实向量和第二文本对所述至少一个解码器进行训练；其中，所述基本事实向量为所述编码器输出的表征所述第一文本语义的向量，所述第二文本为所述法律文书样本中除所述第一文本以外的文本。2.根据权利要求1所述的方法，其特征在于，所述第二文本包括裁判分析过程文本，所述至少一个解码器包括裁判分析过程解码器；所述根据基本事实向量和第二文本对所述至少一个解码器进行训练，包括：对所述裁判分析过程文本中的至少一个字符进行替换处理，得到第二替换文本；根据所述基本事实向量和所述第二替换文本，对所述裁判分析过程解码器进行训练；和/或，所述第二文本包括法院判决结果文本，所述至少一个解码器包括法院判决结果解码器；所述根据基本事实向量和第二文本对所述至少一个解码器进行训练，包括：对所述法院判决结果文本中的至少一个字符进行替换处理，得到第三替换文本；根据所述基本事实向量和所述第三替换文本，对所述法院判决结果解码器进行训练。3.根据权利要求1所述的方法，其特征在于，所述根据标志符和所述第一替换文本对所述编码器进行训练，包括：根据第一映射关系，得到所述标志符对应的第一向量和所述第一替换文本中各字符对应的第一文本向量；所述第一文本向量包括第一字符向量和第一字符位置向量；将所述第一向量和所述第一文本向量输入至所述编码器，对所述编码器进行训练。4.根据权利要求2所述的方法，其特征在于，所述根据所述基本事实向量和所述第二替换文本，对所述裁判分析过程解码器进行训练，包括：根据第二映射关系，得到所述第二替换文本中各字符对应的第二文本向量；所述第二文本向量包括第二字符向量和第二字符位置向量；将所述基本事实向量和所述第二文本向量输入至所述裁判分析过程解码器，对所述裁判分析过程解...

【专利技术属性】
技术研发人员：李海涛，刘奕群，艾清遥，陈佳，董骞，吴玥悦，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人