一种基于对比学习的长文本检索模型制造技术

技术编号:32733347 阅读:23 留言:0更新日期:2022-03-20 08:39
本申请提供了一种基于对比学习的长文本检索模型,包括法律领域预训练模块、对比学习模块以及检索模块;其中,法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对长文本编码器进行领域预训练;对比学习模块,用于从案例标注数据集中构造训练数据,以及利用训练数据对所述长文本编码器进行文本向量训练,其中,训练数据包括查询语句及其正样本、负样本;检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式,本申请的长文本检索模型能够有效解决深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。率。率。

【技术实现步骤摘要】
一种基于对比学习的长文本检索模型


[0001]本申请涉及文本检索
,特别是涉及一种基于对比学习的长文本检索模型。

技术介绍

[0002]用户输入一段包含案件基本事实的长文本如起诉状、上诉状以及裁判案例等,检索系统从数据库中返回与该文本在基本事实、争议焦点、法律适用问题等方面具有相似性的裁判文书,并按照相关程度进行排序返回。无论是法律相关人士如从业律师、公司法务或司法人员,还是普通民众,都对法律检索有很大的需求,其价值不言而喻。
[0003]类案检索问题面临的首要难点就是文本过长,一般检索场景中查询语句较短,而类案检索中的查询文本往往多达上千字,传统检索模型往往基于关键字进行字面匹配,虽不限制文本的长度,但对于分词准确度有较高要求,且无法处理词语之间语义相关性,而一般的深度学习模型对于输入长度有限制,随着输入长度的增加,计算的时间和空间成本急剧增加;另一方面,长文本检索面临着检索效率的瓶颈,传统检索模型在查询文本过长、数据库中候选案例数量过多的情况下,需要耗费大量时间进行计算,基于交互的深度学习模型在这种场景下将产生大量的交互计算,耗费不可承受的时间和空间资源,同样不适用。

技术实现思路

[0004]本申请提供了一种基于对比学习的长文本检索模型,所述长文本检索模型包括法律领域预训练模块、对比学习模块以及检索模块;其中,
[0005]所述法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对所述长文本编码器进行领域预训练;
[0006]所述对比学习模块,用于从案例标注数据集中构造训练数据,以及利用所述训练数据对所述长文本编码器进行文本向量训练,其中,所述训练数据包括查询语句及其正样本、负样本;
[0007]所述检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。
[0008]其中,所述检索模块,还用于利用所述长文本编码器将查询语句转换为查询向量,与案例库中所有案例的案例向量计算相似度,从而基于相似度得分高低返回检索排序结果。
[0009]其中,所述检索模块,还用于将数据库中的所有案例经过所述长文本编码器编码后得到对应的案例向量,并对所有案例向量进行聚类后,离线存储形成所述案例库。
[0010]其中,所述检索模块,还用于计算所述查询向量与所述案例库中的所有聚类中心的距离,获取距离最小的聚类中心对应的聚类,将该聚类中的所有案例向量按照与所述案例向量的距离大小进行排序,并以排序结果返回检索排序结果。
[0011]其中,所述法律领域预训练模块,还用于以中文预训练模型为基础构建所述长文
本编码器;
[0012]其中,所述中文预训练模型事先使用大量法律无标签语料进行全词遮罩预训练。
[0013]其中,所述法律领域预训练模块,还用于将所述中文预训练模型的完全注意力机制替换为滑动窗口注意力机制和全局注意力机制。
[0014]其中,所述法律领域预训练模块,还用于将所述完全注意力机制中的查询参数、键参数以及值参数复制到所述长文本编码器的滑动窗口注意力机制和全局注意力机制中,以实现所述长文本编码器的参数初始化。
[0015]其中,所述全词遮罩预训练为:将法律语料中预设比例的词汇进行遮罩标记处理和替换词汇处理,并采用所述长文本编码器对处理后的法律语料进行编码,得到预测输出词,以所述预测输出词与法律语料的距离对所述长文本编码器进行训练。
[0016]其中,所述中文预训练模型为RoBERTa

wwm

ext模型,所述长文本编码器为Longformer模型。
[0017]其中,所述对比学习模块,还用于从所述案例标注数据集中选择查询语句,及其正样本、负样本构造三元组,其中,所述正样本为所述查询语句相关的案例,所述负样本为所述查询语句不相关的案例;
[0018]所述对比学习模块,还用于将所述三元组输入所述长文本编辑器进行编码,得到所述三元组的向量表示;基于所述查询语句的向量与所述正样本的向量构建正相似度矩阵,基于所述查询语句的向量与所述负样本的向量构建负相似度矩阵,利用所述正相似度矩阵和所述负相似度矩阵构建交叉熵损失函数对所述长文本编辑器进行训练。
[0019]本申请的有益效果是:长文本检索模型,包括法律领域预训练模块、对比学习模块以及检索模块;其中,法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对长文本编码器进行领域预训练;对比学习模块,用于从案例标注数据集中构造训练数据,以及利用训练数据对所述长文本编码器进行文本向量训练,其中,训练数据包括查询语句及其正样本、负样本;检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式,本申请的长文本检索模型能够有效解决深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0021]图1是本申请提供的一种基于对比学习的长文本检索模型一实施例的框架示意图;
[0022]图2是本申请提供的一种基于对比学习的长文本检索模型另一实施例的框架示意图。
具体实施方式
[0023]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]类案检索是法律领域的一个特定检索需求,旨在根据用户提供的长文本如起诉状、裁判案例等,从数据库中检索相似案例并返回排序结果,一个好的类案检索系统可以给用户提供类似案件判决信息等有价值的法律参考,因此实现一个针对法律领域的长文本检索模型具有重要的研究价值。长文本匹配算法是法律类案检索功能的核心,传统信息检索场景中查询语句比较短,而作为查询的长文本具有更加丰富的语义信息和逻辑结构,如何学习长文本的语义表示是问题的关键所在。
[0025]针对长文本检索存在的难点,本申请提出了一种基于对比学习的长文本检索模型,采用基于表示型模型架构,将文本编码成一个固定维度向量,通过向量之间的距离衡量文本间的相关度,提高检索效率;使用面向长文本的基于稀疏自注意力机制的预训练语言模型(Longformer)作为基础文档编码器,扩展输入序列长度上限至上千字,同时降低注意力机制计算复杂度,经过法律领域预训练和对比学习的方法训练模型捕获长文本语义特征。综合来说,本申请提出的长文本检索模型兼顾检索精度和速度,可被有效应用于查询文本较长的语义检索场景当中,解决模型对输入文本长度的限制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的长文本检索模型,其特征在于,所述长文本检索模型包括法律领域预训练模块、对比学习模块以及检索模块;其中,所述法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对所述长文本编码器进行领域预训练;所述对比学习模块,用于从案例标注数据集中构造训练数据,以及利用所述训练数据对所述长文本编码器进行文本向量训练,其中,所述训练数据包括查询语句及其正样本、负样本;所述检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。2.根据权利要求1所述的长文本检索模型,其特征在于,所述检索模块,还用于利用所述长文本编码器将查询语句转换为查询向量,与案例库中所有案例的案例向量计算相似度,从而基于相似度得分高低返回检索排序结果。3.根据权利要求2所述的长文本检索模型,其特征在于,所述检索模块,还用于将数据库中的所有案例经过所述长文本编码器编码后得到对应的案例向量,并对所有案例向量进行聚类后,离线存储形成所述案例库。4.根据权利要求2或3所述的长文本检索模型,其特征在于,所述检索模块,还用于计算所述查询向量与所述案例库中的所有聚类中心的距离,获取距离最小的聚类中心对应的聚类,将该聚类中的所有案例向量按照与所述案例向量的距离大小进行排序,并以排序结果返回检索排序结果。5.根据权利要求1所述的长文本检索模型,其特征在于,所述法律领域预训练模块,还用于以中文预训练模型为基础构建所述长文本编码器;其中,所述中文预训练模型事先使用大量法律无标签语料进行全词遮罩预训练。6.根据权利要求5所述的长文本检索模型,其特征在于...

【专利技术属性】
技术研发人员:钟泽艺杨敏贺倩明
申请(专利权)人:深圳得理科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1