一种基于对比学习的长文本检索模型制造技术

技术编号：32733347 阅读：23 留言：0更新日期：2022-03-20 08:39

本申请提供了一种基于对比学习的长文本检索模型，包括法律领域预训练模块、对比学习模块以及检索模块；其中，法律领域预训练模块，用于构建基础的长文本编码器，以及使用法律文书语料对长文本编码器进行领域预训练；对比学习模块，用于从案例标注数据集中构造训练数据，以及利用训练数据对所述长文本编码器进行文本向量训练，其中，训练数据包括查询语句及其正样本、负样本；检索模块，用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式，本申请的长文本检索模型能够有效解决深度模型处理长文本的问题，结合类案检索的特点，使用领域预训练以及对比学习方法对文档编码器进行调整，提高了检索的准确度和效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对比学习的长文本检索模型

[0001]本申请涉及文本检索
，特别是涉及一种基于对比学习的长文本检索模型。

技术介绍

[0002]用户输入一段包含案件基本事实的长文本如起诉状、上诉状以及裁判案例等，检索系统从数据库中返回与该文本在基本事实、争议焦点、法律适用问题等方面具有相似性的裁判文书，并按照相关程度进行排序返回。无论是法律相关人士如从业律师、公司法务或司法人员，还是普通民众，都对法律检索有很大的需求，其价值不言而喻。
[0003]类案检索问题面临的首要难点就是文本过长，一般检索场景中查询语句较短，而类案检索中的查询文本往往多达上千字，传统检索模型往往基于关键字进行字面匹配，虽不限制文本的长度，但对于分词准确度有较高要求，且无法处理词语之间语义相关性，而一般的深度学习模型对于输入长度有限制，随着输入长度的增加，计算的时间和空间成本急剧增加；另一方面，长文本检索面临着检索效率的瓶颈，传统检索模型在查询文本过长、数据库中候选案例数量过多的情况下，需要耗费大量时间进行计算，基于交互的深度学习模型在这种场景下将产生大量的交互计算，耗费不可承受的时间和空间资源，同样不适用。

技术实现思路

[0004]本申请提供了一种基于对比学习的长文本检索模型，所述长文本检索模型包括法律领域预训练模块、对比学习模块以及检索模块；其中，
[0005]所述法律领域预训练模块，用于构建基础的长文本编码器，以及使用法律文书语料对所述长文本编码器进行领域预训练；
[0006]所述对比学习模块，用于从...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的长文本检索模型，其特征在于，所述长文本检索模型包括法律领域预训练模块、对比学习模块以及检索模块；其中，所述法律领域预训练模块，用于构建基础的长文本编码器，以及使用法律文书语料对所述长文本编码器进行领域预训练；所述对比学习模块，用于从案例标注数据集中构造训练数据，以及利用所述训练数据对所述长文本编码器进行文本向量训练，其中，所述训练数据包括查询语句及其正样本、负样本；所述检索模块，用于采用训练好的长文本编码器检测长文本查询语句对应的案例。2.根据权利要求1所述的长文本检索模型，其特征在于，所述检索模块，还用于利用所述长文本编码器将查询语句转换为查询向量，与案例库中所有案例的案例向量计算相似度，从而基于相似度得分高低返回检索排序结果。3.根据权利要求2所述的长文本检索模型，其特征在于，所述检索模块，还用于将数据库中的所有案例经过所述长文本编码器编码后得到对应的案例向量，并对所有案例向量进行聚类后，离线存储形成所述案例库。4.根据权利要求2或3所述的长文本检索模型，其特征在于，所述检索模块，还用于计算所述查询向量与所述案例库中的所有聚类中心的距离，获取距离最小的聚类中心对应的聚类，将该聚类中的所有案例向量按照与所述案例向量的距离大小进行排序，并以排序结果返回检索排序结果。5.根据权利要求1所述的长文本检索模型，其特征在于，所述法律领域预训练模块，还用于以中文预训练模型为基础构建所述长文本编码器；其中，所述中文预训练模型事先使用大量法律无标签语料进行全词遮罩预训练。6.根据权利要求5所述的长文本检索模型，其特征在于...

【专利技术属性】
技术研发人员：钟泽艺，杨敏，贺倩明，
申请(专利权)人：深圳得理科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人