一种用于增强检索效果的法律文本多标签生成方法及装置制造方法及图纸

技术编号：41070415 阅读：2 留言：0更新日期：2024-04-24 11:26

本发明专利技术提供一种用于增强检索效果的法律文本多标签生成方法及装置，其中方法包括：获取法律文本和法律问题，构建用于训练的数据集；对所述数据集进行预处理，得到法律文本标签和法律问题数据；基于所述法律文本标签和法律问题数据，训练得到多标签分类模型；基于所述多标签分类模型，构建知识库检索模型；将所述知识库检索模型整合到RAG框架中，得到RAG框架下的法律文本多标签生成模型；对所述法律文本多标签生成模型进行评估和优化。本发明专利技术减少了因法典数量庞大带来的检索噪音，优化了法律信息检索的各个环节，显著提升了法律信息检索系统检索的精确度和效率，减少了计算资源的消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能领域中的自然语言处理技术，特别是应用于法律文书分析和法条检索的多标签分类模型。

技术介绍

1、现有的法律信息检索系统通常依赖于关键词搜索和基本的语义匹配技术，此类系统的核心功能是从大量的法律文档中检索与用户查询语句相关的信息。然而，这些传统方法存在一系列缺点，限制了法律信息检索系统在法律领域的应用效率和准确性，具体的缺点包括：

2、1、关键词匹配的局限性：关键词搜索依赖于用户输入的准确关键词，这要求用户必须对法律问题的法律术语有足够的了解。此外，关键词匹配无法理解文本中的语义复杂性，例如同一关键词在不同上下文中可能有不同的含义，导致检索结果的准确性不高。

3、2、语义相似度检索的不足：虽然语义相似度检索能够在一定程度上克服关键词匹配的局限，通过理解查询和文档之间的语义关联来提高检索质量，但这种方法往往缺乏对法律术语适用性和相关性的考量。该方法可能会返回在语义上相似但在具体法律情境下并不适用的法条，从而影响检索结果的实用性。

4、3、庞大的标签空间问题：直接使用法典作为标签的方法面临着标签空间过大的问题。法典数量众多，每个法典可能包含数百甚至数千个具体法条。这不仅使得检索过程变得异常复杂，而且大幅增加了计算成本，尤其是在需要对大量文档进行实时检索的情况下。

5、4、检索效率和精确度问题：由于标签空间的庞大和语义匹配的不精确，现有的检索系统在效率和精确度方面都存在不足。这意味着用户可能需要花费较长时间等待检索结果，或者需要从大量不相关的结果中筛选出有用的信息。p>

6、5、法律语境的特殊性：法律文本具有高度的专业性和复杂性，现有技术难以准确捕捉和理解法律语境中的细微差别，如不同法律条文之间的关联及其在特定案件情境下的适用性。

7、综上所述，现有的法律信息检索系统由于无法有效处理法律文本的复杂性和特殊性，导致检索效率和结果的准确性均不理想。因此，需要一种新的技术方案来解决这些问题，提高法律信息检索的性能。

技术实现思路

1、针对现有技术存在的不足，本专利技术提供一种用于增强检索效果的法律文本多标签生成方法及装置，从法律文本中生成与之相关的法律文本标签；使用预训练语言模型理解和分析用户口语化查询及文档，生成对应的法律标签；基于法律文本标签优化法律知识库中的向量相似度检索范围，从而提高检索的效率、相关性和精确度。

2、可选的，本专利技术通过整合retrieval-augmented generation(rag)技术，能够增强法律信息检索系统，从而提升裁判文书、法律文档搜索的效率和质量，并为大型语言模型提供更准确的知识输入。

3、第一方面，本专利技术提供了一种用于增强检索效果的法律文本多标签生成方法，包括：

4、获取法律文本和法律问题，构建用于训练的数据集；

5、可选的，所述法律文本为从裁判文书网收集案件裁判文书的标题、正文和援引的法律及法条数据；

6、所述法律问题为大模型生成的口语化法律问题。

7、对所述数据集进行预处理，得到法律文本标签和法律问题数据；

8、可选的，对所述数据集进行预处理，得到法律文本标签和法律问题数据，包括：

9、对所述法律文本赋予唯一标签，得到法律文本标签；

10、对所述法律问题进行数据预处理，得到法律问题数据。

11、可选的，所述法律问题进行数据预处理的方式包括：切分，清洗，去重，长度限制；

12、基于所述法律文本标签和法律问题数据，训练得到多标签分类模型；

13、可选的，所述多标签分类模型的训练方法包括：

14、将所述法律问题数据作为多标签分类模型训练的输入(input)；

15、将所述法律问题数据对应的所述法律文本标签作为多标签分类模型训练的输出(output)；

16、训练所述多标签分类模型。

17、基于所述多标签分类模型，构建知识库检索模型；

18、可选的，所述知识库检索模型的构建方法包括：

19、构建法律文本标签到知识id的映射表；

20、构建知识向量表；

21、提交法律问题，由所述多标签分类模型得到法律文本标签；

22、基于所述法律文本标签，由所述法律文本标签到知识id的映射表得到相关的知识id；

23、基于所述相关的知识id，对所述知识向量表进行向量相似度检索，得到与所述法律问题最相关的法律文本。

24、将所述知识库检索模型整合到rag框架中，得到rag框架下的法律文本多标签生成模型；

25、对所述法律文本多标签生成模型进行评估和优化；

26、可选的，对所述法律文本多标签生成模型进行评估和优化，包括：

27、通过测试案例评估所述法律文本多标签生成模型的性能，包括检索的准确性、效率和系统的响应时间，得到评估结果；

28、根据所述评估结果对所述法律文本多标签生成模型进行调整和优化。

29、第二方面，本专利技术还提供了一种用于增强检索效果的法律文本多标签生成装置，包括：

30、数据集构建模块，用于获取法律文本和法律问题，构建用于训练的数据集；

31、数据预处理模块，用于对所述数据集进行预处理，得到法律文本标签和法律问题数据；

32、多标签分类模型训练模块，用于基于所述法律文本标签和法律问题数据，训练得到多标签分类模型；

33、知识库检索模型构建模块，用于基于所述多标签分类模型，构建知识库检索模型；

34、rag应用模块，用于将所述知识库检索模型整合到rag框架中，得到rag框架下的法律文本多标签生成模型；

35、优化模块，用于对所述法律文本多标签生成模型进行评估和优化。

36、与现有技术相比，本专利技术的有益效果在于：

37、1、多标签分类的优化：通过精细的人工标注，构建了一套精确的法律标签体系，反映用户案件描述中的相关法条。利用该多标签分类模型，为新的法律案件准确分配恰当的法条标签，使检索系统能够基于这些标签缩小检索范围，从而提高检索的精度。

38、2、复杂语义理解的增强：借助最新的自然语言处理技术，特别是预训练的t5模型，本专利技术深化了对用户查询意图的理解，并能更复杂地分析法律文档内容，生成相关的类型标签。这一深入的语义理解有助于准确捕捉不同情境下法律条文的含义和适用性，显著提升检索结果的相关性。

39、3、检索范围定位的改善：本专利技术通过结合法律文书内容与相关法条标签，有效地限制了向量相似度检索的范围。不仅减少了需审查的法条数量，提高了检索效率，而且通过专注于最相关的法条，提高了检索的精确度和适用性。

40、4、检索效率的提升：通过将检索范围定位在相关法条标签上，本专利技术降低了计算资源消耗，并提高了检索速度，使得用户能够在更短的时间内获得更相关的检索结果。...

【技术保护点】

1.一种用于增强检索效果的法律文本多标签生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的用于增强检索效果的法律文本多标签生成方法，其特征在于，所述法律文本为从裁判文书网收集案件裁判文书的标题、正文和援引的法律及法条数据。

3.如权利要求1所述的用于增强检索效果的法律文本多标签生成方法，其特征在于，所述法律问题为大模型生成的口语化法律问题。

4.如权利要求1所述的用于增强检索效果的法律文本多标签生成方法，其特征在于，对所述数据集进行预处理，得到法律文本标签和法律问题数据，包括：

5.如权利要求4所述的用于增强检索效果的法律文本多标签生成方法，其特征在于，对所述法律问题进行数据预处理的方式包括：

6.如权利要求1所述的用于增强检索效果的法律文本多标签生成方法，其特征在于，所述多标签分类模型的训练方法包括：

7.如权利要求1所述的用于增强检索效果的法律文本多标签生成方法，其特征在于，所述知识库检索模型的构建方法包括：

8.如权利要求1所述的用于增强检索效果的法律文本多标签生成方法，其特征在于

9.一种如权利要求1-8中的任一项所述的用于增强检索效果的法律文本多标签生成装置，其特征在于，包括：

...

【技术特征摘要】

1.一种用于增强检索效果的法律文本多标签生成方法，其特征在于，包括以下步骤：

3.如权利要求1所述的用于增强检索效果的法律文本多标签生成方法，其特征在于，所述法律问题为大模型生成的口语化法律问题。

5.如权利要求4所述的用于增强检索效果...

【专利技术属性】
技术研发人员：李帅帅，蔡华，徐清，陆逸骁，史可欢，王浩然，夏天，赵爽，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人