System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向裁判文书的文档级智能问答实现方法技术_技高网

一种面向裁判文书的文档级智能问答实现方法技术

技术编号:40507169 阅读:4 留言:0更新日期:2024-03-01 13:21
本发明专利技术公开了一种面向裁判文书的文档级智能问答实现方法,其步骤包括:1)获取目标裁判文书;2)采对裁判文书的内容进行分割得到多个文本块,生成每一所述文本块的表示向量并存入文书向量数据库VB1中;3)根据从裁判文书中抽取的实体、关系和属性构建一知识图谱,根据知识图谱中每一三元组生成一知识条目,构建知识集合;将知识条目转为表示向量存入知识向量数据库VB2中;4)根据用户的问题Q生成一问题向量;5)将问题向量分别与VB1、VB2中每一表示向量进行文本相似度计算,获取相似文本集A1、相似知识集A2;6)基于A1、A2,采用大语言模型生成标准答案输出。本发明专利技术提升了面向裁判文书问答的准确率。

【技术实现步骤摘要】

本专利技术属于人工智能和自然语言处理领域,具体涉及一种基于大语言模型的面向裁判文书的文档级智能问答实现方法


技术介绍

1、随着司法领域的发展和信息化进程的推进,裁判文书的数量和复杂度不断增加,给法官和律师的工作带来了巨大挑战。传统的文书阅读和信息提取方式已经无法满足快速、准确地获取案情要点和相关法律知识的需求。因此,研究开发一种面向裁判文书的文档级智能问答实现方法具有重要意义。该方法基于人工智能技术,实现了对裁判文书的智能问答功能,可以自动回答用户提出的问题,并从文书中抽取关键信息和法律要点。面向裁判文书的文档级智能问答实现方法可以帮助法官和律师快速获取案情要点和法律知识,提高工作效率和质量。同时,该方法的应用也有助于促进司法信息化建设,推动司法领域的创新发展。通过引入文档级智能问答实现方法,可以实现对裁判文书的自动化处理、智能化分析和标准化输出,提高司法工作的规范性和一致性。

2、现有的司法领域智能问答系统主要关注于基于问题的查询与回答,由于裁判文书内容复杂,传统的文本检索工具难以满足快速准确的查询需求,其一般是基于关键词或者向量检索,获取最相似的内容,但是无法给出准确的回答。当大模型技术涌现时,采用大模型对文本进行总结,可以得到更直观的回答。但是通过问题查找相似文本内容时,鉴于相似模型的准确率,会存在相似文本无法回答用户问题的情形。


技术实现思路

1、针对现有技术中存在的技术问题,本专利技术的目的是提供一种面向裁判文书的文档级智能问答实现方法,本专利技术利用司法文书特有的结构优势,采用文书分段技术和基于案件图谱的知识构建技术相融合,解决大模型缺乏垂直领域知识带来的语义理解错误问题和传统司法领域难以准确回答用户问题的情形,提升面向裁判文书问答的准确率。

2、本专利技术首先将用户上传的裁判文书采用文书分段技术和案件图谱构建技术实现文本分割和知识提取,然后利用embedding模型实现文本和案件知识的向量化存储。基于用户问题,采用相似度计算分别查找相似文本和知识集,将文本和知识融入提示指令中,调用大语言模型,实现精准性的智能问答服务。

3、基于此,本专利技术提供了一种基于大语言模型并融合案件图谱知识的文档级智能问答服务方法,所述方法包括:

4、s1:获取目标文书内容,并计算文本长度l,所述目标文书为用户待分析的裁判文书,裁判文书类型包含起诉书、起诉状、判决书、裁定书等;

5、s2:采用文书分段技术实现对文书内容的分割得到多个文本块,使用embedding模型生成分割后文本块的表示向量,并存入文书向量数据库vb1中;

6、s3:采用案件知识提取模型实现对文书中实体、关系和属性的抽取,基于抽取的实体、关系和属性构建一知识图谱,将知识图谱中每组实体、关系和属性进行融合生成一段语言表述(即将知识图谱中的内容以实体为单位进行语义表述),记为一个知识条目,构建由多个知识条目组成的知识集合,采用embedding模型将知识集合中的知识条目转为表示向量存入知识向量数据库vb2中;

7、s4:基于用户的问题q,使用embedding模型转为向量表示;

8、s5:将s4中生成的问题向量分别与文书向量库vb1及知识向量库vb2中向量计算文本相似度,获取目标相似文本集a1和相似知识集a2;

9、s6:基于s5中的目标相似文本集和相似知识集,采用大语言模型,生成问题q的标准答案输出。

10、进一步地,所述s2中,对文书内容采用如下表所示的分段规则进行文书段落结构化处理:

11、

12、将文书分为标题段、文书类型段、当事人段、事实认定段等,构造文书分割集,数据集中的文本块由“段落名称:段落内容”组成;然后采用开源的embedding模型(如m3e-base)对文本块进行向量化转换,并存入向量数据库vb1中。

13、进一步地,所述s3包含以下具体步骤:

14、s31:构建文书基本信息相关的本体,如实体:文书类型、案由、案号、当事人、法律名称等,属性:当事人类型、居住地等,关系:辩护人等,采用uie统一信息提取模型,实现文书基本信息相关实体、关系和属性的提取,构建文书基本信息知识库;

15、s32:基于s31提取的文书基本信息知识库及s2中多个文本块,结合已有的司法案例知识体系,利用自训练的法律大语言模型,基于设定的提示指令,识别文书中的案件特征、生成争议焦点等案情信息,构建案情知识库;

16、其中采用大语言模型对案件特征进行识别采用的提示指令中包含的信息有:事实认定段内容、本院认为段内容、案件特征名称、基于特征构建的思维链语料以及识别案件特征的提示语料;采用大语言模型生成争议焦点中采用的提示指令中包含的信息有:诉称段信息、辩称段信息以及生成争议焦点的提示语料;

17、s33:基于s31提取的法律法规名称,结合法律法规库,提取法律法规内容、关联法条、沿革信息、法条释义、法律法规关联的案例、关联的裁判规则等信息,构建法规知识库;

18、s34:基于s31、s32、s33中的知识库,采用设定的人类语言规则将知识库中的信息按实体、关系、属性组合成一段话作为一条知识条目,构建知识集合;例如:“姓名:李某,属性(当事人类型):被告人,属性(性别):女,关系(妻子):宋某”,对应的可以构成一条知识:被告人李某,性别是女,妻子为宋某。然后采用开源的embedding模型(如m3e-base)对知识进行向量化转换,并存入向量数据库vb2中。

19、进一步地,所述s5包含以下具体步骤:

20、s51:采用余弦相似度的方法分别计算用户问题向量与两个向量数据库中元素的相似度并排序;

21、s52:基于设定的阈值参数k1和k2,从向量数据库vb1中选出相似度最高的前k1个向量对应的文本块内容,生成相似文本集a1;从向量数据库vb2中选出相似度最高的前k2个向量对应的知识内容子集,生成相似知识集a2。

22、可选的,当文本长度l小于指定阈值γ时,文本全文可以代替相似文本集a1。

23、进一步地,所述s6包含以下具体步骤:

24、s61:构建大模型解答用户问题的提示指令模版,其指令包含相似文本槽、相似知识槽、问题槽及解答问题的提示语料。

25、s62:将a1集合中的文本采用分隔符拼接成一段文本内容,并将其代入相似文本槽中,同样地,将a2集合中的知识采用分隔符号拼接成一段文本内容,并将其代入相似知识槽中,再将问题q代入问题槽中,最终将填充所得提示指令传给大语言模型,生成准确、标准的答案。

26、本专利技术还提供一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。

27、本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本文档来自技高网...

【技术保护点】

1.一种面向裁判文书的文档级智能问答实现方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,得到所述向量数据库VB2的方法为:

3.根据权利要求2所述的方法,其特征在于,所述实体包括裁判文书类型、案由、案号、当事人、法律名称;所述属性包括当事人类型、居住地;所述关系包括辩护人。

4.根据权利要求1所述的方法,其特征在于,步骤5)中,采用余弦相似度的方法进行所述文本相似度计算;然后根据设定的阈值参数k1从知识向量数据库VB1中选出相似度最高的前k1个向量对应的文本块内容,生成相似文本集A1;根据设定的阈值参数k2从知识向量数据库VB2中选出相似度最高的前k2个向量对应的知识内容子集,生成相似知识集A2。

5.根据权利要求1所述的方法,其特征在于,当所述目标文书的文本内容长度L小于指定阈值γ时,将所述目标文书的全部文本内容作为相似文本集A1。

6.根据权利要求1所述的方法,其特征在于,步骤6)中,首先构建所述大语言模型解答用户问题的提示指令模版,包含相似文本槽、相似知识槽、问题槽及解答问题的提示语料;然后将所述相似文本集A1中的文本采用分隔符拼接成一段文本内容,并将其代入所述相似文本槽中;将所述相似知识集A2中的知识采用分隔符拼接成一段文本内容,并将其代入所述相似知识槽中,将所述问题Q代入所述问题槽中,生成一提示指令;然后将所述提示指令传给所述大语言模型,生成生成所述问题Q的标准答案输出。

7.根据权利要求1或2或3所述的方法,其特征在于,所述裁判文书的类型包含起诉书、起诉状、判决书、裁定书。

8.根据权利要求7所述的方法,其特征在于,所述步骤2)中,对所述裁判文书进行分段,得到标题段、文书类型段、当事人段、事实认定段,将每一段的段落名称和段落内容作为一所述文本块。

9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。

...

【技术特征摘要】

1.一种面向裁判文书的文档级智能问答实现方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,得到所述向量数据库vb2的方法为:

3.根据权利要求2所述的方法,其特征在于,所述实体包括裁判文书类型、案由、案号、当事人、法律名称;所述属性包括当事人类型、居住地;所述关系包括辩护人。

4.根据权利要求1所述的方法,其特征在于,步骤5)中,采用余弦相似度的方法进行所述文本相似度计算;然后根据设定的阈值参数k1从知识向量数据库vb1中选出相似度最高的前k1个向量对应的文本块内容,生成相似文本集a1;根据设定的阈值参数k2从知识向量数据库vb2中选出相似度最高的前k2个向量对应的知识内容子集,生成相似知识集a2。

5.根据权利要求1所述的方法,其特征在于,当所述目标文书的文本内容长度l小于指定阈值γ时,将所述目标文书的全部文本内容作为相似文本集a1。

6.根据权利要求1所述的方法,其特征在于,步骤6)中,首先构建所述大语言模型解答用户问题的提示指令模版,包含相似文本槽、相似知识槽、问题槽及...

【专利技术属性】
技术研发人员:魏芸菲孙晓锐张育龙吴正午崔世琦
申请(专利权)人:中国司法大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1