一种基于法律要素的类案检索方法及系统技术方案

技术编号:33636231 阅读:10 留言:0更新日期:2022-06-02 01:49
本发明专利技术涉及一种基于法律要素的类案检索方法及系统,包括:步骤1:语义编码;先划分为短的段落,对查询段落和候选段落进行语义编码表示;步骤2:主题分布编码;分别获得查询文档段落集与每篇候选文档段落集的主题概率分布交互矩阵;步骤3:法律实体编码;从文书中抽取法律要素,对两个案件段落间的相似度进行计算;步骤4:编码聚合及相似度计算;将语义编码、主题分布编码及法律实体编码三部分进行编码聚合并对查询

【技术实现步骤摘要】
一种基于法律要素的类案检索方法及系统


[0001]本专利技术涉及一种基于法律要素的类案检索方法及系统,属于文本相似度计算的


技术介绍

[0002]随着中国智慧司法的发展深入,在持续全面推行“类案及关联案件强制检索”制度背景下,司法大数据不断公开,“类案检索”的应用范围不断扩大,因此,类案检索结果的准确性亟待提升。
[0003]法律案例检索是一种特殊的检索任务,它是指检索给定查询用例的类似案例。与传统的文本检索相比,法律案例检索具有不同的特点和更大的挑战性,主要体现在以下几个方面:
[0004](一)法律案例文本往往为长文本。冗长的文本会导致模型对文本建立向量表示的时候无法顾全所有的有用信息。而目前,在文本领域最常用的神经网络模型如长短时记忆网络的记忆能力并不强,在长文本方面的应用效果不佳,这也导致针对通用文本相似度计算的方法和模型在法律领域效果不好的一大原因。
[0005](二)法律案件的相似不同于通用的文本相似,在某种程度上也超出了文本主题相关性的一般定义,它需要挖掘文本中所包含的法律要素的相似性,传统的文本相似度计算方法的确可以对语义进行学习,但由于模型不了解法律领域知识,可能无法学习到表层语义下面更深的法律相关的逻辑联系,这就导致了单纯使用文本相似度计算方法并不能找到高度相似的法律案件。因此,识别案件在法律问题和法律流程方面的相似性至关重要。
[0006](三)法律文本结构与一般文本结构不同。通用文本相似性模型考虑的主要是文本的结构性特点,比如,句法结构,却不能很好的表示法律文本。判决文书虽然是非结构化的文本,但判决文书的书写有着特定的格式要求,如果能够将判决文书的结构特点与传统文本相似度的计算相结合,可能会产生更好的效果。
[0007]在考虑两个案件是否相似时,实际上是在考虑两个案件中所包含的法律要素及其组成的事件逻辑是否相似,这些法律要素往往体现在被告人的行为上,是用于判定被告人是否触犯某些法律法规,以及应该判处何种罪名,刑期时间长短的关键要素。

技术实现思路

[0008]针对现有技术的不足,本专利技术提供一种基于法律要素的类案检索方法。
[0009]本专利技术还提供了一种基于法律要素的类案检索系统。
[0010]专利技术概述:
[0011]本专利技术模型框架包含三个模块,第一部分为法律特征编码模块,其中包含基于BERT的语义编码模块、基于LDA的主题分布编码模块和法律实体编码模块;第二部分为编码聚合模块,在进入第三部分之前,第二部分负责将第一部分输出的结果进行编码聚合;第三部分为相似度计算模块。
[0012]针对传统文本相似性方法在法律文本相似性方面的不足,本专利技术通过三种编码模块对法律要素信息进行提取,通过基于BERT的语义编码模块捕获案件的语义上下文信息,通过主题编码模块聚类案件描述的主题信息,通过法律要素编码模块更精准地加强法律要素信息的作用,并将聚合之后的段落编码信息输入门限循环神经网络GRU(Gate Recurrent Unit),来提取法律案件描述的段落级逻辑关系,最后通过注意力机制实现段落级关键信息的识别。
[0013]术语解释:
[0014]1、BERT:一种自编码语言模型,用于提取词语在句子中的关系特征,并根据句子上下文获取语义特征。
[0015]2、[CLS]标志:放在第一个句子的首位,经过BERT得到的的表征向量C可以用于后续的分类任务。
[0016]3、[SEP]标志:用于分开两个输入句子,例如输入句子A和B,要在句子A、B后面增加[SEP]标志。
[0017]4、LDA模型:主题概率模型,可以根据基于LDA的文档生成的逆过程求得文档的主题分布。
[0018]5、GRU模型:长短时记忆网络LSTM的变体,属递归神经网络,可以用于解决文本编码中的长依赖问题。
[0019]6、注意力机制。注意力机制最早由机器翻译任务提出,通过计算模型解码器端生成序列的单词对编码器中每个单词的权重分布,得到有权重关联信息的特征向量表示,提高模型翻译效果。在这里可以理解为对输入权重进行关注性分配的机制。
[0020]7、狄利克雷分布:即Dirichlet分布,是一组连续多变量概率分布,是多变量普遍化的B分布。
[0021]8、Gibbs Sampling方法,吉布斯采样方法,常用于DBM和DBN,吉布斯采样主要用在像LDA和其它模型参数的推断上。
[0022]9、BM25,是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法。
[0023]10、TF

IDF(term frequency

inverse document frequency,词频

逆向文件频率),是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。
[0024]11、LMIR,是1999年提出一种信息检索语言模型,它是基于一系列的数据平滑技术,包括Good

Turing估计,曲线拟合函数和模型组合,该模型可以很容易地扩展到包含短语的概率,比如词对和词三元组。
[0025]12、BERT模型,Bidirectional Encoder Representations from Transformer,是一种预训练语言模型,如图2所示,就是基于Transformer的双向编码器表征。顾名思义,BERT采用的是Transformer,并且在处理一个单词的时候,还能够考虑到该词前面的和后面的单词,得到它在上下文中的含义。其目的是提前训练好下游任务中底层的、共性的部分模
型,然后再用下游任务各自的样本数据来训练各自的模型,这样就可以极大地加快收敛速度。对于nlp的下游任务,尽管最终目标各不相同,但是它们也有着共同的必要步骤,即将文本中的无法直接计算的单词转变为可以计算的向量或者矩阵等形式,并且这些数字化的向量要能够比较好地反映出对应单词在句子中的含义。
[0026]13、GRU模型,是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好。如图3所示,在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门:分别是更新门和重置门,GRU的参数较少,因此训练速度更快,GRU也是可以解决RNN网络中的长依赖问题,能够降低过拟合的风险。
[0027]12、BERT

PLI,是2020年提出的一种法律案件检索模型,该模型利用BERT来捕获段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于法律要素的类案检索方法,其特征在于,包括步骤如下:步骤1:语义编码;是指:先将长文本按案件描述顺序划分为短的段落,再通过基于BERT的文本编码方法对查询段落和候选段落进行语义编码表示;步骤2:主题分布编码;是指:基于LDA模型文档生成的逆过程,分别获得查询文档段落集与每篇候选文档段落集的主题概率分布交互矩阵;步骤3:法律实体编码;是指:从文书中抽取法律要素,并对每一个案件中所包含的法律要素进行同义词扩展,最终对两个案件段落间的相似度进行计算;步骤4:编码聚合及相似度计算;是指:将语义编码、主题分布编码及法律实体编码三部分进行编码聚合并对查询

候选对进行相似度计算,选取相似度较大的前几个对应的候选文档作为类案。2.根据权利要求1所述的一种基于法律要素的类案检索方法,其特征在于,步骤1的具体实现过程如下:步骤1.1:形式化地描述,对于一个查询文档q和任一候选文档d
k
分别表示为q=(p
q1
,p
q2
,

,p
qi

,p
qN
),dk=(p
k1
,p
k2
,

,p
kj

,p
kM
);其中,N和M分别为查询文档q和候选文档d
k
的总段落数;对于查询文档q和候选文档d
k
中的每个段落,构造一个查询

候选段落对(p
qi
,p
kj
),其中,1≤i≤N和1≤j≤M;步骤1.2:将段落对(p
qi
,p
kj
)连同保留的标记即[CLS]和[SEP]一起输入BERT模型;第一个令牌[CLS]的最终隐藏层向量输出作为查询

候选段落对(p
qi
,p
kj
)的语义聚合表示,具体如式(1)所示:C
ij
=BERT(p
qi
,p
kj
)
ꢀꢀꢀ
(1)这样,得到所有查询

候选段落对的交互矩阵,每个查询

候选段落对(p
qi
,p
kj
)的语义表示为C
ij
,C
ij
∈R
HB
;步骤1.3:对于查询文档的每一段落,使用maxpooling候选文档的最强匹配段落,从而得到一个向量序列,表示为p'
qk
=[p'
qk1
,p'
qk2
,...,p

qki
...,p'
qkN
];p

qki
如式(2)所示:步骤1.4:通过GRU模型对p'
qki
进行进一步的编码,得到语义编码结果h
qk
=[h
qk1
,h
qk2
,

,h
qki

,h
qkN
],h
qki
∈R
HR
。3.根据权利要求1所述的一种基于法律要素的类案检索方法,其特征在于,步骤2的具体实现过程如下:步骤2.1:利用生成的文档推断其隐藏的主题的过程即LDA模型文档生成的逆过程,只有文档d中单词w是被观察到的,主题z是隐藏的,根据大量已知的文档

词项信息即文档d中单词w,计算得到每个文档上主题的后验分布,如式(3)所示:其中,是主题分布,是的狄利克雷分布,是主题分布的先验分布参数,构成文档m的主题数向量,是确定的主题,通过Gibbs Sampling方法求解出主题的后验分布
步骤2.2:根据公式(3)得到段落P
qi
,P
kj
的主题的后验分布分别为ZP
qi
=[ZP
qi
‑1,ZP
qi
‑2,...,ZP
qi

v
]和ZP
kj
=[ZP
kj
‑1,Z
kj
‑2,...,ZP
kj

v
],计算得到查询文档段落集与候选文档段落集的主题概率分布交互矩阵T
qik
,查询文档段落集、候选文档段落集分别是指在查询文档q=(p
q1
,p
q2
,

,p
qi

,p
qN
)、任一候选文档dk=(p
k1
,p
k2
,

,p
kj

,p

【专利技术属性】
技术研发人员:李玉军胡伟凤贲晛烨崔岩赵思文胡喜风赵强郭润东
申请(专利权)人:中国社会科学院社会学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1