【技术实现步骤摘要】
一种基于法律要素的类案检索方法及系统
[0001]本专利技术涉及一种基于法律要素的类案检索方法及系统,属于文本相似度计算的
技术介绍
[0002]随着中国智慧司法的发展深入,在持续全面推行“类案及关联案件强制检索”制度背景下,司法大数据不断公开,“类案检索”的应用范围不断扩大,因此,类案检索结果的准确性亟待提升。
[0003]法律案例检索是一种特殊的检索任务,它是指检索给定查询用例的类似案例。与传统的文本检索相比,法律案例检索具有不同的特点和更大的挑战性,主要体现在以下几个方面:
[0004](一)法律案例文本往往为长文本。冗长的文本会导致模型对文本建立向量表示的时候无法顾全所有的有用信息。而目前,在文本领域最常用的神经网络模型如长短时记忆网络的记忆能力并不强,在长文本方面的应用效果不佳,这也导致针对通用文本相似度计算的方法和模型在法律领域效果不好的一大原因。
[0005](二)法律案件的相似不同于通用的文本相似,在某种程度上也超出了文本主题相关性的一般定义,它需要挖掘文本中所包含的法律要素的相似性,传统的文本相似度计算方法的确可以对语义进行学习,但由于模型不了解法律领域知识,可能无法学习到表层语义下面更深的法律相关的逻辑联系,这就导致了单纯使用文本相似度计算方法并不能找到高度相似的法律案件。因此,识别案件在法律问题和法律流程方面的相似性至关重要。
[0006](三)法律文本结构与一般文本结构不同。通用文本相似性模型考虑的主要是文本的结构性特点,比如,句法结构,却不能很好的表 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于法律要素的类案检索方法,其特征在于,包括步骤如下:步骤1:语义编码;是指:先将长文本按案件描述顺序划分为短的段落,再通过基于BERT的文本编码方法对查询段落和候选段落进行语义编码表示;步骤2:主题分布编码;是指:基于LDA模型文档生成的逆过程,分别获得查询文档段落集与每篇候选文档段落集的主题概率分布交互矩阵;步骤3:法律实体编码;是指:从文书中抽取法律要素,并对每一个案件中所包含的法律要素进行同义词扩展,最终对两个案件段落间的相似度进行计算;步骤4:编码聚合及相似度计算;是指:将语义编码、主题分布编码及法律实体编码三部分进行编码聚合并对查询
‑
候选对进行相似度计算,选取相似度较大的前几个对应的候选文档作为类案。2.根据权利要求1所述的一种基于法律要素的类案检索方法,其特征在于,步骤1的具体实现过程如下:步骤1.1:形式化地描述,对于一个查询文档q和任一候选文档d
k
分别表示为q=(p
q1
,p
q2
,
…
,p
qi
…
,p
qN
),dk=(p
k1
,p
k2
,
…
,p
kj
…
,p
kM
);其中,N和M分别为查询文档q和候选文档d
k
的总段落数;对于查询文档q和候选文档d
k
中的每个段落,构造一个查询
‑
候选段落对(p
qi
,p
kj
),其中,1≤i≤N和1≤j≤M;步骤1.2:将段落对(p
qi
,p
kj
)连同保留的标记即[CLS]和[SEP]一起输入BERT模型;第一个令牌[CLS]的最终隐藏层向量输出作为查询
‑
候选段落对(p
qi
,p
kj
)的语义聚合表示,具体如式(1)所示:C
ij
=BERT(p
qi
,p
kj
)
ꢀꢀꢀ
(1)这样,得到所有查询
‑
候选段落对的交互矩阵,每个查询
‑
候选段落对(p
qi
,p
kj
)的语义表示为C
ij
,C
ij
∈R
HB
;步骤1.3:对于查询文档的每一段落,使用maxpooling候选文档的最强匹配段落,从而得到一个向量序列,表示为p'
qk
=[p'
qk1
,p'
qk2
,...,p
’
qki
...,p'
qkN
];p
’
qki
如式(2)所示:步骤1.4:通过GRU模型对p'
qki
进行进一步的编码,得到语义编码结果h
qk
=[h
qk1
,h
qk2
,
…
,h
qki
…
,h
qkN
],h
qki
∈R
HR
。3.根据权利要求1所述的一种基于法律要素的类案检索方法,其特征在于,步骤2的具体实现过程如下:步骤2.1:利用生成的文档推断其隐藏的主题的过程即LDA模型文档生成的逆过程,只有文档d中单词w是被观察到的,主题z是隐藏的,根据大量已知的文档
‑
词项信息即文档d中单词w,计算得到每个文档上主题的后验分布,如式(3)所示:其中,是主题分布,是的狄利克雷分布,是主题分布的先验分布参数,构成文档m的主题数向量,是确定的主题,通过Gibbs Sampling方法求解出主题的后验分布
步骤2.2:根据公式(3)得到段落P
qi
,P
kj
的主题的后验分布分别为ZP
qi
=[ZP
qi
‑1,ZP
qi
‑2,...,ZP
qi
‑
v
]和ZP
kj
=[ZP
kj
‑1,Z
kj
‑2,...,ZP
kj
‑
v
],计算得到查询文档段落集与候选文档段落集的主题概率分布交互矩阵T
qik
,查询文档段落集、候选文档段落集分别是指在查询文档q=(p
q1
,p
q2
,
…
,p
qi
…
,p
qN
)、任一候选文档dk=(p
k1
,p
k2
,
…
,p
kj
…
,p
技术研发人员:李玉军,胡伟凤,贲晛烨,崔岩,赵思文,胡喜风,赵强,郭润东,
申请(专利权)人:中国社会科学院社会学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。