【技术实现步骤摘要】
案件相似度匹配方法、装置、计算机设备及存储介质
[0001]本专利技术涉及数据检索
,更具体地说是案件相似度匹配方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着时代的发展,法院审判案件激增,案件库中案件判决书也越来越多,在案件分析时,往往需要从案件库中找出两个或者多个相似案件进行对比,目前针对案件相似度查找有以下几种方式。
[0003]第一种是将案件数据库中的案件调取出来,对每个案件对象模型中的人车物属性元素分别进行提取并添加到至对应的人车数组比对容器,计算各待比对人车物数组中的人车物属性的相似性,并将相似性最大的至少两个属性元素对象与相应的相似度值以键值对的形式记录至相似性映表中,最终依据相似性映射表对各案件的案件对象模型中的人车物属性元素进行相似性排序展示。该方法依据属性的键值对进行文章的相似度匹配,忽略大量非人车物信息,对非人车物或涉及其他领域的案件信息丢失严重,对案件匹配效果有严重影响。
[0004]第二种是包括以文书的布局和要点词作为约束条件,利用自动抽取算法,抽取文书的案件事实 ...
【技术保护点】
【技术特征摘要】
1.案件相似度匹配方法,其特征在于,包括:获取案件数据库中的案件判决书文本;从案件判决书文本中收集停用词汇和专用名词词汇,并生成停用词词汇库和专有词词汇库;从案件判决书文本中选取需要进行相似度匹配的第一案件文本和第二案件文本;将第一案件文本和第二案件文本输入到孪生网络中进行处理,以得到第一案件文本和第二案件文本的相似概率值;若第一案件文本和第二案件文本的相似概率值满足设定的相似阈值,则判定第一案件文本和第二案件文本为相似案件。2.根据权利要求1所述的案件相似度匹配方法,其特征在于,所述将第一案件文本和第二案件文本输入到孪生网络中进行处理,以得到第一案件文本和第二案件文本的相似概率值,所述孪生网络包括基于ERNIE的文本向量的网络模型、基于WordGCN图的文本向量的网络模型以及基于主题词的文本向量的网络模型。3.根据权利要求2所述的案件相似度匹配方法,其特征在于,所述所述将第一案件文本和第二案件文本输入到孪生网络中进行处理,以得到第一案件文本和第二案件文本的相似概率值,包括:将第一案件文本和第二案件文本输入到基于ERNIE的文本向量的网络模型中进行处理,以得到第一案件文本和第二案件文本的第一处理特征;将第一案件文本和第二案件文本输入到基于WordGCN图的文本向量的网络模型进行处理,以得到第一案件文本和第二案件文本的第二处理特征;将第一案件文本和第二案件文本输入到基于主题词的文本向量的网络模型进行处理,以得到第一案件文本和第二案件文本的第三处理特征;将第一案件文本和第二案件文本的第一处理特征和第一案件文本和第二案件文本的第二处理特征进行concate合并处理,以得到第一案件文本和第二案件文本的合并特征;将第一案件文本和第二案件文本的合并特征输入到全连接层处理,以得到第一案件文本和第二案件文本的全连接层处理特征;将第一案件文本和第二案件文本的全连接层处理特征与第一案件文本和第二案件文本的第三处理特征进行乘法运算,以得到第一案件文本和第二案件文本的文本语义表征特征;对第一案件文本和第二案件文本的文本语义表征特征进行全连接层和激活函数处理,以得到第一案件文本和第二案件文本的文本抽象语义表征;将第一案件文本和第二案件文本的文本抽象语义表征经过维度为1的全连接层的矩阵以及sigmoid激活函数处理,以得到第一案件文本和第二案件文本的相似概率值。4.根据权利要求3所述的案件相似度匹配方法,其特征在于,所述将第一案件文本和第二案件文本输入到基于ERNIE的文本向量的网络模型中进行处理,以得到第一案件文本和第二案件文本的第一处理特征,包括:根据第一案件文本和第二案件文本中文本内容的断句符号进行语句切分;通过分词工具并结合停用词词汇库和专有词词汇库对语句进行分词,以得到分词数据;
通过ERNIE基于MLM对分词数据进行处理,以得到...
【专利技术属性】
技术研发人员:胡懋成,王秋阳,郑博超,凤阳,
申请(专利权)人:深圳市赛为智能股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。