一种基于语义相似度的相似案件匹配方法组成比例

技术编号:22847714 阅读:42 留言:0更新日期:2019-12-17 23:01
本发明专利技术公开了一种基于语义相似度的案件匹配方法,本发明专利技术选择使用Word2Vec模型训练得到案件词向量,它可以自动从训练数据中抽取特征,也就是说抽取特征是模型的一部分,从而忽视案件文本的特殊性;本方法在案件词向量的基础上实现自动抽取案件的关键词,并通过多示例转成单示例,将多个关键词向量转化成案件的fisher向量进行语义相似度计算,使得普通用户只需要输入案件描述或者裁判文书就可以获得相似案件,其可使用性大大增强。

A similar case matching method based on semantic similarity

【技术实现步骤摘要】
一种基于语义相似度的相似案件匹配方法
本专利技术是一种基于语义相似度的案件匹配方法,属于法律人工智能领域。
技术介绍
随着信息时代的到来,人类每天接触的信息量越来越大,逐渐从信息匮乏时代走向信息过载时代,如何从中获得有效的信息显得尤为重要。目前各种法律数据库已经存储了大量电子数据,由于数据库仅能做简单的案件分类,通过数据库查询相似案件显得费时费力。如何从海量的法律案件中更快更有效地查询相似案件是一项值得探讨的工作。随着互联网技术的发展,已经有一些与机器学习相关的法律案件检索技术,这些技术将更快查询相似案件,提高效率、降低时间和人力成本。文本语义相似度计算是法律案件检索中一个重要的环节,文本语义相似度旨在比较文档对的相似程度,所以相似案件的检索可以归结为查询文本与数据库中文档的语义相似度计算问题。目前,裁判文书网、无讼网和法信网等网站都提供相似案件检索服务,很大程度上方便用户查询相似案件,但是案件文本语义相似度算法还不成熟。现有的案件检索系统采用的主要方法是,使用案件的关键词进行匹配,但是非法律专业的普通用户很难提取案件中的关键信息,所以很难利用这些系统进行高效的检索。此外与普通文本相比,法律案例文本具有其特殊性,其文本涉及法律专业的很多用语,因此法律文本对预处理的要求更高。传统的文本语义相似度计算方法依据特定的研究任务,需要人工定义和抽取特征,所以我们不能简单的将其他任务的文本语义相似度计算的方法引入到法律案例文本语义相似度算法中。但是神经网络模型可以自动从训练数据中抽取特征,也就是说抽取特征是模型的一部分,从而忽视案件文本的特殊性。因此本专利技术选择使用Word2Vec模型,作为神经网络模型的一种,它可以节省人工定义和抽取特征过程,忽视案件文本的特殊性,训练得到案件词向量,在此基础上实现了自动抽取描述案件的关键词,再通过多示例转成单示例,将多个关键词向量转化成描述案件的fisher向量,最后通过计算余弦距离完成相似案件匹配。
技术实现思路
本专利技术针对普通用户无法有效提取法律文书中的关键词及传统语义相似度算法需要人工定义和抽取特征的问题,提出了一种基于Word2Vec的案件词向量模型,并在此基础上自动抽取描述案件的关键词,通过多示例转成单示例,将多个关键词向量转化成描述案件的fisher向量进行语义相似度计算,主要过程包含案件词向量生成过程、基于案件词向量的语义相似度计算方法。鉴于此,本专利技术的技术方案是一种基于语义相似度的相似案件匹配方法,包括如下步骤:步骤1:建立案件库:获取裁判文书,进行结构化处理并存储,形成案件库;步骤2:案件词向量生成;案件语料整理,剔除信息量低的内容;通过分词、剔除停用词、低频词等操作后,使用Word2Vec训练得到案件词向量模型;步骤3:基于案件词向量的语义相似度计算方法,在案件词向量模型的基础上,抽取案件中的关键词后,通过多示例转成单示例,得到描述案件的fisher向量后,计算余弦距离,判断是否是相似案件,并得到相似度判断阈值;步骤4:相似案件匹配:将用户输入的案件描述或者导入的审判文书,进行预处理并存储;依次获取案件的词向量和关键词向量,将关键词向量转化为fisher向量后,带入案件库中进行匹配,将匹配到的类似案件按照相似程度进行排序,并展示给用户。本专利技术的有益效果:1、使用基于Word2Vec的案件词向量模型,节省了人工定义和抽取特征的过程,并且基于100万条案件大语料的训练,使得案件词向量模型泛化性能更优。2、基于案件词向量模型,实现了描述案件的关键词提取,从而使普通用户只需要输入案件描述或者裁判文书就可以获得相似案件,使其可使用性大大增强。附图说明图1为本专利技术系统的构架图。图2为本专利技术的方法流程图。具体实施方式以下结合说明书附图1对本专利技术作进一步的详细说明。步骤1:建立案件库:获取裁判文书,进行预处理并存储,形成案件库;步骤2:案件词向量生成;案件语料整理,剔除信息量低的内容;通过分词、剔除停用词、低频词操作后,使用Word2Vec训练得到案件词向量模型;步骤3:基于案件词向量的语义相似度计算方法,在案件词向量模型的基础上,抽取案件中的关键词后,通过多示例转成单示例,得到描述案件的fisher向量后,计算余弦距离,判断是否是相似案件,并得到相似度判断阈值;步骤4:相似案件匹配:将用户输入的案件描述或者导入的审判文书,进行预处理并存储;依次获取案件的词向量和关键词向量,将关键词向量转化为fisher向量后,带入案件库中进行匹配,将匹配到的类似案件按照相似程度进行排序,并展示给用户。进一步,步骤1中把裁判文书进行结构化处理,使裁判文书可以用标题、相关公司、法院名称、判决类型、案号、当事人、审理经过、原告诉求、被告答辩等字段描述。上述步骤2和步骤3的模型建立过程是通过两步优化,首先是案件语料整理,剔除信息量低的内容,保留审理经过、原告诉求、本院认为、判决结果等字段,通过Word2Vec模型训练得到案件词向量。然后再根据案件词向量,计算描述案件各个词在语句中的重要程度,即计算条件概率p(s|wi)的值,这里的s代表着一段文本,wi是文本中的某个词,如果wi是文本的关键词,那么应该使得上述概率最大,条件概率值越大,代表其越有可能是关键词,我们对句子中所有的词,算一遍上述概率,然后降序排列,选取前k个关键词,再通过多示例转单示例,得到描述案件的Fisher向量。最后通过计算两个案件Fisher向量之间的语义相似度,通过阈值判断是否为相似案件。作为优选,上述阈值选取0.8。上述步骤4案件匹配过程就是从用户输入的案件描述或者导入的审判文书中自动抽取关键词,再将关键词向量转成Fisher向量,使用Fisher向量去案件库中进行语义相似度计算,最后将匹配到的类似案件按照相似程度进行排序,并展示给用户。如图2所示,本专利技术提供了一种基于Word2Vec模型的案件词向量训练方法及基于案件词向量的语义相似度计算方法,该方法具体实施步骤包括如下:案件词向量生成过程案件词向量模型的训练过程是从裁判文书网上爬取约100万条案件数据作为训练集,运用word2vec将大量案件信息数据训练成词向量。Word2vec是将单词训练成实数值向量的高效工具,它是在训练语言模型的同时,顺便得到词向量的,它可以根据上下文预测当前词,也可以根据当前词预测上下文语境。以下是已知上下文信息,估算当前词语的语言模型。其学习目标是最大化对数似然函数:L=∑w∈clogp(w|Context(w))(1)其中,C为语料库,也就是本专利技术中的100万条案件数据,w表示语料库C中任意一个词,Context为词w的上下文语境。此模型有输入层、投影层和输出层,输入层为上下文的词语的词向量(训练开始的时候,词向量是个随机值,随着训练的进行不断被更新)。投影层就是对输入的词向量相加求和。输出层对应为Huffman树,本文档来自技高网
...

【技术保护点】
1.一种基于语义相似度的相似案件匹配方法,其特征在于,所述方法包括如下步骤:/n步骤1:建立案件库;/n步骤2:案件词向量生成;/n步骤3:基于案件词向量的语义相似度计算方法;/n步骤4:相似案件匹配。/n

【技术特征摘要】
1.一种基于语义相似度的相似案件匹配方法,其特征在于,所述方法包括如下步骤:
步骤1:建立案件库;
步骤2:案件词向量生成;
步骤3:基于案件词向量的语义相似度计算方法;
步骤4:相似案件匹配。


2.根据权利要求1所述的一种基于语义相似度的相似案件匹配方法,其特征在于,所述步骤1包括获取裁判文书,对裁判文书进行结构化处理并存储,形成案件库。


3.根据权利要求1所述的一种基于语义相似度的相似案件匹配方法,其特征在于:所述步骤2和步骤3的是通过两步优化,首先是案件语料整理,剔除信息量低的内容,保留审理经过、原告诉求、本院认为、判决结果等字段,通过Word2Vec模型训练得到案件词向...

【专利技术属性】
技术研发人员:张邱鸣糜俊于志文邵一婷丁家轩胡笳
申请(专利权)人:江苏鸿信系统集成有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1