一种基于语义相似度的相似案件匹配方法组成比例

技术编号：22847714 阅读：42 留言：0更新日期：2019-12-17 23:01

本发明专利技术公开了一种基于语义相似度的案件匹配方法,本发明专利技术选择使用Word2Vec模型训练得到案件词向量，它可以自动从训练数据中抽取特征，也就是说抽取特征是模型的一部分，从而忽视案件文本的特殊性；本方法在案件词向量的基础上实现自动抽取案件的关键词，并通过多示例转成单示例，将多个关键词向量转化成案件的fisher向量进行语义相似度计算，使得普通用户只需要输入案件描述或者裁判文书就可以获得相似案件，其可使用性大大增强。

A similar case matching method based on semantic similarity

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义相似度的相似案件匹配方法
本专利技术是一种基于语义相似度的案件匹配方法，属于法律人工智能领域。
技术介绍
随着信息时代的到来，人类每天接触的信息量越来越大，逐渐从信息匮乏时代走向信息过载时代，如何从中获得有效的信息显得尤为重要。目前各种法律数据库已经存储了大量电子数据，由于数据库仅能做简单的案件分类，通过数据库查询相似案件显得费时费力。如何从海量的法律案件中更快更有效地查询相似案件是一项值得探讨的工作。随着互联网技术的发展，已经有一些与机器学习相关的法律案件检索技术，这些技术将更快查询相似案件，提高效率、降低时间和人力成本。文本语义相似度计算是法律案件检索中一个重要的环节，文本语义相似度旨在比较文档对的相似程度，所以相似案件的检索可以归结为查询文本与数据库中文档的语义相似度计算问题。目前，裁判文书网、无讼网和法信网等网站都提供相似案件检索服务，很大程度上方便用户查询相似案件，但是案件文本语义相似度算法还不成熟。现有的案件检索系统采用的主要方法是，使用案件的关键词进行匹配，但是非法律专业的普通用户很难提取案件中的关键信息，所以很难利用这些系统进行高效的检索。此外与普通文本相比，法律案例文本具有其特殊性，其文本涉及法律专业的很多用语，因此法律文本对预处理的要求更高。传统的文本语义相似度计算方法依据特定的研究任务，需要人工定义和抽取特征，所以我们不能简单的将其他任务的文本语义相似度计算的方法引入到法律案例文本语义相似度算法中。但是神经网络模型可以自动从训练数据中抽取特征，也就是说抽取特征是模型的...

【技术保护点】
1.一种基于语义相似度的相似案件匹配方法，其特征在于，所述方法包括如下步骤：/n步骤1：建立案件库；/n步骤2：案件词向量生成；/n步骤3：基于案件词向量的语义相似度计算方法；/n步骤4：相似案件匹配。/n

【技术特征摘要】
1.一种基于语义相似度的相似案件匹配方法，其特征在于，所述方法包括如下步骤：
步骤1：建立案件库；
步骤2：案件词向量生成；
步骤3：基于案件词向量的语义相似度计算方法；
步骤4：相似案件匹配。

2.根据权利要求1所述的一种基于语义相似度的相似案件匹配方法，其特征在于，所述步骤1包括获取裁判文书，对裁判文书进行结构化处理并存储，形成案件库。

3.根据权利要求1所述的一种基于语义相似度的相似案件匹配方法，其特征在于：所述步骤2和步骤3的是通过两步优化，首先是案件语料整理，剔除信息量低的内容，保留审理经过、原告诉求、本院认为、判决结果等字段，通过Word2Vec模型训练得到案件词向...

【专利技术属性】
技术研发人员：张邱鸣，糜俊，于志文，邵一婷，丁家轩，胡笳，
申请(专利权)人：江苏鸿信系统集成有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人