基于词向量模型的法条推荐方法技术

技术编号：20546007 阅读：14 留言：0更新日期：2019-03-09 18:56

本发明专利技术公开了一种基于词向量模型的法条推荐方法，该发明专利技术属于推荐系统技术领域中的协同过滤推荐技术，协同过滤是通过借助相似的事物来为事物推荐或者筛选信息的技术，推荐法条需要借助裁判文书中的基本案件情况获取其他案情相近的文书，然后根据多个前例推荐法条。本发明专利技术与现有方法相比，其显著优点是：引入词向量模型后，通过词向量的计算能够更准确地表达两段案件基本情况的相似程度，从而为裁判文书找到案情更相似的文书。并且根据多个相似案情的文书可以采取多种协同过滤推荐策略，获得更准确的推荐结果。

A Method of Recommending Norms Based on Word Vector Model

The invention discloses a law recommendation method based on word vector model. The invention belongs to the collaborative filtering recommendation technology in the technical field of recommendation system. Collaborative filtering is a technology of recommending or screening information for things by means of similar things. The recommendation law needs to obtain other documents with similar cases by means of the basic cases in the judgment documents, and then according to several previous documents. Examples recommend legislation. Compared with the existing methods, the invention has the obvious advantages that after introducing the word vector model, the similarity degree of the basic situation of two cases can be more accurately expressed by the calculation of the word vector, so as to find documents with more similar cases for adjudicative documents. And according to the documents of similar cases, we can adopt a variety of collaborative filtering recommendation strategies to get more accurate recommendation results.

全部详细技术资料下载

【技术实现步骤摘要】
基于词向量模型的法条推荐方法
本专利技术属于推荐系统
，尤其是推荐系统
中的协同过滤推荐技术，是用于根据诉讼案件的案件基本情况进行推荐法条的技术。
技术介绍
近年来，最高人民法院以“大数据、大格局、大服务”理念为指导，积极推进和落实全面依法治国战略部署，大力推进人民法院信息化建设。裁判文书作为法律审判活动记录的载体，完整反映了当事人主张、举证和质证的客观过程，并全面阐述了裁判结果形成的法律依据、事实证据和推理过程。裁判文书是一类重要的司法数据，截至2018年9月，已有超过5200万份裁判文书被收录并公布于中国裁判文书网。基于海量裁判文书的文本挖掘，将有助于挖掘司法规律，并指导司法实践，因此，面向司法大数据的研究工作，以及“人工智能+法律”的概念成为热点研究话题。基于自然语言处理和机器学习的语义检索，法律问答，法律援助，在线法院等都将使法律行业的运行方式变得更加智能与高效。在案件审判过程中，法官需要结合当事人的诉求以及案件的证据与事实，阅读大量的法律法规来选择合适的法律法条作为依据，从而确定案件判决结果。由于成文法繁多，同一个问题可能会出现在不同的法律规范中，因此法官需要阅读大量的法律法规，这一过程通常需要耗费大量的时间和精力。由于这个原因，法院工作中的一些矛盾和问题逐渐显现，其中“同案不同判、法律适用的不统一”便是其中之一，同案同判成为广大公众对法律的诉求。对于案件的当事人，在案件咨询与诉讼过程中，他们往往需要支付高昂的律师咨询费来了解案件的情况以及可能的判决结果。法条推荐的价值正体现在这两方面：一方面法条推荐可以为法官推荐案件可能适用的法条，...

【技术保护点】
1.基于词向量模型的法条推荐方法，其特征是通过词向量的计算获取案情相似的裁判文书并通过协同过滤方法进行推荐，它以已经成文的裁判文书集和目标文书的案件基本情况为输入，以推荐系统推荐的法条为输出结果；该方法通过词向量计算文书之间的词移动距离(Word Mover’s Distance)来度量文书之间的相似程度；该方法具体包含以下步骤：步骤(1)获取初始数据集：获取已经成文的裁判文书集的案件基本情况集合A1＝{a1，a2，...，aN}和引用的法条集合F1＝{f1，f2，...，fN}；步骤(2)对数据集文本分词：根据集合A1，获得分词后的案件基本情况集合A2＝{a′1，a′2，...，a′N}；步骤(3)清理数据集：根据集合A2，获得清理后的案件基本情况集合A3＝{a″1，a″2，...，a″N}；步骤(4)拆分数据集：将集合A3和F1拆分为训练集A3，t、F1，t和验证集A3，v、F1，v；步骤(5)设置词向量模型参数并训练：设置窗口大小、词最小出现频数、词向量长度，根据训练集A3，t，获得词向量模型M；步骤(6)计算基于词向量模型的训练集和验证集：根据词向量模型M，计算集合A3，t、A...

【技术特征摘要】
1.基于词向量模型的法条推荐方法，其特征是通过词向量的计算获取案情相似的裁判文书并通过协同过滤方法进行推荐，它以已经成文的裁判文书集和目标文书的案件基本情况为输入，以推荐系统推荐的法条为输出结果；该方法通过词向量计算文书之间的词移动距离(WordMover’sDistance)来度量文书之间的相似程度；该方法具体包含以下步骤：步骤(1)获取初始数据集：获取已经成文的裁判文书集的案件基本情况集合A1＝{a1，a2，...，aN}和引用的法条集合F1＝{f1，f2，...，fN}；步骤(2)对数据集文本分词：根据集合A1，获得分词后的案件基本情况集合A2＝{a′1，a′2，...，a′N}；步骤(3)清理数据集：根据集合A2，获得清理后的案件基本情况集合A3＝{a″1，a″2，...，a″N}；步骤(4)拆分数据集：将集合A3和F1拆分为训练集A3，t、F1，t和验证集A3，v、F1，v；步骤(5)设置词向量模型参数并训练：设置窗口大小、词最小出现频数、词向量长度，根据训练集A3，t，获得词向量模型M；步骤(6)计算基于词向量模型的训练集和验证集：根据词向量模型M，计算集合A3，t、A3，v中每个a″i的词频，获得词频集合P3，t、P3，v，并将词替换为词向量形式的a″′i，获得集合A4，t、A4，v；步骤(7)计算验证集的相似文书集：根据验证集中的每个a″′i和训练集中的a″′i，获得和a″′i的相似文书集A5，i；步骤(8)计算验证集的推荐法条集：根据集合A5，i、F1，t和协同过滤推荐策略，推荐法条f′i，获得推荐法条集合F2，v；步骤(9)计算推荐策略的最优参数：根据集合F1，v和F2，v，获得最优的推荐策略参数；步骤(10)对目标裁判文书分词：对目标文书的案件基本情况ag进行分词，获得分词后的案件基本情况a′g；...

【专利技术属性】
技术研发人员：葛季栋，李传艺，王子安，冯奕，雷妙妙，周筱羽，骆斌，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人