当前位置: 首页 > 专利查询>南京大学专利>正文

基于词向量模型的法条推荐方法技术

技术编号:20546007 阅读:14 留言:0更新日期:2019-03-09 18:56
本发明专利技术公开了一种基于词向量模型的法条推荐方法,该发明专利技术属于推荐系统技术领域中的协同过滤推荐技术,协同过滤是通过借助相似的事物来为事物推荐或者筛选信息的技术,推荐法条需要借助裁判文书中的基本案件情况获取其他案情相近的文书,然后根据多个前例推荐法条。本发明专利技术与现有方法相比,其显著优点是:引入词向量模型后,通过词向量的计算能够更准确地表达两段案件基本情况的相似程度,从而为裁判文书找到案情更相似的文书。并且根据多个相似案情的文书可以采取多种协同过滤推荐策略,获得更准确的推荐结果。

A Method of Recommending Norms Based on Word Vector Model

The invention discloses a law recommendation method based on word vector model. The invention belongs to the collaborative filtering recommendation technology in the technical field of recommendation system. Collaborative filtering is a technology of recommending or screening information for things by means of similar things. The recommendation law needs to obtain other documents with similar cases by means of the basic cases in the judgment documents, and then according to several previous documents. Examples recommend legislation. Compared with the existing methods, the invention has the obvious advantages that after introducing the word vector model, the similarity degree of the basic situation of two cases can be more accurately expressed by the calculation of the word vector, so as to find documents with more similar cases for adjudicative documents. And according to the documents of similar cases, we can adopt a variety of collaborative filtering recommendation strategies to get more accurate recommendation results.

【技术实现步骤摘要】
基于词向量模型的法条推荐方法
本专利技术属于推荐系统
,尤其是推荐系统
中的协同过滤推荐技术,是用于根据诉讼案件的案件基本情况进行推荐法条的技术。
技术介绍
近年来,最高人民法院以“大数据、大格局、大服务”理念为指导,积极推进和落实全面依法治国战略部署,大力推进人民法院信息化建设。裁判文书作为法律审判活动记录的载体,完整反映了当事人主张、举证和质证的客观过程,并全面阐述了裁判结果形成的法律依据、事实证据和推理过程。裁判文书是一类重要的司法数据,截至2018年9月,已有超过5200万份裁判文书被收录并公布于中国裁判文书网。基于海量裁判文书的文本挖掘,将有助于挖掘司法规律,并指导司法实践,因此,面向司法大数据的研究工作,以及“人工智能+法律”的概念成为热点研究话题。基于自然语言处理和机器学习的语义检索,法律问答,法律援助,在线法院等都将使法律行业的运行方式变得更加智能与高效。在案件审判过程中,法官需要结合当事人的诉求以及案件的证据与事实,阅读大量的法律法规来选择合适的法律法条作为依据,从而确定案件判决结果。由于成文法繁多,同一个问题可能会出现在不同的法律规范中,因此法官需要阅读大量的法律法规,这一过程通常需要耗费大量的时间和精力。由于这个原因,法院工作中的一些矛盾和问题逐渐显现,其中“同案不同判、法律适用的不统一”便是其中之一,同案同判成为广大公众对法律的诉求。对于案件的当事人,在案件咨询与诉讼过程中,他们往往需要支付高昂的律师咨询费来了解案件的情况以及可能的判决结果。法条推荐的价值正体现在这两方面:一方面法条推荐可以为法官推荐案件可能适用的法条,提高法官的工作效率,帮助法官实现同案同判,确保公平正义,另一方面法条推荐可以帮助当事人了解同类案件的诉讼结果和相关法条,形成最佳的诉讼策略,节约法律咨询和诉讼的成本。本专利技术提出了一种基于词向量模型的法条推荐方法,词向量模型是文本语义建模的一种,它使用神经网络等机器学习技术将自然语言的词语转换成低维度的数据。词向量模型不仅避免了传统自然语言处理过程中面临的高维度引发的一系列问题,如计算量庞大、存储空间受限等问题,而且能够充分地保留词语的信息。词向量模型优于其它自然语言处理模型还在于其模糊表达的能力,词向量在向量空间的位置信息蕴含了一定的语义信息。在词向量模型中,通过向量空间的计算可以获得词语之间的上下义关系、总分关系、类义关系(相近关系、相反关系等)词语对之间的对应关系等,极大地扩展了语言处理的能力,是传统自然语言模型难以简单完成的。借助词向量模型强大的文本语义表达能力,基于词向量模型的文本处理度量方法如词移动距离(WordMover’sDistance,简称WMD)、松弛词移动距离(RelaxedWMD,简称RWMD)、词矩心距离(WordCentroidDistance,简称WCD)产生,相比于传统方法如词袋模型(Bagofwords)词频及逆文本频率指数统计方法(TermFrequency-InverseDocumentFrequency,简称TF-IDF)、隐狄利克雷文档主题生成模型(LatentDirichletAllocation,简称LDA)的优势在于,它们在处理文档相似程度这一类问题上,借助词向量模型的模糊表达能力和向量空间的计算,可以更好地度量文档之间的相似程度。同时,WMD和RWMD或者WMD和WCD之间拥有高度相关的特性,所以可以借助RWMD和WCD的计算,对海量数据进行预剪枝。这样,即避免了WMD运算较慢的劣势,同时最大限度地使用了WMD在度量文档之间相似程度上面的优势。在推荐系统中,推荐方法是推荐系统中最重要的部分,推荐方法的好坏往往决定了推荐系统的好坏,主要的推荐方法包括基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐和基于知识推荐和组合推荐。协同过滤推荐技术是推荐系统最早以及最成功的推荐技术之一,协同过滤基于假设:相似的事物蕴含相似的结果信息,所以它可以通过借助相似的事物来为事物推荐或者筛选信息。传统的协同过滤应用通过其他相似事物的结果信息和部分目标事物结果信息补全目标结果信息缺值的方式来得到推荐结果,即使用结果信息来描述和比较事物之间的相似度。本专利技术中使用的协同过滤技术符合其更广义的定义,针对裁判文书中事物特征(案件基本情况等描述信息)和结果信息(引用法条)分离的情况,使用词移动距离(WMD)度量文书案件基本情况特征的相似程度,然后使用多种推荐策略向目标文书推荐法条。
技术实现思路
本专利技术要解决的技术问题是:提供一种基于词向量模型的法条推荐方法,该方法能够更准确地表达两段案件基本情况的相似程度,并且可以采取多种协同过滤推荐策略,获得更准确的推荐结果。本专利技术的技术方案为:基于词向量模型的协同过滤推荐技术,首先对案件基本情况文本进行预处理,包括对文本分词、去除停用词。然后训练词向量模型以获得案件基本情况的词向量表示,使用词移动距离(WMD)度量案件基本情况之问的距离,获得相似文书集合,根据协同过滤推荐策略向文书推荐法条,该推荐方法整体流程如图1所示。包含以下步骤(如图2所示):步骤(1)获取已经成文的裁判文书集的案件基本情况集合A1={a1,a2,...,aN}和引用的法条集合F1={f1,f2,...,fN};步骤(2)根据集合A1,获得分词后的案件基本情况集合A2={a′1,a′2,...,a′N};步骤(3)根据集合A2,获得清理后的案件基本情况集合A3={a″1,a″2,...,a″N};步骤(4)将集合A3和F1拆分为训练集A3,t、F1,t和验证集A3,v、F1,v;步骤(5)设置窗口大小、词最小出现频数、词向量长度,根掘训练集A3,t,获得词向量模型M;步骤(6)根据词向量模型M,计算集合A3,t、A3,v中每个a″i的词频,获得词频集合p3,t、p3,v,并将词替换为词向量形式的a″′i,获得集合A4,t、A4,v;步骤(7)根据验证集中的每个a″′i和训练集中的a″′i,获得和a″′i的相似文书集A5,i;步骤(8)根据集合A5,i、F1,t和协同过滤推荐策略(如图3所示),推荐法条f′i,获得推荐法条集合F2,v;步骤(9)根据集合F1,v和F2,v,获得最优的推荐策略参数;步骤(10)对目标文书的案件基本情况ag进行分词,获得分词后的案件基本情况a′g;步骤(11)根据a′g,获得清理后的案件基本情况a″g;步骤(12)根据词向量模型M,计算a″g的词频,获得词频pg,并将词替换为词向量形式的a″′g;步骤(13)根据a″′g和训练集中的a″′i,获得和a″′g的相似文书集A5,g;步骤(14)根据集合A5,g、F1,t和协同过滤推荐策略,推荐法条f′g。在以上的流程中,步骤(7)和步骤(13)中使用到词矩心距离(WCD)和词移动距离(WMD)计算出裁判文书的相似文书集A5,i,计算的步骤如下:步骤(7.1)或者步骤(13.1):根据验证集中的每个a″′i、pi和训练集中的a″′i、pj,计算词矩心距离,获得AWCD,i;步骤(7.2)或者步骤(13.2):根据验证集中的每个a″′i、pi和AWCD,i中的a″′i、pj,计算词移动距离,获得A5,i。在该方法的第(7)步和第(13)步中本文档来自技高网
...

【技术保护点】
1.基于词向量模型的法条推荐方法,其特征是通过词向量的计算获取案情相似的裁判文书并通过协同过滤方法进行推荐,它以已经成文的裁判文书集和目标文书的案件基本情况为输入,以推荐系统推荐的法条为输出结果;该方法通过词向量计算文书之间的词移动距离(Word Mover’s Distance)来度量文书之间的相似程度;该方法具体包含以下步骤:步骤(1)获取初始数据集:获取已经成文的裁判文书集的案件基本情况集合A1={a1,a2,...,aN}和引用的法条集合F1={f1,f2,...,fN};步骤(2)对数据集文本分词:根据集合A1,获得分词后的案件基本情况集合A2={a′1,a′2,...,a′N};步骤(3)清理数据集:根据集合A2,获得清理后的案件基本情况集合A3={a″1,a″2,...,a″N};步骤(4)拆分数据集:将集合A3和F1拆分为训练集A3,t、F1,t和验证集A3,v、F1,v;步骤(5)设置词向量模型参数并训练:设置窗口大小、词最小出现频数、词向量长度,根据训练集A3,t,获得词向量模型M;步骤(6)计算基于词向量模型的训练集和验证集:根据词向量模型M,计算集合A3,t、A3,v中每个a″i的词频,获得词频集合P3,t、P3,v,并将词替换为词向量形式的a″′i,获得集合A4,t、A4,v;步骤(7)计算验证集的相似文书集:根据验证集中的每个a″′i和训练集中的a″′i,获得和a″′i的相似文书集A5,i;步骤(8)计算验证集的推荐法条集:根据集合A5,i、F1,t和协同过滤推荐策略,推荐法条f′i,获得推荐法条集合F2,v;步骤(9)计算推荐策略的最优参数:根据集合F1,v和F2,v,获得最优的推荐策略参数;步骤(10)对目标裁判文书分词:对目标文书的案件基本情况ag进行分词,获得分词后的案件基本情况a′g;步骤(11)清理数据:根据a′g,获得清理后的案件基本情况a″g;步骤(12)计算基于词向量模型的目标文书数据:根据词向量模型M,计算a″g的词频,获得词频pg,并将词替换为词向量形式的a″′g;步骤(13)计算目标文书的相似文书集:根据a″′g和训练集中的a″′i,获得和a″′g的相似文书集A5,g;步骤(14)计算目标文书的推荐法条集:根据集合A5,g、F1,t和协同过滤推荐策略,推荐法条f′g。...

【技术特征摘要】
1.基于词向量模型的法条推荐方法,其特征是通过词向量的计算获取案情相似的裁判文书并通过协同过滤方法进行推荐,它以已经成文的裁判文书集和目标文书的案件基本情况为输入,以推荐系统推荐的法条为输出结果;该方法通过词向量计算文书之间的词移动距离(WordMover’sDistance)来度量文书之间的相似程度;该方法具体包含以下步骤:步骤(1)获取初始数据集:获取已经成文的裁判文书集的案件基本情况集合A1={a1,a2,...,aN}和引用的法条集合F1={f1,f2,...,fN};步骤(2)对数据集文本分词:根据集合A1,获得分词后的案件基本情况集合A2={a′1,a′2,...,a′N};步骤(3)清理数据集:根据集合A2,获得清理后的案件基本情况集合A3={a″1,a″2,...,a″N};步骤(4)拆分数据集:将集合A3和F1拆分为训练集A3,t、F1,t和验证集A3,v、F1,v;步骤(5)设置词向量模型参数并训练:设置窗口大小、词最小出现频数、词向量长度,根据训练集A3,t,获得词向量模型M;步骤(6)计算基于词向量模型的训练集和验证集:根据词向量模型M,计算集合A3,t、A3,v中每个a″i的词频,获得词频集合P3,t、P3,v,并将词替换为词向量形式的a″′i,获得集合A4,t、A4,v;步骤(7)计算验证集的相似文书集:根据验证集中的每个a″′i和训练集中的a″′i,获得和a″′i的相似文书集A5,i;步骤(8)计算验证集的推荐法条集:根据集合A5,i、F1,t和协同过滤推荐策略,推荐法条f′i,获得推荐法条集合F2,v;步骤(9)计算推荐策略的最优参数:根据集合F1,v和F2,v,获得最优的推荐策略参数;步骤(10)对目标裁判文书分词:对目标文书的案件基本情况ag进行分词,获得分词后的案件基本情况a′g;...

【专利技术属性】
技术研发人员:葛季栋李传艺王子安冯奕雷妙妙周筱羽骆斌
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1