当前位置: 首页 > 专利查询>南京大学专利>正文

基于主题模型的裁判文书相似度分析方法技术

技术编号:16455956 阅读:105 留言:0更新日期:2017-10-25 20:32
本发明专利技术公开了一种基于主题模型的裁判文书相似度分析方法。该方法采用机器学习中的LDA(Latent Dirichlet Allocation)主题模型,针对裁判文书,提出一种基于语义的、半自动化的、通用的相似度分析方法。本方法主要包括选取语料、建立相似度标注、文本预处理、输入选取、参数设置、迭代训练、生成模型和应用模型等步骤。该方法在一般相似度分析方法的基础上,充分考虑裁判文书内容上专业词汇丰富、语义复杂的特点,利用裁判文书半结构化的特性,从而提升了裁判文书相似度分析的准确性和适用性。

Similarity analysis method of referee documents based on topic model

The invention discloses a referee document similarity analysis method based on topic model. The use of machine learning method in LDA (Latent Dirichlet Allocation) topic model for referee instruments, this paper proposed an analysis method for semi automated semantic, general similarity based on. This method includes selecting corpus, establishing similarity labeling, text preprocessing, input selection, parameter setting, iterative training, generating model and application model and other steps. Analysis of the general similarity method based on full consideration of characteristics of adjudicative document content rich and complex semantic vocabulary, using semi-structured characteristics of judgment, so as to enhance the accuracy of similarity judgment and applicability.

【技术实现步骤摘要】
基于主题模型的裁判文书相似度分析方法
本专利技术是一种文本相似度分类方法,针对法院内部的裁判文书,属于机器学习、文本挖掘

技术介绍
中国裁判文书网从2013年开始建设,截止2017年5月14日已经累积存储文书超过2900万篇,逐渐成长为全球最大的裁判文书共享网站。基于这些数据,一系列司法大数据研究、分析工作也相继开展,在获得斐然成果的同时,还面临着许多问题和挑战。其中一部分问题集中在针对法院数据挖掘分析能力和相关研究的不足上。裁判文书,作为法院工作的重要组成部分,记载了人民法院审理的过程和结果。它既是法院诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的惟一凭证。在中国法院信息化过程中汇聚起来的裁判文书已经成为审判领域宝贵的数据资源,通过针对裁判文书的大数据挖掘研究工作,可以提出更加智能化的信息技术手段辅助法官办案。例如:从已有裁判文书库中挖掘相似案例的裁判文书,并为法官提供相似案例推荐;法院可以根据一个法官经手裁判文书的相似程度来评估其一段时间的工作量;法官、诉讼参与人、法律工作者等可以输入案情来查看某案件可能涉及的相关法律条文。针对这些应用场景和需求,本专利本文档来自技高网...
基于主题模型的裁判文书相似度分析方法

【技术保护点】
基于主题模型的裁判文书相似度分析方法,其特征是针对裁判文书及其特点,使用基于主题模型的文本挖掘方法来进行文本相似度分析,其步骤如下:(1)在裁判文书集中,以某种属性(如案由、案件类型等)作为筛选条件抽取目标文书子集作为目标语料;(2)将目标语料分为训练语料和测试语料,并对测试语料进行相似度标注;(3)对作为训练语料的文书文本进行预处理操作,包括文书分段、文书筛选、中文分词、分词前后的词语获取和过滤操作;(4)选择目标语料的高可信部分作为输入内容;(5)设置各类参数,包括设置停用词、LDA主题模型训练参数、TF‑IDF输入和评估标准;(6)使用训练语料,应用LDA主题模型进行模型训练;(7)使用...

【技术特征摘要】
1.基于主题模型的裁判文书相似度分析方法,其特征是针对裁判文书及其特点,使用基于主题模型的文本挖掘方法来进行文本相似度分析,其步骤如下:(1)在裁判文书集中,以某种属性(如案由、案件类型等)作为筛选条件抽取目标文书子集作为目标语料;(2)将目标语料分为训练语料和测试语料,并对测试语料进行相似度标注;(3)对作为训练语料的文书文本进行预处理操作,包括文书分段、文书筛选、中文分词、分词前后的词语获取和过滤操作;(4)选择目标语料的高可信部分作为输入内容;(5)设置各类参数,包括设置停用词、LDA主题模型训练参数、TF-IDF输入和评估标准;(6)使用训练语料,应用LDA主题模型进行模型训练;(7)使用测试语料评估本次训练模型(指和测试语料相似度标注的符合程度);(8)调整参数,迭代执行步骤(6),直到针对所有要求参数完成遍历;(9)根据不同参数下的准确度,选择合适的参数,生成裁判文书相似度分析的训练模型;(10)应用步骤(9)生成的训练模型,做裁判文书相似度分析。2.根据权利要求1所述的基于主题模型的裁判文书相...

【专利技术属性】
技术研发人员:周业茂葛季栋王悦李传艺李忠金周筱羽骆斌
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1