The invention discloses a referee document similarity analysis method based on topic model. The use of machine learning method in LDA (Latent Dirichlet Allocation) topic model for referee instruments, this paper proposed an analysis method for semi automated semantic, general similarity based on. This method includes selecting corpus, establishing similarity labeling, text preprocessing, input selection, parameter setting, iterative training, generating model and application model and other steps. Analysis of the general similarity method based on full consideration of characteristics of adjudicative document content rich and complex semantic vocabulary, using semi-structured characteristics of judgment, so as to enhance the accuracy of similarity judgment and applicability.
【技术实现步骤摘要】
基于主题模型的裁判文书相似度分析方法
本专利技术是一种文本相似度分类方法,针对法院内部的裁判文书,属于机器学习、文本挖掘
技术介绍
中国裁判文书网从2013年开始建设,截止2017年5月14日已经累积存储文书超过2900万篇,逐渐成长为全球最大的裁判文书共享网站。基于这些数据,一系列司法大数据研究、分析工作也相继开展,在获得斐然成果的同时,还面临着许多问题和挑战。其中一部分问题集中在针对法院数据挖掘分析能力和相关研究的不足上。裁判文书,作为法院工作的重要组成部分,记载了人民法院审理的过程和结果。它既是法院诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的惟一凭证。在中国法院信息化过程中汇聚起来的裁判文书已经成为审判领域宝贵的数据资源,通过针对裁判文书的大数据挖掘研究工作,可以提出更加智能化的信息技术手段辅助法官办案。例如:从已有裁判文书库中挖掘相似案例的裁判文书,并为法官提供相似案例推荐;法院可以根据一个法官经手裁判文书的相似程度来评估其一段时间的工作量;法官、诉讼参与人、法律工作者等可以输入案情来查看某案件可能涉及的相关法律条文。针对这些应 ...
【技术保护点】
基于主题模型的裁判文书相似度分析方法,其特征是针对裁判文书及其特点,使用基于主题模型的文本挖掘方法来进行文本相似度分析,其步骤如下:(1)在裁判文书集中,以某种属性(如案由、案件类型等)作为筛选条件抽取目标文书子集作为目标语料;(2)将目标语料分为训练语料和测试语料,并对测试语料进行相似度标注;(3)对作为训练语料的文书文本进行预处理操作,包括文书分段、文书筛选、中文分词、分词前后的词语获取和过滤操作;(4)选择目标语料的高可信部分作为输入内容;(5)设置各类参数,包括设置停用词、LDA主题模型训练参数、TF‑IDF输入和评估标准;(6)使用训练语料,应用LDA主题模型进行 ...
【技术特征摘要】
1.基于主题模型的裁判文书相似度分析方法,其特征是针对裁判文书及其特点,使用基于主题模型的文本挖掘方法来进行文本相似度分析,其步骤如下:(1)在裁判文书集中,以某种属性(如案由、案件类型等)作为筛选条件抽取目标文书子集作为目标语料;(2)将目标语料分为训练语料和测试语料,并对测试语料进行相似度标注;(3)对作为训练语料的文书文本进行预处理操作,包括文书分段、文书筛选、中文分词、分词前后的词语获取和过滤操作;(4)选择目标语料的高可信部分作为输入内容;(5)设置各类参数,包括设置停用词、LDA主题模型训练参数、TF-IDF输入和评估标准;(6)使用训练语料,应用LDA主题模型进行模型训练;(7)使用测试语料评估本次训练模型(指和测试语料相似度标注的符合程度);(8)调整参数,迭代执行步骤(6),直到针对所有要求参数完成遍历;(9)根据不同参数下的准确度,选择合适的参数,生成裁判文书相似度分析的训练模型;(10)应用步骤(9)生成的训练模型,做裁判文书相似度分析。2.根据权利要求1所述的基于主题模型的裁判文书相...
【专利技术属性】
技术研发人员:周业茂,葛季栋,王悦,李传艺,李忠金,周筱羽,骆斌,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。