一种基于LDA主题模型的司法案例筛选方法技术

技术编号：26171093 阅读：56 留言：0更新日期：2020-10-31 13:41

本发明专利技术提出了一种基于LDA的法院类案推荐方法，为法律人员高效推荐类案以供参考分析，帮助在疑难案件上提供新的解决途径，也能够统一司法裁判尺度，避免司法裁判不公。该发明专利技术的主要创新在于(1)对案例文书进行语句清洗，提取关键词；(2)对关键词列表构建文本矩阵进行聚类；(3)将LDA和余弦相似度相结合的方法高效筛选最佳类案。本发明专利技术最终基于LDA开发的类案推荐，帮助法律工作人员快速高效分析案例并作出准确裁判。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LDA主题模型的司法案例筛选方法
本专利技术属于计算机技术中的机器学习领域，尤其是机器学习中数据分析领域，采用主题模型，能够对文本资源进行语义提取，同时，词袋模型不需要考虑词间的顺序，这简化了文本分析处理的复杂性，也为模型的改进提供了契机，是一种帮助司法工作者在海量案例中快速筛选找出类案对比进行参考分析的新方法。
技术介绍
在司法责任制改革背景下，法律大数据掀起中国司法“技术革命”浪潮，通过类案类判已被视作贴近一线法官需要的重要内容。整体上，类案类判不仅可以为疑难案件提供新的解决途径，也能够统一司法裁判尺度，避免司法裁判不公，类案类判有望成为控制裁判偏离度的“纠偏机制”，管控法官的办案质量，司法实务部门对类案类判抱持强烈的需求与期待。依据此背景意义，本系统计划采用开源中文分词工具对案例文本进行自动化自然语言处理，提取案件中关键信息；在此基础上，根据文本相似度提供智能类案对比。文本语言处理是采用中文分词器jieba进行分词操作，jieba是通过拟人对文本内容的分析理解以达到识别词的效果。其基本思想就是：在分词的...

【技术保护点】
1.基于LDA主题模型的司法案例筛选方法，其特征是：(1)导入目标案例文书；(2)对文书内容进行分词，筛选出案例潜藏的主题信息，即抽取文本关键词；(3)利用吉布斯采样(Gibbs Sampling)方法估算LDA模型中的参数并建立LDA模型；(4)采用词袋(bag ofwords)方法对文本进行建模时表示文本数据(5)采用LDA与余弦相似度相结合的方法计算案例间相似性。/n

【技术特征摘要】
1.基于LDA主题模型的司法案例筛选方法，其特征是：(1)导入目标案例文书；(2)对文书内容进行分词，筛选出案例潜藏的主题信息，即抽取文本关键词；(3)利用吉布斯采样(GibbsSampling)方法估算LDA模型中的参数并建立LDA模型；(4)采用词袋(bagofwords)方法对文本进行建模时表示文本数据(5)采用LDA与余弦相似度相结合的方法计算案例间相似性。

2.据权利要求1所述的基于LDA主题模型的司法案例筛选方法，其特征是导入XML格式的案例文书，从文书中抽取对应主题信息，再从抽取出的主题中找出潜藏文本关键字，将返回的结果集使用词袋方法表示文本数据，通过吉布斯采样方法算出LDA模型中的参数并建立LDA模型，基于LDA模型，与余弦相似度相结合的方法实现相似性计算并推送。...

【专利技术属性】
技术研发人员：何铁科，许金，严格，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人