【技术实现步骤摘要】
一种基于LDA主题模型的司法案例筛选方法
本专利技术属于计算机技术中的机器学习领域,尤其是机器学习中数据分析领域,采用主题模型,能够对文本资源进行语义提取,同时,词袋模型不需要考虑词间的顺序,这简化了文本分析处理的复杂性,也为模型的改进提供了契机,是一种帮助司法工作者在海量案例中快速筛选找出类案对比进行参考分析的新方法。
技术介绍
在司法责任制改革背景下,法律大数据掀起中国司法“技术革命”浪潮,通过类案类判已被视作贴近一线法官需要的重要内容。整体上,类案类判不仅可以为疑难案件提供新的解决途径,也能够统一司法裁判尺度,避免司法裁判不公,类案类判有望成为控制裁判偏离度的“纠偏机制”,管控法官的办案质量,司法实务部门对类案类判抱持强烈的需求与期待。依据此背景意义,本系统计划采用开源中文分词工具对案例文本进行自动化自然语言处理,提取案件中关键信息;在此基础上,根据文本相似度提供智能类案对比。文本语言处理是采用中文分词器jieba进行分词操作,jieba是通过拟人对文本内容的分析理解以达到识别词的效果。其基本思想就是:在分词的 ...
【技术保护点】
1.基于LDA主题模型的司法案例筛选方法,其特征是:(1)导入目标案例文书;(2)对文书内容进行分词,筛选出案例潜藏的主题信息,即抽取文本关键词;(3)利用吉布斯采样(Gibbs Sampling)方法估算LDA模型中的参数并建立LDA模型;(4)采用词袋(bag ofwords)方法对文本进行建模时表示文本数据(5)采用LDA与余弦相似度相结合的方法计算案例间相似性。/n
【技术特征摘要】
1.基于LDA主题模型的司法案例筛选方法,其特征是:(1)导入目标案例文书;(2)对文书内容进行分词,筛选出案例潜藏的主题信息,即抽取文本关键词;(3)利用吉布斯采样(GibbsSampling)方法估算LDA模型中的参数并建立LDA模型;(4)采用词袋(bagofwords)方法对文本进行建模时表示文本数据(5)采用LDA与余弦相似度相结合的方法计算案例间相似性。
2.据权利要求1所述的基于LDA主题模型的司法案例筛选方法,其特征是导入XML格式的案例文书,从文书中抽取对应主题信息,再从抽取出的主题中找出潜藏文本关键字,将返回的结果集使用词袋方法表示文本数据,通过吉布斯采样方法算出LDA模型中的参数并建立LDA模型,基于LDA模型,与余弦相似度相结合的方法实现相似性计算并推送。...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。