基于大数据挖掘相似裁判文书的方法和设备技术

技术编号:15895238 阅读:79 留言:0更新日期:2017-07-28 19:46
本申请的目的是一种基于大数据挖掘相似裁判文书的方法与设备,通过获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;基于若干所述关键词相关信息更新关于关键词的特征词库,有效地将海量的每一裁判文书以文本特征向量的形式精确地显示出来,并更新了关于关键词的特征词库,从而能够快速获取相似的裁判文书,达到了提高挖掘相似的裁判文书的工作效率效率。

Method and equipment for mining similar referee documents based on big data

The aim of this application is based on a large data mining method and equipment similar judgment, judgment by the massive acquisition of public, and access to each of the judgment documents of the theme of the text features; get information about the situation and on the table the referee disputes the judgment and the parties the demands of the number of keywords related information text content of each of the judgment documents based on the text features and based on establishing the judgment feature information of the text and some related information to the keyword; a plurality of keywords related information update feature on thesaurus based on keywords, effectively the mass of each a judgment in the form of text feature vector accurately displayed and updated features on thesaurus keywords, which can fast Quick access to similar referee documents, so as to improve the efficiency and efficiency of mining similar referee documents.

【技术实现步骤摘要】
基于大数据挖掘相似裁判文书的方法和设备
本申请涉及计算机领域,尤其涉及一种基于大数据挖掘相似裁判文书的技术。
技术介绍
随着互联网技术的迅速发展,网络上的文本数据信息呈现爆炸式增长,然而,在这些海量的文本数据信息中查找出少量的有效的文本数据信息就变得越来越困难。例如,在海量的自动问答系统、智能检索系统、邮件筛选系统等存在大量文本数据信息的系统中查找出有效的文本数据信息越来越困难且耗时耗力。现有技术中,在法院业务场景里,法官对在审案件做出事实认定和判决结果之前,需要事先或者实时挖掘有效的相似的裁判文书。例如,人民法院通过比较多个法官在审判案情相似,当事人诉求相近的不同案件时的判决结果,以审计法官的判决结果是否合理;同时,法官在实际审判案件过程中,也会参考案情相似的已有案例的裁判文书,形成最终的事实认定和裁判文书的判决结果。由于人民法院在搜索有效的相似的裁判文书的实际操作中依赖于大量的人力标注和搜索,耗时又耗力,况且人力搜索出的相似裁判文书的质量完全依赖于个人经验,不能更好的满足法院业务需求,导致工作效率低;又由于各级法院记录裁判文书的风格各异,关键案情和当事人关键诉求通常通过搜索模板或本文档来自技高网...
基于大数据挖掘相似裁判文书的方法和设备

【技术保护点】
一种用于第一设备端基于大数据挖掘相似裁判文书的方法,其中,所述方法包括:获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;基于若干所述关键词相关信息更新关于关键词的特征词库。

【技术特征摘要】
1.一种用于第一设备端基于大数据挖掘相似裁判文书的方法,其中,所述方法包括:获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;基于若干所述关键词相关信息更新关于关键词的特征词库。2.根据权利要求1所述的方法,其中,所述方法还包括:将所述裁判文书进行结构化处理,得到结构化后的文本结构化信息;基于所述文本结构化信息获取所述裁判文书的裁判相关信息,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果。3.根据权利要求1或2所述的方法,其中,所述方法还包括:将所有所述裁判文书的文本特征向量、所述特征词库及所述裁判相关信息发送至第二设备的检索数据库中。4.根据权利要求1至3任一项所述的方法,其中,所述基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量包括:提取所述裁判文书的文本主题特征信息和所述裁判文书中各个词语的词语主题特征;获取各个所述词语间的上下文关系,基于所述上下文关系修正各个词语的词语主题特征,并基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词相关信息,其中,所述关键词相关信息包括关键词、关键词重要度信息及关键词对应的词语主题特征;基于所述关键词相关信息,更新所述裁判文书的文本主题特征信息;基于所述关键词相关信息获取扩展词相关信息,所述扩展词相关信息包括所述关键词的扩展词和扩展词相关度,并基于所述关键词相关信息和所述扩展词相关信息建立词袋特征信息,并基于所更新的文本主题特征信息和所述词袋特征信息,确定所述裁判文书的文本特征向量。5.根据权利要求4所述的方法,其中,所述获取各个所述词语间的上下文关系,基于所述上下文关系修正各个词语的词语主题特征,并基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词相关信息,其中,所述关键词相关信息包括关键词、关键词重要度信息及关键词对应的词语主题特征包括:获取各个所述词语间的上下文词语共现关系;获取任意两个所述词语间的上下文转移概率;基于所述上下文词语共现关系和所述上下文转移概率,修正各个词语的词语主题特征;基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词及其对应的词语主题特征,并获取所述关键词的重要度信息。6.根据权利要求4所述的方法,其中,所述基于所述关键词相关信息获取扩展词相关信息,所述扩展词相关信息包括所述关键词的扩展词和扩展词相关度,并基于所述关键词相关信息和所述扩展词相关信息建立词袋特征信息包括:基于所述关键词及其对应的词语主题特征,确定所述关键词的扩展词和扩展词相关度,其中,所述扩展词包括所述关键词的同义词和在所述裁判文书中高度相关的相关词语;基于所述关键词及其对应的词语主题特征和所述扩展词及扩展词相关度,利用词袋模型,建立词袋特征信息。7.根据权利要求4所述的方法,其中,所述基于所更新的文本主题特征信息和所述词袋特征信息,确定所述裁判文书的文本特征向量包括:将所述所更新的文本主题特征信息和所述词袋特征信息进行合并,确定所述裁判文书的原始文本特征;通过对所述裁判文书的原始文本特征进行特征归一,确定所述裁判文书的文本特征向量。8.根据权利要求1至7中任一项所述的方法,其中,基于若干所述关键词相关信息更新关于关键词的特征词库包括:以所述关键词为索引,对每一所述关键词的词语主题特征和扩展词建立所述关于关键词的特征词库。9.一种用于第二设备端基于大数据挖掘相似裁判文书的方法,其中,所述方法包括:获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词;基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量;从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。10.根据权利要求9所述的方法,其中,所述方法还包括:从第一设备接收所述第一设备所获取的所述公开裁判文书的文本特征向量、所述特征词库及所述裁判相关信息,并保存至所述检索数据库中,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果。11.根据权利要求9或10所述的方法,其中,所述获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词包括:获取输入案例文本,基于所述输入案例文本的案由,从检索数据库中关于关键词的特征词库提取所述输入案例文本的若干候选关键词。12.根据权利要求9至11任一项所述的方法,其中,所述基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量包括:基于所述输入案例文本的各个词语和所有所述裁判文书的全部关键词进行比对,以从所述输入案例文本中提取候选关键词及其词语主题特征,并基于所述词语主题特征获取所述输入案例文本的文本主题特征信息;获取各个所述候选关键词间的上下文关系,基于所述上下文关系修正各个候选关键词的词语主题特征,并基于所修正后的各个所述候选关键词的词语主题特征和所述文本主题特征信息的匹配程度,确定所述输入案例文本的关键词相关信息;基于所述关键词相关信息,更新所述输入案例文本的文本主题特征信息及获取扩展词相关信息,并基于所述关键词相关信息和所述扩展词相关信息建立所述输入本文的词袋特征信息,并基于所更新的文本主题特征信息和所述词袋特征信息,确定所述输入案例文本的文本特征向量。13.根据权利要求9至12任一项所述的方法,其中,所述方法还包括:接收所述第一设备所发送的将所述裁判文书进行结构化处理所得到结构化后的文本结构化信息;获取所述相似的裁判文书的文本结构化信息。14.一种用于基于大数据挖掘相似裁判文书的第一设备,其中,所述第一设备包括:裁判文书获取装置,用于获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;文本特征挖掘装置,用于基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;特征词库建立装置,用于基于若干所述关键词相关信息更新关于关键词的特征词库。15.根据权利要求14所述的第一设备,其中,所述第一设备还包括:文本结构化装置,用于将所述裁判文书进行结构化处理,得到结构化后的文本结构化信息;文本结构化信息获取装置,用于基于所述文本结构化信息获取所述裁判文书的裁判相...

【专利技术属性】
技术研发人员:王浩
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1