判决文书调取方法、装置、服务器及存储介质制造方法及图纸

技术编号:22055102 阅读:36 留言:0更新日期:2019-09-07 15:12
本发明专利技术公开了一种判决文书的抽取方法、装置、服务器及存储介质。该方法包括获取判决文书的原始数据,确定所述原始数据的待抽取项;对于任一项所述待抽取项,确定所述待抽取项的抽取策略;基于所述抽取策略,根据所述原始数据确定所述待抽取项的目标特征;根据各个待抽取项及各个待抽取项的目标特征生成预设结构的判决文书数据。本发明专利技术实施例的技术方案达到了准确、高效抽取判决文书信息的效果,为判决文书的管理和使用提供了便利。

Method, Device, Server and Storage Medium for Accessing Decision Documents

【技术实现步骤摘要】
判决文书调取方法、装置、服务器及存储介质
本专利技术实施例涉及
数据处理领域,尤其涉及一种判决文书调取方法、装置、服务器及存储介质。
技术介绍
随着我国司法数据公开的推进,越来越多的司法案件判决信息以网页的形式发布出来供公众查询使用。互联网上有公开的判决文书的网站众多,其中,中国判决文书网共计有裁判文书4529万份;Openlaw判决书网共计有裁判文书4731万份,北京无讼网共计有裁判文书5248万份。互联网上不同网站所公开的判决文书的格式也有所不同,如果需要利用这些公开的判决文书信息,就需要对案件的各个核心字段进行结构化处理,这通常由人工操作来完成。面对如此庞大的案件信息数量,人工处理方式显然在效率上显得非常低下。
技术实现思路
本专利技术实施例提供了一种判决文书的抽取方法、装置、服务器及存储介质,以实现判决文书的内容抽取及将自由格式的判决文书转换为结构化的判决文书,抽取方法根据数据特点进行针对性抽取,抽取效率高、适用性更广泛。第一方面,本专利技术实施例提供了一种判决文书的抽取方法,该判决文书的抽取方法,包括:获取判决文书的原始数据,确定所述原始数据的待抽取项;对于任一项所述待抽本文档来自技高网...

【技术保护点】
1.一种判决文书的抽取方法,其特征在于,包括:获取判决文书的原始数据,确定所述原始数据的待抽取项;对于任一项所述待抽取项,确定所述待抽取项的抽取策略;基于所述抽取策略,根据所述原始数据确定所述待抽取项的目标特征;根据各个待抽取项及各个待抽取项的目标特征生成预设结构的判决文书数据。

【技术特征摘要】
1.一种判决文书的抽取方法,其特征在于,包括:获取判决文书的原始数据,确定所述原始数据的待抽取项;对于任一项所述待抽取项,确定所述待抽取项的抽取策略;基于所述抽取策略,根据所述原始数据确定所述待抽取项的目标特征;根据各个待抽取项及各个待抽取项的目标特征生成预设结构的判决文书数据。2.根据权利要求1所述的方法,其特征在于,所述对于任一所述待抽取项,确定所述待抽取项的抽取策略,包括:根据预先设置的抽取类型与抽取策略的对应关系和所述待抽取项的抽取类型确定所述待抽取项的抽取策略,其中,所述抽取策略包括:模式匹配、语义分析、命名实体识别或神经网络模型中的一项或多项。3.根据权利要求2所述的方法,其特征在于,所述神经网络模型包括长短时记忆子网络,相应的,基于所述抽取策略,根据所述原始数据确定所述待抽取项的目标特征,包括:将所述原始数据输入至所述长短时记忆子网络中,根据所述长短时记忆子网络的输出确定所述待抽取项的特征序列,其中,所述特征序列包括所述待抽取项的至少一个抽取特征和所述抽取特征的概率;根据抽取特征的概率,确定所述待抽取项的目标特征,并对所述目标特征设置标签。4.根据权利要求3所述的方法,其特征在于,所述神经网络模型还包括条件随机场子模型,相应的,在确定待抽取项的目标特征之后,还包括:将各个待抽取项的目标特征、所述目标特征的概率、所述目标特征的标签以及所述标签的预设关系,输入至所述条件随机场子模型,根据所述条件随机场子模型的输出信息更新所述待抽取项的目标特征。5.根据权利要求3所述的方法,其特征在于,所述根据所述长短时记忆子网络的输出确定所述待抽取项的特征序列,包括:对所述原始数据进行语义分析,确定所述原始数据的目标向量,其中,所述目标向量包括词向量和句向量;根据所述目标向量对所述原始数据进行反向处理,生成所述原始数据的反向目标向量;将所述目标向量和所述反向目标向量分别输入至所述长短时记忆子网络的...

【专利技术属性】
技术研发人员:张涛姚新袁博
申请(专利权)人:南方科技大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1