司法文书的处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37239970 阅读:14 留言:0更新日期:2023-04-20 23:21
本发明专利技术公开了一种司法文书的处理方法、装置、电子设备和存储介质,所述方法包括:将司法文书的各个段落进行内容标注,得到第一内容主旨和第二内容主旨;对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息;将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息;将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联,以及将分类体系和所述分类体系对应的第二实体信息进行关联,得到所述司法文书的结构化表示结果。本发明专利技术提供的技术方案,在一定程度上能够提高司法文书的结构化表示的效率。程度上能够提高司法文书的结构化表示的效率。程度上能够提高司法文书的结构化表示的效率。

【技术实现步骤摘要】
司法文书的处理方法、装置、电子设备和存储介质


[0001]本专利技术涉及自然语言处理
,具体涉及一种司法文书的处理方法、装置、电子设备和存储介质。

技术介绍

[0002]司法文书是研究法律文本信息的重要资源,为基于司法文书的类案推荐、裁判结果预测、智能问答等法律人工智能应用研究提供重要的要素指标。但是,司法文书基本以纯文本形式公开,属于典型的非结构化数据,使得从司法文书中准确地识别和抽取信息变得十分困难。所以我们需要使用文本识别方法对司法文书进行结构化表示。现有技术中,针对司法文书的结构化表示主要由司法工作者进行相应的标注,然后由于“案多人少”的矛盾问题突出,手工标注的效率较低,且标注者的个人经验直接影响了司法文书结构化表示的准确性。

技术实现思路

[0003]有鉴于此,本专利技术实施方式提供了一种司法文书的处理方法、装置、电子设备和存储介质,在一定程度上能够提高司法文书结构化表示的效率。
[0004]本专利技术一方面提供了一种司法文书的处理方法,所述方法包括:将获取的司法文书的各个段落进行内容标注,得到表征所述司法文书有规则段落的第一内容主旨和表征所述司法文书无规则段落的第二内容主旨;对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息;将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息;将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联,以及将分类体系和所述分类体系对应的第二实体信息进行关联,得到所述司法文书的结构化表示结果。
[0005]在一个实施方式中,司法文书的处理方法还包括:将获取的司法文书进行分段处理,并去除所述司法文书中的空行和非法字符,得到目标司法文书;相应的,对所述目标司法文书的各个段落进行内容标注。
[0006]在一个实施方式中,对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息包括:将针对所述第一内容主旨表征的有规则段落输入基于上下文描述标注的深度学习模型,得到针对所述第一内容主旨表征的有规则段落的正则表达式;基于所述正则表达式提取与所述第一内容主旨对应的第一实体信息。
[0007]在一个实施方式中,将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息包括:确定与预设分类体系对应的目标无规则段落;将所述目标无规则段落输入至与所述预设分类体系对应的文本分类模型,得到与所述预设分类体系对应的第二实体信息。
[0008]在一个实施方式中,将所述目标无规则段落输入至与所述预设分类体系对应的文
本分类模型,得到与所述预设分类体系对应的第二实体信息包括:将所述目标无规则段进行分词处理,得到多个目标词语;分别生成针对多个所述目标词语的多个目标词语向量;将所述多个目标词语向量和所述预设分类体系中包括的若干个分类类别进行匹配,得到所述目标无规则段落和若干个分类类别之间的匹配度;将最大匹配度对应的分类类别作为与所述预设分类体系对应的第二实体信息。
[0009]在一个实施方式中,所述第二内容主旨包括案情事实信息,其特征在于,司法文书的处理方法还包括:将所述案情事实信息表征的无规则段落输入至命名实体识别模型,对所述无规则段落中的案发地址进行识别,得到第三实体信息;将案发地址和所述第三实体信息进行关联后的结果作为所述司法文书的结构化表示结果。
[0010]在一个实施方式中,司法文书的处理方法还包括:将获取的法律文件进行正则化处理,并将正则化处理的结果按照图结构的形式进行存储,生成法律条文知识库;基于所述法律条文知识库中的法律条文、所述司法文书中的各个实体、以及所述司法文书中各个实体之间的关系构建司法文书知识图谱。
[0011]在一个实施方式中,司法文书的处理方法还包括:将目标司法文书中与目标分类体系对应的目标无规则段落和预设司法文书库中与所述目标分类体系对应的无规则段落进行相似度计算,得到所述目标无规则段落与所述司法文书库中与所述目标分类体系对应的无规则段落之间的相似度;所述预设司法文书库中包括若干篇已提取第二实体信息的司法文书;将相似度最大值对应的无规则段落在所述目标分类体系中的分类类别作为所述目标司法文书的第二实体信息。
[0012]在一个实施方式中,司法文书的处理方法还包括:提取所述目标司法文书表征第一内容主旨的第一实体信息;将所述目标司法文书的第一内容主旨和第一实体信息进行关联后的结果添加到所述司法文书知识图谱中,以及将所述目标司法文书按照分类体系和所述分类体系对应的第二实体信息进行关联后的结果添加到所述司法文书知识图谱中。
[0013]本专利技术另一方面还提供了一种司法文书的处理装置,所述司法文书的处理装置包括段落标注单元,用于将获取的司法文书的各个段落进行内容标注,得到表征所述司法文书有规则段落的第一内容主旨和表征所述司法文书无规则段落的第二内容主旨;第一实体信息提取单元,用于对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息;第二实体信息提取单元,用于将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息;结构化表示单元,用于将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联,以及将分类体系和所述分类体系对应的第二实体信息进行关联,得到所述司法文书的结构化表示结果。
[0014]本专利技术另一方面还提供了一种电子设备,所述电子设备装置包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的司法文书的处理方法。
[0015]本专利技术另一方面还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时,实现上述的司法文书的处理方法。
[0016]通过将司法文书分为有规则段落和无规则段落,针对有规则段落采用正则表达式提取司法文书的第一实体信息,然后基于针对不同分类体系对应的无规则段落输入至该分
类体系对应的文本分类模型提取与该分类体系对应的第二实体信息,然后将第一内容主旨及其对应的第一实体信息进行关联,将分类体系和其对应的第二实体信息进行关联,得到司法文书的结构化表示结果,从而可以在一定程度上提高司法文书结构化处理的效率。
附图说明
[0017]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0018]图1示出了本专利技术一个实施方式中司法文书的处理方法的流程示意图;
[0019]图2示出了本专利技术一个实施方式中司法文书的处理装置示意图;
[0020]图3示出了本专利技术一个实施方式中电子设备的结构示意图。
具体实施方式
[0021]为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种司法文书的处理方法,其特征在于,所述方法包括:将获取的司法文书的各个段落进行内容标注,得到表征所述司法文书有规则段落的第一内容主旨和表征所述司法文书无规则段落的第二内容主旨;对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息;将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息;将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联,以及将分类体系和所述分类体系对应的第二实体信息进行关联,得到所述司法文书的结构化表示结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将获取的司法文书进行分段处理,并去除所述司法文书中的空行和非法字符,得到目标司法文书;相应的,对所述目标司法文书的各个段落进行内容标注。3.根据权利要求1所述的方法,其特征在于,对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息包括:将针对所述第一内容主旨表征的有规则段落输入基于上下文描述标注的深度学习模型,得到针对所述第一内容主旨表征的有规则段落的正则表达式;基于所述正则表达式提取与所述第一内容主旨对应的第一实体信息。4.根据权利要求1所述的方法,其特征在于,将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息包括:确定与预设分类体系对应的目标无规则段落;将所述目标无规则段落输入至与所述预设分类体系对应的文本分类模型,得到与所述预设分类体系对应的第二实体信息。5.根据权利要求4所述的方法,其特征在于,将所述目标无规则段落输入至与所述预设分类体系对应的文本分类模型,得到与所述预设分类体系对应的第二实体信息包括:将所述目标无规则段进行分词处理,得到多个目标词语;分别生成针对多个所述目标词语的多个目标词语向量;将所述多个目标词语向量和所述预设分类体系中包括的若干个分类类别进行匹配,得到所述目标无规则段落和若干个分类类别之间的匹配度;将最大匹配度对应的分类类别作为与所述预设分类体系对应的第二实体信息。6.根据权利要求1所述的方法,所述第二内容主旨包括案情事实信息,其特征在于,所述方法还包括:将所述案情事实信息表征的无规则段落输入至命名实体识别模型,对所述无规则段落中的案发地址进行识别,得到第三实体信息;将案发地址和所述第三实体信息进行关联后的结果作...

【专利技术属性】
技术研发人员:郭曼胡泽婷张天宇路兴
申请(专利权)人:北京易华录信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1