司法文书的处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：37239970 阅读：14 留言：0更新日期：2023-04-20 23:21

本发明专利技术公开了一种司法文书的处理方法、装置、电子设备和存储介质，所述方法包括：将司法文书的各个段落进行内容标注，得到第一内容主旨和第二内容主旨；对所述第一内容主旨表征的有规则段落进行正则化表示，得到与所述第一内容主旨对应的第一实体信息；将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型，得到与所述第二内容主旨对应的第二实体信息；将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联，以及将分类体系和所述分类体系对应的第二实体信息进行关联，得到所述司法文书的结构化表示结果。本发明专利技术提供的技术方案，在一定程度上能够提高司法文书的结构化表示的效率。程度上能够提高司法文书的结构化表示的效率。程度上能够提高司法文书的结构化表示的效率。

全部详细技术资料下载

【技术实现步骤摘要】
司法文书的处理方法、装置、电子设备和存储介质

[0001]本专利技术涉及自然语言处理
，具体涉及一种司法文书的处理方法、装置、电子设备和存储介质。

技术介绍

[0002]司法文书是研究法律文本信息的重要资源，为基于司法文书的类案推荐、裁判结果预测、智能问答等法律人工智能应用研究提供重要的要素指标。但是，司法文书基本以纯文本形式公开，属于典型的非结构化数据，使得从司法文书中准确地识别和抽取信息变得十分困难。所以我们需要使用文本识别方法对司法文书进行结构化表示。现有技术中，针对司法文书的结构化表示主要由司法工作者进行相应的标注，然后由于“案多人少”的矛盾问题突出，手工标注的效率较低，且标注者的个人经验直接影响了司法文书结构化表示的准确性。

技术实现思路

[0003]有鉴于此，本专利技术实施方式提供了一种司法文书的处理方法、装置、电子设备和存储介质，在一定程度上能够提高司法文书结构化表示的效率。
[0004]本专利技术一方面提供了一种司法文书的处理方法，所述方法包括：将获取的司法文书的各个段落进行内容标注，得到表征所述司法文书有规则段落的第一内容主旨和表征所述司法文书无规则段落的第二内容主旨；对所述第一内容主旨表征的有规则段落进行正则化表示，得到与所述第一内容主旨对应的第一实体信息；将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型，得到与所述第二内容主旨对应的第二实体信息；将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联，以及将分类体系和所述分类体...

【技术保护点】

【技术特征摘要】
1.一种司法文书的处理方法，其特征在于，所述方法包括：将获取的司法文书的各个段落进行内容标注，得到表征所述司法文书有规则段落的第一内容主旨和表征所述司法文书无规则段落的第二内容主旨；对所述第一内容主旨表征的有规则段落进行正则化表示，得到与所述第一内容主旨对应的第一实体信息；将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型，得到与所述第二内容主旨对应的第二实体信息；将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联，以及将分类体系和所述分类体系对应的第二实体信息进行关联，得到所述司法文书的结构化表示结果。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：将获取的司法文书进行分段处理，并去除所述司法文书中的空行和非法字符，得到目标司法文书；相应的，对所述目标司法文书的各个段落进行内容标注。3.根据权利要求1所述的方法，其特征在于，对所述第一内容主旨表征的有规则段落进行正则化表示，得到与所述第一内容主旨对应的第一实体信息包括：将针对所述第一内容主旨表征的有规则段落输入基于上下文描述标注的深度学习模型，得到针对所述第一内容主旨表征的有规则段落的正则表达式；基于所述正则表达式提取与所述第一内容主旨对应的第一实体信息。4.根据权利要求1所述的方法，其特征在于，将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型，得到与所述第二内容主旨对应的第二实体信息包括：确定与预设分类体系对应的目标无规则段落；将所述目标无规则段落输入至与所述预设分类体系对应的文本分类模型，得到与所述预设分类体系对应的第二实体信息。5.根据权利要求4所述的方法，其特征在于，将所述目标无规则段落输入至与所述预设分类体系对应的文本分类模型，得到与所述预设分类体系对应的第二实体信息包括：将所述目标无规则段进行分词处理，得到多个目标词语；分别生成针对多个所述目标词语的多个目标词语向量；将所述多个目标词语向量和所述预设分类体系中包括的若干个分类类别进行匹配，得到所述目标无规则段落和若干个分类类别之间的匹配度；将最大匹配度对应的分类类别作为与所述预设分类体系对应的第二实体信息。6.根据权利要求1所述的方法，所述第二内容主旨包括案情事实信息，其特征在于，所述方法还包括：将所述案情事实信息表征的无规则段落输入至命名实体识别模型，对所述无规则段落中的案发地址进行识别，得到第三实体信息；将案发地址和所述第三实体信息进行关联后的结果作...

【专利技术属性】
技术研发人员：郭曼，胡泽婷，张天宇，路兴，
申请(专利权)人：北京易华录信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人