一种基于知识图谱的标注训练模型制造技术

技术编号：29614695 阅读：20 留言：0更新日期：2021-08-10 18:29

本发明专利技术公开了一种基于知识图谱的标注训练模型，模型由计算机执行，其中的逻辑流程包括基于系统的盗窃罪量刑监测理论模型绘制基本知识图谱；基于裁决文书网或手动添加文书数据创建数据集，并对裁决文书预处理；基于经过预处理的裁决文书进行文本预标注，并对文本预标注进行标签处理；基于经过文本预标注的裁决文书进行命名实体抽取实体信息，并进行文本三元组标注构建新知识图谱，完善基本知识图谱，将提取到数据和实体信息加入到知识库中存储。本发明专利技术通过对裁决文书进行信息抽取和标注，进行分析推导和提取融合，不断完善知识图谱，训练得出与其最相关的数学模型或算法参数，为精准量刑提供更成熟的参考结论。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的标注训练模型
本市专利技术涉及司法文件文字识别
，具体讲是一种基于知识图谱的标注训练模型。
技术介绍
法律文书是司法案件数据的主要表现形式，人民法院在互联网公布的裁判文书所形成的大量司法大数据，成为分析盗窃罪量刑规律、构建量刑监测模型的重要素材。为了便于后续的识别与提取，也为了使量刑监测的算法模型在运行过程中不受其他信息的干扰，让模型的设置更加科学合理，需要对裁判文书中的司法数据进行数据分析、数据预处理，对给定的裁判文书分段打标签。裁判文书在结构上由标题、正文与结尾三部分组成；主要包含审判机构名称、文书种类编号、涉案人员信息、案件发生过程、裁判认定结果、参审人员姓名和审理时间等。对于一份刑事裁判文书而言，应准确识别、采集、标注和关联案件中的信息。在上述提取目标中，在文本形式上特点明显，都遵循一定的字符模式，因此可采取模式匹配的方式，通过构建正则表达式模型对其进行定向提取。但任何犯罪都具备若干基本情节，这些用以定罪和量刑的情节是最基础的犯罪形式，反映了犯罪行为的基本情况，而定罪情节和量刑情节这两种信息的内容形式多变，构词规范复杂，不遵循特定的字符模式，提取难度较大。而知识图谱是一种大规模语义网络，也是提升司法智慧的技术保障，其中包含实体、概念、属性、关系等信息。盗窃罪量刑知识图谱就是通过将盗窃罪的犯罪事实梳理细化分解为定罪情节要素和量刑情节要素等案件要素，建立起描述案件事实与裁判结果之间关系的结构化语义知识库，从而客观反映犯罪与刑罚之间的关系，有利于裁决文书的信息提取。专...

【技术保护点】
1.一种基于知识图谱的标注训练模型，其特征在于，所述模型由计算机执行，其中的逻辑流程包括：/n基于系统的盗窃罪量刑监测理论模型从法律法规和司法判决文书中抽取结构化与半结构化文本数据，通过设置定罪情节要素和量刑情节要素等知识要素，绘制盗窃罪量刑情节的基本知识图谱；/n基于裁决文书网大量的文书数据提取裁决文书自动同步数据，或手动在所述数据集详情页面直接添加文书数据创建数据集，并对裁决文书预处理；/n基于经过预处理的裁决文书，对其中半结构化、非结构化的数据，例如罪名、情节类型和情节要素等进行文本预标注，并对所述文本预标注进行标签处理；/n基于经过文本预标注的裁决文书进行命名实体，所述命名实体为根据所述基本知识图谱中不同案件实体的相互关系抽取实体信息，并运用命名实体识别技术为抽取出的实体信息进行文本三元组标注；/n根据所述命名实体的所述文本三元组标注构建新知识图谱，基于所述基本知识图谱与所述新知识图谱的关系，完善所述基本知识图谱，将提取到的高质量数据和实体信息，经过审核后加入到知识库中进行信息存储。/n

【技术特征摘要】
1.一种基于知识图谱的标注训练模型，其特征在于，所述模型由计算机执行，其中的逻辑流程包括：
基于系统的盗窃罪量刑监测理论模型从法律法规和司法判决文书中抽取结构化与半结构化文本数据，通过设置定罪情节要素和量刑情节要素等知识要素，绘制盗窃罪量刑情节的基本知识图谱；
基于裁决文书网大量的文书数据提取裁决文书自动同步数据，或手动在所述数据集详情页面直接添加文书数据创建数据集，并对裁决文书预处理；
基于经过预处理的裁决文书，对其中半结构化、非结构化的数据，例如罪名、情节类型和情节要素等进行文本预标注，并对所述文本预标注进行标签处理；
基于经过文本预标注的裁决文书进行命名实体，所述命名实体为根据所述基本知识图谱中不同案件实体的相互关系抽取实体信息，并运用命名实体识别技术为抽取出的实体信息进行文本三元组标注；
根据所述命名实体的所述文本三元组标注构建新知识图谱，基于所述基本知识图谱与所述新知识图谱的关系，完善所述基本知识图谱，将提取到的高质量数据和实体信息，经过审核后加入到知识库中进行信息存储。

2.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，所述基本知识图谱为通过对《刑法》、《量刑指导意见》、《量刑细则》所规定的量刑情节进行分类处理和归纳总结，事先人为地定义好盗窃罪案件信息实体之间的关系，以情节为基本变量，以法律逻辑展开，形成系统完整的量刑因素图谱规则。

3.根据权利要求1所述的基于知识图谱的标注训练模型，其特征在于，创建所述数据集包括从裁决文书网爬取裁决文书或手动根据需上传文本的基本情况完成设置后上传裁决文书，所述裁决文...

【专利技术属性】
技术研发人员：王燕玲，
申请(专利权)人：广东博维创远科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人