一种基于知识图谱的标注训练模型制造技术

技术编号:29614695 阅读:20 留言:0更新日期:2021-08-10 18:29
本发明专利技术公开了一种基于知识图谱的标注训练模型,模型由计算机执行,其中的逻辑流程包括基于系统的盗窃罪量刑监测理论模型绘制基本知识图谱;基于裁决文书网或手动添加文书数据创建数据集,并对裁决文书预处理;基于经过预处理的裁决文书进行文本预标注,并对文本预标注进行标签处理;基于经过文本预标注的裁决文书进行命名实体抽取实体信息,并进行文本三元组标注构建新知识图谱,完善基本知识图谱,将提取到数据和实体信息加入到知识库中存储。本发明专利技术通过对裁决文书进行信息抽取和标注,进行分析推导和提取融合,不断完善知识图谱,训练得出与其最相关的数学模型或算法参数,为精准量刑提供更成熟的参考结论。

【技术实现步骤摘要】
一种基于知识图谱的标注训练模型
本市专利技术涉及司法文件文字识别
,具体讲是一种基于知识图谱的标注训练模型。
技术介绍
法律文书是司法案件数据的主要表现形式,人民法院在互联网公布的裁判文书所形成的大量司法大数据,成为分析盗窃罪量刑规律、构建量刑监测模型的重要素材。为了便于后续的识别与提取,也为了使量刑监测的算法模型在运行过程中不受其他信息的干扰,让模型的设置更加科学合理,需要对裁判文书中的司法数据进行数据分析、数据预处理,对给定的裁判文书分段打标签。裁判文书在结构上由标题、正文与结尾三部分组成;主要包含审判机构名称、文书种类编号、涉案人员信息、案件发生过程、裁判认定结果、参审人员姓名和审理时间等。对于一份刑事裁判文书而言,应准确识别、采集、标注和关联案件中的信息。在上述提取目标中,在文本形式上特点明显,都遵循一定的字符模式,因此可采取模式匹配的方式,通过构建正则表达式模型对其进行定向提取。但任何犯罪都具备若干基本情节,这些用以定罪和量刑的情节是最基础的犯罪形式,反映了犯罪行为的基本情况,而定罪情节和量刑情节这两种信息的内容形式多变,构词规范复杂,不遵循特定的字符模式,提取难度较大。而知识图谱是一种大规模语义网络,也是提升司法智慧的技术保障,其中包含实体、概念、属性、关系等信息。盗窃罪量刑知识图谱就是通过将盗窃罪的犯罪事实梳理细化分解为定罪情节要素和量刑情节要素等案件要素,建立起描述案件事实与裁判结果之间关系的结构化语义知识库,从而客观反映犯罪与刑罚之间的关系,有利于裁决文书的信息提取。专利CN109472424B公开了一种犯罪实际刑期的预测方法、装置、存储介质挤服务器,根据用户输入的相应条件通过匹配算法在案例数据库中匹配出对应的判决案例,提取判决案例中的刑期、年份、月份和地区等参数进行可视化处理,并获取预测结果,极大的增加了预测结果的准确性,提高法官和律师的工作效率。但缺乏对于提取的参数缺乏准确的识别与判断,缺少对提取的参数进行结构化处理、搭建知识图谱,以及训练出与其最相关的数学模型或算法参数,无法根据情节推导量刑结果,为精准量刑提供更成熟的参考结论。
技术实现思路
针对
技术介绍
中存在的技术缺陷,本专利技术提出一种基于知识图谱的标注训练模型,解决了上述技术问题以及满足了实际需求,具体的技术方案如下所示:一种基于知识图谱的标注训练模型,所述模型由计算机执行,其中的逻辑流程包括:基于系统的盗窃罪量刑监测理论模型从法律法规和司法判决文书中抽取结构化与半结构化文本数据,通过设置定罪情节要素和量刑情节要素等知识要素,绘制盗窃罪量刑情节的基本知识图谱;基于裁决文书网大量的文书数据提取裁决文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集,并对裁决文书预处理;基于经过预处理的裁决文书,对其中半结构化、非结构化的数据,例如罪名、情节类型和情节要素等进行文本预标注,并对所述文本预标注进行标签处理;基于经过文本预标注的裁决文书进行命名实体,所述命名实体为根据所述基本知识图谱中不同案件实体的相互关系抽取实体信息,并运用命名实体识别技术为抽取出的实体信息进行文本三元组标注;根据所述命名实体的所述文本三元组标注构建新知识图谱,基于所述基本知识图谱与所述新知识图谱的关系,完善所述基本知识图谱,将提取到的高质量数据和实体信息,经过审核后加入到知识库中进行信息存储。作为本专利技术进一步的技术方案,所述基本知识图谱为通过对《刑法》、《量刑指导意见》、《量刑细则》所规定的量刑情节进行分类处理和归纳总结,事先人为地定义好盗窃罪案件信息实体之间的关系,以情节为基本变量,以法律逻辑展开,形成系统完整的量刑因素图谱规则。作为本专利技术进一步的技术方案,创建所述数据集包括从裁决文书网爬取裁决文书或手动根据需上传文本的基本情况完成设置后上传裁决文书,所述裁决文书预处理包括文书分类、去重、去噪和分句语料预处理,所述文本分类包括未标注文本和已标注文本。作为本专利技术进一步的技术方案,所述文本预标注包括对未标注文本添加标签、对所有文本添加或删除标签以及基于文本或标签的修改标注,所述文本预标注的对象可添加至少一个标签。作为本专利技术进一步的技术方案,所述标签处理具体为:对所述裁决文书的标签进行标注,提取规则,再进行校对,判断标注的文本内容和标注规则是否匹配,若匹配,则执行所述命名实体,若不匹配,则返回,重新标注。作为本专利技术进一步的技术方案,所述抽取实体信息为基于NLP分析模型自动实时、明确地对大量裁决文书信息进行分析推导和提取融合,结合模式匹配的方法,运用正则表达式,抽取判决文书中的特定表述及要素。作为本专利技术进一步的技术方案,所述文本三元组标注的要素包括实体标签、关系标签和特定的规则,所述实体标签基于所述命名实体抽取到的实体信息得到,所述关系标签基于所述基本知识图谱中不同案件实体的相互关系组合得到,所述特定规则是指实体和标签是匹配对应关系,有所述基本知识图谱确定。作为本专利技术进一步的技术方案,完善所述基本知识图谱具体为:将所述基本知识图谱和所述新知识图谱进行比较,确定相比较于所述基本知识图谱所述新知识图谱增加的实体、概念、属性、关系等信息,并将新增的信息扩充到所述基本知识图谱中。本专利技术具有的有益效果在于:基于系统和互联网的大数据将批量的裁判文书中半结构化、非结构化的数据进行语义标注与特征抽取,形成结构化程度较好且富含语义信息的标签存储于案例库,实现从“沉睡的”大量数据向支持模型运行的“有价值的”信息转化。按照“知识图谱构建——情节提取——模型训练”技术路线,采用正则表达式、命名实体识别、指代技术等方式识别和提取法律文书的情节要素,并在模型中使用了NLP技术——BERT,做案情信息分类,获得更好的情节要素描述表示,还为模型提供了要素信息优先级的解释,之后对提取的信息进行结构化处理、搭建知识图谱,用数学变量来描述数据的特点和规律,训练得出与其最相关的数学模型或算法参数,人工智能模型将通过模拟现实中的量刑过程,根据情节推导量刑结果,为精准量刑提供更成熟的参考结论。附图说明图1为本专利技术的逻辑流程示意图。具体实施方式下面结合附图与相关实施例对本专利技术的实施方式进行说明,需要指出的是,以下相关实施例仅是为了更好说明本专利技术本身而举的优选实施例,而本专利技术的实施方式不局限于如下的实施例中,并且本专利技术涉及本
的相关必要部件,应当视为本
内的公知技术,是本
所属的技术人员所能知道并掌握的。在本专利技术的描述中,需要理解的是,术语“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了使子描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。如图1所示,一种基于知识图谱的标注训练模型,所述模型由计算机执行,其中的逻辑流程包括:基于本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的标注训练模型,其特征在于,所述模型由计算机执行,其中的逻辑流程包括:/n基于系统的盗窃罪量刑监测理论模型从法律法规和司法判决文书中抽取结构化与半结构化文本数据,通过设置定罪情节要素和量刑情节要素等知识要素,绘制盗窃罪量刑情节的基本知识图谱;/n基于裁决文书网大量的文书数据提取裁决文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集,并对裁决文书预处理;/n基于经过预处理的裁决文书,对其中半结构化、非结构化的数据,例如罪名、情节类型和情节要素等进行文本预标注,并对所述文本预标注进行标签处理;/n基于经过文本预标注的裁决文书进行命名实体,所述命名实体为根据所述基本知识图谱中不同案件实体的相互关系抽取实体信息,并运用命名实体识别技术为抽取出的实体信息进行文本三元组标注;/n根据所述命名实体的所述文本三元组标注构建新知识图谱,基于所述基本知识图谱与所述新知识图谱的关系,完善所述基本知识图谱,将提取到的高质量数据和实体信息,经过审核后加入到知识库中进行信息存储。/n

【技术特征摘要】
1.一种基于知识图谱的标注训练模型,其特征在于,所述模型由计算机执行,其中的逻辑流程包括:
基于系统的盗窃罪量刑监测理论模型从法律法规和司法判决文书中抽取结构化与半结构化文本数据,通过设置定罪情节要素和量刑情节要素等知识要素,绘制盗窃罪量刑情节的基本知识图谱;
基于裁决文书网大量的文书数据提取裁决文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集,并对裁决文书预处理;
基于经过预处理的裁决文书,对其中半结构化、非结构化的数据,例如罪名、情节类型和情节要素等进行文本预标注,并对所述文本预标注进行标签处理;
基于经过文本预标注的裁决文书进行命名实体,所述命名实体为根据所述基本知识图谱中不同案件实体的相互关系抽取实体信息,并运用命名实体识别技术为抽取出的实体信息进行文本三元组标注;
根据所述命名实体的所述文本三元组标注构建新知识图谱,基于所述基本知识图谱与所述新知识图谱的关系,完善所述基本知识图谱,将提取到的高质量数据和实体信息,经过审核后加入到知识库中进行信息存储。


2.根据权利要求1所述的基于知识图谱的标注训练模型,其特征在于,所述基本知识图谱为通过对《刑法》、《量刑指导意见》、《量刑细则》所规定的量刑情节进行分类处理和归纳总结,事先人为地定义好盗窃罪案件信息实体之间的关系,以情节为基本变量,以法律逻辑展开,形成系统完整的量刑因素图谱规则。


3.根据权利要求1所述的基于知识图谱的标注训练模型,其特征在于,创建所述数据集包括从裁决文书网爬取裁决文书或手动根据需上传文本的基本情况完成设置后上传裁决文书,所述裁决文...

【专利技术属性】
技术研发人员:王燕玲
申请(专利权)人:广东博维创远科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1