一种裁判文书信息提取方法技术

技术编号:23099680 阅读:28 留言:0更新日期:2020-01-14 20:42
本发明专利技术公开了一种裁判文书信息提取方法,首先提取裁判文书的整个HTML的无格式文本text并进行标注,定义裁判文书中的事件结构为:事件类型‑实体类型‑…‑实体类型;将无格式的文本text按字切分,得到一个数组x,从而得到一个完整的样本(x,y);对样本(x,y)进行处理,得到事件类型提取模型的样本(x

A method of extracting information from judgment documents

【技术实现步骤摘要】
一种裁判文书信息提取方法
本专利技术涉及文本信息提取领域,尤其涉及一种裁判文书信息提取方法。
技术介绍
裁判文书是法官在案件审理终结后,依据案件事实和法律条款,对案件实体和程序问题所做出的具有法律约束力的书面结论。裁判文书忠实地记录了案件的裁判过程,因此包含了大量的有价值信息。裁判文书虽然有一定的格式,但仍以大段文本的形式进行内容组织,对于裁判文书中的原告、被告、判决法院、判决时间等主要信息字段,是以自然行文的方式包含了在裁判文书中。如果需要更进一步挖掘和利用这些公开的裁判文书信息,就需要对案件的各个核心字段进行结构化处理,这通常由人工操作完成,常见的人工加工处理明显在成本和效率两方面都存在不足。CN201910263217以神经网络模型对法律文书进行命名实体识别,提取法律文书中的关键信息,提出了对法律文书的命名实体识别方法,但是不能识别实体之间的语义关系,比如,裁判文书中有多个被告人和多个被告判决罪名,该方法不能确定某个被告人具体的判决罪名;CN201910145396先对非结构的文本进行TF-IDF词频统计,得到不同罪名及案由的特征本文档来自技高网...

【技术保护点】
1.一种裁判文书信息提取方法,其特征在于,该方法包括以下步骤:/n(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text。/n(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及其实体类型对应的文字,得到标注数据。/n(3)将无格式的文本text按字切分,得到一个数组,记为x,x

【技术特征摘要】
1.一种裁判文书信息提取方法,其特征在于,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text。
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及其实体类型对应的文字,得到标注数据。
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型(实体类型),则其对应标签为yi,yi+1,…,yi+j,记为事件类型(实体类型)-B,事件类型(实体类型)-I,…,事件类型(实体类型)-I,事件类型(实体类型)-I的个数为j个;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B或事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1)。
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1。
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Even...

【专利技术属性】
技术研发人员:金霞杨红飞程东张庭正
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1