一种司法判决书案情信息结构化处理系统技术方案

技术编号:20363143 阅读:18 留言:0更新日期:2019-02-16 16:38
本发明专利技术公开了一种司法判决书案情信息结构化处理系统,适用于信息抽取和自然语言处理领域;系统包括以下模块:司法判决书案情信息结构化表示模块、建立司法判决书案情信息序列标注模型模块、属性触发词管理模块和生成结构化司法判决书案情信息模块。根据用户给定的案件类型,建立司法判决书案情信息结构化数据表示框架,构建司法判决书案情信息序列标注训练集并训练序列标注模型,结合属性触发词集合,根据生成结构化司法判决书案情信息方法生成结构化的司法判决书案情信息。本发明专利技术根据用户提供的司法判决书案件类型和案情信息,实现司法判决书案情信息的结构化处理,其目的在于提供一种从无结构化司法判决书文本中抽取结构化信息的有效方式。

【技术实现步骤摘要】
一种司法判决书案情信息结构化处理系统
本专利技术涉及到信息抽取和自然语言处理领域,具体是一种司法判决书案情信息结构化处理系统。
技术介绍
在司法公开的背景下,生效的司法判决书在互联网上公布,产生了大量真实有效的司法判决书数据。加强对司法判决书数据的研究应用是信息化建设的需要,是推进人民法院审判体系和审判能力现代化的需要,也是加速推进“智慧法院”建设和“智能检察院”建设的必然要求。目前,针对司法判决书数据的应用主要使用两类技术,分别是和基于规则的司法判决书信息抽取技术和基于搜索引擎的类案检索技术。不同法院的司法判决书的内容组织形式基本相同,大多包括判决书基本信息、法律角色信息、起诉书信息、案情信息和判决信息五部分内容,并且各部分内容包含相对规范的线索词。基于规则的司法判决书信息抽取技术首先利用线索词构建规则表达式对司法判决书进行拆分,然后再根据各部分内容的不同陈述方式,分别构造不同的抽取规则进行语义信息的抽取。这类技术对司法判决书中的判决书基本信息和法律角色信息等部分的抽取准确率较高,但也存在不足之处:(1)规则需要由那些同时具备法律背景及计算机语言学背景的专家制作,导致规则的制定成本高。(2)不同类型的司法判决书有不同的表述方式,导致规则的类型多种多样,制定这些规则需要耗费大量的人力物力。(3)对于司法判决书中的案情信息和判决信息等部分,由于这些部分存在陈述方式的多样性和复杂性,因此仅依据规则难以准确抽取语义信息。基于搜索引擎技术的类案检索技术,为用户提供相关司法判决书的检索功能,即根据用户输入的关键词,返回所有与关键词相关的司法判决书集合。但这类技术存在以下三点不足:(1)关键词涉及到与法律相关的专业词汇,如当事人、法官观点等,需要用户有相关的法律业务背景知识。(2)系统返回的是所有包含关键词的司法判决书,信息量大且不具有针对性。(3)返回的结果以完整的司法判决书形式呈现,需要用户花费大量时间阅读判决书以获取所需信息。总之,现有的司法判决书数据的相关应用均集中在对司法判决书的简单检索,以及对司法判决书中部分数据的精确抽取工作上,未能充分考虑到司法判决书的内容冗长且陈述方式多样性的数据特点,不具备对案情信息等部分内容的精确抽取能力,因此难以满足面向司法判决书数据的后续分析需求。若能对司法判决书中的案情信息进行结构化处理,即从司法判决书案情信息中抽取有用信息,并以<属性,值>对的形式呈现出来,则能方便用户的查阅和后续的分析处理工作。
技术实现思路
本专利技术的目的是提供一种司法判决书案情信息结构化处理系统,依托事件抽取、序列标注和<属性,值>对抽取技术,可以从无结构且冗长的司法判决书案情信息中抽取案件的<属性,值>对信息,并以树状结构化数据表示框架向用户展示,解决了基于规则的司法判决书案情信息抽取技术在制定规则时的高成本问题,以及基于搜索引擎的类案检索技术对法律业务背景知识的要求高、检索结果的信息覆盖率低、难以满足面向司法判决书案情信息的后续分析需求的问题。为了达到上述目的,本专利技术所采用的技术方案为:一种司法判决书案情信息结构化处理系统,其特征在于,包括:司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和<属性,值>对集合;建立司法判决书案情信息序列标注模型模块:给定案件类型的司法判决书案情信息集合,根据司法判决书案情信息序列标注预处理方法构建司法判决书案情信息序列标注训练集;根据司法判决书案情信息序列标注建模方法,使用司法判决书案情信息序列标注训练集建立所述案件类型的司法判决书案情信息序列标注模型;属性触发词管理模块:为给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性管理一份触发词集合,使用属性触发词集合初始化方法对给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合进行初始化,所述触发词是一个字符串;生成结构化司法判决书案情信息模块:给定案件类型的司法判决书案情信息,根据给定案件类型的司法判决书案情信息结构化数据表示框架、给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合、给定案件类型的司法判决书案情信息序列标注模型和生成结构化司法判决书案情信息方法生成结构化司法判决书案情信息;所述结构化司法判决书案情信息在结构上和司法判决书案情信息结构化数据表示框架相同,其中每个属性的<属性,值>对集合根据给定案件类型的司法判决书案情信息的内容生成。所述司法判决书案情信息序列标注预处理方法,其步骤如下:步骤2-1:以司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签,手工标记给定案件类型的司法判决书案情信息集合中描述属性的句子;步骤2-2:抽取包含属性名标签的所有句子,依据属性名对句子进行分组,并去除句子中的标签,每个分组为一个属性的序列集合;所述序列是指描述属性的一个句子;步骤2-3:利用自然语言处理工具处理各属性的序列集合,并手工给序列集合中构成序列的每个元素标记一个标签,构建司法判决书案情信息序列标注训练集;所述元素是指构成序列的一个字符串及经自然语言处理工具处理后所得的特征;所述标签,对于值为布尔型的属性,标签类型包括T和O,对于值为字符串型的属性,标签类型包括T、A、V和O,其中,T为触发词,O为其他,A为属性,V为属性值。所述属性触发词集合初始化方法为:对于司法判决书案情信息结构化数据表示框架中的每个属性,使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集,抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。所述司法判决书案情信息序列标注建模方法,其步骤如下:步骤4-1:对于值为布尔型的属性,训练基于T、O的序列标注模型;步骤4-2:对于值为字符串型的属性,训练基于T、A、V、O的序列标注模型。所述给定案件类型的司法判决书案情信息结构化数据表示框架由司法判决书案情信息结构化表示模块建立;所述给定案件类型的司法判决书案情信息序列标注模型由建立司法判决书案情信息序列标注模型模块构建。所述生成结构化司法判决书案情信息方法,其步骤如下:步骤6-1:根据给定案件类型的司法判决书案情信息结构化数据表示框架生成一份司法判决书案情信息结构化数据表示实例;所述司法判决书案情信息结构化数据表示实例初始化为给定案件类型的司法判决书案情信息结构化数据表示框架的一个副本,司法判决书案情信息结构化数据表示实例中属性信息的<属性,值>对集合初始化为空集合;步骤6-2:给定一份司法判决书案情信息,以“。”为分隔符对司法判决书案情信息进行分句处理;遍历所有分句,使用给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合,如果分句中包含触发词集合中的触发词,则将分句加入该属性的候选本文档来自技高网
...

【技术保护点】
1.一种司法判决书案情信息结构化处理系统,其特征在于,包括:司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和

【技术特征摘要】
1.一种司法判决书案情信息结构化处理系统,其特征在于,包括:司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和<属性,值>对集合;建立司法判决书案情信息序列标注模型模块:给定案件类型的司法判决书案情信息集合,根据司法判决书案情信息序列标注预处理方法构建司法判决书案情信息序列标注训练集;根据司法判决书案情信息序列标注建模方法,使用司法判决书案情信息序列标注训练集建立所述案件类型的司法判决书案情信息序列标注模型;属性触发词管理模块:为给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性管理一份触发词集合,使用属性触发词集合初始化方法对给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合进行初始化,所述触发词是一个字符串;生成结构化司法判决书案情信息模块:给定案件类型的司法判决书案情信息,根据给定案件类型的司法判决书案情信息结构化数据表示框架、给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合、给定案件类型的司法判决书案情信息序列标注模型和生成结构化司法判决书案情信息方法生成结构化司法判决书案情信息;所述结构化司法判决书案情信息在结构上和司法判决书案情信息结构化数据表示框架相同,其中每个属性的<属性,值>对集合根据给定案件类型的司法判决书案情信息的内容生成。2.根据权利要求1所述的司法判决书案情信息结构化处理系统,其特征在于:所述司法判决书案情信息序列标注预处理方法,其步骤如下:步骤2-1:以司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签,手工标记给定案件类型的司法判决书案情信息集合中描述属性的句子;步骤2-2:抽取包含属性名标签的所有句子,依据属性名对句子进行分组,并去除句子中的标签,每个分组为一个属性的序列集合;所述序列是指描述属性的一个句子;步骤2-3:利用自然语言处理工具处理各属性的序列集合,并手工给序列集合中构成序列的每个元素标记一个标签,构建司法判决书案情信息序列标注训练集;所述元素是指构成序列的一个字符串及经自然语言处理工具处理后所得的特征;所述标签,对于值为布尔型的属性,标签类型包括T和O,对于值为字符串型的属性,标签类型包括T、A、V和O,其中,T为触发词,O为其他,A为属性,V为属性值。3.根据权利要求2所述的司法判决书案情信息结构化处理系统,其特征在于:所述属性触发词集合初始化方法为:对于司法判决书案情信息结构化数据表示框架中的每个属性,使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集,抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。4.根据权利要求2所述的司法判决书案情信息结构化处理系统,其特征在于:所述司法判决书案情信息序列标注建模方法,其步骤如下:步骤4-1:对于值为布尔型的属性,训练基于T、O的序列标注模型;步骤4-2:对于值为字符串型的属性,训练基于T、A、V、O的序列标注模型。5.根据权利要求1所述的司法判决书案情信息结构化处理系统,其特征在于:所述给定案件类型的司法判决书案情信息结构化数据表示框架...

【专利技术属性】
技术研发人员:吴共庆汪瀛寰薛婵马凤君何颖李培培胡学钢吴信东
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1