【技术实现步骤摘要】
一种司法判决书案情信息结构化处理系统
本专利技术涉及到信息抽取和自然语言处理领域,具体是一种司法判决书案情信息结构化处理系统。
技术介绍
在司法公开的背景下,生效的司法判决书在互联网上公布,产生了大量真实有效的司法判决书数据。加强对司法判决书数据的研究应用是信息化建设的需要,是推进人民法院审判体系和审判能力现代化的需要,也是加速推进“智慧法院”建设和“智能检察院”建设的必然要求。目前,针对司法判决书数据的应用主要使用两类技术,分别是和基于规则的司法判决书信息抽取技术和基于搜索引擎的类案检索技术。不同法院的司法判决书的内容组织形式基本相同,大多包括判决书基本信息、法律角色信息、起诉书信息、案情信息和判决信息五部分内容,并且各部分内容包含相对规范的线索词。基于规则的司法判决书信息抽取技术首先利用线索词构建规则表达式对司法判决书进行拆分,然后再根据各部分内容的不同陈述方式,分别构造不同的抽取规则进行语义信息的抽取。这类技术对司法判决书中的判决书基本信息和法律角色信息等部分的抽取准确率较高,但也存在不足之处:(1)规则需要由那些同时具备法律背景及计算机语言学背景的专家制作,导致规则的制定成本高。(2)不同类型的司法判决书有不同的表述方式,导致规则的类型多种多样,制定这些规则需要耗费大量的人力物力。(3)对于司法判决书中的案情信息和判决信息等部分,由于这些部分存在陈述方式的多样性和复杂性,因此仅依据规则难以准确抽取语义信息。基于搜索引擎技术的类案检索技术,为用户提供相关司法判决书的检索功能,即根据用户输入的关键词,返回所有与关键词相关的司法判决书集合。但这类技术存在 ...
【技术保护点】
1.一种司法判决书案情信息结构化处理系统,其特征在于,包括:司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和
【技术特征摘要】
1.一种司法判决书案情信息结构化处理系统,其特征在于,包括:司法判决书案情信息结构化表示模块:给定案件类型,建立所述案件类型的司法判决书案情信息结构化数据表示框架;所述司法判决书案情信息结构化数据表示框架是树状数据表示框架,树的叶节点存储属性信息,树的内部节点存储属性的类别;所述属性信息包括属性名、属性值类型和<属性,值>对集合;建立司法判决书案情信息序列标注模型模块:给定案件类型的司法判决书案情信息集合,根据司法判决书案情信息序列标注预处理方法构建司法判决书案情信息序列标注训练集;根据司法判决书案情信息序列标注建模方法,使用司法判决书案情信息序列标注训练集建立所述案件类型的司法判决书案情信息序列标注模型;属性触发词管理模块:为给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性管理一份触发词集合,使用属性触发词集合初始化方法对给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合进行初始化,所述触发词是一个字符串;生成结构化司法判决书案情信息模块:给定案件类型的司法判决书案情信息,根据给定案件类型的司法判决书案情信息结构化数据表示框架、给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合、给定案件类型的司法判决书案情信息序列标注模型和生成结构化司法判决书案情信息方法生成结构化司法判决书案情信息;所述结构化司法判决书案情信息在结构上和司法判决书案情信息结构化数据表示框架相同,其中每个属性的<属性,值>对集合根据给定案件类型的司法判决书案情信息的内容生成。2.根据权利要求1所述的司法判决书案情信息结构化处理系统,其特征在于:所述司法判决书案情信息序列标注预处理方法,其步骤如下:步骤2-1:以司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签,手工标记给定案件类型的司法判决书案情信息集合中描述属性的句子;步骤2-2:抽取包含属性名标签的所有句子,依据属性名对句子进行分组,并去除句子中的标签,每个分组为一个属性的序列集合;所述序列是指描述属性的一个句子;步骤2-3:利用自然语言处理工具处理各属性的序列集合,并手工给序列集合中构成序列的每个元素标记一个标签,构建司法判决书案情信息序列标注训练集;所述元素是指构成序列的一个字符串及经自然语言处理工具处理后所得的特征;所述标签,对于值为布尔型的属性,标签类型包括T和O,对于值为字符串型的属性,标签类型包括T、A、V和O,其中,T为触发词,O为其他,A为属性,V为属性值。3.根据权利要求2所述的司法判决书案情信息结构化处理系统,其特征在于:所述属性触发词集合初始化方法为:对于司法判决书案情信息结构化数据表示框架中的每个属性,使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集,抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。4.根据权利要求2所述的司法判决书案情信息结构化处理系统,其特征在于:所述司法判决书案情信息序列标注建模方法,其步骤如下:步骤4-1:对于值为布尔型的属性,训练基于T、O的序列标注模型;步骤4-2:对于值为字符串型的属性,训练基于T、A、V、O的序列标注模型。5.根据权利要求1所述的司法判决书案情信息结构化处理系统,其特征在于:所述给定案件类型的司法判决书案情信息结构化数据表示框架...
【专利技术属性】
技术研发人员:吴共庆,汪瀛寰,薛婵,马凤君,何颖,李培培,胡学钢,吴信东,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。