一种基于裁判文书的结构化处理方法技术

技术编号:18289497 阅读:107 留言:0更新日期:2018-06-24 04:12
本发明专利技术涉及一种基于裁判文书的结构化处理方法,本发明专利技术采用自然语言处理技术和高级机器学习技术,自动实现基于案由文本的关键词提取的案件类型分类,从而通过构建案件层次结构和设计的提取规则进行结构化处理,本发明专利技术通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,并得到案例的类标签;根据不同案例类型创建不同层次框架,结合设计的提取规则,得到裁判文书的结构化处理。本发明专利技术可快递实现裁判文书的结构化处理。

【技术实现步骤摘要】
一种基于裁判文书的结构化处理方法
本专利技术涉及文本数据结构化处理
,尤其涉及一种基于裁判文书的结构化处理方法。
技术介绍
随着司法改革的推进,我国司法改革的深度和宽度也在不断的扩展,民主、法治的思想也在慢慢的深入人心。其中,裁判文书的网上公开便是一个很好的例子,截止目前为止,互联网上公开的裁判文书达到三千多万篇,人们能够通过网络途径自由查阅和下载裁判文书,这意味着能更好的保障社会大众的知情权、参与权,提升法院司法公正的形象,树立司法权威。公开后的裁判文书信息,目前是主要以互联网网页的形式呈现,案件裁判文书虽然有一定的格式,但仍以大段文本的形式进行内容组织,对于裁判文书中的案号、原告、被告、判决法院、判决时间、案件分类等主要信息字段,是以自然行文的方式包含了在裁判文书中。如果需要更进一步挖掘和利用这些公开的裁判文书信息,就需要对案件的各个核心字段进行结构化处理,这通常由人工操作完成,即使熟练的人员日均处理案件结构化信息也就500条左右。对于如此规模的案件裁判文书信息数量,常见的人工加工处理明显在成本和效率两方面都存在不足。因此怎样利用信息加工的技术提升效率节约成本成了亟待解决的主要难题。目前,在非结构化文本转化为结构化数据领域中已经存在大量的研究工作。专利CN106649844A通过分词、词频统计后,再根据抽取所关注的目标领域,通过计算得出在输入文本中主题词与主题词所有左侧词共同出现的稳定性,通过训练设定阈值的方法得到输入文本主题相关的左侧主题词集合,最后过滤主题词,有效将海量非机构化文本数据转化为结构化或者半结构化数据。专利CN106844636A利用深度学习算法对大量历史非结构化数据内容按照数据间的语义关系,采用时空分割、特征提取、对象识别等处理手段,实现非结构化数据项信息、情报的转化。专利CN104899269A公开了一种从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息,采用计算指标名的TF值、IDF值和C_value值,筛选出满足相关阈值的指标名作为模板的成分,实现将非结构化的中文病理文本结构化。裁判文书的结构化处理是对司法案件数据分析、深度挖掘的前提,不仅需要成熟的大数据挖掘技术,还需要制定司法专业领域的数据处理服务;目前主流常见的信息抽取技术方法分为统计和规则两种,基于统计的方法常常在某一特定领域内结构化处理结果准确率不高,指定的领域其行文特点相对特殊,无法直接移植到其他的领域。
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种基于裁判文书的结构化处理方法,本专利技术采用自然语言处理技术和高级机器学习技术,自动实现基于案由文本的关键词提取的案件类型分类,从而通过构建案件层次结构和设计的提取规则进行结构化处理,本专利技术通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,并得到案例的类标签;根据不同案例类型创建不同层次框架,结合设计的提取规则,得到裁判文书的结构化处理。本专利技术是通过以下技术方案达到上述目的:一种基于裁判文书的结构化处理方法,包括如下步骤:(1)获取并存储裁判文书信息,并对裁判文书信息进行数据清洗;(2)基于裁判文书的文本特征进行相关词库的构建与扩展,包括裁判文书专业词库的构建、触发词表的构建与词语标注;(3)根据裁判文书的书写结构特征,对裁判文书文档进行模块标注处理;(4)利用常见的分隔标点和分隔词作为长句切分规则,采用正则表达式匹配规则对裁判文书中每个关键段落进行短句长句切分;(5)根据裁判文书专用词库judgment.txt和停用词典stopword.txt对裁判文书进行处理,并结合触发词表的构建与词语标注将裁判文书数据表示为向量的形式;(6)通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,完成裁判文书聚类,并得到案例的类标签;(7)创建基于裁判文书内容的层次结构,根据不同种类的裁判文书设计出相应的提取规则,并利用其得到裁判文书的结构化处理结果。作为优选,所述步骤(1)具体为通过现有的中国裁判文书网站获取裁判文书信息,存储在数据库中;并对获取到的裁判文书信息进行数据清洗,将裁判文书内容为空或描述字段过少、重复的文本数据进行删除;将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正;其中,在数据库中的存储格式为裁判文书序号、裁判文书内容两个字段;裁判文书序号是自然编号,无特殊意义;裁判文书内容字段为CLOB字段,存放整篇的文书内容。作为优选,所述的相关词库的构建与扩展具体如下:(2.1)裁判文书专业词库的构建:对裁判及法律相关的专业词汇进行总结、分类,以及词性标注,从而形成自定义裁判文书词库;(2.2)触发词表的构建与词语标注:触发词指对抽取任务起到标志、识别作用,用于激活抽取任务的词汇;通过对大量裁判文书文本特征和表述规律的分析,为每个抽取任务建立其相应的触发词,分为六类:1)作为触发词表示其右边可能是实体;2)作为右触发词表示其左边可能是实体;3)作为左边界表示该词有可能是实体词条的第一个成分;4)作为右边界表示当前实体词条有可能到此结束;5)作为内含词表示其往往作为实体内部成分;6)当前词单独作为一个实体;针对裁判文本数据中实体的结构和用字特征以及以上六类触发词信息,设计有7个标注符号:b、m、e、l、r、o、s;其中b,m,e分别表示实体左边界、内含词、右边界;l、r分别表示实体的左触发词和右触发词;s表示单词实体;o表示非实体词。作为优选,所述对裁判文书文档进行模块标注处理具体为将裁判文书文档各模块的标注分别为:标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款。作为优选,所述常见的分隔标点包括为逗号,句号,分号;分隔词为不影响核心语义的修饰词、副词,通常可作为一个词语的边界;所述短句长句的切分以标点符号为界,其中短句的切分以逗号及整理的分隔词词汇为界,长句的切分以分号、句号、段落标记为界。作为优选,所述步骤(5)具体为:设总共有n篇裁判文书,di表示第i篇裁判文书,其数据集合表示为:Dn={d1,d2,...,di,...,dn},每篇裁判文书均进过模块块标注;根据裁判文书专用词库judgment.txt和停用词典stopword.txt进行分词处理,并结合触发词表与词语标注,将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期的相关实体词使用其词语标注表示,最后得到裁判文书数据集合的语料库{w1,w2,...,wi,...,wN},其中wi表示语料库中的词语或者语料库中词语标注;则每篇裁判文书表示为三维向量的形式,设第i个裁判文书数据集表示为:di={(w1,p1,li),(w2,p2,li),...,(wN,pN,li)},N是中所有词语的数量,w表示语料库中词语或者是语料库中词语标注,p表示语料库中单词对应出现的次数,li表示裁判文书分块后各个模块标识。作为优选,所述步骤(6)具体如下:(6.1)聚簇数目k的确定:设第i个裁判文书为di,共有n条裁判文书,其数据集合可表示为Dn={d1,d2,...,dn},则将其聚类为k个类别;(6.本文档来自技高网
...
一种基于裁判文书的结构化处理方法

【技术保护点】
1.一种基于裁判文书的结构化处理方法,其特征在于,包括如下步骤:(1)获取并存储裁判文书信息,并对裁判文书信息进行数据清洗;(2)基于裁判文书的文本特征进行相关词库的构建与扩展,包括裁判文书专业词库的构建、触发词表的构建与词语标注;(3)根据裁判文书的书写结构特征,对裁判文书文档进行模块标注处理;(4)利用常见的分隔标点和分隔词作为长句切分规则,采用正则表达式匹配规则对裁判文书中每个关键段落进行短句长句切分;(5)根据裁判文书专用词库judgment.txt和停用词典stopword.txt对裁判文书进行处理,并结合触发词表的构建与词语标注将裁判文书数据表示为向量的形式;(6)通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,完成裁判文书聚类,并得到案例的类标签;(7)创建基于裁判文书内容的层次结构,根据不同种类的裁判文书设计出相应的提取规则,并利用其得到裁判文书的结构化处理结果。

【技术特征摘要】
1.一种基于裁判文书的结构化处理方法,其特征在于,包括如下步骤:(1)获取并存储裁判文书信息,并对裁判文书信息进行数据清洗;(2)基于裁判文书的文本特征进行相关词库的构建与扩展,包括裁判文书专业词库的构建、触发词表的构建与词语标注;(3)根据裁判文书的书写结构特征,对裁判文书文档进行模块标注处理;(4)利用常见的分隔标点和分隔词作为长句切分规则,采用正则表达式匹配规则对裁判文书中每个关键段落进行短句长句切分;(5)根据裁判文书专用词库judgment.txt和停用词典stopword.txt对裁判文书进行处理,并结合触发词表的构建与词语标注将裁判文书数据表示为向量的形式;(6)通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,完成裁判文书聚类,并得到案例的类标签;(7)创建基于裁判文书内容的层次结构,根据不同种类的裁判文书设计出相应的提取规则,并利用其得到裁判文书的结构化处理结果。2.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(1)具体为通过现有的中国裁判文书网站获取裁判文书信息,存储在数据库中;并对获取到的裁判文书信息进行数据清洗,将裁判文书内容为空或描述字段过少、重复的文本数据进行删除;将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正;其中,在数据库中的存储格式为裁判文书序号、裁判文书内容两个字段;裁判文书序号是自然编号,无特殊意义;裁判文书内容字段为CLOB字段,存放整篇的文书内容。3.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述的相关词库的构建与扩展具体如下:(2.1)裁判文书专业词库的构建:对裁判及法律相关的专业词汇进行总结、分类,以及词性标注,从而形成自定义裁判文书词库;(2.2)触发词表的构建与词语标注:触发词指对抽取任务起到标志、识别作用,用于激活抽取任务的词汇;通过对大量裁判文书文本特征和表述规律的分析,为每个抽取任务建立其相应的触发词,分为六类:1)作为触发词表示其右边可能是实体;2)作为右触发词表示其左边可能是实体;3)作为左边界表示该词有可能是实体词条的第一个成分;4)作为右边界表示当前实体词条有可能到此结束;5)作为内含词表示其往往作为实体内部成分;6)当前词单独作为一个实体;针对裁判文本数据中实体的结构和用字特征以及以上六类触发词信息,设计有7个标注符号:b、m、e、l、r、o、s;其中b,m,e分别表示实体左边界、内含词、右边界;l、r分别表示实体的左触发词和右触发词;s表示单词实体;o表示非实体词。4.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述对裁判文书文档进行模块标注处理具体为将裁判文书文档各模块的标注分别为:标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款。5.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述常见的分隔标点包括为逗号,句号,分号;分隔词为不影响核心语义的修饰词、副词,通常可作为一个词语的边界;所述短句长句的切分以标点符号为界,其中短句的切分以逗号及整理的分隔词词汇为界,长句的切分以分号、句号、段落标记为界。6.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(5)具体为:设总共有n篇裁判文书,di表示第i篇裁判文书,其数据集合表示为:Dn={d1,d2,...,di,...,dn},每篇裁判文书均进过模块块标注;根据裁判文书专用词库judgment.txt和停用词典stopword.txt进行分词处理,并结合触发词表与词语标注,将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期的相关实体词使用其词语标注表示,最后得到裁判文书数据集合的语料库{w1,w2,...,wi,...,wN},其中wi表示语料库中的词语或者语料库中词语标注;则每篇裁判文书表示为三维向量的形式,设第i个裁判文书数据集表示为:di={(w1,p1,li),(w2,p2,li),...,(wN,pN,li)},N是中所有词语的数量,w表示语料库中词语或者是语料库中词语标注,p表示语料库中单词对应出现的次数,li表示裁判文书分块后各个模块标识。7.根据权利要求6所述的一种基于裁判文书的结构...

【专利技术属性】
技术研发人员:武敏姚斌王珏
申请(专利权)人:上海银江智慧智能化技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1