一种裁判文书格式化处理方法技术

技术编号:22885352 阅读:102 留言:0更新日期:2019-12-21 07:48
一种裁判文书格式化处理方法,涉及计算机中人工智能领域,解决了文本化裁判文书自动变成格式化数据这一技术问题。本发明专利技术包括:裁判文书类别识别;标题识别;文号识别;时间检索;案件摘要;被告检索;原告检索;数据存储;信息查重;信息核实;企业数据关联。本发明专利技术的特点在于将常规格式化公文与自然语言处理技术结合于一体,应用在裁判文书领域中。通过对裁判文书的格式化处理,分出裁判文书的类别、原告、被告、发生时间等信息,自动形成计算机可识读的格式化数据,并自动添加到企业关系表中,形成了企业信用的重要数据,解决了人工格式化处理的工作量问题。

A method to format the judgment document

【技术实现步骤摘要】
一种裁判文书格式化处理方法
本专利技术涉及计算机中人工智能
,具体涉及一种裁判文书格式化处理方法。
技术介绍
信用是在人们经济交往过程中产生的,因此,一个国家经济交往状况对该国家的信用体系建设有决定性的影响。近几年随着中国的经济的快速发展,国家也意识到信用的重要作用,也努力建设信用体系,力争加快进入信用社会的步伐,但国内的信用体系很难做到像欧美那样,尤其是在信用体系的基础环节-征信体系方面,更是举步维艰。为了建立起我国信用体系的基本框架,国家将培育信用市场主体,大力发展信用服务业作为七大重要对策措施之一。信用服务企业通过生产信用报告、开展信用评级、信用担保、商账追收和信用管理咨询等信用业务,为授信单位提供信用风险管理服务,在信用体系中发挥着市场主体作用。裁判文书作为判定一个企业或个人信用的重要组成部分,是对其风险判定的重要参考依据,而裁判文书每天的发布量大约为几万条,这些如果单靠人工进行分类整理,不仅需要大量的人力和财力支持,且长时间重复工作,造成准确率急剧下降。人工智能技术的发展,尤其是中文的命名实体识别技术的发展,给通过计算机自动识别裁判文书、并对裁判文书进行格式化处理提供了技术可能。由于裁判文书往往是非结构化信息,不能依靠简单的结构解析就提取出想要的信息,而是需要自然语言处理技术来提取出裁判文书中的关键信息。如何采用计算机自动将文本化裁判文书变成格式化数据是目前亟待解决的重要问题。
技术实现思路
为了解决文本化裁判文书自动变成格式化数据这一技术问题,本专利技术提供一种裁判文书格式化处理方法,属于一种针对专用公文的自然语言处理方法。本专利技术为解决技术问题所采用的技术方案如下:本专利技术的一种裁判文书格式化处理方法,包括以下步骤:步骤一、裁判文书类别识别;对裁判文书的类别进行维护:刑事案件、民事案件、行政案件、赔偿案件、执行案件;在采集裁判文书数据的过程中,根据不同的栏目进行分类标识,刑事案件:CR;民事案件:CI;行政案件:AD;赔偿案件:CO;执行案件:EX;步骤二、标题识别;默认为单独一行“最高人民法院”为标题行,其下面一整行内容为该裁判文书的类别标识;步骤三、文号识别;步骤四、时间检索;完成发文日期、案件发生日期范围、审理日期范围的格式化;步骤五、案件摘要;步骤六、被告检索;步骤七、原告检索;步骤八、数据存储;将步骤一至步骤七所产生的裁判文书分解的数据保存到数据库中,并标识数据来源、采集日期,同时存储整个裁判文书文件及可疑性判断;步骤九、信息查重;步骤十、信息核实;对存储后的裁判文书数据进行确认,对可疑性文件进行人工调整;步骤十一、企业数据关联。进一步的,步骤二包括以下步骤:S201:设置字符型变量:Cate;S202:行检索“最高人民法院”,若检查存在,即为标题行,提取其下一行文字,提出空格后,记载到变量Cate中;若不存在,则该文本标识为TitleFirstNull;S203:类别管理应用类别识别管理功能,将已归类的类别和新增的列表分类展现出来,人工确认后标记在原始类别和确认类别2个字段中。进一步的,步骤三包括以下步骤:S301:变量设置设置三个整形变量:Pos、Zipos、Findpos;六个文本类型变量:Symbol、RelatedSymbol[]、RelatedSymbolDate[]、RelatedSymboCourtl[]、MM,ErrorText;S302:末尾检索采用计算机检索中,从前到全文后查找“被告人”,查出来后记载其位置Pos,如果查不到记载,ErrorText错误标识记载ZiFirstNull,认为该文本没有有效文号,在判断结束后步骤;S303:关键词检索然后从前至后,针对刑事案件,查找第一个文号关键词字库中维护的“字第”、“字”、“号”等关键字,并根据步骤S311中维护的文号识别规则引擎算法判断是否符合规则,如果符合,则记载位置Zipos,如果出现错误,则执行以下公式:ErrorText=ErrorText+“;关键词检索错误”;S304:比较Zipos与Pos大小,若Zipos<Pos,则认为该文本有有效文号,否则认为该文本没有独立有效文号;S305:字符串截取在具有有效文号的前提下,提取其后连接的数字为文本文号,“号”为结束标志,其前括号中的数字为年份,年份连同关键字共同组成文号标识MM,赋予文本型变量Symbol中;S306:相关文号查找继续向下文查找,查找出以下“字第”出现的位置,向前查找“(”,向后查找“号”中间部分文字记载为相关判决裁判文书文号,赋予变量RelatedSymbol[1]中,Symbol赋值“”;S307:相关审判日期查找采用全文检索,在Zipos位置向前检索至“法院”位置Findpos,提取“法院”与“(”中间字符,判断日期的有效性,如果有效,记载为RelatedSymbolDate[1],如果无效,记载RelatedSymbolDate[1]=“”;S308:相关审判机构查找采用全文检索,在Zipos位置向前检索至“省”,除去前几个字符与省名称字符库对比,找到相同的省份,提取从**省到“人民法院”中间的字符,赋予字符串RelatedSymboCourtl[1];S309:重复步骤S306至步骤S308继续向下文查找,查找出以下“字第”出现的位置,赋予数组RelatedSymbol[n]、RelatedSymbolDate[n]、RelatedSymboCourtl[n],n为正文中找到的次数,直至查找到文件结束;S310:重复文号剔除判断数组RelatedSymbol[n],找出重复的项,将本数组最后的项值赋予到第一个重复数值上,最后一个数组删除,同时按此n值更新RelatedSymbolDate[n]、RelatedSymboCourtl[n]数值;S311:文号规则引擎管理应用文号识别规则引擎管理功能,由两部分组成,关键字和关键字之间关联规则组成;关键字由“字第”、“字”、“号”组成;关键字之间的关联规则由两个关键字之间最大字符数,必须包含字符表、不能包含的字符表等规则组成;文号识别规则引擎算法为实现上述规则设定的正则运算方法,由关键字查找,关键之间的字符数计算,中间字符串是否包含必须包含字符,是否不包含必须包含字符四部分组成;如果出现错误,则执行以下公式:ErrorText=ErrorText+“;文号识别规则计算错误:”+字符串位置+传过来关键字符串+“;”。进一步的,步骤四包括以下步骤:S401:变量设置设定字符型变量PDate,整数型变量LineSite;S402:发文日期提取行检本文档来自技高网...

【技术保护点】
1.一种裁判文书格式化处理方法,其特征在于,包括以下步骤:/n步骤一、裁判文书类别识别;/n对裁判文书的类别进行维护:刑事案件、民事案件、行政案件、赔偿案件、执行案件;在采集裁判文书数据的过程中,根据不同的栏目进行分类标识,刑事案件:CR;民事案件:CI;行政案件:AD;赔偿案件:CO;执行案件:EX;/n步骤二、标题识别;/n默认为单独一行“最高人民法院”为标题行,其下面一整行内容为该裁判文书的类别标识;/n步骤三、文号识别;/n步骤四、时间检索;/n完成发文日期、案件发生日期范围、审理日期范围的格式化;/n步骤五、案件摘要;/n步骤六、被告检索;/n步骤七、原告检索;/n步骤八、数据存储;/n将步骤一至步骤七所产生的裁判文书分解的数据保存到数据库中,并标识数据来源、采集日期,同时存储整个裁判文书文件及可疑性判断;/n步骤九、信息查重;/n步骤十、信息核实;/n对存储后的裁判文书数据进行确认,对可疑性文件进行人工调整;/n步骤十一、企业数据关联。/n

【技术特征摘要】
1.一种裁判文书格式化处理方法,其特征在于,包括以下步骤:
步骤一、裁判文书类别识别;
对裁判文书的类别进行维护:刑事案件、民事案件、行政案件、赔偿案件、执行案件;在采集裁判文书数据的过程中,根据不同的栏目进行分类标识,刑事案件:CR;民事案件:CI;行政案件:AD;赔偿案件:CO;执行案件:EX;
步骤二、标题识别;
默认为单独一行“最高人民法院”为标题行,其下面一整行内容为该裁判文书的类别标识;
步骤三、文号识别;
步骤四、时间检索;
完成发文日期、案件发生日期范围、审理日期范围的格式化;
步骤五、案件摘要;
步骤六、被告检索;
步骤七、原告检索;
步骤八、数据存储;
将步骤一至步骤七所产生的裁判文书分解的数据保存到数据库中,并标识数据来源、采集日期,同时存储整个裁判文书文件及可疑性判断;
步骤九、信息查重;
步骤十、信息核实;
对存储后的裁判文书数据进行确认,对可疑性文件进行人工调整;
步骤十一、企业数据关联。


2.根据权利要求1所述的一种裁判文书格式化处理方法,其特征在于,步骤二包括以下步骤:
S201:设置字符型变量:Cate;
S202:行检索“最高人民法院”,若检查存在,即为标题行,提取其下一行文字,提出空格后,记载到变量Cate中;若不存在,则该文本标识为TitleFirstNull;
S203:类别管理
应用类别识别管理功能,将已归类的类别和新增的列表分类展现出来,人工确认后标记在原始类别和确认类别2个字段中。


3.根据权利要求2所述的一种裁判文书格式化处理方法,其特征在于,步骤三包括以下步骤:
S301:变量设置
设置三个整形变量:Pos、Zipos、Findpos;
六个文本类型变量:Symbol、RelatedSymbol[]、RelatedSymbolDate[]、RelatedSymboCourtl[]、MM,ErrorText;
S302:末尾检索
采用计算机检索中,从前到全文后查找“被告人”,查出来后记载其位置Pos,如果查不到记载,ErrorText错误标识记载ZiFirstNull,认为该文本没有有效文号,在判断结束后步骤;
S303:关键词检索
然后从前至后,针对刑事案件,查找第一个文号关键词字库中维护的“字第”、“字”、“号”等关键字,并根据步骤S311中维护的文号识别规则引擎算法判断是否符合规则,如果符合,则记载位置Zipos,如果出现错误,则执行以下公式:
ErrorText=ErrorText+“;关键词检索错误”;
S304:比较Zipos与Pos大小,若Zipos<Pos,则认为该文本有有效文号,否则认为该文本没有独立有效文号;
S305:字符串截取
在具有有效文号的前提下,提取其后连接的数字为文本文号,“号”为结束标志,其前括号中的数字为年份,年份连同关键字共同组成文号标识MM,赋予文本型变量Symbol中;
S306:相关文号查找
继续向下文查找,查找出以下“字第”出现的位置,向前查找“(”,向后查找“号”中间部分文字记载为相关判决裁判文书文号,赋予变量RelatedSymbol[1]中,Symbol赋值“”;
S307:相关审判日期查找
采用全文检索,在Zipos位置向前检索至“法院”位置Findpos,提取“法院”与“(”中间字符,判断日期的有效性,如果有效,记载为RelatedSymbolDate[1],如果无效,记载RelatedSymbolDate[1]=“”;
S308:相关审判机构查找
采用全文检索,在Zipos位置向前检索至“省”,除去前几个字符与省名称字符库对比,找到相同的省份,提取从**省到“人民法院”中间的字符,赋予字符串RelatedSymboCourtl[1];
S309:重复步骤S306至步骤S308继续向下文查找,查找出以下“字第”出现的位置,赋予数组RelatedSymbol[n]、RelatedSymbolDate[n]、RelatedSymboCourtl[n],n为正文中找到的次数,直至查找到文件结束;
S310:重复文号剔除
判断数组RelatedSymbol[n],找出重复的项,将本数组最后的项值赋予到第一个重复数值上,最后一个数组删除,同时按此n值更新RelatedSymbolDate[n]、RelatedSymboCourtl[n]数值;
S311:文号规则引擎管理
应用文号识别规则引擎管理功能,由两部分组成,关键字和关键字之间关联规则组成;
关键字由“字第”、“字”、“号”组成;
关键字之间的关联规则由两个关键字之间最大字符数,必须包含字符表、不能包含的字符表等规则组成;
文号识别规则引擎算法为实现上述规则设定的正则运算方法,由关键字查找,关键之间的字符数计算,中间字符串是否包含必须包含字符,是否不包含必须包含字符四部分组成;
如果出现错误,则执行以下公式:
ErrorText=ErrorText+“;文号识别规则计算错误:”+字符串位置+传过来关键字符串+“;”。


4.根据权利要求3所述的一种裁判文书格式化处理方法,其特征在于,步骤四包括以下步骤:
S401:变量设置
设定字符型变量PDate,整数型变量LineSite;
S402:发文日期提取
行检索由后向前检索“附录”,如果全文没有查到直至查找最后一个“附录”起头的数据行,然后向上进行行检索“年”“月”“日”在一行,检索范围从最后一行到最后第十行,取第一个检出的有效日期作为PDate字符值;
将PDate字符值转换成阿拉伯数字日期格式;
S403;案件发生、审理日期范围提取
全文检索日期规则引擎中的关键字,截取裁判文书中同一句话含有关键字的语句,采用日期识别规则引擎算法进行识别;
针对类别为“案件发生日期”的最小日期定为该案件的发生日期,“案件发生日期”的最大的日期为该案件的发生截止日期;
针对类别为“审理日期”的最小日期定为该案件的审理开始日期,“审理日期”的最大的日期为该案件的审理截止日期;
针对类别为“其他日期”的最小日期定为该案件的其他日期,“其他日期”的最大的日期为该案件的其他截止日期;
日期记录记载每个日期的语句;
S405:日期规则引擎算法维护
日期规则由关键字、关键字之间规则、规则引擎算法三部分组成;
日期关键字由“年”“月”“日”“根据”“法院”组成;
类别由“案件发生日期”、“审理日期”、“其他日期”组成;
关键字之间的联系规则由两个关键字之间最大字符数、必须包含字符表、不能包含的字符表组成;
日期识别规则引擎算法为实现上述规则设定的正则运算方法,由关键字查找,关键之间的字符数计算,中间字符串是否包含必须包含字符,是否不包含必须包含字符、根据关键字判定属于哪个类别五部分组成;
如果出现错误,则执行以下公式:
ErrorText=ErrorText+“;日期规则引擎识别错误:”+字符串位置+传过来关键字符串...

【专利技术属性】
技术研发人员:杨玉东贺爱英李英韬李洪生张明良范路佳
申请(专利权)人:长春市万易科技有限公司
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1