裁判文书的分段方法及装置制造方法及图纸

技术编号:15616675 阅读:114 留言:0更新日期:2017-06-14 03:31
本申请公开了一种裁判文书的分段方法及装置。该方法包括:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识,其中,预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合;以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。通过本申请,解决了相关技术中裁判文书的段落划分的准确性较低的问题。

【技术实现步骤摘要】
裁判文书的分段方法及装置
本申请涉及文本处理
,具体而言,涉及一种裁判文书的分段方法及装置。
技术介绍
裁判文书是记载人民法院审理过程和结果的载体,也是人民法院确定和分配当事人实体权利与义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。相关技术中,时常需要将裁判文书进行段落划分以进行相关的数据分析。通常,将裁判文书段落划分使用的技术是逐行匹配,首先将全文拆分成一行一行首尾连接的文本链表;其次将文本链表匹配现有的规则链表,其中,链表是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的指针。文本链表和规则链表都是逐个匹配且匹配成功后跳转到下一个匹配项,根据具体的匹配项输出到对应的段落;由于使用的两个链表做匹配且是单向向前匹配,如果前面的某处匹配失败后,后序所有内容都匹配出问题。即段落划分容易出现一处错误处处错误,这种严重连带的错误。因此,导致裁判文书中段落划分的准确性较低。针对相关技术中裁判文书的段落划分的准确性较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种裁判文书的分段方法及装置,以解决相关技术中裁判文书的段落划分的准确性较低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书的分段方法。该方法包括:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识,其中,预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合;以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。进一步地,根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识包括:;将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配;获取文书行集合中与多个正则规则条件匹配上的文书行;以及对与多个正则规则条件匹配上的文书行添加对应的段落标识。进一步地,根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识包括:将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配;获取文书行集合中未与多个正则规则条件匹配上的文书行,得到至少一个未标识文书行;在文书行集合中确定至少一个未标识文书行的上一个文书行对应的段落标识;以及将至少一个未标识文书行的上一个文书行对应的段落标识作为至少一个未标识文书行的段落标识。进一步地,多个正则规则条件包括第一正则规则条件和第二正则规则条件,其中,第一正则规则条件当前与文书行集合进行匹配的条件,第二正则规则条件为第一正则规则条件与文书行集合匹配失败的情况下,多个正则规则条件中下一个与文书行集合进行匹配的条件,将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配包括:将多个正则规则条件中的第一正则规则条件与文书行集合中的每个文书行的内容进行匹配;判断多个正则规则条件中的第一正则规则条件与文书行集合中的每个文书行的内容是否匹配结束;如果多个正则规则条件中的第一正则规则条件与文书行集合中的每个文书行的内容已匹配结束,将多个正则规则条件中的第二正则规则条件作为当前与文书行集合中的每个文书行的内容进行匹配的条件;以及将多个正则规则条件中的第二正则规则条件与文书行集合中的每个文书行的内容进行匹配。进一步地,对目标裁判文书进行分行处理,得到文书行集合包括:确定目标裁判文书的格式类型;确定目标裁判文书的格式类型对应的换行符;以及根据目标裁判文书的格式类型对应的换行符进行分行处理,得到文书行集合。进一步地,基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理包括:确定文书行集合中的每个文书行对应的段落标识中的每个段落标识;基于每个段落标识对目标裁判文书中的文书行进行段落划分;以及将具有相同的段落标识的多个文书行合并为同一个段落。为了实现上述目的,根据本申请的另一方面,提供了一种裁判文书的分段装置。该装置包括:第一处理单元,用于对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;添加单元,用于根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识,其中,预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合;以及第二处理单元,用于基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。进一步地,添加单元包括:;第一匹配模块,用于将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配;第一获取模块,用于获取文书行集合中与多个正则规则条件匹配上的文书行;以及添加模块,用于对与多个正则规则条件匹配上的文书行添加对应的段落标识。进一步地,添加单元包括:第二匹配模块,用于将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配;第二获取模块,用于获取文书行集合中未与多个正则规则条件匹配上的文书行,得到至少一个未标识文书行;第一确定模块,用于在文书行集合中确定至少一个未标识文书行的上一个文书行对应的段落标识;以及第二确定模块,用于将至少一个未标识文书行的上一个文书行对应的段落标识作为至少一个未标识文书行的段落标识。进一步地,第一处理单元包括:第三确定模块,用于确定目标裁判文书的格式类型;第四确定模块,用于确定目标裁判文书的格式类型对应的换行符;以及处理模块,用于根据目标裁判文书的格式类型对应的换行符进行分行处理,得到文书行集合。通过本申请,采用以下步骤:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识,其中,预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合;以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理,解决了相关技术中裁判文书的段落划分的准确性较低的问题,根据文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理,进而达到了提升裁判文书段落划分的准确性的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请第一实施例的裁判文书的分段方法的流程图;图2是根据本申请第二实施例的裁判文书的分段方法的流程图;以及图3是根据本申请实施例的裁判文书的分段装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得本文档来自技高网
...
裁判文书的分段方法及装置

【技术保护点】
一种裁判文书的分段方法,其特征在于,包括:对目标裁判文书进行分行处理,得到文书行集合,其中,所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合;根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识,其中,所述预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合;以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。

【技术特征摘要】
1.一种裁判文书的分段方法,其特征在于,包括:对目标裁判文书进行分行处理,得到文书行集合,其中,所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合;根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识,其中,所述预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合;以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。2.根据权利要求1所述的方法,其特征在于,根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括:将预设正则规则集合中的多个正则规则条件逐次与所述文书行集合中的每个文书行的内容进行匹配;获取所述文书行集合中与所述多个正则规则条件匹配上的文书行;以及对与所述多个正则规则条件匹配上的文书行添加对应的段落标识。3.根据权利要求1所述的方法,其特征在于,根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括:将预设正则规则集合中的多个正则规则条件逐次与所述文书行集合中的每个文书行的内容进行匹配;获取所述文书行集合中未与所述多个正则规则条件匹配上的文书行,得到至少一个未标识文书行;在所述文书行集合中确定所述至少一个未标识文书行的上一个文书行对应的段落标识;以及将所述至少一个未标识文书行的上一个文书行对应的段落标识作为所述至少一个未标识文书行的段落标识。4.根据权利要求2或3所述的方法,其特征在于,所述多个正则规则条件包括第一正则规则条件和第二正则规则条件,其中,所述第一正则规则条件当前与所述文书行集合进行匹配的条件,所述第二正则规则条件为所述第一正则规则条件与所述文书行集合匹配失败的情况下,所述多个正则规则条件中下一个与所述文书行集合进行匹配的条件,将预设正则规则集合中的多个正则规则条件逐次与所述文书行集合中的每个文书行的内容进行匹配包括:将所述多个正则规则条件中的第一正则规则条件与所述文书行集合中的每个文书行的内容进行匹配;判断所述多个正则规则条件中的第一正则规则条件与所述文书行集合中的每个文书行的内容是否匹配结束;如果所述多个正则规则条件中的第一正则规则条件与所述文书行集合中的每个文书行的内容已匹配结束,将所述多个正则规则条件中的第二正则规则条件作为当前与所述文书行集合中的每个文书行的内容进行匹配的条件;以及将所述多个正则规则条件中的第二正则规则条件与所述文书行集合中的每个文书行的内容进行匹配。5...

【专利技术属性】
技术研发人员:胡斌杜宁
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1