裁判文书的分段方法及装置制造方法及图纸

技术编号:15616679 阅读:281 留言:0更新日期:2017-06-14 03:31
本申请公开了一种裁判文书的分段方法及装置。其中,该方法包括:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,多个分词行集合分别为文书行集合中的每个文书行中的词语组成的集合;根据多个分词行集合分别对文书行集合中的每个文书行添加对应的段落标识;以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。通过本申请,解决了相关技术中裁判文书的段落划分的准确性较低的问题。

【技术实现步骤摘要】
裁判文书的分段方法及装置
本申请涉及文本处理
,具体而言,涉及一种裁判文书的分段方法及装置。
技术介绍
裁判文书是记载人民法院审理过程和结果的载体,也是人民法院确定和分配当事人实体权利与义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。相关技术中,时常需要将裁判文书进行段落划分以进行相关的数据分析。通常,将裁判文书段落划分使用的技术是逐行匹配,首先将全文拆分成一行一行首尾连接的文本链表;其次将文本链表匹配现有的规则链表,其中,链表是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的指针。文本链表和规则链表都是逐个匹配且匹配成功后跳转到下一个匹配项,根据具体的匹配项输出到对应的段落;由于使用的两个链表做匹配且是单向向前匹配,如果前面的某处匹配失败后,后续所有内容都匹配出问题。即段落划分容易出现一处错误处处错误,这种严重连带的错误。因此,导致裁判文书中段落划分的准确性较低。针对相关技术中裁判文书的段落划分的准确性较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种裁判文书的分段方法及装置,以解决相关技术中裁判文书的段落划分的准确性较低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书的分段方法。该方法包括:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,多个分词行集合分别为文书行集合中的每个文书行中的词语组成的集合;根据多个分词行集合分别对文书行集合中的每个文书行添加对应的段落标识;以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。进一步地,根据多个分词行集合分别对文书行集合中的每个文书行添加对应的段落标识包括:将预设词语词性集合中的多个分词行集合中的各个分词行集合逐次与多个词语词性条件进行匹配;获取多个分词行集合中与多个词语词性条件匹配上的分词行集合对应的文书行;以及对与多个词语词性条件匹配上的分词行集合对应的文书行添加对应的段落标识。进一步地,根据多个分词行集合分别对文书行集合中的每个文书行添加对应的段落标识包括:将预设词语词性集合中的多个词语词性条件逐次与多个分词行集合中的各个分词行集合进行匹配;获取多个分词行集合中未与多个词语词性条件匹配上的分词行集合对应的文书行,得到至少一个未标识文书行;在文书行集合中确定至少一个未标识文书行的上一个文书行对应的段落标识;以及将至少一个未标识文书行的上一个文书行对应的段落标识作为至少一个未标识文书行的段落标识。进一步地,多个词语词性条件包括第一词语词性条件和第二词语词性条件,其中,第一词语词性条件为当前与多个分词行集合进行匹配的条件,第二词语词性条件为在第一词语词性条件与多个分词行集合匹配失败的情况下,多个词语词性条件中下一个与多个分词行集合进行匹配的条件,将预设词语词性集合中的多个词语词性条件逐次与多个分词行集合中的各个分词行集合进行匹配包括:将多个词语词性条件中的第一词语词性条件与多个分词行集合中的各个分词行集合进行匹配;判断多个词语词性条件中的第一词语词性条件与多个分词行集合中的各个分词行集合是否匹配结束;如果多个词语词性条件中的第一词语词性条件与多个分词行集合中的各个分词行集合已匹配结束,将多个词语词性条件中的第二词语词性条件作为当前与多个分词行集合中的各个分词行集合进行匹配的条件;将多个词语词性条件中的第二词语词性条件与多个分词行集合中的各个分词行集合进行匹配。进一步地,对目标裁判文书进行分行处理,得到文书行集合包括:确定目标裁判文书的格式类型;确定目标裁判文书的格式类型对应的换行符;以及根据目标裁判文书的格式类型对应的换行符进行分行处理,得到文书行集合。进一步地,基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理包括:确定文书行集合中的每个文书行对应的段落标识中的每个段落标识;基于每个段落标识对目标裁判文书中的文书行进行段落划分;以及将具有相同的段落标识的多个文书行合并为同一个段落。为了实现上述目的,根据本申请的另一方面,提供了一种裁判文书的分段装置。该装置包括:第一处理单元,用于对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;第二处理单元,用于分别对文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,多个分词行集合分别为文书行集合中的每个文书行中的词语组成的集合;添加单元,用于根据多个分词行集合分别对文书行集合中的每个文书行添加对应的段落标识;以及第三处理单元,用于基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。进一步地,添加单元包括:第一匹配模块,用于将预设词语词性集合中的多个词语词性条件逐次与多个分词行集合中的各个分词行集合进行匹配;第一获取模块,用于获取多个分词行集合中与多个词语词性条件匹配上的分词行集合对应的文书行;以及添加模块,用于对与多个词语词性条件匹配上的分词行集合对应的文书行添加对应的段落标识。进一步地,添加单元包括:第二匹配模块,用于将预设词语词性集合中的多个词语词性条件逐次与多个分词行集合中的各个分词行集合进行匹配;第二获取模块,用于获取多个分词行集合中未与多个词语词性条件匹配上的分词行集合对应的文书行,得到至少一个未标识文书行;第一确定模块,用于在文书行集合中确定至少一个未标识文书行的上一个文书行对应的段落标识;以及第二确定模块,用于将至少一个未标识文书行的上一个文书行对应的段落标识作为至少一个未标识文书行的段落标识。进一步地,第一处理单元包括:第三确定模块,用于确定目标裁判文书的格式类型;第四确定模块,用于确定目标裁判文书的格式类型对应的换行符;以及处理模块,用于根据目标裁判文书的格式类型对应的换行符进行分行处理,得到文书行集合。通过本申请,采用以下步骤:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,多个分词行集合分别为文书行集合中的每个文书行中的词语组成的集合;根据多个分词行集合分别对文书行集合中的每个文书行添加对应的段落标识;以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理,解决了相关技术中裁判文书的段落划分的准确性较低的问题,根据文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理,进而达到了提升裁判文书段落划分的准确性的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请第一实施例的裁判文书的分段方法的流程图;图2是根据本申请第二实施例的裁判文书的分段方法的流程图;以及图3是根据本申请实施例的裁判文书的分段装置的示意图。具体实施方式需要说明的是,在不冲突的情况本文档来自技高网...
裁判文书的分段方法及装置

【技术保护点】
一种裁判文书的分段方法,其特征在于,包括:对目标裁判文书进行分行处理,得到文书行集合,其中,所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对所述文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,所述多个分词行集合分别为所述文书行集合中的每个文书行中的词语组成的集合;根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识;以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。

【技术特征摘要】
1.一种裁判文书的分段方法,其特征在于,包括:对目标裁判文书进行分行处理,得到文书行集合,其中,所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对所述文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,所述多个分词行集合分别为所述文书行集合中的每个文书行中的词语组成的集合;根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识;以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。2.根据权利要求1所述的方法,其特征在于,根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括:将预设词语词性集合中的多个词语词性条件逐次与所述多个分词行集合中的各个分词行集合进行匹配;获取所述多个分词行集合中与所述多个词语词性条件匹配上的分词行集合对应的文书行;以及对与所述多个词语词性条件匹配上的分词行集合对应的文书行添加对应的段落标识。3.根据权利要求1所述的方法,其特征在于,根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括:将预设词语词性集合中的多个词语词性条件逐次与所述多个分词行集合中的各个分词行集合进行匹配;获取所述多个分词行集合中未与所述多个词语词性条件匹配上的分词行集合对应的文书行,得到至少一个未标识文书行;在所述文书行集合中确定所述至少一个未标识文书行的上一个文书行对应的段落标识;以及将所述至少一个未标识文书行的上一个文书行对应的段落标识作为所述至少一个未标识文书行的段落标识。4.根据权利要求2或3所述的方法,其特征在于,所述多个词语词性条件包括第一词语词性条件和第二词语词性条件,其中,所述第一词语词性条件为当前与所述多个分词行集合进行匹配的条件,所述第二词语词性条件为在所述第一词语词性条件与所述多个分词行集合匹配失败的情况下,所述多个词语词性条件中下一个与所述多个分词行集合进行匹配的条件,将预设词语词性集合中的多个词语词性条件逐次与所述多个分词行集合中的各个分词行集合进行匹配包括:将所述多个词语词性条件中的第一词语词性条件与所述多个分词行集合中的各个分词行集合进行匹配;判断所述多个词语词性条件中的第一词语词性条件与所述多个分词行集合中的各个分词行集合是否匹配结束;如果所述多个词语词性条件中的第一词语词性条件与所述多个分词行集合中的各个分词行集合已匹配结束,将所述多个词语词性条件中的第二词语词性条件作为当前与所述多个分词行集合中的各个分词行集合进行匹配的条件;以及将所述多个词语词性条件中的第二词语词性条件与所述多个分词行集合中的各个分词行集合进行匹...

【专利技术属性】
技术研发人员:胡斌杜宁
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1