【技术实现步骤摘要】
裁判文书的分段方法及装置
本申请涉及文本处理
,具体而言,涉及一种裁判文书的分段方法及装置。
技术介绍
裁判文书是记载人民法院审理过程和结果的载体,也是人民法院确定和分配当事人实体权利与义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。相关技术中,时常需要将裁判文书进行段落划分以进行相关的数据分析。通常,将裁判文书段落划分使用的技术是逐行匹配,首先将全文拆分成一行一行首尾连接的文本链表;其次将文本链表匹配现有的规则链表,其中,链表是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的指针。文本链表和规则链表都是逐个匹配且匹配成功后跳转到下一个匹配项,根据具体的匹配项输出到对应的段落;由于使用的两个链表做匹配且是单向向前匹配,如果前面的某处匹配失败后,后续所有内容都匹配出问题。即段落划分容易出现一处错误处处错误,这种严重连带的错误。因此,导致裁判文书中段落划分的准确性较低。针对相关技术中裁判文书的段落划分的准确性较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种裁判文书的分段方法及装置,以解决相关技术中裁判文书的段落划分的准确性较低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书的分段方法。该方法包括:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对文书行集合中的每个文书行进行分词处理,得到多个分词行集合 ...
【技术保护点】
一种裁判文书的分段方法,其特征在于,包括:对目标裁判文书进行分行处理,得到文书行集合,其中,所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对所述文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,所述多个分词行集合分别为所述文书行集合中的每个文书行中的词语组成的集合;根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识;以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。
【技术特征摘要】
1.一种裁判文书的分段方法,其特征在于,包括:对目标裁判文书进行分行处理,得到文书行集合,其中,所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合;分别对所述文书行集合中的每个文书行进行分词处理,得到多个分词行集合,其中,所述多个分词行集合分别为所述文书行集合中的每个文书行中的词语组成的集合;根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识;以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。2.根据权利要求1所述的方法,其特征在于,根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括:将预设词语词性集合中的多个词语词性条件逐次与所述多个分词行集合中的各个分词行集合进行匹配;获取所述多个分词行集合中与所述多个词语词性条件匹配上的分词行集合对应的文书行;以及对与所述多个词语词性条件匹配上的分词行集合对应的文书行添加对应的段落标识。3.根据权利要求1所述的方法,其特征在于,根据所述多个分词行集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括:将预设词语词性集合中的多个词语词性条件逐次与所述多个分词行集合中的各个分词行集合进行匹配;获取所述多个分词行集合中未与所述多个词语词性条件匹配上的分词行集合对应的文书行,得到至少一个未标识文书行;在所述文书行集合中确定所述至少一个未标识文书行的上一个文书行对应的段落标识;以及将所述至少一个未标识文书行的上一个文书行对应的段落标识作为所述至少一个未标识文书行的段落标识。4.根据权利要求2或3所述的方法,其特征在于,所述多个词语词性条件包括第一词语词性条件和第二词语词性条件,其中,所述第一词语词性条件为当前与所述多个分词行集合进行匹配的条件,所述第二词语词性条件为在所述第一词语词性条件与所述多个分词行集合匹配失败的情况下,所述多个词语词性条件中下一个与所述多个分词行集合进行匹配的条件,将预设词语词性集合中的多个词语词性条件逐次与所述多个分词行集合中的各个分词行集合进行匹配包括:将所述多个词语词性条件中的第一词语词性条件与所述多个分词行集合中的各个分词行集合进行匹配;判断所述多个词语词性条件中的第一词语词性条件与所述多个分词行集合中的各个分词行集合是否匹配结束;如果所述多个词语词性条件中的第一词语词性条件与所述多个分词行集合中的各个分词行集合已匹配结束,将所述多个词语词性条件中的第二词语词性条件作为当前与所述多个分词行集合中的各个分词行集合进行匹配的条件;以及将所述多个词语词性条件中的第二词语词性条件与所述多个分词行集合中的各个分词行集合进行匹...
【专利技术属性】
技术研发人员:胡斌,杜宁,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。