裁判文书的分段方法及装置制造方法及图纸

技术编号：15616675 阅读：114 留言：0更新日期：2017-06-14 03:31

本申请公开了一种裁判文书的分段方法及装置。该方法包括：对目标裁判文书进行分行处理，得到文书行集合，其中，文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合；根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识，其中，预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合；以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。通过本申请，解决了相关技术中裁判文书的段落划分的准确性较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
裁判文书的分段方法及装置
本申请涉及文本处理
，具体而言，涉及一种裁判文书的分段方法及装置。
技术介绍
裁判文书是记载人民法院审理过程和结果的载体，也是人民法院确定和分配当事人实体权利与义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书，既是当事人享有权利和负担义务的凭证，也是上级人民法院监督下级人民法院民事审判活动的重要依据。相关技术中，时常需要将裁判文书进行段落划分以进行相关的数据分析。通常，将裁判文书段落划分使用的技术是逐行匹配，首先将全文拆分成一行一行首尾连接的文本链表；其次将文本链表匹配现有的规则链表，其中，链表是一种线性表，但是并不会按线性的顺序存储数据，而是在每一个节点里存到下一个节点的指针。文本链表和规则链表都是逐个匹配且匹配成功后跳转到下一个匹配项，根据具体的匹配项输出到对应的段落；由于使用的两个链表做匹配且是单向向前匹配，如果前面的某处匹配失败后，后序所有内容都匹配出问题。即段落划分容易出现一处错误处处错误，这种严重连带的错误。因此，导致裁判文书中段落划分的准确性较低。针对相关技术中裁判文书的段落划分的准确性较低的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种裁判文书的分段方法及装置，以解决相关技术中裁判文书的段落划分的准确性较低的问题。为了实现上述目的，根据本申请的一个方面，提供了一种裁判文书的分段方法。该方法包括：对目标裁判文书进行分行处理，得到文书行集合，其中，文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合；根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段...
裁判文书的分段方法及装置

【技术保护点】
一种裁判文书的分段方法，其特征在于，包括：对目标裁判文书进行分行处理，得到文书行集合，其中，所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合；根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识，其中，所述预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合；以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。

【技术特征摘要】
1.一种裁判文书的分段方法，其特征在于，包括：对目标裁判文书进行分行处理，得到文书行集合，其中，所述文书行集合为对所述目标裁判文书进行分行处理后得到的多个文书行组成的集合；根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识，其中，所述预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合；以及基于所述文书行集合中的每个文书行对应的段落标识对所述目标裁判文书进行分段处理。2.根据权利要求1所述的方法，其特征在于，根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括：将预设正则规则集合中的多个正则规则条件逐次与所述文书行集合中的每个文书行的内容进行匹配；获取所述文书行集合中与所述多个正则规则条件匹配上的文书行；以及对与所述多个正则规则条件匹配上的文书行添加对应的段落标识。3.根据权利要求1所述的方法，其特征在于，根据预设正则规则集合分别对所述文书行集合中的每个文书行添加对应的段落标识包括：将预设正则规则集合中的多个正则规则条件逐次与所述文书行集合中的每个文书行的内容进行匹配；获取所述文书行集合中未与所述多个正则规则条件匹配上的文书行，得到至少一个未标识文书行；在所述文书行集合中确定所述至少一个未标识文书行的上一个文书行对应的段落标识；以及将所述至少一个未标识文书行的上一个文书行对应的段落标识作为所述至少一个未标识文书行的段落标识。4.根据权利要求2或3所述的方法，其特征在于，所述多个正则规则条件包括第一正则规则条件和第二正则规则条件，其中，所述第一正则规则条件当前与所述文书行集合进行匹配的条件，所述第二正则规则条件为所述第一正则规则条件与所述文书行集合匹配失败的情况下，所述多个正则规则条件中下一个与所述文书行集合进行匹配的条件，将预设正则规则集合中的多个正则规则条件逐次与所述文书行集合中的每个文书行的内容进行匹配包括：将所述多个正则规则条件中的第一正则规则条件与所述文书行集合中的每个文书行的内容进行匹配；判断所述多个正则规则条件中的第一正则规则条件与所述文书行集合中的每个文书行的内容是否匹配结束；如果所述多个正则规则条件中的第一正则规则条件与所述文书行集合中的每个文书行的内容已匹配结束，将所述多个正则规则条件中的第二正则规则条件作为当前与所述文书行集合中的每个文书行的内容进行匹配的条件；以及将所述多个正则规则条件中的第二正则规则条件与所述文书行集合中的每个文书行的内容进行匹配。5...

【专利技术属性】
技术研发人员：胡斌，杜宁，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人