一种裁判文书结构化方法及装置制造方法及图纸

技术编号:24457732 阅读:54 留言:0更新日期:2020-06-10 16:03
本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,并将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本。最后,利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步提取,同时将所提取的文本转化为更加符合展示结构的文本格式,以便于用户通过浏览快速定位所需的内容。

A structural method and device of judgment document

【技术实现步骤摘要】
一种裁判文书结构化方法及装置
本申请涉及文本处理
,尤其涉及一种裁判文书结构化方法及装置。
技术介绍
通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。具体地,例如用户需要从裁判文书中查找与证据相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断证据可能出现的部分内容,进一步从该部分内容中抽取与证据相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。
技术实现思路
本申请提供了一种裁判文书结构化方法及装置,以提高裁判文书的格式规范性,方便用户浏览。第一方面,本申请提供了一种裁判文书结构化方法,所述方法包括:利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。第二方面,本申请提供了一种裁判文书结构化装置,所述装置包括:第一抽取单元,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;第二抽取单元,用于利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;转换单元,用于将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;更新单元,用于利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。由以上技术可知,本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,并将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本。最后,利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步提取,同时将所提取的文本转化为更加符合展示结构的文本格式,以便于用户通过浏览快速定位所需的内容。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种裁判文书结构化方法的流程图;图2为本申请实施例提供的一种抽取第一结构化文本的方法的流程图;图3为本申请实施例提供的一种生成第一子结构化文本的方法的流程图;图4为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;图5为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;图6为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;图7为本申请实施例提供的一种文本特征表达格式的转化方法的流程图;图8为本申请实施例提供的一种裁判文书结构化装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。具体地,例如用户需要从裁判文书中查找与证据相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断证据可能出现的部分内容,进一步从该部分内容中抽取与证据相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。为了解决上述问题,本申请提供了一种裁判文书结构化方法及装置,以将裁判文本形成结构化文本,以使用户可以快速确定自己在裁判文书中所需的内容。图1为本申请实施例提供的一种裁判文书结构化方法的流程图,如图1所示,所述方法包括:S1、利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成。将待处理裁判文书录入进裁判文书结构化装置中,其中,裁判文书结构化装置可以为服务器、PC(个人电脑)、平板电脑、手机等多种文本处理设备。其中,待处理裁判文书可以为民事案件中的各审判决书等。裁判文书结构化装置在接收到待处理裁判文书之后,需要对该待处理裁判文书进行预处理,确定需要进行结构化的文本,例如,录入至裁判文书结构化装置中的待处理裁判文书包括刑事一审判决书,刑事二审判决书和刑事终审判决书,但是,目前只需要对民事一审判决书进行结构化,此时就需要通过预处理将民事一审判决书的文本提取出来,通常可以通本文档来自技高网...

【技术保护点】
1.一种裁判文书结构化方法,其特征在于,所述方法包括:/n利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;/n利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;/n将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;/n利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。/n

【技术特征摘要】
1.一种裁判文书结构化方法,其特征在于,所述方法包括:
利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;
利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;
将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;
利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。


2.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本包括:
按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;
确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;
将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。


3.根据权利要求1所述的方法,其特征在于,所述利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本包括:
确定所述第二抽取模板中每一抽取节点对应的特征抽取模型;
利用所述特征抽取模型从所述指定块文本中确定目标字符串和目标终止符,所述目标字符串为与所述特征抽取模型中的抽取表达式相匹配的字符串,所述目标终止符是指预设的代表子块文本结束的符号;
确定子块文本,所述子块文本为同一所述抽取节点对应的从所述目标字符串起至所述目标终止符之间的字符;
将所述第二抽取模板中的每一抽取节点与所述子块文本相对应,生成第一子结构化文本。


4.根据权利要求3所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:
从所述第一子结构化文本的子块文本中确定第一类子块文本,所述第一类子块文本为所在指定块文本对应的抽取节点与第一类别关键词相匹配的子块文本;
从所述第一类子块文本中确定目标类别关键词,所述目标类别关键词为与预设类别关键词的匹配度大于或者等于预设匹配阈值的分词;
确定分类文本,所述分类文本为所述子块文本中具有同一所述目标类别关键词的文本;
从每一所述分类文本中确定第一序号标识符;
以所述第一序号标识符为分隔节点划分所述分类文本,得到第一子文本;
在相邻两个所述第一子文本之间添加换行符,以使一个所述第一子文本对应一个段落;
结合所述目标类别关键词、所述序号标识符和对应的第一子文本生成第二子结构化文本。


5.根据权利要求4所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:
从所述第一子结构化文本的子块文本中确定第二类子块文本,所述第二类子块文本为所在指定块文本对应的抽取节点与第二类别关键词相匹配的子块文本;
以预设分隔符为节点划分所述第二类子块文本,得到第二子文本;
利用第一特征抽取模型从所述第二子文本中抽取第三子文本;
从每一所述第三子文本中获取第二序号标识符;
确定...

【专利技术属性】
技术研发人员:席丽娜王文军晋耀红
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1