一种裁判文书结构化方法及装置制造方法及图纸

技术编号：24457732 阅读：59 留言：0更新日期：2020-06-10 16:03

本申请提供了一种裁判文书结构化方法及装置，首先，利用第一抽取模板抽取待处理裁判文书中的块文本，得到第一结构化文本，然后，利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取，得到第一子结构化文本，并将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本，得到第二子结构化文本。最后，利用所述第二子结构化文本更新所述第一结构化文本中对应的内容，得到第二结构化文本。可见，本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步提取，同时将所提取的文本转化为更加符合展示结构的文本格式，以便于用户通过浏览快速定位所需的内容。

A structural method and device of judgment document

全部详细技术资料下载

【技术实现步骤摘要】
一种裁判文书结构化方法及装置
本申请涉及文本处理
，尤其涉及一种裁判文书结构化方法及装置。
技术介绍
通常，裁判文书等一类的法律文件的内容较为冗长，而且用词较为晦涩难懂，令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且，用户在浏览裁判文书的过程中，通常会需要浏览一些类案，即与当前裁判文书相类似的案件对应的裁判文书，以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书，例如民事裁判文书，有一些隐含信息需要在浏览全部文本信息的基础上，有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书，用户浏览一篇裁判文书已经比较困难，要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难，不仅会浪费大量时间，而且也未必能够准确找到相似度最高的裁判文书。具体地，例如用户需要从裁判文书中查找与证据相关的内容，则需要从裁判文书的首个字符开始浏览，在了解裁判文书所阐述的各部分内容之后，判断证据可能出现的部分内容，进一步从该部分内容中抽取与证据相关的内容。但是，这种通过人工分析裁判文书的结构，进而获取结果的方式不...

【技术保护点】
1.一种裁判文书结构化方法，其特征在于，所述方法包括：/n利用第一抽取模板抽取待处理裁判文书中的块文本，得到第一结构化文本，所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成；/n利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取，得到第一子结构化文本，所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成；/n将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本，得到第二子结构化文本；/n利用所述第二子结构化文本更新所述第一结构化文本中对应的内容，得到第二结构化文本。/n

【技术特征摘要】
1.一种裁判文书结构化方法，其特征在于，所述方法包括：
利用第一抽取模板抽取待处理裁判文书中的块文本，得到第一结构化文本，所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成；
利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取，得到第一子结构化文本，所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成；
将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本，得到第二子结构化文本；
利用所述第二子结构化文本更新所述第一结构化文本中对应的内容，得到第二结构化文本。

2.根据权利要求1所述的方法，其特征在于，所述利用第一抽取模板抽取待处理裁判文书中的块文本，得到第一结构化文本包括：
按照第一抽取模板中每一抽取节点，确定待处理裁判文书中的节点字符，所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串，所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符；
确定每一所述抽取节点对应的块文本，所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符；
将每一所述抽取节点与所述块文本相对应，生成第一结构化文本。

3.根据权利要求1所述的方法，其特征在于，所述利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取，得到第一子结构化文本包括：
确定所述第二抽取模板中每一抽取节点对应的特征抽取模型；
利用所述特征抽取模型从所述指定块文本中确定目标字符串和目标终止符，所述目标字符串为与所述特征抽取模型中的抽取表达式相匹配的字符串，所述目标终止符是指预设的代表子块文本结束的符号；
确定子块文本，所述子块文本为同一所述抽取节点对应的从所述目标字符串起至所述目标终止符之间的字符；
将所述第二抽取模板中的每一抽取节点与所述子块文本相对应，生成第一子结构化文本。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本，得到第二子结构化文本包括：
从所述第一子结构化文本的子块文本中确定第一类子块文本，所述第一类子块文本为所在指定块文本对应的抽取节点与第一类别关键词相匹配的子块文本；
从所述第一类子块文本中确定目标类别关键词，所述目标类别关键词为与预设类别关键词的匹配度大于或者等于预设匹配阈值的分词；
确定分类文本，所述分类文本为所述子块文本中具有同一所述目标类别关键词的文本；
从每一所述分类文本中确定第一序号标识符；
以所述第一序号标识符为分隔节点划分所述分类文本，得到第一子文本；
在相邻两个所述第一子文本之间添加换行符，以使一个所述第一子文本对应一个段落；
结合所述目标类别关键词、所述序号标识符和对应的第一子文本生成第二子结构化文本。

5.根据权利要求4所述的方法，其特征在于，所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本，得到第二子结构化文本包括：
从所述第一子结构化文本的子块文本中确定第二类子块文本，所述第二类子块文本为所在指定块文本对应的抽取节点与第二类别关键词相匹配的子块文本；
以预设分隔符为节点划分所述第二类子块文本，得到第二子文本；
利用第一特征抽取模型从所述第二子文本中抽取第三子文本；
从每一所述第三子文本中获取第二序号标识符；
确定...

【专利技术属性】
技术研发人员：席丽娜，王文军，晋耀红，
申请(专利权)人：中科鼎富北京科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人