一种裁判文书标签的提取方法及装置制造方法及图纸

技术编号:26171189 阅读:23 留言:0更新日期:2020-10-31 13:42
本申请提供了一种裁判文书标签的提取方法及装置,首先,从所述裁判文书中提取与第一标签对应的文本要素集合,所述文本要素集合包含至少一个文本要素,所述文本要素包括字段名称和字段值;再从所述文本要素集合中提取与预设字段名称对应的第二标签,所述第二标签为与所述预设字段名称对应的字段值;最后将所述第一标签与所述第二标签进行拼接,得到裁判文书标签。本申请所提供的裁判文书标签的提取方法实现了对裁判文书多层级、多维度的标签提取,为文书内容结构化、文书检索和查询提供便利。

【技术实现步骤摘要】
一种裁判文书标签的提取方法及装置
本申请涉及文本处理
,尤其涉及一种裁判文书标签的提取方法及装置。
技术介绍
通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于用户来说,浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。具体地,例如用户需要查找原告为孕妇、且准予全部诉讼请求的裁判文书,就需要浏览各份裁判文书关于当事人信息以及判决结果的部分,这样就需要用户浏览大量的文本,才能够确定符合条件的裁判文书。而且,通常为了查找的裁判文书更加贴近用户的需求,用户会给出更多的需求,例如,增加被告是企业、代理费由被告承担等,此时,用户需要浏览的内容就会更多,而且,若要保证同一份裁判文书中同时包含用户的全部需求,难度将会更高。由此可见,阅读本文档来自技高网...

【技术保护点】
1.一种裁判文书标签的提取方法,其特征在于,所述方法包括:/n从所述裁判文书中提取与第一标签对应的文本要素集合,所述文本要素集合包含至少一个文本要素,所述文本要素包括字段名称和字段值;/n从所述文本要素集合中提取与预设字段名称对应的第二标签,所述第二标签为与所述预设字段名称对应的字段值;/n拼接所述第一标签与所述第二标签,得到裁判文书标签。/n

【技术特征摘要】
1.一种裁判文书标签的提取方法,其特征在于,所述方法包括:
从所述裁判文书中提取与第一标签对应的文本要素集合,所述文本要素集合包含至少一个文本要素,所述文本要素包括字段名称和字段值;
从所述文本要素集合中提取与预设字段名称对应的第二标签,所述第二标签为与所述预设字段名称对应的字段值;
拼接所述第一标签与所述第二标签,得到裁判文书标签。


2.根据权利要求1所述的方法,其特征在于,所述从所述裁判文书中提取与第一标签对应的文本要素集合包括:
获取目标裁判文书;
利用结构化模型将所述目标裁判文书结构化,得到多个文本块,其中,所述结构化模型包括多个目录标题,每一个所述文本块对应一个所述目录标题;
从所述多个文本块中提取与所述第一标签对应的目标文本块,所述目标文本块的目录标题与所述第一标签相匹配;
利用预设要素抽取模型从所述目标文本块中抽取文本要素,所述预设要素抽取模型包括与所述第一标签对应的字段名称和用于抽取与所述字段名称对应的字段值的抽取规则;
生成文本要素集合,所述文本要素集合包括与同一所述第一标签对应的全部所述文本要素。


3.根据权利要求1所述的方法,其特征在于,所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括:
提取所述文本要素集合中各所述文本要素的所述字段值,得到第二标签。


4.根据权利要求1所述的方法,其特征在于,所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括:
获取所述预设字段名称对应的预存对应关系,所述预存对应关系用于表示所述预设字段名称以及与所述预设字段名称对应的预设字段值的对应关系;
根据所述预存对应关系,从所述文本要素集合中提取第二标签,所述第二标签为所述文本要素中与所述预设字段值相匹配的字段值。


5.根据权利要求1所述的方法,其特征在于,所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括:
提取所述文本...

【专利技术属性】
技术研发人员:李德彦晋耀红刘大双张志一
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1