裁判文书的信息抽取方法及装置制造方法及图纸

技术编号:24576454 阅读:75 留言:0更新日期:2020-06-21 00:27
本申请公开了裁判文书的信息抽取方法及装置,首先从裁判文书中获取目标区块,所述目标区块包括多个单元文本,每个单元文本包含一个实体对象的画像要素;然后确定每个单元文本对应的概念类属,并根据确定的概念类属选择单元文本对应的目标要素树;最后使用目标要素树从相应的单元文本中抽取实体对象的画像要素。通过本申请方法可以从裁判文书中自动化抽取出当事人和代理人的画像要素,从而帮助相关领域从业人员快速并准确地掌握当事人和代理人信息,有助于了解案情。

Information extraction method and device of judgment document

【技术实现步骤摘要】
裁判文书的信息抽取方法及装置
本申请涉及文本处理
,尤其涉及一种裁判文书的信息抽取方法及装置。
技术介绍
裁判文书是记载人民法院审理过程和结果等诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。裁判文书通常具有规律的结构框架和编写格式,对于不同类型的裁判文书,其结构框架和编写格式可能略微不同。常见的文书类型包括民事裁判文书(如民事判决书),刑事裁判文书(如刑事判决书),行政裁判文书(如行政判决书),以及其他通用诉讼文书等。由于案件当事人和当事人所委托的代理人是必要的诉讼参与人,也是审理过程和结果等信息所描述或针对的基本实体对象,因此包括当事人信息和代理人信息的实体对象信息(画像要素)是构成裁判文书的重要组成部分,快速并准确地掌握实体对象信息是了解案情的首要环节,因此从裁判文书中抽取出实体对象信息成为相关领域内从业人士的基本需求。
技术实现思路
本申请提供一种裁判文书的信息抽取方法及装置,以解决从裁判文书中抽取实体对象信息的问题。第一方面,本申请提供一种裁判文书的信息抽取方法,所述方法包括:从裁判文书中获取目标区块,所述目标区块包括多个单元文本,每个所述单元文本包含一个实体对象的画像要素;获取所述裁判文书对应的角色标签集,根据所述角色标签集对所述目标区块进行切分,得到所述多个单元文本;确定每个所述单元文本对应的概念类属;根据确定的概念类属选择所述单元文本对应的目标要素树,所述目标要素树包括至少一个要素节点和所述要素节点对应的抽取规则,不同概念类属对应的要素树的节点组成不同;使用所述目标要素树从相应的单元文本中抽取所述实体对象的画像要素。第二方面,本申请还提供一种裁判文书的信息抽取装置,所述装置包括:获取模块,用于从裁判文书中获取目标区块,所述目标区块由多个单元文本组成,一个所述单元文本包含一个实体对象的要素信息;切分模块,用于获取所述裁判文书对应的角色标签集,根据所述角色标签集对所述区块进行切分,得到所述多个单元文本;分类模块,用于确定每个所述单元文本对应的概念类属;选择模块,用于根据确定的概念类属从预先构建的要素树中选择目标要素树,所述要素树包括至少一个要素节点和所述要素节点对应的抽取规则,不同概念类属对应的要素树的节点组成不同;抽取模块,用于使用所述目标要素树从相应的单元文本中抽取所述实体对象的要素信息。由以上技术方案可知,本申请实施例提供一种裁判文书的信息抽取方法及装置,首先从裁判文书中获取目标区块,所述目标区块包括多个单元文本,每个单元文本包含一个实体对象的画像要素;然后确定每个单元文本对应的概念类属,并根据确定的概念类属选择单元文本对应的目标要素树;最后使用目标要素树从相应的单元文本中抽取实体对象的画像要素。通过本申请方法可以从裁判文书中自动化抽取出当事人和代理人的画像要素,从而帮助相关领域从业人员快速并准确地掌握当事人和代理人信息,有助于了解案情。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请根据一示例性实施例示出的裁判文书的信息抽取方法流程图;图2为图1所示实施例中的步骤100的细化流程示意图;图3为图1所示实施例中的步骤200的细化流程示意图;图4为本申请根据一示例性实施例示出的裁判文书的信息抽取装置框图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在司法领域中,裁判文书是用于记载人民法院审理过程和结果等诉讼活动结果的专用文书,通常具有统一的结构组成和编写格式。本申请涉及的裁判文书包括但不限于民事判决书和刑事判决书。由于案件当事人及其代理人是必要的诉讼参与人,也是审理过程和结果等信息所描述或针对的基本实体对象,因此包括当事人信息和代理人信息的实体对象信息是构成裁判文书的重要组成部分,快速并准确地掌握实体对象信息是了解案情的首要环节,因此从裁判文书中抽取出实体对象信息成为相关领域内从业人士的基本需求。本申请实施例提供一种裁判文书的信息抽取方法,适用于对裁判文书中实体对象的画像要素进行自动化抽取。图1为本申请根据一示例性实施例示出的裁判文书的信息抽取方法流程图。如图1所示,该方法可以包括:步骤100,从裁判文书中获取目标区块,所述目标区块包括多个单元文本,每个所述单元文本包含一个实体对象的画像要素。如前所述,裁判文书具有统一的结构组成和编写格式,每一部分组成(即文本区块)都对应一个内容主题,用于表征每一部分所涵盖内容的主旨。以《民事判决书》为例,《民事判决书》由头部信息、实体对象信息、审理经过、诉讼方请求、被诉讼方辩解、争议焦点、证据目录、审理查明、法院观点、判决结果和尾部信息组成,前述每一主题对应的组成部分都具有特定的编写格式或者叙述方式,且每个组成部分都含有既定要素,例如实体对象信息必然包含诸如当事人及代理人的姓名/名称、性别、身份证号等画像要素等等。一些现有的从裁判文书中抽取文书要素的方法中,是以裁判文书全文为分析目标,从中抽取单一或部分的文书要素,但是这种抽取方法不但容易提高分析计算复杂度,耗费大量不必要的计算资源。为了避免上述问题,本申请利用裁判文书具有规律的结构组成且每个组成部分涵盖既定要素的特点,对待处理的裁判文书进行切块处理,并从切得的至少一个文本区块中选择包含实体对象画像要素的目标区块作为分析目标,从目标区块中抽取目标文书要素,以提高抽取结果的准确性。图2为图1所示实施例中的步骤100的细化流程示意图,如图2所示,本申请实施例使用目录树从裁判文书中获取目标区块,具体可以包括:步骤110,获取所述裁判文书的文书类型。本申请中,裁判文书的文书类型包括文件类型,如判决书、裁定书、决定书等,还可以包括案件类型,如刑事、民事、行政等。对于不同文书类型的裁判文书,其结构组成可能略有差别,因此需要获取待处理的裁判文书的文书类型,以根据文书类型使用不同结构的目录树对其进行处理。具体实现时,首先从裁判文书中获取文书名称,然后从文书名称中抽取类型关键词,不同的类型关键词表征不同的文书类型。由于裁判文书具有统一的撰写格式,而能够表征文书类型的文书名称记载在裁判文书的特定位置,例如上述《民事判决书》中“民事判决书”记载在第二行,因此可以在裁判文书的指定位置处获取文书名称。另外,为了能够从文书名称中抽取出类型关键词,可以预先设置类型关键词集,再将类型关键词集中的类型关键词与文本文档来自技高网
...

【技术保护点】
1.一种裁判文书的信息抽取方法,其特征在于,所述方法包括:/n从裁判文书中获取目标区块,所述目标区块包括多个单元文本,每个所述单元文本包含一个实体对象的画像要素;/n获取所述裁判文书对应的角色标签集,根据所述角色标签集对所述目标区块进行切分,得到所述多个单元文本;/n确定每个所述单元文本对应的概念类属;/n根据确定的概念类属选择所述单元文本对应的目标要素树,所述目标要素树包括至少一个要素节点和所述要素节点对应的抽取规则,不同概念类属对应的要素树的节点组成不同;/n使用所述目标要素树从相应的单元文本中抽取所述实体对象的画像要素。/n

【技术特征摘要】
1.一种裁判文书的信息抽取方法,其特征在于,所述方法包括:
从裁判文书中获取目标区块,所述目标区块包括多个单元文本,每个所述单元文本包含一个实体对象的画像要素;
获取所述裁判文书对应的角色标签集,根据所述角色标签集对所述目标区块进行切分,得到所述多个单元文本;
确定每个所述单元文本对应的概念类属;
根据确定的概念类属选择所述单元文本对应的目标要素树,所述目标要素树包括至少一个要素节点和所述要素节点对应的抽取规则,不同概念类属对应的要素树的节点组成不同;
使用所述目标要素树从相应的单元文本中抽取所述实体对象的画像要素。


2.根据权利要求1所述的方法,其特征在于,不同概念类属下的所述实体对象的画像要素组成不同,每种所述概念类属预设有至少一个用于表征所述概念类属的特征要素;
所述确定每个所述单元文本对应的概念类属,包括:
从所述单元文本中抽取特征要素;
根据所述特征要素表征的概念类属确定所述单元文本对应的概念类属。


3.根据权利要求1所述的方法,其特征在于,所述要素节点对应的抽取规则包括数字抽取规则;
所述使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素,包括:
利用所述数字抽取规则从所述单元文本中抽取数字要素,所述数字要素具有与所述数字抽取规则规定的结构组成。


4.根据权利要求1所述的方法,其特征在于,所述要素节点对应的抽取规则包括前置定位规则和后置定位规则;
所述使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素,包括:
利用所述前置定位规则识别所述画像要素的前置定位信息;
利用所述后置定位规则识别所述画像要素的后置定位信息;
分别根据所述前置定位信息和后置定位信息确定所述画像要素在所述单元文本中的起始位置和结束位置;
根据所述起始位置和结束位置从所述单元文本抽取所述画像要素。


5.根据权利要求1所述的方法,其特征在于,所述要素节点对应的抽取规则包括规范化要素的匹配规则;
所述使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素,包括:
按照所述匹配规则将至少一个预设规范词与所述单元文本进行匹配;
根据匹配结果从所述单元文本中抽取规范化的画像要素。


6.根据权利要求1所述的方法,其特征在于,所述实体对象包括当事人对象和代理人对象,所述要素节点对应的抽取规则包括对象关联规则;
所述使用目标要...

【专利技术属性】
技术研发人员:席丽娜王文军李德彦
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1