裁判文书的信息抽取方法及装置制造方法及图纸

技术编号：24576454 阅读：75 留言：0更新日期：2020-06-21 00:27

本申请公开了裁判文书的信息抽取方法及装置，首先从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个单元文本包含一个实体对象的画像要素；然后确定每个单元文本对应的概念类属，并根据确定的概念类属选择单元文本对应的目标要素树；最后使用目标要素树从相应的单元文本中抽取实体对象的画像要素。通过本申请方法可以从裁判文书中自动化抽取出当事人和代理人的画像要素，从而帮助相关领域从业人员快速并准确地掌握当事人和代理人信息，有助于了解案情。

Information extraction method and device of judgment document

全部详细技术资料下载

【技术实现步骤摘要】
裁判文书的信息抽取方法及装置
本申请涉及文本处理
，尤其涉及一种裁判文书的信息抽取方法及装置。
技术介绍
裁判文书是记载人民法院审理过程和结果等诉讼活动结果的载体，也是人民法院确定和分配当事人实体权利义务的唯一凭证。裁判文书通常具有规律的结构框架和编写格式，对于不同类型的裁判文书，其结构框架和编写格式可能略微不同。常见的文书类型包括民事裁判文书(如民事判决书)，刑事裁判文书(如刑事判决书)，行政裁判文书(如行政判决书)，以及其他通用诉讼文书等。由于案件当事人和当事人所委托的代理人是必要的诉讼参与人，也是审理过程和结果等信息所描述或针对的基本实体对象，因此包括当事人信息和代理人信息的实体对象信息(画像要素)是构成裁判文书的重要组成部分，快速并准确地掌握实体对象信息是了解案情的首要环节，因此从裁判文书中抽取出实体对象信息成为相关领域内从业人士的基本需求。
技术实现思路
本申请提供一种裁判文书的信息抽取方法及装置，以解决从裁判文书中抽取实体对象信息的问题。第一方面，本申请提供一种裁判文书的信息抽取方法，所述方法包括：从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个所述单元文本包含一个实体对象的画像要素；获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述目标区块进行切分，得到所述多个单元文本；确定每个所述单元文本对应的概念类属；根据确定的概念类属选择所述单元文本对应的目标要素树，所述目标要素树包括至少一个要素节点和所述要素节点对应的...

【技术保护点】
1.一种裁判文书的信息抽取方法，其特征在于，所述方法包括：/n从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个所述单元文本包含一个实体对象的画像要素；/n获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述目标区块进行切分，得到所述多个单元文本；/n确定每个所述单元文本对应的概念类属；/n根据确定的概念类属选择所述单元文本对应的目标要素树，所述目标要素树包括至少一个要素节点和所述要素节点对应的抽取规则，不同概念类属对应的要素树的节点组成不同；/n使用所述目标要素树从相应的单元文本中抽取所述实体对象的画像要素。/n

【技术特征摘要】
1.一种裁判文书的信息抽取方法，其特征在于，所述方法包括：
从裁判文书中获取目标区块，所述目标区块包括多个单元文本，每个所述单元文本包含一个实体对象的画像要素；
获取所述裁判文书对应的角色标签集，根据所述角色标签集对所述目标区块进行切分，得到所述多个单元文本；
确定每个所述单元文本对应的概念类属；
根据确定的概念类属选择所述单元文本对应的目标要素树，所述目标要素树包括至少一个要素节点和所述要素节点对应的抽取规则，不同概念类属对应的要素树的节点组成不同；
使用所述目标要素树从相应的单元文本中抽取所述实体对象的画像要素。

2.根据权利要求1所述的方法，其特征在于，不同概念类属下的所述实体对象的画像要素组成不同，每种所述概念类属预设有至少一个用于表征所述概念类属的特征要素；
所述确定每个所述单元文本对应的概念类属，包括：
从所述单元文本中抽取特征要素；
根据所述特征要素表征的概念类属确定所述单元文本对应的概念类属。

3.根据权利要求1所述的方法，其特征在于，所述要素节点对应的抽取规则包括数字抽取规则；
所述使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素，包括：
利用所述数字抽取规则从所述单元文本中抽取数字要素，所述数字要素具有与所述数字抽取规则规定的结构组成。

4.根据权利要求1所述的方法，其特征在于，所述要素节点对应的抽取规则包括前置定位规则和后置定位规则；
所述使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素，包括：
利用所述前置定位规则识别所述画像要素的前置定位信息；
利用所述后置定位规则识别所述画像要素的后置定位信息；
分别根据所述前置定位信息和后置定位信息确定所述画像要素在所述单元文本中的起始位置和结束位置；
根据所述起始位置和结束位置从所述单元文本抽取所述画像要素。

5.根据权利要求1所述的方法，其特征在于，所述要素节点对应的抽取规则包括规范化要素的匹配规则；
所述使用目标要素树从相应的单元文本中抽取所述实体对象的画像要素，包括：
按照所述匹配规则将至少一个预设规范词与所述单元文本进行匹配；
根据匹配结果从所述单元文本中抽取规范化的画像要素。

6.根据权利要求1所述的方法，其特征在于，所述实体对象包括当事人对象和代理人对象，所述要素节点对应的抽取规则包括对象关联规则；
所述使用目标要...

【专利技术属性】
技术研发人员：席丽娜，王文军，李德彦，
申请(专利权)人：中科鼎富北京科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人