一种案件主体抽取方法技术

技术编号：38477562 阅读：14 留言：0更新日期：2023-08-15 16:56

本发明专利技术提供一种案件主体抽取方法，包括：分别基于PaddleNLP的命名实体识别模型和信息抽取模型提取案件语料库中每一条案件文本中的候选案件主体，基于训练后的关键片段抽取模型获取每一个候选案件主体的关键片段；对所有关键片段进行分箱处理，获得多个关键片段箱；基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类，得到多个实体类别的关键片段；基于每一个实体类别中的每一个关键片段对应的候选案件主体，确定每一个识别类别的最终案件主体。本发明专利技术方法能够自动从案件文本中提取出案件主体，并将指向同一个真实案件主体的不同描述归类统一，本方法能够减少案件信息抽取的人工支出，提高案件信息抽取的智能化、自动化程度。自动化程度。自动化程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种案件主体抽取方法

[0001]本专利技术涉及计算机人工智能领域，更具体地，涉及一种案件主体抽取方法。

技术介绍

[0002]在城市治理领域，使用人工智能技术自动发现热点事件，能够帮助监管部门及时处理相关事务，降低事件对社会的负面影响。如在市民投诉热线中，当较多市民投诉同一个事件时，相关政务部门如果能够及时处理好此事件，就能够防微杜渐，防止事态扩大化。在实际业务中，如何确定事件主体是案件分析中非常重要的一环。

技术实现思路

[0003]本专利技术针对现有技术中存在的技术问题，提供一种案件主体抽取方法，包括：基于训练样本集对关键片段抽取模型进行训练，获取训练后的关键片段抽取模型，其中，所述训练样本集中包括多条样本数据，每一条所述样本数据包括实体文本和关键片段；分别基于PaddleNLP的命名实体识别模型和基于PaddleNLP的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体，将所述第一候选案件主体和第二候选案件主体合并构成候选案件主体集合；基于训练后的关键片段抽取模型获取所述候选案件主体集合中每一条候选案件主体中的关键片段，将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集；对所述实体关键片段元组语料集中的所有关键片段进行分箱处理，获得多个关键片段箱；基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类，得到多个实体类别的关键片段；基于每一个实体类别中的每一个关键片段对应的候选案件主体，确定每一个识别类别的最终案件主体。
[0004]本专利技...

【技术保护点】

【技术特征摘要】
1.一种案件主体抽取方法，其特征在于，包括：基于训练样本集对关键片段抽取模型进行训练，获取训练后的关键片段抽取模型，其中，所述训练样本集中包括多条样本数据，每一条所述样本数据包括实体文本和关键片段；分别基于PaddleNLP的命名实体识别模型和基于PaddleNLP的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体，将所述第一候选案件主体和第二候选案件主体合并构成候选案件主体集合；基于训练后的关键片段抽取模型获取所述候选案件主体集合中每一条候选案件主体中的关键片段，将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集；对所述实体关键片段元组语料集中的所有关键片段进行分箱处理，获得多个关键片段箱；基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类，得到多个实体类别的关键片段；基于每一个实体类别中的每一个关键片段对应的候选案件主体，确定每一个识别类别的最终案件主体。2.根据权利要求1所述的案件主体抽取方法，其特征在于，所述分别基于PaddleNLP的命名实体识别模型和基于PaddleNLP的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体，包括：获取案件语料库，所述案件语料库中包括多个案件文本，每一个所述案件文本描述了一个案件，一个案件中包含一个或多个案件主体；将所述案件语料库中的每一条案件文本输入基于PaddleNLP的命名实体识别模型，获取多个第一输出结果，每个第一输出结果的结构为[实体文本片段，标记]，获取标记为第一指定标记值的第一输出结果作为第一候选案件主体；将所述案件语料库中的每一条案件文本输入基于PaddleNLP的信息抽取模型，获取多个第二输出结果，每个第二输出结果的结构为[实体文本片段，标记]，获取标记为第二指定标记值的第二输出结果作为第二候选案件主体。3.根据权利要求1所述的案件主体抽取方法，其特征在于，所述将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集，包括：若所述关键片段抽取模型输出的关键片段为空，则删除对应的候选案件主体；若所述关键片段抽取模型输出的关键片段不为空，则将关键片段与对应的候选案件主体组合构成实体关键片段元组，其结构形式为[候选案件主体，关键片段]，所有的实体关键片段元组构成实体关键片段元组语料集；对所述实体关键片段元组语料集中的所有实体关键片段元组进行去重处理，以及删除包括停用词的关键片段。4.根据权利要求3所述的案件主体抽取方法，其特征在于，所述对所述实体关键片段元组语料集中的所有关键片段进行分箱处理，获得多个关键片段箱，包括：创建空的二阶索引表，所述二阶索引表的根节点为root；将所述实体关键片段元组语料集中的每一个关键片段中的每一个字排列组合生成多个由2个字组成的字节；基于生成的字节生成二阶索引表，所述二阶索引表中包括一阶索引和二阶索引，其中，
所述二阶索引表中每个二阶索引下的多个关键片段构成一个关键片段箱。5.根据权利要求4所述的案件主体抽取方法，其特征在于，每一个所述字节中的两个字的先后顺序与在关键片段中的先后顺序一致，且当关键片段少于两个字时，丢弃关键片段。6.根据权利要求4所述的案件主体抽取方法，其特征在于，所述基于生成的字节生成二阶索引表，包括：对于任一个字节，在所述二阶索引表中的一阶索引查找所述任一个字节的第一个字，如果没有找到第一个字，则在root节点下生成以第一个字为键的一阶索引，以第二...

【专利技术属性】
技术研发人员：段春先，杨伊态，许继伟，赵舞玲，付卓，王敬佩，李颖，黄亚林，张兆文，陈胜鹏，
申请(专利权)人：吉奥时空信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人