一种案件主体抽取方法技术

技术编号:38477562 阅读:14 留言:0更新日期:2023-08-15 16:56
本发明专利技术提供一种案件主体抽取方法,包括:分别基于PaddleNLP的命名实体识别模型和信息抽取模型提取案件语料库中每一条案件文本中的候选案件主体,基于训练后的关键片段抽取模型获取每一个候选案件主体的关键片段;对所有关键片段进行分箱处理,获得多个关键片段箱;基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段;基于每一个实体类别中的每一个关键片段对应的候选案件主体,确定每一个识别类别的最终案件主体。本发明专利技术方法能够自动从案件文本中提取出案件主体,并将指向同一个真实案件主体的不同描述归类统一,本方法能够减少案件信息抽取的人工支出,提高案件信息抽取的智能化、自动化程度。自动化程度。自动化程度。

【技术实现步骤摘要】
一种案件主体抽取方法


[0001]本专利技术涉及计算机人工智能领域,更具体地,涉及一种案件主体抽取方法。

技术介绍

[0002]在城市治理领域,使用人工智能技术自动发现热点事件,能够帮助监管部门及时处理相关事务,降低事件对社会的负面影响。如在市民投诉热线中,当较多市民投诉同一个事件时,相关政务部门如果能够及时处理好此事件,就能够防微杜渐,防止事态扩大化。在实际业务中,如何确定事件主体是案件分析中非常重要的一环。

技术实现思路

[0003]本专利技术针对现有技术中存在的技术问题,提供一种案件主体抽取方法,包括:基于训练样本集对关键片段抽取模型进行训练,获取训练后的关键片段抽取模型,其中,所述训练样本集中包括多条样本数据,每一条所述样本数据包括实体文本和关键片段;分别基于PaddleNLP的命名实体识别模型和基于PaddleNLP的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体,将所述第一候选案件主体和第二候选案件主体合并构成候选案件主体集合;基于训练后的关键片段抽取模型获取所述候选案件主体集合中每一条候选案件主体中的关键片段,将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集;对所述实体关键片段元组语料集中的所有关键片段进行分箱处理,获得多个关键片段箱;基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段;基于每一个实体类别中的每一个关键片段对应的候选案件主体,确定每一个识别类别的最终案件主体。
[0004]本专利技术提供的一种案件主体抽取方法,分别基于PaddleNLP的命名实体识别模型和基于PaddleNLP的信息抽取模型提取案件语料库中每一条案件文本中的候选案件主体,采用了两种不同的模型分别自动提取案件文本中的案件主体,提高了提取案件主体的自动化效率以及准确性;基于训练后的关键片段抽取模型获取每一个候选案件主体的关键片段;对所有关键片段进行分箱处理,获得多个关键片段箱;基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段,提高了聚类效率。本专利技术方法能够自动从案件文本中提取出案件主体,并将指向同一个真实案件主体的不同描述归类统一,本方法能够减少案件信息抽取的人工支出,提高案件信息抽取的智能化、自动化程度。
附图说明
[0005]图1为本专利技术一个实施例提供的一种案件主体抽取方法流程图;图2为关键片段抽取模型的示意图;图3为使用PaddleNLP工具抽取候选案件主体的示意图;图4为本专利技术另一个实施例提供的案件主体抽取流程示意图;图5为关键片段分箱示意图;图6为关键片段有向图归并算法示意图;图7为统一案件主体文本描述示意图。
具体实施方式
[0006]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。另外,本专利技术提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。
[0007]图1为本专利技术提供的一种案件主体抽取方法流程图,如图1所示,方法包括:S1,基于训练样本集对关键片段抽取模型进行训练,获取训练后的关键片段抽取模型,其中,所述训练样本集中包括多条样本数据,每一条所述样本数据包括实体文本和关键片段。
[0008]可理解的是,首先对预设的关键片段抽取模型进行训练,参见图2,关键片段抽取模型主要包括BERT模型、BiLSTM层和CRF层,关键片段抽取模型训练的具体过程包括:(1)获取训练样本集,训练样本集中包括多条样本数据,每一条样本数据的格式为[实体文本,关键片段]。
[0009]例如,样本数据一[哈哈市快乐星球地信公司,快乐星球地信];样本数据二[哈哈开心投资有限公司,开心投资]。
[0010](2)对于每一个样本数据,使用BERT模型将实体文本转换成字符编码向量Entity_Tensor,步骤如下:将样本数据的每个字使用BERT分词器转换成相应的字编码,并在编码首尾加上特殊字符编码,构成实体文本的字编码向量。本专利技术中的BERT模型为Chinese

BERT

wwm

extBERT(Bidirectional Encoder Representation from Transformers)预训练模型。
[0011]比如,实体文本“哈哈市快乐星球地信公司”,转换成字编码为:[101, 1506, 1506, 2356, 2571, 727, 3215, 4413, 1765, 928, 1062, 1385, 102]。其中101是特殊字符

CLS

的编码,102是特殊字符

SEP

的编码。对于每一个实体字向量,都会以编码“101”开头,编码“102”结尾。
[0012]将实体文本的字编码向量输入BERT模型,得到实体嵌入向量[E1,E2,E3…
E
N
],其中N为字的个数。
[0013](3)将实体嵌入向量输入至BiLSTM网络得到语料片段发射概率矩阵Emit_m,步骤如下:将实体嵌入向量输入BiLSTM网络,得到实体的隐层状态向量,再将隐层状态向量输入全连接层,得到发射概率矩阵Emit_m。发射概率矩阵Emit_m是一个Tag_num*Span_Len维的矩阵,其中Tag_num是标记的个数,本专利技术中标记的个数为5,即标记[O,B,I,E,S]的个数。Span_Len是实体中字向量的个数,本专利技术中的个数为实体文本字数+2,即实体文本字的个数与两个特殊字符的总和。
[0014]将发射概率矩阵Emit_m输入CRF网络,基于发射概率矩阵和转移矩阵,计算得到正确标记序列分数和所有可能的标记序列的总分数,步骤如下:对于每一条样本数据,根据样本数据中的实体文本和关键片段,得到样本对应的正确标记序列。具体的,对于实体文本中的每个字,如果字不属于关键片段,则标记为O。如果字属于关键片段且关键片段字符数大于1,则将第一个字符标记为B,最后一个标记为E,其他字标记为I。如字符属于关键词且关键词字符数等于1,则将字符标记为S。将实体文本中每个字的序列按顺序组成序列,并在序列头部加上标记O,尾部也加上标记O,即两个特殊标记[CLS]、[SEP]对应的标记。组成得到样本对应的正确标记序列。
[0015]例如,样本数据一[哈哈市快乐星球地信公司,快乐星球地信],得到的序列标记为[O,O,O,B,I,I,I本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种案件主体抽取方法,其特征在于,包括:基于训练样本集对关键片段抽取模型进行训练,获取训练后的关键片段抽取模型,其中,所述训练样本集中包括多条样本数据,每一条所述样本数据包括实体文本和关键片段;分别基于PaddleNLP的命名实体识别模型和基于PaddleNLP的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体,将所述第一候选案件主体和第二候选案件主体合并构成候选案件主体集合;基于训练后的关键片段抽取模型获取所述候选案件主体集合中每一条候选案件主体中的关键片段,将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集;对所述实体关键片段元组语料集中的所有关键片段进行分箱处理,获得多个关键片段箱;基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段;基于每一个实体类别中的每一个关键片段对应的候选案件主体,确定每一个识别类别的最终案件主体。2.根据权利要求1所述的案件主体抽取方法,其特征在于,所述分别基于PaddleNLP的命名实体识别模型和基于PaddleNLP的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体,包括:获取案件语料库,所述案件语料库中包括多个案件文本,每一个所述案件文本描述了一个案件,一个案件中包含一个或多个案件主体;将所述案件语料库中的每一条案件文本输入基于PaddleNLP的命名实体识别模型,获取多个第一输出结果,每个第一输出结果的结构为[实体文本片段,标记],获取标记为第一指定标记值的第一输出结果作为第一候选案件主体;将所述案件语料库中的每一条案件文本输入基于PaddleNLP的信息抽取模型,获取多个第二输出结果,每个第二输出结果的结构为[实体文本片段,标记],获取标记为第二指定标记值的第二输出结果作为第二候选案件主体。3.根据权利要求1所述的案件主体抽取方法,其特征在于,所述将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集,包括:若所述关键片段抽取模型输出的关键片段为空,则删除对应的候选案件主体;若所述关键片段抽取模型输出的关键片段不为空,则将关键片段与对应的候选案件主体组合构成实体关键片段元组,其结构形式为[候选案件主体,关键片段],所有的实体关键片段元组构成实体关键片段元组语料集;对所述实体关键片段元组语料集中的所有实体关键片段元组进行去重处理,以及删除包括停用词的关键片段。4.根据权利要求3所述的案件主体抽取方法,其特征在于,所述对所述实体关键片段元组语料集中的所有关键片段进行分箱处理,获得多个关键片段箱,包括:创建空的二阶索引表,所述二阶索引表的根节点为root;将所述实体关键片段元组语料集中的每一个关键片段中的每一个字排列组合生成多个由2个字组成的字节;基于生成的字节生成二阶索引表,所述二阶索引表中包括一阶索引和二阶索引,其中,
所述二阶索引表中每个二阶索引下的多个关键片段构成一个关键片段箱。5.根据权利要求4所述的案件主体抽取方法,其特征在于,每一个所述字节中的两个字的先后顺序与在关键片段中的先后顺序一致,且当关键片段少于两个字时,丢弃关键片段。6.根据权利要求4所述的案件主体抽取方法,其特征在于,所述基于生成的字节生成二阶索引表,包括:对于任一个字节,在所述二阶索引表中的一阶索引查找所述任一个字节的第一个字,如果没有找到第一个字,则在root节点下生成以第一个字为键的一阶索引,以第二...

【专利技术属性】
技术研发人员:段春先杨伊态许继伟赵舞玲付卓王敬佩李颖黄亚林张兆文陈胜鹏
申请(专利权)人:吉奥时空信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1