基于相似度和要素知识模型融合的事件标签检测方法技术

技术编号:35816131 阅读:18 留言:0更新日期:2022-12-03 13:40
本发明专利技术提供了一种基于相似度和要素知识模型融合的事件标签检测方法,其特征在于,包括:基于要素知识的事件标签检测模型,对事件文本进行标签检测,得到第一标签检测结果;利用相似度匹配模块,对事件文本进行标签检测,得到第二标签检测结果;通过网格搜索,对第一标签检测结果和第二标签检测结果进行融合,得到事件的最终标签检测结果。到事件的最终标签检测结果。到事件的最终标签检测结果。

【技术实现步骤摘要】
基于相似度和要素知识模型融合的事件标签检测方法


[0001]本专利技术涉及自然语言处理和公安管理领域,特别是涉及基于相似度和要素 知识模型融合的事件标签检测方法。

技术介绍

[0002]随着深度神经网络模型(DNN)以及图形处理器(GPU)的发展,使得训 练更大参数、更多层数的神经网络成为可能。而自然语言序列中蕴含着特定的 模式和相关知识信息,尤其是在诸如事件文本等垂直领域,这种模式特征和知 识蕴含更加明显。深度神经网络模型可以很好的学习和捕获这些文本序列中的 模式和知识,并在未见到过的数据上进行预测。近年来公安机关等相关部门信 息化办公程度的日益完善,在接处警的同时也积累了海量的警情文本等事件文 本数据。但目前对于每天事件标签的验证方式,还是以人工逐条检查为主,这 不仅消耗了大量人力而且效率低下。
[0003]有效利用已积累的海量事件数据,依据深度神经网络模型在序列标签分类 的能力,再结合要素知识、规则后处理能够有效降低人工需要检查的数据量。 最终通过人机耦合的方式,可以更快更高效的完成接处警数据标签的检查和验 证。
[0004]现有技术中对于文本序列分类任务,主要采用端到端的预训练模型,如 BERT,其提出的自注意力机制(Self

Attention)可以充分地学习和捕获文本序 列中蕴含的特征,也证明了一个深度模型可以大幅度地提升自然语言处理任务的 准确率,并且这个模型可以从无标记的数据语料中训练得到。对应到警情文本 标签分类任务,BERT模型将警情文本序列作为输入,经过预训练的参数对该序 列文本进行词嵌入(Embedding),并通过梯度下降的方式微调模型参数,以达 到提升模型泛化性能的目的。
[0005]端到端的预训练模型方式主要的问题是可扩展性差,如果事件标签的标注 规范发生变动,每次都需要去训练语料中逐条修正该类标签的标注,且需要重 新对模型进行微调。而且对于特征不太明显的警情,预训练模型也很难进行区 分。并且微调的过程像是一个黑盒,最后预测的标签的可解释性也较差,得到 的结果很难有说服力。

技术实现思路

[0006]本专利技术的目的是克服现有技术中的不足之处,提供一种基于相似度和要素 知识模型融合的事件标签检测方法,能够提升检测过程的灵活度和可维护性。
[0007]为实现上述目的,本专利技术提供一种基于相似度和要素知识模型融合的事件 标签检测方法,包括:
[0008]基于要素知识的事件标签检测模型,对事件文本进行标签检测,得到第一 标签检测结果;
[0009]利用相似度匹配模块,对事件文本进行标签检测,得到第二标签检测结果;
[0010]通过网格搜索,对第一标签检测结果和第二标签检测结果进行融合,得到 事件的最终标签检测结果。
[0011]在一个优选的实施例中,所述相似度匹配模块是利用度量模型使用正例和 负例训练后得到的。
[0012]在一个优选的实施例中,所述利用度量模型使用正例和负例训练相似度匹 配模块采用的损失函数如下式:
[0013][0014]其中m是超参数,表示正负样例区分开的程度;f为事件文本经模型表征得 到的向量;事件文本x为训练数据,x
+
为其正例样本,x

为其负例样本;
[0015]所述训练过程的训练目标是使得x与其正例得分高,与其负例得分低,区分 程度为超参数m。
[0016]在一个优选的实施例中,所述基于要素知识的事件标签检测模型,对事件 文本进行标签检测,得到第一标签检测结果包括:
[0017]基于关键特征对事件文本进行粗分类;
[0018]对事件文本进行要素抽取操作,得到与细分类标签有映射关系的文本标签 信息;
[0019]基于规则过滤,结合粗分类结果和文本标签信息,确定事件的第一标签检 测结果。
[0020]在一个优选的实施例中,所述通过网格搜索,对第一标签检测结果和第二 标签检测结果进行融合包括:
[0021]对第一标签检测结果和第二标签检测结果进行加权求和处理,得到最终标 签检测结果。
[0022]本专利技术另一实施例还提供一种计算机,包括:处理器和存储器,所述处理 器用于执行存储器中的代码,以执行如上述的基于相似度和要素知识模型融合 的事件标签检测方法。
[0023]本专利技术实施例利用融合模型进行事件标签检测,可以提升模型准确率,并 使得判断具有可解释性。
[0024]本专利技术实施例提供的方案将模型粗分类结合后处理规则,使得事件标签检 测过程更加灵活和可维护。
[0025]本专利技术的其他有益效果将在说明书中进行进一步说明。
附图说明
[0026]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
[0027]图1为本专利技术实施例提供的基于相似度和要素知识模型融合的事件标签检 测方法的流程图;
[0028]图2为一个警情文本构建其正负例的过程;
[0029]图3为基于要素知识的事件标签检测方法的流程图;
[0030]图4为警情类事件文本基于BIO法进行序列标注的示意图。
具体实施方式
[0031]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。 附图中给出了本专利技术的较佳实施方式。但是,本专利技术可以以许多不同的形式来 实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是 使对本专利技术的公开内容理解的更加透彻全面。
[0032]图1示出了本专利技术实施例提供的基于相似度和要素知识模型融合的事件标 签检测方法的流程图,该方法包括:
[0033]步骤S101:基于要素知识的事件标签检测模型,对事件文本进行标签检测, 得到第一标签检测结果。
[0034]基于要素知识的事件标签检测模型主要对事件文本进行粗分类,要素抽取 操作,得到第一标签检测结果。关于其详细实现过程将在下文其他实施例详细 描述。
[0035]步骤S102:利用相似度匹配模块,对事件文本进行标签检测,得到第二标 签检测结果。
[0036]相似度匹配模块可以是利用度量模型使用正例和负例训练后得到的。
[0037]训练时对于一条事件文本数据,在剩余的数据中随机选一条相同标签的事 件文本作为正例,选一条其他标签的事件文本作为负例,使得该事件文本和正 例事件文本相似度高一些,和负例事件文本相似度低一些。如图2所示,展示 一个警情文本构建其正负例的过程。
[0038]上述训练模型采用的损失函数为:
[0039][0040]其中m是超参数,表示正负样例区分开的程度,f为事件文本经模型表征得 到的向量。事件文本x为训练数据,x
+
为其正例样本,x

为其负例样本,训练 目标是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相似度和要素知识模型融合的事件标签检测方法,其特征在于,包括:基于要素知识的事件标签检测模型,对事件文本进行标签检测,得到第一标签检测结果;利用相似度匹配模块,对事件文本进行标签检测,得到第二标签检测结果;通过网格搜索,对第一标签检测结果和第二标签检测结果进行融合,得到事件的最终标签检测结果。2.如权利要求1所述的方法,其特征在于,所述相似度匹配模块是利用度量模型使用正例和负例训练后得到的。3.如权利要求2所述的方法,其特征在于,所述利用度量模型使用正例和负例训练相似度匹配模块采用的损失函数如下式:其中m是超参数,表示正负样例区分开的...

【专利技术属性】
技术研发人员:林玉峰李明洹郑新李直旭陈耀玲刘加新石庭豪吴瑞萦
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1