一种基于要素知识的事件标签检测方法和计算机技术

技术编号:35816130 阅读:12 留言:0更新日期:2022-12-03 13:40
本发明专利技术提供了一种基于要素知识的事件标签检测方法和计算机,包括:基于关键特征对事件文本进行粗分类;对事件文本进行要素抽取操作,得到与细分类标签有映射关系的文本标签信息;基于规则过滤,结合粗分类结果和文本标签信息,确定事件的最终标签。该方案能够提升检测过程的灵活度和可维护性。测过程的灵活度和可维护性。测过程的灵活度和可维护性。

【技术实现步骤摘要】
一种基于要素知识的事件标签检测方法和计算机


[0001]本专利技术涉及自然语言处理和公安管理领域,特别是涉及基于要素知识的事 件标签检测方法和计算机。

技术介绍

[0002]随着深度神经网络模型(DNN)以及图形处理器(GPU)的发展,使得训 练更大参数、更多层数的神经网络成为可能。而自然语言序列中蕴含着特定的 模式和相关知识信息,尤其是在诸如事件文本等垂直领域,这种模式特征和知 识蕴含更加明显。深度神经网络模型可以很好的学习和捕获这些文本序列中的 模式和知识,并在未见到过的数据上进行预测。近年来公安机关等相关部门信 息化办公程度的日益完善,在接处警的同时也积累了海量的警情文本等事件文 本数据。但目前对于每天事件标签的验证方式,还是以人工逐条检查为主,这 不仅消耗了大量人力而且效率低下。
[0003]有效利用已积累的海量事件数据,依据深度神经网络模型在序列标签分类 的能力,再结合要素知识、规则后处理能够有效降低人工需要检查的数据量。 最终通过人机耦合的方式,可以更快更高效的完成接处警数据标签的检查和验 证。
[0004]现有技术中对于文本序列分类任务,主要采用端到端的预训练模型,如 BERT,其提出的自注意力机制(Self

Attention)可以充分地学习和捕获文本序 列中蕴含的特征,也证明了一个深度模型可以大幅度地提升自然语言处理任务的 准确率,并且这个模型可以从无标记的数据语料中训练得到。对应到警情文本 标签分类任务,BERT模型将警情文本序列作为输入,经过预训练的参数对该序 列文本进行词嵌入(Embedding),并通过梯度下降的方式微调模型参数,以达 到提升模型泛化性能的目的。
[0005]端到端的预训练模型方式主要的问题是可扩展性差,如果事件标签的标注 规范发生变动,每次都需要去训练语料中逐条修正该类标签的标注,且需要重 新对模型进行微调。而且对于特征不太明显的警情,预训练模型也很难进行区 分。并且微调的过程像是一个黑盒,最后预测的标签的可解释性也较差,得到 的结果很难有说服力。

技术实现思路

[0006]本专利技术的目的是克服现有技术中的不足之处,提供一种基于要素知识的事 件标签检测方法和计算机,能够提升检测过程的灵活度和可维护性。
[0007]为实现上述目的,本专利技术提供一种基于要素知识的事件标签检测方法,包 括:
[0008]基于关键特征对事件文本进行粗分类;
[0009]对事件文本进行要素抽取操作,得到与细分类标签有映射关系的文本标签 信息;
[0010]基于规则过滤,结合粗分类结果和文本标签信息,确定事件的最终标签。
[0011]在一个优选的实施例中,当基于规则过滤,结合粗分类结果和文本标签信 息,确定事件的最终标签得到大于或等于2个标签时,所述方法还包括:
[0012]对事件文本进行细分类;
[0013]基于细分类结果对确定的标签进行过滤,得到事件的最终标签。
[0014]在一个优选的实施例中,所述基于关键特征对事件文本进行粗分类得到第 二层级标签的判定。
[0015]在一个优选的实施例中,所述对事件文本进行要素抽取操作包括:
[0016]对事件文本进行要素抽取得到初步标签结果;
[0017]对初步标签结果进行标签规整,得到与细分类标签有映射关系的文本标签 信息。
[0018]在一个优选的实施例中,所述规则过滤包括肯定规则的过滤和否定规则的 过滤。
[0019]在一个优选的实施例中,所述规则过滤的规则内容存储于配置文件中。
[0020]在一个优选的实施例中,基于关键特征对事件文本进行粗分类后,所述方 法还包括:
[0021]利用概率模型为粗分类结果的置信度定义第一阈值;
[0022]当置信度低于第一阈值后,则抛出事件文本数据,供人工介入。
[0023]本专利技术另一方面还提供一种计算机,包括:处理器和存储器,所述处理器 用于执行存储器中的代码,以执行如上述的基于要素知识的事件标签检测方法。
[0024]本专利技术实施例提供的方案将模型粗分类结合后处理规则,使得事件标签检 测过程更加灵活和可维护。
[0025]本专利技术的其他有益效果将在说明书中进行进一步说明。
附图说明
[0026]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
[0027]图1为本专利技术提供一种基于要素知识的事件标签检测方法的流程图;
[0028]图2为警情类事件文本基于BIO法进行序列标注的示意图。
具体实施方式
[0029]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。 附图中给出了本专利技术的较佳实施方式。但是,本专利技术可以以许多不同的形式来 实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是 使对本专利技术的公开内容理解的更加透彻全面。
[0030]图1示出了本专利技术提供一种基于要素知识的事件标签检测方法的流程图。 包括如下步骤:
[0031]步骤S101:基于关键特征对事件文本进行粗分类。
[0032]粗分类模型可以是将事件文本划分到第二层的标签体系。而后续步骤来判 定第一层的标签,这样需要分类的标签数量可以大幅降低。在粗分类存在错误 的情况中可以通过后续处理的方式将该条数抛出,提升错误数据的召回率。
[0033]当事件文本中包含大量的数字信息时,例如身份证号、手机号、银行卡号、 损失金额以及日期等,而模型对该部分信息的内容不敏感。在数据预处理阶段, 可以用几个特殊
的令牌对齐进行替换。例如下表中示出的警情类事件文本中, 对其中数字内容进行令牌替换,可进一步提升识别准确率。
[0034]表1
[0035][0036]步骤S102:对事件文本进行要素抽取操作,得到与细分类标签有映射关系 的文本标签信息。
[0037]在本步骤中可以对事件文本进行要素抽取。具体可以先对事件文本进行序 列标注,然后进行要素实体抽取。在序列标注过程中可以使用BIO标注法。在 进行要素实体抽取时可以使用BERTwwm

LSTM

CRF模型。
[0038]图2示出了警情类事件文本基于BIO法进行序列标注的示意图。
[0039]需要说明的是,对事件文本进行要素抽取得到初步标签结果,有时需要进 行标签规整,才能够与后续细分类的标签建立映射。例如“案发地址”如果是
ꢀ“
工地”、“厂企”或者“商务公司”等会被规整到“单位区域”这个标签, 并且规整后的标签是和最后细分类的标签是可以建立映射的,这里的“单位区 域”和“盗窃单位”标签有映射关系。该要素标签规整的模块可以通过哈希表 实现,此外还可以定义一个“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于要素知识的事件标签检测方法,其特征在于,包括:基于关键特征对事件文本进行粗分类;对事件文本进行要素抽取操作,得到与细分类标签有映射关系的文本标签信息;基于规则过滤,结合粗分类结果和文本标签信息,确定事件的最终标签。2.如权利要求1所述的方法,其特征在于,当基于规则过滤,结合粗分类结果和文本标签信息,确定事件的最终标签得到大于或等于2个标签时,所述方法还包括:对事件文本进行细分类;基于细分类结果对确定的标签进行过滤,得到事件的最终标签。3.如权利要求1所述的方法,其特征在于,所述基于关键特征对事件文本进行粗分类得到第二层级标签的判定。4.如权利要求1所述的方法,其特征在于,所述对事件文本进行要素抽取操作包括:对事件...

【专利技术属性】
技术研发人员:李明洹刘加新郑新李直旭陈耀玲石挺豪
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1