一种实体识别方法、装置及电子设备制造方法及图纸

技术编号:44624779 阅读:25 留言:0更新日期:2025-03-17 18:22
本申请实施例提供了一种实体识别方法、装置及电子设备,涉及网络安全技术领域,用以解决文本中的归属于不同实体类型的实体之间存在嵌套或重叠时,相关技术无法准确识别全部实体的问题。该方法中,首先获取待识别文本包括的多个分词,根据所述多个分词各自在所述待识别文本中的位置,确定每个分词的位置编码;根据每个分词的所述位置编码,确定所述多个分词中包括的头部分词和尾部分词,以及所述头部分词和尾部分词对应的目标实体类型;根据对应相同目标实体类型的头部分词和尾部分词,各自在所述待识别文本中的位置,确定所述待识别文本中包括的至少一个目标实体。

【技术实现步骤摘要】

本申请涉及网络安全,特别涉及一种实体识别方法、装置及电子设备


技术介绍

1、在网络安全领域,实体识别技术是一种基本的自然语言处理技术,它能够从文本中自动提取关键信息,如ip地址、用户名、设备标识符等。这些信息对于网络安全领域中的多种安全操作至关重要。但随着网络环境的复杂化和安全威胁的日益增多,传统的安全实体识别技术面临着越来越多的挑战。

2、传统实体识别方法通常基于规则或统计学习模型。这些方法在处理结构简单、格式规范的文本时效果良好,但在面对网络安全领域特有的非结构化或半结构化文本时,效率和准确性往往不尽人意。

3、近年来,随着深度学习技术的发展,基于神经网络的实体识别方法逐渐兴起,例如,双向编码器表示的变换器(bidirectional encoder representations fromtransformers,bert)模型,可以通过预训练的双向transformer网络,捕捉文本中的上下文关系,从而提高实体识别的性能。但bert主要依赖于绝对位置编码来处理文本中的位置信息,这在处理包含长距离依赖关系的文本时仍存在局限。本文档来自技高网...

【技术保护点】

1.一种实体识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述多个分词各自在所述待识别文本中的位置,确定每个分词的位置编码,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述多个分词各自对应的嵌入向量,以及所述多个分词之间的相对位置关系确定所述多个分词各自的位置编码,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据每个分词的所述位置编码,确定所述多个分词中包括的头部分词和尾部分词,以及所述头部分词和尾部分词对应的目标实体类型,包括:

5.根据权利要求4所述的方法,其特征在于,所述分别基...

【技术特征摘要】

1.一种实体识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述多个分词各自在所述待识别文本中的位置,确定每个分词的位置编码,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述多个分词各自对应的嵌入向量,以及所述多个分词之间的相对位置关系确定所述多个分词各自的位置编码,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据每个分词的所述位置编码,确定所述多个分词中包括的头部分词和尾部分词,以及所述头部分词和尾部分词对应的目标实体类型,包括:

5.根据权利要求4所述的方法,其特征在于,所述分别基于所述分词的位置编码以及所述任意一个实体类型对应的头部预测模型和尾部预测模型,确定所述分词为所述任意一个实体类型对应的头部分词的第一概率,以及所...

【专利技术属性】
技术研发人员:苏卓李强李佳家吴爽
申请(专利权)人:天翼安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1