一种基于预训练模型的网络安全命名实体识别数据增广方法技术

技术编号：43872938 阅读：38 留言：0更新日期：2024-12-31 18:57

本发明专利技术公开了一种基于预训练模型的网络安全命名实体识别数据增广方法，属于网络数据安全技术领域。解决了现有技术中传统的网络安全命名实体识别数据增广方法易导致识别文本语义错误的问题；本发明专利技术给定标注集合和输入序列，根据标注规则生成标注序列，对输入序列进行分句处理；对输入序列的文本片段的长度进行替换，得到片段集合；根据标注集合，对片段集合进行掩码操作，得到新片段集合，利用BERT模型对新片段集合进行预测，得到增广后的数据集；使用BERT模型计算得到连续概率并搜索相邻句子概率矩阵打乱句子顺序，得到最终增广后的数据集。本发明专利技术有效提升了所生成增广数据的质量，减少了过拟合现象，可以应用于数据增广。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种网络安全命名实体识别数据增广方法，尤其涉及一种基于预训练模型的网络安全命名实体识别数据增广方法，属于网络数据安全。

技术介绍

1、在自然语言处理(nlp)领域，预训练模型已经成为一门极其重要的技术，尤其是在过去几年中，这类模型在各种语言理解和生成任务中表现出了卓越的性能，常用的方法是直接对预训练模型进行微调(fine-tuning)以适应特定的下游任务，在以往研究中取得了不错的效果，然而上述方法并未考虑到对领域的适应性，而是默认在微调过程中对领域的特点进行了学习。

2、对于命名实体识别(ner)任务来说，同义词替换方法是一种简单有效的增广方法，主要是对实体部分进行替换，即对于文本片段中每一个出现的实体，使用替换概率为p(一般取值为0.1-0.7)的二项分布来随机决定是否应该替换它，如果决定对其进行替换，则随机选择与命名的实体相同实体类型的另一实体进行替换，参考图3，对应的bio标签序列也应该被一起替换，对实体部分进行替换具体实现如下：首先遍历全部原始数据，记录下文本序列及对应的标签序列，同时将实体分类别记录...

【技术保护点】

1.一种基于预训练模型的网络安全命名实体识别数据增广方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于预训练模型的网络安全命名实体识别数据增广方法，其特征在于，所述S1中，标注集合为L，L＝(Malware,Organization,System,O……)，其中，Malware为被标注数据的第一实体类型，Organization被标注数据的第二实体类型，System为被标注数据的第三实体类型，O表示被标注数据不属于任何实体；

3.根据权利要求2所述的一种基于预训练模型的网络安全命名实体识别数据增广方法，其特征在于，所述S2中，预设的输入文本片段的最...

【技术特征摘要】

1.一种基于预训练模型的网络安全命名实体识别数据增广方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于预训练模型的网络安全命名实体识别数据增广方法，其特征在于，所述s1中，标注集合为l，l＝(malware,organization,system,o……)，其中，malware为被标注数据的第一实体类型，organization被标注数据的第二实体类型，system为被标注数据的第三实体类型，o表示被标注数据不属于任何实体；

3.根据权利要求2所述的一种基于预训练模型的网络安全命名实体识别数据增广方法，其特征在于，所述s2中，预设的输入文本片段的最大长度max_length取值为512，len()表示片段集合内特征token的数量；<...

【专利技术属性】
技术研发人员：武跃，叶麟，苏雨恒，万梦丹，王祎雯，张宏莉，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人