【技术实现步骤摘要】
本专利技术涉及一种网络安全命名实体识别数据增广方法,尤其涉及一种基于预训练模型的网络安全命名实体识别数据增广方法,属于网络数据安全。
技术介绍
1、在自然语言处理(nlp)领域,预训练模型已经成为一门极其重要的技术,尤其是在过去几年中,这类模型在各种语言理解和生成任务中表现出了卓越的性能,常用的方法是直接对预训练模型进行微调(fine-tuning)以适应特定的下游任务,在以往研究中取得了不错的效果,然而上述方法并未考虑到对领域的适应性,而是默认在微调过程中对领域的特点进行了学习。
2、对于命名实体识别(ner)任务来说,同义词替换方法是一种简单有效的增广方法,主要是对实体部分进行替换,即对于文本片段中每一个出现的实体,使用替换概率为p(一般取值为0.1-0.7)的二项分布来随机决定是否应该替换它,如果决定对其进行替换,则随机选择与命名的实体相同实体类型的另一实体进行替换,参考图3,对应的bio标签序列也应该被一起替换,对实体部分进行替换具体实现如下:首先遍历全部原始数据,记录下文本序列及对应的标签序列,同时将实体分类别记录
...【技术保护点】
1.一种基于预训练模型的网络安全命名实体识别数据增广方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于预训练模型的网络安全命名实体识别数据增广方法,其特征在于,所述S1中,标注集合为L,L=(Malware,Organization,System,O……),其中,Malware为被标注数据的第一实体类型,Organization被标注数据的第二实体类型,System为被标注数据的第三实体类型,O表示被标注数据不属于任何实体;
3.根据权利要求2所述的一种基于预训练模型的网络安全命名实体识别数据增广方法,其特征在于,所述S2中,预
...【技术特征摘要】
1.一种基于预训练模型的网络安全命名实体识别数据增广方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于预训练模型的网络安全命名实体识别数据增广方法,其特征在于,所述s1中,标注集合为l,l=(malware,organization,system,o……),其中,malware为被标注数据的第一实体类型,organization被标注数据的第二实体类型,system为被标注数据的第三实体类型,o表示被标注数据不属于任何实体;
3.根据权利要求2所述的一种基于预训练模型的网络安全命名实体识别数据增广方法,其特征在于,所述s2中,预设的输入文本片段的最大长度max_length取值为512,len()表示片段集合内特征token的数量;<...
【专利技术属性】
技术研发人员:武跃,叶麟,苏雨恒,万梦丹,王祎雯,张宏莉,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。