【技术实现步骤摘要】
一种拼音和字形增强的网络安全实体关系联合抽取方法
[0001]本专利技术涉及网络安全
,尤其涉及一种基于深度学习的网络安全文本中实体关系信息的联合抽取。
技术介绍
[0002]信息抽取任务可以追溯到1970年,通过模板驱动方法和启发式方法来提取某些信息块,IE任务由命名实体识别(Named Entity Recognition,NER)、关系抽取(Relation Extraction,RE)等多种任务组成,本文主要关注NER和RE任务。
[0003]从数据中提取关键信息包含手动分析与自动分析两种方式。手动分析方式采用人工分析,适用于数据量小,数据规整的情况;自动分析方式采用机器学习、深度学习进行执行文本分析,适用于海量数据信息抽取。由于如今大多为大数据环境,因而自动分析方式具有更高的关注。
[0004]目前从文本数据中抽取实体和关系,主要有以下三种方式:单独研究实体或关系抽取问题;使用先实体识别,在此基础上进行关系抽取的串行(Pipeline)方式抽取;实体和关系联合抽取。各种实体关系抽取方式存在缺点
【技术保护点】
【技术特征摘要】
1.一种拼音和字形增强的网络安全实体关系联合抽取方法,其特征在于,所述方法包括以下步骤:步骤1,获取CNVD中漏洞和补丁数据,定义网络安全实体和关系种类,通过人工标注的方式构建网络安全实体关系联合抽取数据集;步骤2,用拼音和字形特征增强字符信息表示,并使用中文BERT预训练模型增强动态语义特征提取;步骤3,将提取特征分为实体特征区、关系抽取特征区和共享特征区三个特征区域,分别用于不同的分类填表任务;步骤4,通过对比试验,验证所述网络安全实体关系联合抽取方法的有效性,并将所述网络安全实体关系联合抽取方法应用在网络安全非结构化文本中。2.根据权利要求1所述的方法,其特征在于,所述步骤1还包括以下子步骤,步骤1.1,获取CNVD中漏洞和补丁页面数据,清洗数据,准备需要标注与信息抽取数据;步骤1.2,根据文献调研与当前使用数据特性,定义国家名、组织机构名、人名、漏洞ID、漏洞名称、软件名、硬件名、版本号和术语九种实体,定义包含别名、存在、属于、是、利用和导致六种实体关系或属性;步骤1.3,对非结构化数据进行命名实体和实体关系的人工标注,借助fastlabel文本标注工具构建网络安全相关命名实体和关系抽取数据集;步骤1.4,对标注数据集进行数据预处理,构建Python脚本将所述标注数据集转换为模型可使用的数据格式。3.根据权利要求2所述的方法,其特征在于,所述步骤1.1中,数据清洗后,用于人工标注数据和用于后续自动提取数据,由获取漏洞ID、影响产品和漏洞描述组成。4.根据权利要求1所述的方法,其特征在于,所述步骤2中,首先将拼音嵌入,字形嵌入,字符嵌入三种字符级特征通过concat拼接融合后,再与位置嵌入相加结合。5.根据权利要求4所述的方法,其特征在于,所述步骤2还包括以下子步骤,步骤2.1,拼音增强,使用pypinyin获取拼音表示,经过onehot表示,embedding嵌入,CNN提取重要信息,获得拼音嵌入以增强字符信息的表示;步骤2.2,字形增强,使用字符图片信息,展平拼接后经过全连接层,为特征...
【专利技术属性】
技术研发人员:邓凯,许少年,李忆蕾,谭佐艳,张伟,刘锐,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。