基于领域知识库的计算机网络协议实体链接方法和系统技术方案

技术编号:24456102 阅读:29 留言:0更新日期:2020-06-10 15:35
本发明专利技术公开了一种基于领域知识库的计算机网络协议实体链接方法和系统。该方法包括:构建一个网络协议语义知识库,作为协议实体链接方法的指导;在网络协议实体文本中形成协议信息数据集;在数据集上进行预训练模型的微调,该微调模型将作为联合模型的一部分;设计并训练一个由线性层和非线性层两部分组成网络协议领域模型,该领域模型作为联合模型的另一部分;融合上述两个模型的输出,将融合结果输入分类层进行分类,得出最终的实体链接结果。本发明专利技术能够更好的挖掘网络协议描述文档中的深层语义信息,有助于网络协议方面的研究。

Method and system of entity linking of computer network protocol based on domain knowledge base

【技术实现步骤摘要】
基于领域知识库的计算机网络协议实体链接方法和系统
本专利技术属于计算机
,提出一种基于计算机网络领域知识库的网络协议实体链接方法和系统。该方法创新性设计并实现了一种联合模型,模型在保留了预训练模型优点的基础上,融合了自主设计的领域模型,提升了从计算机网络协议实体到领域知识库链接过程的效率和准确度,对计算机网络领域的研究有着重要的意义。
技术介绍
计算机网络是由空间上分散的一群计算机或终端,通过通信设备和线路连接组成的复杂网络。计算机网络以信息传输为基础目的,具有包括数据通信、资源共享、集中管理、分布式处理等在内的多种功能。为对计算机网络进行规范和约束,需要计算机网络协议。计算机网络协议是一些为确保计算机网络中的数据正常交换而建立的规则、标准或约定的集合。由于计算机网络中存在大量计算机或终端,其连接情况多种多样,复杂网络情况产生了大量的计算机网络协议。并且由于其大多以自然语言的形式进行描述,文本又缺乏结构化,对计算机网络协议的研究存在不少困难。信息化时代,人们对网络的依赖日益增强,通过网络获得和交流信息已成为现代信息社会的一个重要特征。这些网络系统都依靠计算机网络接收和处理信息,实现相互间的联系和对目标的管理、控制,计算机网络的重要性可见一斑。然而随着计算机网络重要性的提升,计算机网络安全问题也将日益凸显。加强计算机网络的深入研究,了解掌握计算机网络通信过程和协议规范,对维护计算机网络安全意义重大。在人工智能的知识工程领域,知识库是指专家系统设计所应用的规则集合,具有很强的领域特征的结构化信息。建立知识库的过程中,大量隐含知识被编码和数字化处理,信息和知识从原来的混乱状态变得有序,在此基础上,有助于加快知识的流动,有利于知识的交流和深入研究。所谓实体链接,即将存在于计算机网络协议中的文本信息进行抽取、分类,并与知识库中的知识建立联系的过程,计算机网络领域知识库的建立将为我们模型中的实体链接提供专业依据。相对于结构化的信息,由于计算机网络协议大多以自然语言形式进行描述,对计算机来说比较难以理解和分析,目前关于计算机网络协议实体链接还没有良好的解决方案。
技术实现思路
为了解决上述问题,本专利技术利用人工智能领域的自然语言处理对计算机网络协议文本进行分析和处理,实现实体链接过程,提升实体链接过程中的准确度。本专利技术采用的技术方案如下:一种基于领域知识库的计算机网络协议实体链接模型构建方法,其特征在于,包括以下步骤:根据专家知识构建计算机网络协议知识库;以所述计算机网络协议知识库为学习的先验知识,从计算机网络协议文本中提取待进行实体链接的实体,所述实体包含字段和描述信息,由字段和描述信息构成网络协议信息数据集;将自然语言预训练模型在所述网络协议信息数据集上进行微调,得到微调后的自然语言预训练模型;利用所述网络协议信息数据集,训练基于神经网络的网络协议领域模型;将所述微调后的自然语言预训练模型和所述网络协议领域模型进行融合,得到计算机网络协议实体链接模型。进一步地,所述计算机网络协议知识库,在语义层面对网络协议文本中存在的多种情况进行分类总结,形成五个大类和十个小类,每一类别包含中英文信息和数字编码;所述五个大类包括指示类、函数类、标度类、数据类和保留类;所述十个小类包括:属于指示类的序列号、布尔值、版本号、标识符,属于函数类的检验码、填充码、密数据,属于标度类的长度、偏移量、时间戳。进一步地,将所述网络协议信息数据集中的描述信息通过词嵌入处理,按词切分后作为预训练模型的输入,对预训练模型的参数产生影响,从而生成适应于网络协议文本的微调后的预训练模型,生成的输出数据表示用于描述的上下文信息。进一步地,将所述网络协议信息数据集中的字段信息通过词嵌入处理,按词切分后输入网络协议领域模型中进行训练,利用神经网络生成对协议文本敏感的网络协议领域模型;所述网络协议领域模型包括线性聚合层和非线性层;通过非线性层保证字段信息的描述性语义信息被单独检查,从而保留字段信息的有价值信息;通过线性聚合层将所有隐藏状态即来自非线性层的中间结果连接起来,以充分地利用网络的推断结果。一种基于领域知识库的计算机网络协议实体链接方法,包括以下步骤:将待进行实体链接的计算机网络协议输入本专利技术方法构建的计算机网络协议实体链接模型;将计算机网络协议实体链接模型中微调后的自然语言预训练模型的结果和网络协议领域模型的结果进行融合;将融合后的结果输入分类层进行分类,得到实体链接结果。进一步地,利用逻辑加法运算单元将计算机网络协议实体链接模型中微调后的自然语言预训练模型的结果和网络协议领域模型的结果进行融合操作,逻辑加法运算单元使用激活函数来转换词法信息。进一步地,所述分类层为SoftMax层,利用SoftMax层进行结果概率的计算,并采用平均交叉熵作为损失函数,最终得到实体链接结果。一种基于领域知识库的计算机网络协议实体链接系统,其包括:模型模块,包含本专利技术方法构建的计算机网络协议实体链接模型,该模型接收待进行实体链接的计算机网络协议作为输入;融合模块,用于将计算机网络协议实体链接模型中微调后的自然语言预训练模型的结果和网络协议领域模型的结果进行融合;分类模块,用于将融合后的结果输入分类层进行分类,得到实体链接结果。本专利技术的有益效果如下:本专利技术创新性的设计并实现了一种联合模型,该模型以加强模型专业领域信息敏感度为原理,具体以实现领域神经网络模型的方式,实现提升实体链接准确度的目的。该模型有助于在未来实现计算机网络协议的结构化处理,为计算机网络方面的研究提供帮助。附图说明图1为计算机网络协议知识库的思维导图。图2为基于领域知识库的计算机网络协议实体链接联合模型的框架图。具体实施方式下面通过具体实施例和附图,对本专利技术做进一步详细说明。本专利技术的主要内容包括:1.网络协议知识库依据专家知识整理、归纳、总结形成的具有极强专业领域性质的网络协议语义信息知识库,由原来的弱结构化信息,转化为结构化的知识库信息,有助于未来计算机网络协议的识别和分析。网络协议知识库主要包含五大类,如图1和表1所示,分别为:指示类、函数类、标度类、数据类和保留类,主要对计算机网络协议的语义信息进行分类,基本囊括了自然语言文本中关于协议本体描述的内容。每一类别有明确定义的中英文信息和数字编码,具体的网络协议知识库包括<序列号-SerialNumber-200>,<布尔值-Boolean-210>,<版本号-Version-220>,<标识符-Identifier-230>,<检验码-Checksum-301>,<填充码-PaddingCode-302>,<密数据-EncryptionData-303>,<长度-Length-100>,<偏移量-Off本文档来自技高网
...

【技术保护点】
1.一种基于领域知识库的计算机网络协议实体链接模型构建方法,其特征在于,包括以下步骤:/n根据专家知识构建计算机网络协议知识库;/n以所述计算机网络协议知识库为学习的先验知识,从计算机网络协议文本中提取待进行实体链接的实体,所述实体包含字段和描述信息,由字段和描述信息构成网络协议信息数据集;/n将自然语言预训练模型在所述网络协议信息数据集上进行微调,得到微调后的自然语言预训练模型;/n利用所述网络协议信息数据集,训练基于神经网络的网络协议领域模型;/n将所述微调后的自然语言预训练模型和所述网络协议领域模型进行融合,得到计算机网络协议实体链接模型。/n

【技术特征摘要】
1.一种基于领域知识库的计算机网络协议实体链接模型构建方法,其特征在于,包括以下步骤:
根据专家知识构建计算机网络协议知识库;
以所述计算机网络协议知识库为学习的先验知识,从计算机网络协议文本中提取待进行实体链接的实体,所述实体包含字段和描述信息,由字段和描述信息构成网络协议信息数据集;
将自然语言预训练模型在所述网络协议信息数据集上进行微调,得到微调后的自然语言预训练模型;
利用所述网络协议信息数据集,训练基于神经网络的网络协议领域模型;
将所述微调后的自然语言预训练模型和所述网络协议领域模型进行融合,得到计算机网络协议实体链接模型。


2.如权利要求1所述的方法,其特征在于,所述计算机网络协议知识库,在语义层面对网络协议文本中存在的多种情况进行分类总结,形成五个大类和十个小类,每一类别包含中英文信息和数字编码;所述五个大类包括指示类、函数类、标度类、数据类和保留类;所述十个小类包括:属于指示类的序列号、布尔值、版本号、标识符,属于函数类的检验码、填充码、密数据,属于标度类的长度、偏移量、时间戳。


3.如权利要求1所述的方法,其特征在于,将所述网络协议信息数据集中的描述信息通过词嵌入处理,按词切分后作为预训练模型的输入,对预训练模型的参数产生影响,从而生成适应于网络协议文本的微调后的预训练模型,生成的输出数据表示用于描述的上下文信息。


4.如权利要求1所述的方法,其特征在于,将所述网络协议信息数据集中的字段信息通过词嵌入处理,按词切分后输入网络协议领域模型中进行训练,利用神经网络生成对协议文本敏感的网络协议领域模型;所述网络协议领域模型包括线性聚合层和非线性层;通过非线性层保证字段信息的描述性语义信息被单独检查,从而保留字段信息的有价值信息;通过线性聚合层将所有隐藏状态即来自非线性层的中间结果连接起来,以充分...

【专利技术属性】
技术研发人员:李守斌明旭冉刘雨江崔闻早胡军王青
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1