基于ChatGPT知识增强的网络数据流异常检测方法及系统技术方案

技术编号:39193240 阅读:10 留言:0更新日期:2023-10-27 08:40
本发明专利技术涉及一种基于ChatGPT知识增强的网络数据流异常检测方法及系统,其包括:对获取的流式网络数据集进行基于ChatGPT知识增强处理,得到该流式网络数据集所在领域的领域知识,并获取领域知识中数据特征的最大值和最小值;基于当前数据速率与理想速率的关系,确定下一个区间自适应滑动窗口的长度,以得到区间自适应滑动窗口;将领域知识的特征的最大值和最小值融入归一化中,并将整个流式网络数据输入区间自适应滑动窗口对其进行归一化处理,得到当前窗口归一化后的数据点,并将当前窗口归一化后的数据点输入数据异常检测方法中,得到网络数据流异常检测结果。本发明专利技术能有效保证数据处理的实时性,提高异常数据的检测准确度;可以在网络安全领域中应用。可以在网络安全领域中应用。可以在网络安全领域中应用。

【技术实现步骤摘要】
基于ChatGPT知识增强的网络数据流异常检测方法及系统


[0001]本专利技术涉及一种网络安全
,特别是关于一种基于ChatGPT知识增强的网络数据流异常检测方法及系统。

技术介绍

[0002]在在线流数据异常检测任务中,数据以流的形式先后到达训练点,一次一个样本,在缺乏全局统计信息情况下,如何对流数据进行归一化是当前的挑战。虽然近年来大数据流的归一化研究有所突破,但现阶段仍然面临着一些问题。在网络流量检测领域中,一方面要提升异常检测的准确率,另一方面,网络安全中的入侵行为需要在它们到达时立即被检测出来,以减少造成的伤害,保证数据处理的实时性也是需要关注的问题。同时,随着时间推移,数据流可能会发生概念漂移,出现与训练中不符的特征。
[0003]现有文献中将领域知识应用于数据预处理中,可以对数据源进行过滤或补充,将有效提高数据的质量。但在使用现存方法训练模型时,流数据中涵盖的大量领域知识没有被有效利用,进而导致对网络异常数据无法进行有效检测。

技术实现思路

[0004]针对上述问题,本专利技术的目的是提供一种基于ChatGPT知识增强的网络数据流异常检测方法及系统,其能有效保证数据处理的实时性,提高异常数据的检测准确度。
[0005]为实现上述目的,本专利技术采取以下技术方案:一种基于ChatGPT知识增强的网络数据流异常检测方法,其包括:对获取的流式网络数据集进行基于ChatGPT知识增强处理,得到该流式网络数据集所在领域的领域知识,并获取领域知识中数据特征的最大值和最小值;基于当前数据速率与理想速率的关系,确定下一个区间自适应滑动窗口的长度,以得到区间自适应滑动窗口;将领域知识的特征的最大值和最小值融入归一化中,并将整个流式网络数据输入区间自适应滑动窗口对其进行归一化处理,得到当前窗口归一化后的数据点,并将当前窗口归一化后的数据点输入数据异常检测方法中,得到网络数据流异常检测结果。
[0006]进一步,对获取的流式网络数据集进行基于ChatGPT知识增强处理,包括:
[0007]与ChatGPT对话获得流式网络数据集所在领域的领域知识,将领域知识中的数据特征以json形式输出。
[0008]进一步,获取领域知识中数据特征的最大值和最小值,包括:
[0009]设定每个特征的取值范围[mini,maxi],其中mini表示第i个特征的最小值,maxi表示第i个特征的最大值;
[0010]若当前数据块中最小值小于mini,则mini为当前最小值;
[0011]若当前数据块中最大值大于maxi,则maxi为当前最大值。
[0012]进一步,确定下一个区间自适应滑动窗口的长度,包括:
[0013]根据当前区间自适应滑动窗口的数据总量和上一个区间自适应滑动窗口的长度,
计算当前数据速率;
[0014]将当前数据速率与理想速率进行比较,根据比较结果增加或减少窗口长度,并输出调整后的下一个区间自适应滑动窗口的长度。
[0015]进一步,当前数据速率为:r
c
=n
i
/t;其中,r
c
为当前数据速率,n
i
为当前区间自适应滑动窗口的数据总量,t为上一个区间自适应滑动窗口的长度。
[0016]进一步,将当前数据速率与理想速率进行比较,包括:
[0017]若当前数据速率大于理想速率,则将当前区间自适应滑动窗口的长度增加一个预设长度值,并判定增加长度后的窗口长度是否等于滑动窗口的预设最大长度,若等于则输出增加长度后的窗口长度为下一个区间自适应滑动窗口的长度,反之,则继续增加当前区间自适应滑动窗口的长度;
[0018]若当前数据速率小于理想速率,则将滑动窗口的预设最小长度作为下一个区间自适应滑动窗口的长度。
[0019]进一步,归一化处理包括:
[0020]设定当前区间自适应滑动窗口的预设最大长度和最小长度;
[0021]根据领域知识的特征的最大值和最小值,将当前区间自适应滑动窗口中的每个数据特征都进行归一化处理,得到当前窗口归一化后的数据点。
[0022]一种基于ChatGPT知识增强的网络数据流异常检测系统,其包括:知识增强处理模块,对获取的流式网络数据集进行基于ChatGPT知识增强处理,得到该流式网络数据集所在领域的领域知识,并获取领域知识中数据特征的最大值和最小值;区间自适应滑动窗口模块,基于当前数据速率与理想速率的关系,确定下一个区间自适应滑动窗口的长度,以得到区间自适应滑动窗口;归一化检测模块,将领域知识的特征的最大值和最小值融入归一化中,并将整个流式网络数据输入区间自适应滑动窗口对其进行归一化处理,得到当前窗口归一化后的数据点,并将当前窗口归一化后的数据点输入数据异常检测方法中,得到网络数据流异常检测结果。
[0023]一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。
[0024]一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。
[0025]本专利技术由于采取以上技术方案,其具有以下优点:
[0026]1、本专利技术采用区间自适应滑动窗口,根据数据速率自适应调整窗口大小,以确定数据在稳定的理想速率下被处理,减少因窗口过大速率过小造成的数据堆积,保证流数据处理的实时性。
[0027]2、本专利技术基于ChatGPT知识增强的领域知识,通过ChatGPT的接口获取数据所处领域的专家知识,将领域知识融入数据归一化中,提升异常数据检测的准确性及效率。
[0028]3、本专利技术基于ChatGPT知识增强的区间自适应归一化方法,融入领域知识与区间自适应归一化方法的异常检测模型,在NSL

KDD、CICIDS、UNSW15等数据集上的AUCROC(接受者操作特征曲线下的面积)与AUCPR(精确度

召回曲线下的面积)最大提升了32.46%与32.68%。
[0029]综上,本专利技术根据数据速率实时改变滑动窗口大小以保持一个稳定的数据输入速率,保证数据处理的实时性;将流数据领域知识融入归一化方法以保证减少浪费已有的数据资源,提高异常数据检测的质量。
附图说明
[0030]图1是本专利技术实施例中基于ChatGPT知识增强的网络数据流异常检测方法流程图。
具体实施方式
[0031]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例的附图,对本专利技术实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于所描述的本专利技术的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]需要注意的是,这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ChatGPT知识增强的网络数据流异常检测方法,其特征在于,包括:对获取的流式网络数据集进行基于ChatGPT知识增强处理,得到该流式网络数据集所在领域的领域知识,并获取领域知识中数据特征的最大值和最小值;基于当前数据速率与理想速率的关系,确定下一个区间自适应滑动窗口的长度,以得到区间自适应滑动窗口;将领域知识的特征的最大值和最小值融入归一化中,并将整个流式网络数据输入区间自适应滑动窗口对其进行归一化处理,得到当前窗口归一化后的数据点,并将当前窗口归一化后的数据点输入数据异常检测方法中,得到网络数据流异常检测结果。2.如权利要求1所述基于ChatGPT知识增强的网络数据流异常检测方法,其特征在于,对获取的流式网络数据集进行基于ChatGPT知识增强处理,包括:与ChatGPT对话获得流式网络数据集所在领域的领域知识,将领域知识中的数据特征以json形式输出。3.如权利要求1所述基于ChatGPT知识增强的网络数据流异常检测方法,其特征在于,获取领域知识中数据特征的最大值和最小值,包括:设定每个特征的取值范围[mini,maxi],其中mini表示第i个特征的最小值,maxi表示第i个特征的最大值;若当前数据块中最小值小于mini,则mini为当前最小值;若当前数据块中最大值大于maxi,则maxi为当前最大值。4.如权利要求1所述基于ChatGPT知识增强的网络数据流异常检测方法,其特征在于,确定下一个区间自适应滑动窗口的长度,包括:根据当前区间自适应滑动窗口的数据总量和上一个区间自适应滑动窗口的长度,计算当前数据速率;将当前数据速率与理想速率进行比较,根据比较结果增加或减少窗口长度,并输出调整后的下一个区间自适应滑动窗口的长度。5.如权利要求4所述基于ChatGPT知识增强的网络数据流异常检测方法,其特征在于,当前数据速率为:r
c
=n
i
/t;其中,r
c
为当前数据速率,n
i
为当前区间自适应滑动窗口的数据总量,t为上一个区间自...

【专利技术属性】
技术研发人员:赵晓永杨寒雨王磊崔国玺张静乐王宁宁卢慧雅
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1