System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 流量数据的来源确定方法及装置制造方法及图纸_技高网

流量数据的来源确定方法及装置制造方法及图纸

技术编号:40369201 阅读:5 留言:0更新日期:2024-02-20 22:14
本发明专利技术提供一种流量数据的来源确定方法及装置,涉及网络安全技术领域,其中,流量数据的来源确定方法,包括:获取待处理的流量数据,并将所述流量数据转化为文本数据;对所述文本数据进行分词处理,得到至少一个词文本,并将各所述词文本分别转换为词向量;将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别,所述目标类别表征所述流量数据的来源。本发明专利技术可以提升确定来源的准确度和效率。

【技术实现步骤摘要】

本专利技术涉及网络安全,尤其涉及一种流量数据的来源确定方法及装置


技术介绍

1、随着互联网技术的高速发展,各种网络威胁或异常等攻击类活动层出不穷,网络安全成为个人、企业和政府所关注的焦点。因此,需要对网络中流量数据的来源进行快速定位。

2、现有技术中,通常采用两种方法来定位攻击来源:一是通过聚类算法对流量数据的来源进行定位;二是利用语义相似度对流量数据的来源进行定位。

3、然而,通过聚类算法对流量数据的来源进行定位的方法,存在聚类数不易设置的问题,导致聚类效果差。而利用语义相似度对流量数据的来源进行定位的方法,基于语义相似度使用余弦相似度函数计算两条文本的语义相似度,忽略了单词与单词之间的关联。因此,亟需一种有效的方案以解决上述问题。


技术实现思路

1、针对现有技术存在的问题,本专利技术实施例提供一种流量数据的来源确定方法及装置。

2、本专利技术提供一种流量数据的来源确定方法,包括:

3、获取待处理的流量数据,并将所述流量数据转化为文本数据;

4、对所述文本数据进行分词处理,得到至少一个词文本,并将各所述词文本分别转换为词向量;

5、将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别,所述目标类别表征所述流量数据的来源。

6、根据本专利技术提供的一种流量数据的来源确定方法,所述对所述文本数据进行分词处理,得到至少一个词文本,并将各所述词文本分别转换为词向量,包括:

7、利用n元语法算法对所述文本数据进行分词处理,得到至少一个词文本和各所述词文本的出现概率,n为正整数;

8、根据所述出现概率,从所述至少一个词文本中筛选出至少一个关键词;

9、将各所述关键词分别转换为词向量。

10、根据本专利技术提供的一种流量数据的来源确定方法,所述对所述文本数据进行分词处理,得到至少一个词文本之前,还包括:

11、识别并剔除所述文本数据中的无效字符,所述无效字符包括无意义字符和不可见字符中的至少一个。

12、根据本专利技术提供的一种流量数据的来源确定方法,所述将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别,包括:

13、将各所述词向量输入至预训练的目标分类模型,由所述目标分类模型确定所述流量数据归属于各类别的可信度;

14、根据所述可信度,从所述各类别中确定所述流量数据的目标类别。

15、根据本专利技术提供的一种流量数据的来源确定方法,所述根据所述可信度,从所述各类别中确定所述流量数据的目标类别,包括:

16、将目标可信度对应的类别,确定为所述流量数据的目标类别,所述目标可信度为各所述可信度中大于可信度阈值的可信度。

17、根据本专利技术提供的一种流量数据的来源确定方法,所述将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别之前,还包括:

18、获取样本集和初始分类模型,所述样本集中包括多个样本流量数据,所述样本流量数据携带有来源标签;

19、从所述样本集提取第一样本流量数据,所述第一样本流量数据为任一样本流量数据;

20、将所述第一样本流量数据转化为样本文本数据;

21、对所述样本文本数据进行分词处理,得到至少一个样本词文本,并将各所述样本词文本分别转换为样本词向量;

22、将各所述样本词向量输入至所述初始分类模型,确定所述第一样本流量数据的预测类别,所述预测类别表征所述第一样本流量数据的预测来源;

23、根据所述预测来源和所述第一样本流量数据的来源标签,计算损失值;

24、根据所述损失值调整所述初始分类模型的模型参数,继续执行从所述样本集提取第一样本流量数据的步骤,直至达到预设停止条件,得到所述目标分类模型。

25、本专利技术还提供一种流量数据的来源确定装置,包括:

26、获取模块,被配置为获取待处理的流量数据,并将所述流量数据转化为文本数据;

27、分词模块,被配置为对所述文本数据进行分词处理,得到至少一个词文本,并将各所述词文本分别转换为词向量;

28、确定模块,被配置为将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别,所述目标类别表征所述流量数据的来源。

29、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述流量数据的来源确定方法。

30、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述流量数据的来源确定方法。

31、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述流量数据的来源确定方法。

32、本专利技术提供的流量数据的来源确定及装置,通过获取待处理的流量数据,并将所述流量数据转化为文本数据;对所述文本数据进行分词处理,得到至少一个词文本,并将各所述词文本分别转换为词向量;将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别,所述目标类别表征所述流量数据的来源。通过将流量数据转换成词向量输入目标分类模型确定来源,无需受聚类中心点(簇心)和聚类数的影响,有利于提升确定来源的准确度;并且采用目标分类模型根据词向量进行分类,在提升了分类的正确率和效率。

本文档来自技高网...

【技术保护点】

1.一种流量数据的来源确定方法,其特征在于,包括:

2.根据权利要求1所述的流量数据的来源确定方法,其特征在于,所述对所述文本数据进行分词处理,得到至少一个词文本,并将各所述词文本分别转换为词向量,包括:

3.根据权利要求1或2所述的流量数据的来源确定方法,其特征在于,所述对所述文本数据进行分词处理,得到至少一个词文本之前,还包括:

4.根据权利要求1所述的流量数据的来源确定方法,其特征在于,所述将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别,包括:

5.根据权利要求4所述的流量数据的来源确定方法,其特征在于,所述根据所述可信度,从所述各类别中确定所述流量数据的目标类别,包括:

6.根据权利要求1所述的流量数据的来源确定方法,其特征在于,所述将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别之前,还包括:

7.一种流量数据的来源确定装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述流量数据的来源确定方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述流量数据的来源确定方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述流量数据的来源确定方法。

...

【技术特征摘要】

1.一种流量数据的来源确定方法,其特征在于,包括:

2.根据权利要求1所述的流量数据的来源确定方法,其特征在于,所述对所述文本数据进行分词处理,得到至少一个词文本,并将各所述词文本分别转换为词向量,包括:

3.根据权利要求1或2所述的流量数据的来源确定方法,其特征在于,所述对所述文本数据进行分词处理,得到至少一个词文本之前,还包括:

4.根据权利要求1所述的流量数据的来源确定方法,其特征在于,所述将各所述词向量输入至预训练的目标分类模型,确定所述流量数据的目标类别,包括:

5.根据权利要求4所述的流量数据的来源确定方法,其特征在于,所述根据所述可信度,从所述各类别中确定所述流量数据的目标类别,包括:

6.根据权利要求1所述的流...

【专利技术属性】
技术研发人员:任高锋王照旗汪连连
申请(专利权)人:北京盛邦赛云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1