基于XGBoost集成算法与核岭回归融合的实时带宽预测方法技术

技术编号：40995148 阅读：12 留言：0更新日期：2024-04-18 21:35

本发明专利技术公开了基于XGBoost集成算法与核岭回归融合的实时带宽预测方法。首先根据用户需求获取不同场景的数据集；然后对不同场景的数据集中的数据进行清洗；再分别通过不同场景的数据集训练XGBoost模型，得到每个场景的最佳模型；最后使用核岭回归算法对多个场景的模型进行融合。本发明专利技术使用XGBoost算法进行带宽预测，能够在每一轮迭代中逐步改进模型，从而提高预测性能；使用高斯核函数的核岭回归方法，对多个场景的模型进行融合，使预测更加强准确和稳健。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于带宽预测领域，特别关注了xgboost(extreme gradient boosting)算法的应用，这一领域对于网络性能管理和优化具有重要意义。具体涉及一种基于xgboost集成算法与核岭回归融合的实时带宽预测方法，旨在提高带宽预测的速度和准确性。

技术介绍

1、在当今移动互联网时代，高带宽和低延迟的应用程序日益普及，如视频流、视频会议和在线游戏等，对网络性能提出了严苛要求。为确保用户获得流畅、高质量的体验，带宽预测显得尤为关键。通过提前估计未来的网络带宽，应用程序能够调整数据传输策略，以适应即将到来的网络状况，直接影响用户体验质量。

2、带宽预测的重要性体现在几个方面。它使应用程序能够根据网络带宽的高低灵活调整数据传输，高带宽时传输更多数据以提供高质量内容，低带宽时自动降低传输要求，确保用户不受卡顿和中断的影响。其次，带宽预测有助于优化网络资源利用，通过提前了解带宽状况，网络管理员可以更好地规划网络流量和资源分配，降低网络拥塞，提高整体网络性能。最重要的是，带宽预测提高了用户qoe，使应用程序智能适应不同网络条件，确保用户持续享受高质量服务，从而提高用户满意度和企业竞争力。

3、带宽预测一直是网络社区面临的一个复杂而具有挑战性的问题。在现代互联网中，网络性能对用户体验至关重要，因此准确预测带宽的能力对于实时数据传输和流媒体等应用至关重要。尽管已经出现了多种带宽预测方法，但这一领域仍然存在一些显著的缺陷和挑战。

4、首先，带宽预测领域的复杂性不容忽视。在目前的研究中，不同的方

5、其次，缺乏通用性的带宽预测模型限制了这些方法的应用范围。许多现有研究方法是为特定情境或应用场景设计的，比如dash视频流。这导致了这些方法的局限性，因为它们难以泛化到不同网络环境或应用中。因此，需要更多的研究来开发通用性的模型，可以在不同情境下适用。

6、第三，许多带宽预测方法需要大量的历史数据，如tcp吞吐量、分组丢失率等，以训练模型或进行参数化。这对于新兴网络或数据稀缺的环境来说可能是一个限制，因为这些数据不一定一直可用。这也引发了数据隐私和安全方面的担忧，因为一些预测方法需要访问用户的网络历史数据。

7、另外，带宽预测的实时性是一个重要挑战。网络性能需要在实时应用中获得及时准确的结果，以优化用户体验。然而，一些带宽预测方法可能在实时性方面存在问题，需要更多的研究来提高其响应速度和准确性。

8、尽管以上一些研究应用于带宽预测，但依然存在通用性较差、数据需求量较多、实时性不够的问题，本专利技术将针对以上问题提出一种改进方法。

技术实现思路

1、针对现有技术中存在的不足，本专利技术提供了一种基于xgboost集成算法与核岭回归融合的实时带宽预测方法。本专利技术方法能够在不同的场景下通过少量的历史数据对带宽进行更高准确率、更稳健的实时预测。

2、基于xgboost集成算法与核岭回归融合的实时带宽预测方法，步骤如下：

3、首先根据用户需求获取对应i个不同场景的数据集，获取i个不同场景的带宽信息构建对应数据集；

4、然后采用数据箱型图的方法对不同场景的数据集中的数据进行处理，去除其中异常的负数和相差过大的数据；

5、再分别通过i个不同场景的数据集训练xgboost模型，得到每个场景的最佳模型；

6、最后使用核岭回归算法对多个场景的模型进行融合；采用平均绝对误差和均方根误差来评价模型性能。

7、进一步的，模型训练具体方法如下：

8、步骤(3-1)、特征选取；

9、数据集中的带宽信息包括时间戳、上行字节数、上行时间等特征。选择上行字节数作为最重要的特征。分别通过i个不同场景的数据集训练xgboost模型，得到每个场景的最佳模型。

10、步骤(3-2)、数据集划分；

11、将每个不同场景的数据集中的60％的数据作为xgboost模型训练的训练集，模型通过学习训练集的样本来适应数据集；其中20％的数据集作为验证集，用于调整模型超参数、选择模型和进行早期停止(early stopping)。另外20％的数据用于最终评估模型性能的测试集。

12、步骤(3-3)、模型调参；

13、通过贝叶斯优化的方式来进行对xgboost模型中的n_estimators(弱学习器数量)、learning_rate(权重缩放因子)、max_depth(每棵树的深度)和subsample(子样本比例)四个进行参数调优。

14、进一步的，采用高斯核函数的核岭回归算法进行模型融合，包括步骤如下：

15、步骤(4-1)、通过步骤三训练i个不同场景下的xgboost模型，假设训练的i个xgboost模型分别为f1(x),f2(x),…,fi(x)。将以上模型的预测结果作为新的数据集。

16、步骤(4-2)、使用核岭回归算法融合，采用高斯核作为核函数。同时，采用不同场景的mse相似性作为指导选择合适的高斯核函数。如果不同场景下的mse相似性取值接近1即|mse-1|≤0.5，则说明不同场景对最终预测影响相似，采用各向同性高斯核进行岭回归融合；如果mse相似性取值与1相差较大，即|mse-1|>0.5，则说明不同场景对最近预测结果影响较大，则采用各向异性高斯核进行模型融合。

17、步骤(4-3)、使用高斯核的不同场景xgboost模型岭回归融合的步骤如下：

18、a、实时预测情况下为数据集中多个场景数据子集的组合作为目标数据集，各个场景训练的xgboost模型预测结果yi作为特征输入。

19、b、通过比较mse和1相差的绝对值来确定如何选择高斯核函数。如果|mse-1|≤0.5，使用各向同性高斯核，协方差函数表示为：

20、

21、其中kkj为高斯核矩阵，yk，yj分别表示第k个模型和第j个模型预测的结果。σ是各向同性高斯核的带宽参数，控制相似性的衰减速度。

22、如果|mse-1|>0.5，使用各向异性高斯核，此时，协方差函数表示为：

23、

24、c、训练岭回归模型，岭回归模型的目标函数如下：

25、minα||y-kkjαi||2+αitkjαi+λ||αi||2 (4)

26、其中αi是核岭回归的权重向量，y为真实值，λ是正则化参数，用于控制权重大小，防止过拟合。由于选取核函数为各向同性高斯核数据集对最终预测结果相像，使用正则化可有效防止过拟合。

27、d、模型本文档来自技高网...

【技术保护点】

1.基于XGBoost集成算法与核岭回归融合的实时带宽预测方法，其特征在于，步骤如下：

2.根据权利要求1所述的基于XGBoost集成算法与核岭回归融合的实时带宽预测方法，其特征在于，模型训练具体方法如下：

3.根据权利要求1或2所述的基于XGBoost集成算法与核岭回归融合的实时带宽预测方法，其特征在于，采用高斯核函数的核岭回归算法进行模型融合，包括步骤如下：

【技术特征摘要】

1.基于xgboost集成算法与核岭回归融合的实时带宽预测方法，其特征在于，步骤如下：

2.根据权利要求1所述的基于xgboost集成算法与核岭回归融合的实时带宽预测方法，其特征在于...

【专利技术属性】
技术研发人员：李小东，颜成钢，李宗鹏，丁贵广，付莹，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人