基于机器学习评测QUIC视频体验质量的方法、系统及介质技术方案

技术编号:38768849 阅读:15 留言:0更新日期:2023-09-10 10:42
本发明专利技术请求保护一种基于机器学习评测QUIC视频体验质量的方法、系统及介质,属于视频体验质量评测技术领域,其包括以下步骤:从视频网站收集加密视频业务数据,将收集的数据分为两部分,训练数据和测试数据;使用基于Python的脚本提取QoE推理所需的功能集,脚本用于分析网络层和传输层的数据包头,然后提取CSV文件格式的特征集;完成特征提取后,使用Weka工具将CSV文件转换为ARFF文件,构建QoE推理模型;使用基于ML随机森林的分类器构建模型,将选定的比特率分为高质量、低质量两类,对于启动延迟,根据启动延迟值将数据进行分类;在大规模数据上训练模型,最后,模型进入在线测试阶段。测试阶段。测试阶段。

【技术实现步骤摘要】
基于机器学习评测QUIC视频体验质量的方法、系统及介质


[0001]本专利技术属于视频体验质量评测
,具体属于一种基于机器学习评测QUIC视频体验质量的方法、系统及介质。

技术介绍

[0002]2013年,Google推出了QUIC协议,其目标是提供面向连接、可靠的端到端的加密传输;2021年5月,QUIC协议被互联网标准化工作组(IETF)标准化;2022年6月,IETF宣布基于QUIC协议的HTTP 3.0正式被标准化。
[0003]随着科技的发展,网上冲浪已经走进了寻常老板姓的家里,为了更好的规范网络空间安全管理,2017年6月国家正式实施《中华人民共和国网络安全法》,这是我国第一部全面网络空间安全管理方面的基础性法律。这一法律的出台,标志着公民个人信息相关的隐私保护进入正轨,以及网络暴力、网络谣言、网络欺诈等“毒瘤”的生存空间将被大幅度挤压,从而促使企业更广泛地部署基于HTTPS和QUIC等端到端的加密协议的应用,因此未来依靠加密协议来开发应用仍然是主流开发趋势。然而,网络提供商在管理网络方面也面临着严重的挑战,他们需要清楚地了解网络上的流量,以最高效的方式来监控和管理视频流中的体验质量(QoE)和服务质量(QoS)。此外,网络提供商需要考虑影响QoE的诸多因素,才能让用户获得满意的体验,获得更高的利润。目前,大多数企业对于QoE的推断都是基于深度数据包检测(DPI),从加密协议中推断出这些影响因素。但是在绝大多数情况这些解决方案效率低下,导致QoE推断精度较低。因此,为了解决这一问题,我们提出了一种基于机器学习的解决方案,利用随机森林分类器来提高QoE推理精度。
[0004]为了建立安全的私有连接,大量使用端到端加密协议已经成为了一种日益增长的趋势。根据调查显示,超过70%的互联网流量都已经使用了加密协议。其中,熟悉的HTTPS协议则被广泛运用于网络安全和隐私保护。国内主流的视频网站如:优酷、爱奇艺、腾讯视频、哔哩哔哩和芒果TV等内容提供商也使用HTTP自适应传输流(HAS)和HTTPS为客户提供加密视频服务。据《2021中国网络视听发展研究报告》显示,五大平台共占据了中国市场大约9成的份额,成为了内容提供商市场话语的主导者,因此HAS流量无疑将会成为流量之王。HAS流量的增加也促使端到端加密急速上升,虽然网络加密传输是维护网络安全和信息保护的必要手段,但是这也相应的增加了运营商在监控和管理网络方面的难度。特别是视频的加密处理限制了运营商在监控用户体验质量(QoE)的可见性。因此,运营商很难为HAS的终端用户分配合理的网络资源。
[0005]众所周知,端到端加密的研究主要集中在应用层协议,如安全嵌套层(SSL)和安全传输层(TLS)协议。但是随着HTTP 3.0的发布,未来利用传输层协议来开发加密的应用也会不断地涌现。国外的运营商为了提高基于HAS来服务观众的QoE值,实施了不同的解决方案。例如,他们利用DPI为用户优化带宽和分配网络资源。然而,当加密应用使用网络流量时,网络运营商的流量检查能力有限,因此监控和优化观众的QoE的可见性较低。针对这一问题,此前有人试图利用机器学习和深度学习方法来推断加密流量的QoE值。虽然他们在测试环
境中都表现出良好的性能,但是存在两个基础的限制。首先,他们将QoE推断表述为一次性统计问题,然而,网络运营商需要的是一种能够实时有效推断QoE的解决方案,从而允许他们实时监控QoE和资源分配,网络运营商才可以直接响应和检测网络故障,从而增强用户体验。其次,他们只考虑了通过应用层协议(即HTTPS)加密的视频内容。然而,随着内容提供商广泛部署新出现的传输层加密协议(即在UDP上运行的QUIC协议),因此以往的解决方案可能行不通。所以本专利旨在利用机器学习的方法对采用传输层和网络层加密协议的应用实施有效QoE推断。
[0006]CN108696403A,一种基于网络流特征构造学习的加密视频QoE评测方法,特征是通过HAS视频业务数据流特性分析从QoS参数中提取了与数据内容无关的网络数据流特征,在此基础上利用机器学习方法训练建立了“网络数据流特征

视频KQI

用户MOS”的映射模型,在数据采集平台中直接实现了对加密视频QoE的评测。由于本专利技术在建模过程中所需特征来自于数据采集平台采集获取的视频业务QoS参数,所建立的映射模型不依赖于视频内容,这种基于网络数据流的建模方法广泛地适用于各种基于TCP和UDP协议加密和非加密移动HAS视频业务。首先,该专利利用非视频内容数据流特征与用户MOS建立的映射模型中,影响业务数据流的变量并不全面,忽略了部分影响QoE的关键参数;其次,最近的行业部署将加密应用于传输层,网络运营商的检测权力有限,导致监控和优化观众QoE的可见性会降低。本专利主要从网络层和传输层的包头中收集各种可能的特征集,再通过排序来总结重要的特征集,可以实现高效率的精确查找;本专利利用随机森林解决方案在推断所选比特率、启动延迟方面的准确率更优秀;本专利主要针对QUIC协议是因为QUIC协议相比于HTTPs相比特征更少,减少了构建模型的时间,但是对于特征更多的HTTPs也同样适用。

技术实现思路

[0007]本专利技术旨在解决以上现有技术的问题。提出了一种基于机器学习评测QUIC视频体验质量的方法、系统及介质。本专利技术的技术方案如下:
[0008]一种基于机器学习评测QUIC视频体验质量的方法,其包括以下步骤:
[0009]从视频网站收集加密视频流量,将收集的数据分为两部分,训练数据和测试数据;
[0010]使用基于Python的脚本提取QoE推理所需的功能集,脚本用于分析网络层和传输层的数据包头,然后提取CSV文件格式的特征集;
[0011]完成特征提取后,使用Weka工具将CSV文件转换为ARFF文件,构建QoE推理模型;
[0012]使用基于机器学习中随机森林的分类器构建QoE推理模型,将选定的比特率分为高质量、低质量两类,对于启动延迟,根据启动延迟值将数据进行分类;
[0013]在大规模数据上训练模型,最后,模型进入在线测试阶段。
[0014]进一步的,所述从视频网站收集加密视频流量,将收集的数据分为两部分,训练数据和测试数据,具体包括:
[0015]使用Tcpdump2从哔哩哔哩网站收集加密视频流量;然后,将收集的数据分为两部分,其中训练数据占比为80%,测试数据占比为20%。
[0016]进一步的,所述提取QoE推理所需的功能集,具体包括:
[0017]网络层:基于窗口的特征:字节数、包数、吞吐量、空闲时间;
[0018]基于包的特征:包间隔到达时间、每包字节数;
[0019]传输层:基于窗口的特征:TCP标志数、无序字节/无序包、TCP Goodput、重发率;
[0020]基于包的特征:每包重传、接收窗口、RTT(上游流量)、未被确认的字节数。
[0021]进一步的,所述使用Weka工具将CSV文件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习评测QUIC视频体验质量的方法,其特征在于,包括以下步骤:从视频网站收集加密视频流量,将收集的数据分为两部分,训练数据和测试数据;使用基于Python的脚本提取QoE推理所需的功能集,脚本用于分析网络层和传输层的数据包头,然后提取CSV文件格式的特征集;完成特征提取后,使用Weka工具将CSV文件转换为ARFF文件,构建QoE推理模型;使用基于机器学习中随机森林的分类器构建模型,将选定的比特率分为高质量、低质量两类,对于启动延迟,根据启动延迟值将数据进行分类;在大规模数据上训练QoE模型,最后,模型进入在线测试阶段。2.根据权利要求1所述的基于机器学习评测QUIC视频体验质量的方法,其特征在于,所述从视频网站收集加密视频流量,将收集的数据分为两部分,训练数据和测试数据,具体包括:使用Tcpdump2从哔哩哔哩网站收集加密视频流量;然后,将收集的数据分为两部分,其中训练数据占比为80%,测试数据占比为20%。3.根据权利要求1所述的基于机器学习评测QUIC视频体验质量的方法,其特征在于,所述提取QoE推理所需的功能集,具体包括:网络层:基于窗口的特征:字节数、包数、吞吐量、空闲时间;基于包的特征:包间隔到达时间、每包字节数;传输层:基于窗口的特征:TCP标志数、无序字节/无序包、TCP Goodput、重发率;基于包的特征:每包重传、接收窗口、RTT(上游流量)、未被确认的字节数。4.根据权利要求1所述的基于机器学习评测QUIC视频体验质量的方法,其特征在于,所述使用Weka工具将Comma

Separated Values(CSV)文件转换为Attribute

Relation File Format(ARFF)文件,具体包括:CSV文件的主要优势是简单、实用,可以用于储存和表示文本、数值等数据;CSV文件是纯文本格式,可以使用任何文本编辑器打开和编辑;CSV文件的数据可以轻松实现跨平台传输和处理;纯文本文件占用内存低,节约存储空间;ARFF文件是Weka数据挖掘开源程序使用的一种文件模式,其中分为两部分:第一部分是标题信息,有关系名称、属性列表及其类型等信息;第二部分是数据部分,由数据声明行和实际实例行组成;在Weka分析软件中只有采用ARFF文件才能使模型建立和数据预测更加准确,CSV转换为ARFF的具体操作如下:打开Weka软件,点击“Explorer”界面,点击“Open file”窗口,在文件类型中选择“*.csv”类型,找到想要的文件并打开,点击“save”,文件类型选择“*.arff”即可完成转换。5.根据权利要求4所述的基于机器学习评测QUIC视频体验质量的方法,其特征在于,所述构建QoE推理模型,具体包括:QoE推理模型分为主观和客观评价,其中客观评价方法中包括:1、视频质量和码率:主要通过与原始视频的对比编码和传输导致的失真进行质量评价;2、启动延迟:启动延迟主要是由于页面、描述文件、播放器加载时间、视频缓冲时间等带来的延迟。如果启...

【专利技术属性】
技术研发人员:吕乙松彭耀华卢清华王可欣
申请(专利权)人:重庆移通学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1