流控模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：37343776 阅读：9 留言：0更新日期：2023-04-22 21:35

本申请涉及一种流控模型训练方法，包括：对于每个离线周期，基于当前离线周期的离线样本数据及基础流控模型输出的离线流控预测数据，生成下一离线周期的离线样本数据；根据各离线周期的离线样本数据确定各离线周期的离线累计奖励参考值；基于多个离线周期的离线样本数据和离线累计奖励参考值，对基础流控模型进行离线周期滚动训练得到中间流控模型；对于每个在线周期，通过当前在线周期的在线样本数据确定当前在线周期的在线累计奖励参考值；基于多个在线周期的在线样本数据和在线累计奖励参考值，对中间流控模型进行在线周期滚动训练，得到适用于多媒体通信过程中进行流控数据预测的目标流控模型。采用本方法的目标流控模型可以提高流控准确性。型可以提高流控准确性。型可以提高流控准确性。

全部详细技术资料下载

【技术实现步骤摘要】
流控模型训练方法、装置、计算机设备和存储介质
[0001]本申请是于2021年10月18日提交中国专利局，申请号为202111211909.8，专利技术名称为“对多媒体数据进行流控及流控模型训练方法、以及装置”的分案申请，其全部内容通过引用结合在本申请中。

[0002]本申请涉及人工智能
，特别是涉及一种流控模型训练方法、装置、计算机设备和存储介质。

技术介绍

[0003]随着网络技术的发展，越来越多的多媒体数据传输场景需要实时获取网络状态，从而依据获取的网络状态实现多媒体数据传输的流控。以多媒体数据传输场景为语音或者视频实时通话场景为例，语音或视频实时通话通常是利用网络RTC(Real
‑
Time Communication，实时通话)所实现的。在RTC通话中，通常需要实时监测网络状态，然后依据实时网络状态，修改整体通话的配置。例如，若网络状态好，则可以提高编码码率。因此，如何在多媒体数据传输中及时反馈复杂多变的网络状态是一个热门课题。
[0004]在传统方案中，目前自适应码率控制算法使用较多的是WebRtc中的GCC算法，也就是用于实时媒体通讯的网络拥塞控制算法，但在实际使用GCC算法时会产生一定延时，且过度依赖经验配置，使得实际控制中存在流控不准确的问题。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提升流控准确度的流控模型训练方法、装置、计算机设备和存储介质。
[0006]一种流控模型训练方法，方法包括：
[00...

【技术保护点】

【技术特征摘要】
1.一种流控模型训练方法，其特征在于，所述方法包括：获取经过多个预训练样本组进行预训练所得到的基础流控模型；对于离线训练中的每个离线周期，均基于当前离线周期的离线样本数据、以及基础流控模型输出的离线流控预测数据，生成下一离线周期的离线样本数据；所述离线样本数据包括离线编码数据和离线通信状态数据；根据每一离线周期的离线样本数据，确定每一离线周期的离线累计奖励参考值；基于多个离线周期各自对应的离线样本数据和离线累计奖励参考值，对所述基础流控模型进行离线周期滚动训练，直至达到离线训练停止条件时停止，得到中间流控模型；对于在线训练中的每个在线周期，均通过当前在线周期的在线样本数据，确定当前在线周期的在线累计奖励参考值；基于多个在线周期各自对应的在线样本数据和在线累计奖励参考值，对所述中间流控模型进行在线周期滚动训练，直至达到在线训练停止条件时停止，得到适用于在多媒体通信过程中进行流控数据预测的目标流控模型。2.根据权利要求1所述的方法，其特征在于，所述基础流控模型包括行为预测网络和行为评价网络，所述行为预测网络和所述行为评价网络共享编码结构，所述行为预测网络还包括多头分类结构，所述行为评价网络还包括单任务处理结构；所述编码结构包括依次连接的至少一个自注意力模组，每个自注意力模组均包括多头注意力层和前向处理层。3.根据权利要求1所述的方法，其特征在于，所述基础流控模型通过预训练得到，所述预训练的步骤包括：将历史上报数据中对应相同历史周期的历史通信状态数据和历史编码数据，组成历史样本数据；对于当前历史周期，基于当前历史周期的下一历史周期的历史编码数据，确定与当前历史周期对应的历史流控参考数据，并根据当前历史周期的历史样本数据，确定与当前历史周期对应的历史累计奖励参考值；将对应相同历史周期的历史样本数据、历史流控参考数据和历史累计奖励参考值，作为一组预训练样本组；根据多组预训练样本组对待训练的初始流控模型进行预训练，直至达到预训练停止条件时停止，得到基础流控模型。4.根据权利要求3所述的方法，其特征在于，所述根据多组预训练样本组对待训练的初始流控模型进行预训练，直至达到预训练停止条件时停止，得到基础流控模型，包括：基于待训练的初始流控模型中的行为预测网络，对预训练样本组中的历史样本数据进行处理，输出历史流控预测数据；根据每一预训练样本组对应的历史流控预测数据及历史流控参考数据，确定第一交叉熵损失；基于待训练的初始流控模型中的行为评价网络，对所述预训练样本组中的历史样本数据进行处理，输出历史累计奖励预测值；根据所述历史累计奖励预测值及相应的历史累计奖励参考值间的差异，确定第一奖励损失；基于所述第一交叉熵损失及所述第一奖励损失，构建预训练损失函数；
通过所述预训练损失函数，对所述初始流控模型进行预训练，直至达到预训练停止条件时停止，得到所述基础流控模型。5.根据权利要求1所述的方法，其特征在于，所述离线样本数据包括编码码率和卡顿率，所述根据每一离线周期的离线样本数据，确定每一离线周期的离线累计奖励参考值，包括：对于当前离线周期，根据所述当前离线周期的编码码率，确定所述当前离线周期的清晰度；根据所述当前离线周期的卡顿率，确定所述当前离线周期的流畅度；根据所述当前离线周期的编码码率及所述当前离线周期的下一离线周期的编码码率，确定所述当前离线周期的平滑度；根据所述当前离线周期的清晰度、流畅度、平滑度、视频无质量参考分及音频无质量参考分，计算所述当前离线周期的离线奖励参考值；基于下一离线周期的离线累计奖励参考值、以及所述当前离线周期的离线奖励参考值，确定所述当前离线周期的离线累计奖励参考值。6.根据权利要求5所述的方法，其特征在于，所述根据所述当前离线周期的清晰度、流畅度、平滑度、视频无质量参考分及音频无质量参考分，计算所述当前离线周期的离线奖励参考值，包括：分别对所述当前离线周期的清晰度、流畅度、平滑度、视频无质量参考分及音频无质量参考分进行归一化；根据各归一化结果进行加权处理，得到所述当前离线周期的离线奖励参考值。7.根据权利要求1所述的方法，其特征在于，所述基础流控模型包括行为预测网络和行为评价网络，所述基于多个离线周期各自对应的离线样本数据和离线累计奖励参考值，对所述基础流控模型进行离线周期滚动训练，直至达到离线训练停止条件时停止，得到中间流控模型，包括：通过当前离线周期的行为预测网络，对当前离线周期的离线样本数据进行处理，得到当前离线周期的离线流控预测数据；基于当前离线周期的离线流控预测数据确定第二交叉熵损失，并根据所述第二交叉熵损失确定第一离线目标函数；通过当前离线周期的行为评价网络，对当前离线周期的离线样本...

【专利技术属性】
技术研发人员：杨梁，黄飞，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人