样本确定方法、装置及设备制造方法及图纸

技术编号：39175834 阅读：8 留言：0更新日期：2023-10-27 08:23

本申请公开了一种样本确定方法、装置及设备，属于通信技术领域，本申请实施例的样本确定方法包括：第一设备接收目标设备发送的第一信息，所述第一信息包括时变参数信息及人工智能AI模型属性信息，所述时变参数信息用于指示通信行为的随机性；所述第一设备基于目标推理模型的推理结果及所述时变参数信息，确定用于训练所述目标推理模型的训练样本，所述目标推理模型为与所述AI模型属性信息对应的推理模型。型。型。

全部详细技术资料下载

【技术实现步骤摘要】
样本确定方法、装置及设备

[0001]本申请属于通信
，具体涉及一种样本确定方法、装置及设备。

技术介绍

[0002]无线移动通信结合人工智能(Artificial Intelligence，AI)能够较好地提高通信质量，例如，物理层的基于AI信道质量压缩、基于AI的波束管理、基于AI的定位。以波束管理为例，在毫米波无线通信中，通信收发端(例如，基站和终端)都配置了多个模拟波束，对于同一个终端，在不同的发送和接收模拟波束测量到信道质量是变化的。如何快速并准确地从所有可能的收发模拟波束组合中选择出信道质量最高的收发波束组，是影响传输质量的关键。在引入AI神经网络模型后，终端可以基于AI神经网络模型有效地预测信道质量最高的收发模拟波束，并上报给网络侧，从而能够获得更好的传输质量。
[0003]强化学习是一种AI神经网络模型训练方法。强化学习训练是基于环境而行动，利用推理结果进行训练，能够取得最大化的预期利益。目前，受限于设备的计算能力，推理功能和训练功能分离部署在不同的设备上，不支持AI神经网络模型的强化学习训练。

技术实现思路

[0004]本申请实施例提供一种样本确定方法、装置及设备，能够解决推理功能和训练功能分离部署在不同的设备上，不支持AI神经网络模型的强化学习训练的问题。
[0005]第一方面，提供了一种样本确定方法，包括：
[0006]第一设备接收目标设备发送的第一信息，所述第一信息包括时变参数信息及人工智能 AI模型属性信息，所述时变参数信息用于...

【技术保护点】

【技术特征摘要】
1.一种样本确定方法，其特征在于，包括：第一设备接收目标设备发送的第一信息，所述第一信息包括时变参数信息及人工智能AI模型属性信息，所述时变参数信息用于指示通信行为的随机性；所述第一设备基于目标推理模型的推理结果及所述时变参数信息，确定用于训练所述目标推理模型的训练样本，所述目标推理模型为与所述AI模型属性信息对应的推理模型。2.根据权利要求1所述的方法，其特征在于，所述时变参数信息包括时变贪心参数。3.根据权利要求1所述的方法，其特征在于，所述时变参数信息包括第一边界参数、第二边界参数及训练进程参数，所述第一边界参数用于指示时变贪心参数的起始边界和终止边界，所述第二边界参数用于指示时变贪心策略使能训练进程的起始信息和终止信息。4.根据权利要求3所述的方法，其特征在于，所述目标设备包括第二设备及第三设备，所述第一设备接收目标设备发送的第一信息，包括：所述第一设备接收所述第三设备发送的所述第一边界参数及第二边界参数；所述第一设备接收所述第二设备发送的所述训练进程参数及AI模型属性信息。5.根据权利要求3所述的方法，其特征在于，所述第一设备基于目标推理模型的推理结果及所述时变参数信息，确定用于训练所述目标推理模型的训练样本，包括：所述第一设备基于所述第一边界参数、所述第二边界参数及所述训练进程参数，确定时变贪心参数；所述第一设备基于目标推理模型的推理结果及所述时变贪心参数，确定用于训练所述目标推理模型的训练样本。6.根据权利要求3所述的方法，其特征在于，所述第一设备基于所述第一边界参数、第二边界参数及训练进程参数，确定时变贪心参数，包括：所述第一设备基于所述第二边界参数及所述训练进程参数，确定训练进度参数；所述第一设备基于所述训练进度参数及所述第一边界参数确定时变贪心参数。7.根据权利要求1
‑
6中任一项所述的方法，其特征在于，所述第一设备基于目标推理模型的推理结果及所述时变参数信息，确定用于训练所述目标推理模型的训练样本，包括：所述第一设备基于目标推理模型的推理结果及所述时变参数信息，确定目标通信行为；其中，所述训练样本包括所述目标通信行为。8.根据权利要求7所述的方法，其特征在于，所述目标通信行为包括如下至少一项：预测信道质量最强的收发波束组合；上报信道质量最强的发送波束；选择调制和编码方案MCS；选择配对用户组合；选择配对波束。9.根据权利要求7所述的方法，其特征在于，所述第一设备基于目标推理模型的推理结果及所述时变参数信息，确定目标通信行为之前，所述方法还包括：所述第一设备将历史的状态信息输入所述目标推理模型，得到所述推理结果；其中，所述训练样本还包括所述历史的状态信息。10.根据权利要求7所述的方法，其特征在于，所述确定目标通信行为后，所述方法还包
括：所述第一设备执行所述目标通信行为；所述第一设备确定所述目标通信行为对应的目标奖励及更新的状态信息，所述目标奖励用于指示网络性能；其中，所述训练样本还包括所述目标奖励及所述更新的状态信...

【专利技术属性】
技术研发人员：周通，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人