强化学习模型训练方法、免打扰控制方法及其系统技术方案

技术编号：41268926 阅读：5 留言：0更新日期：2024-05-11 09:24

本发明专利技术提供一种强化学习模型训练方法、免打扰控制方法及其系统，其中，强化学习模型训练方法包括：获取训练数据；训练数据包括多个时间段信息和与时间段信息对应的免打扰需求信息；其中，时间段信息基于预设历史周期内用户对智能终端设备的应用程序的不同使用情况确定；利用训练数据对强化学习模型进行训练，以得到用于预测用户的免打扰需求的强化学习模型。本发明专利技术基于强化学习模型的智能学习算法策略，在减少用户手动设置的前提下，对不同用户的免打扰需求进行探索和学习，实现智能终端设备的免打扰策略的用户个性化定制和强化学习模型参数的实时更新，以使细化智能终端设备的免打扰设置，提升用户的使用体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信，尤其涉及一种强化学习模型训练方法、免打扰控制方法及其系统。

技术介绍

1、现有的手机等智能终端设备通常只有粗略的免打扰模式，用户只能通过打开或者关闭免打扰功能键来允许所有通知或者拦截所有通知。然而用户在实际使用中，在一天内对应用程序的通知需求是会发生变化的，因此当前粗略的免打扰模式不能充分从用户实际使用场景来考虑，不能够满足用户的需求。

技术实现思路

1、本专利技术要解决的技术问题是为了克服现有技术中存在智能终端设备不能智能调整免打扰策略的缺陷，提供一种强化学习模型训练方法、免打扰控制方法及其系统。

2、本专利技术是通过下述技术方案来解决上述技术问题：

3、本专利技术提供一种强化学习模型训练方法，所述强化学习模型训练方法包括：

4、获取训练数据；所述训练数据包括多个时间段信息和与所述时间段信息对应的免打扰需求信息；

5、其中，所述时间段信息基于预设历史周期内用户对智能终端设备的应用程序的不同使用情况确定；

6、利用所述训练数据对强化学习模型进行训练，以得到用于预测用户的免打扰需求的强化学习模型。

7、优选地，所述利用所述训练数据对强化学习模型进行训练，以得到用于预测用户的免打扰需求的强化学习模型的步骤后包括：

8、获取用户的反馈数据；

9、其中，所述反馈数据包括第一调整数据和/或第二调整数据；所述第一调整数据用于表征用户对免打扰需求信息的调整数据；所述第二调整数据用于

10、将所述反馈数据作为输入，更新所述强化学习模型。

11、优选地，所述使用情况包括以下至少一种：

12、用户不使用所述智能终端设备的应用程序；

13、用户使用所述智能终端设备的同一类型的应用程序；

14、用户使用所述智能终端设备的多种类型的应用程序。

15、优选地，所述强化学习模型基于深度学习的q-learing算法训练得到。

16、本专利技术还提供一种智能终端设备的免打扰控制方法，所述智能终端设备的免打扰控制方法包括：

17、获取当前时间段；

18、通过强化学习模型处理所述当前时间段，以预测用户的免打扰需求；

19、其中，所述强化学习模型通过如上述的强化学习模型训练方法训练得到；

20、根据所述免打扰需求确定所述智能终端设备的免打扰策略。

21、优选地，所述根据所述免打扰需求确定所述智能终端设备的免打扰策略的步骤前还包括：

22、获取用户的更新指令；

23、根据所述更新指令更新所述免打扰需求。

24、优选地，所述智能终端设备的免打扰控制方法还包括：

25、在所述强化学习模型更新后，存储当前免打扰策略和历史免打扰策略；

26、根据用户的选择指令，确定所述当前免打扰策略或所述历史免打扰策略作为所述智能终端设备的最终免打扰策略。

27、本专利技术还提供一种强化学习模型训练系统，所述强化学习模型训练系统包括：

28、第一获取模块，用于获取训练数据；所述训练数据包括多个时间段信息和与所述时间段信息对应的免打扰需求信息；

29、其中，所述时间段信息基于预设历史周期内用户对智能终端设备的应用程序的不同使用情况确定；

30、训练模块，用于利用所述训练数据对强化学习模型进行训练，以得到用于预测用户的免打扰需求的强化学习模型。

31、本专利技术还提供一种智能终端设备的免打扰控制系统，所述智能终端设备的免打扰控制系统包括：

32、第二获取模块，用于获取当前时间段；

33、预测模块，用于通过强化学习模型处理所述当前时间段，以预测用户的免打扰需求；

34、其中，所述强化学习模型通过如上述的强化学习模型训练方法训练得到；

35、确定模块，用于根据所述免打扰需求确定所述智能终端设备的免打扰策略。

36、本专利技术还提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的强化学习模型训练方法，和/或如上述的智能终端设备的免打扰控制方法。

37、本专利技术还提供一种芯片，应用于电子设备，所述芯片用于执行如上述的强化学习模型训练方法，和/或如上述的智能终端设备的免打扰控制方法。

38、本专利技术还提供一种芯片模组，应用于电子设备，包括收发组件和芯片，所述芯片，用于执行如上述的强化学习模型训练方法，和/或如上述的智能终端设备的免打扰控制方法。

39、本专利技术还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的强化学习模型训练方法，和/或如上述的智能终端设备的免打扰控制方法。

40、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述的强化学习模型训练方法，和/或如上述的智能终端设备的免打扰控制方法。

41、在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本专利技术各较佳实例。

42、本专利技术的积极进步效果在于：

43、本专利技术基于强化学习模型的智能学习算法策略，在减少用户手动设置的前提下，对不同用户的免打扰需求进行探索和学习，实现智能终端设备的免打扰策略的用户个性化定制和强化学习模型参数的实时更新，以使细化智能终端设备的免打扰设置，提升用户的使用体验。

本文档来自技高网...

【技术保护点】

1.一种强化学习模型训练方法，其特征在于，所述强化学习模型训练方法包括：

2.如权利要求1所述的强化学习模型训练方法，其特征在于，所述利用所述训练数据对强化学习模型进行训练，以得到用于预测用户的免打扰需求的强化学习模型的步骤后包括：

3.如权利要求1所述的强化学习模型训练方法，其特征在于，所述使用情况包括以下至少一种：

4.如权利要求1所述的强化学习模型训练方法，其特征在于，所述强化学习模型基于深度学习的Q-Learing算法训练得到。

5.一种智能终端设备的免打扰控制方法，其特征在于，所述智能终端设备的免打扰控制方法包括：

6.如权利要求5所述的智能终端设备的免打扰控制方法，其特征在于，所述根据所述免打扰需求确定所述智能终端设备的免打扰策略的步骤前还包括：

7.如权利要求5所述的智能终端设备的免打扰控制方法，其特征在于，所述智能终端设备的免打扰控制方法还包括：

8.一种强化学习模型训练系统，其特征在于，所述强化学习模型训练系统包括：

9.一种智能终端设备的免打扰控制系统，其特征在于，

10.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的强化学习模型训练方法，和/或如权利要求5-7中任一项所述的智能终端设备的免打扰控制方法。

11.一种芯片，应用于电子设备，其特征在于，所述芯片用于执行如权利要求1-4任一项所述的强化学习模型训练方法，和/或如权利要求5-7中任一项所述的智能终端设备的免打扰控制方法。

12.一种芯片模组，应用于电子设备，其特征在于，包括收发组件和芯片，所述芯片，用于执行如权利要求1-4任一项所述的强化学习模型训练方法，和/或如权利要求5-7中任一项所述的智能终端设备的免打扰控制方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的强化学习模型训练方法，和/或如权利要求5-7中任一项所述的智能终端设备的免打扰控制方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的强化学习模型训练方法，和/或如权利要求5-7中任一项所述的智能终端设备的免打扰控制方法。

...

【技术特征摘要】

1.一种强化学习模型训练方法，其特征在于，所述强化学习模型训练方法包括：

3.如权利要求1所述的强化学习模型训练方法，其特征在于，所述使用情况包括以下至少一种：

4.如权利要求1所述的强化学习模型训练方法，其特征在于，所述强化学习模型基于深度学习的q-learing算法训练得到。

5.一种智能终端设备的免打扰控制方法，其特征在于，所述智能终端设备的免打扰控制方法包括：

6.如权利要求5所述的智能终端设备的免打扰控制方法，其特征在于，所述根据所述免打扰需求确定所述智能终端设备的免打扰策略的步骤前还包括：

7.如权利要求5所述的智能终端设备的免打扰控制方法，其特征在于，所述智能终端设备的免打扰控制方法还包括：

8.一种强化学习模型训练系统，其特征在于，所述强化学习模型训练系统包括：

9.一种智能终端设备的免打扰控制系统，其特征在于，所述智能终端设备的免打扰控制系统包括：

10.一种电子设备，包括存...

【专利技术属性】
技术研发人员：商聪，张宁，
申请(专利权)人：展讯通信天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人