基于情境感知的策略配置方法及策略配置系统技术方案

技术编号：19824284 阅读：27 留言：0更新日期：2018-12-19 15:36

本申请公开一种基于情境感知的策略配置方法及策略配置系统，其中，所述策略配置方法包括：当实施一目标任务时，实时感知目标任务的情境，并根据相应的情境信息和策略所属的价值函数，从一策略集中调用最优的策略，其中，所述策略集包括多个策略，所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的。如此，不仅可大大加快新的目标任务的学习，更可实现目标任务整体上的最佳学习效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于情境感知的策略配置方法及策略配置系统
本申请涉及一种基于情境感知的策略配置方法及策略配置系统。
技术介绍
近来，迁移学习已经得到的广泛的关注和研究。迁移学习是一种运用已知存在的知识对不同但相关领域问题进行求解的新的机器学习方法。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型，进而解决资源相对缺乏的目标领域的问题，即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。因此，迁移学习被认为是一种能够解决数据分布不一致所造成模型性能下降的有效学习策略，这一方法在目前的自然语言处理、语音识别、图像识别、视频分析等领域有着广泛的应用。不过，在现有的迁移学习中，主要的工作是聚焦于针对某一任务从众多习得的策略中去找到最优的或相似度最高的单一策略用来实施迁移，例如通过测量马尔科夫决策过程(MarkovDecisionProcesses，MDP)的相似度或者应用多臂赌博机(multi-armedbandit)方法进行在线探索。这种单一策略迁移的学习方式限制了迁移学习的表现，因为更多的时候，针对某一任务，并非该任务下的所有节段或场景对于所选定的那一个策略而言都是最优的，而且，其他多种不同的策略对于该任务也很可能是有用的。
技术实现思路
鉴于以上相关技术的缺失，本申请的目的在于公开一种基于情境感知的策略配置方法及配置系统，用于解决相关技术中迁移学习多是采用单一策略而导致的学习效果欠佳等问题。为实现上述目的及其他目的，本申请的第一方面公开一种基于情境感知的策略配置方法，包括以下步骤：实施一目标任务，基于情境信息和价值函数，从一策略集中调用一...

【技术保护点】
1.一种基于情境感知的策略配置方法，其特征在于，包括以下步骤：实施一目标任务，基于情境信息和价值函数，从一策略集中调用一策略；所述策略集包括多个策略，所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的，任一个所述策略具有一价值函数。

【技术特征摘要】
1.一种基于情境感知的策略配置方法，其特征在于，包括以下步骤：实施一目标任务，基于情境信息和价值函数，从一策略集中调用一策略；所述策略集包括多个策略，所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的，任一个所述策略具有一价值函数。2.根据权利要求1所述的基于情境感知的策略配置方法，其特征在于，还包括创建或调用一策略集的步骤。3.根据权利要求1所述的基于情境感知的策略配置方法，其特征在于，还包括更新价值函数中的价值的步骤。4.根据权利要求3所述的基于情境感知的策略配置方法，其特征在于，所述更新价值函数中的价值的步骤包括：在实施目标任务过程中，根据调用的一策略执行一个或多个动作而得到对应的状态；基于所述一个或多个动作和所述状态，利用价值函数计算得到调用的策略的价值以及所述策略集中其他策略的价值函数的价值。5.根据权利要求1所述的基于情境感知的策略配置方法，其特征在于，所述从一策略集中调用一策略的步骤包括：当执行的当前策略的价值函数的价值为最大时，继续执行当前策略；当执行的当前策略的价值函数的价值小于所述策略集中的其他策略时，终止当前策略，将当前策略予以返回，从所述策略集中调用价值函数的价值为最大的一策略予以执行。6.根据权利要求1所述的基于情境感知的策略配置方法，其特征在于，还包括为每一个策略设定一终止函数且更新所述终止函数中终止值的步骤。7.根据权利要求6所述的基于情境感知的策略配置方法，其特征在于，当执行的当前策略的价值函数的价值小于所述策略集中其他策略的价值函数的价值时，所述执行的当前策略的终止函数的终止值增加。8.根据权利要求7所述的基于情境感知的策略配置方法，其特征在于，所述从一策略集中调用一策略的步骤包括：当执行的当前策略的终止函数的终止值达到终止要求时，终止当前策略，将当前策略予以返回，从所述策略集中调用价值函数的价值为最大的一策略予以执行。9.根据权利要求1所述的基于情境感知的策略配置方法，其特征在于，所述策略集包括源策略，所述源策略是在与所述目标任务相关的源任务中学习得到的；基于情境信息和价值函数，从一策略集中调用一策略的步骤包括：基于情境信息，从所述策略集中调用价值函数达到最优的一源策略。10.根据权利要求9所述的基于情境感知的策略配置方法，其特征在于，所述策略集中部分或全部的源策略是基于所述目标任务而人为设计。11.根据权利要求9所述的基于情境感知的策略配置方法，其特征在于，还包括如下步骤：自所述策略集中选取部分或全部的源策略，创建策略选项集；在所述策略选项集中的每一个策略选项包括：一源策略、该源策略所适用的初始状态集和终止函数。12.根据权利要求11所述的基于情境感知的策略配置方法，其特征在于，为所述策略集中部分或全部的源策略创建策略选项集的步骤还包括：基于一目标任务的节段或场景，从所述策略集中调用与所述节段或场景相关的部分或全部的源策略。13.根据权利要求1所述的基于情境感知的策略配置方法，其特征在于，所述策略集包括源策略和基本策略，所述源策略是在与所述目标任务相关的源任务中学习得到的；基于情境信息和价值函数，从一策略集中调用一策略的步骤包括：基于情境信息，从所述策略集中调用价值函数达到最优的一源策略或一基本策略。14.根据权利要求13所述的基于情境感知的策略配置方法，其特征在于，所述策略集中部分或全部的源策略是基于所述目标任务而人为设计。15.根据权利要求13所述的基于情境感知的策略配置方法，其特征在于，所述策略集中部分或全部的基本策略是基于所述目标任务学习得到或由人为设计。16.根据权利要求13所述的基于情境感知的策略配置方法，其特征在于，所述基本策略选自如下至少一者：所述基本策略为与所述目标任务对应的特定策略；所述基本策略为一组合策略，所述组合策略为某一源策略、带有随机变量或设定参数的某一源策略、两个或多个源策略的组合、带有随机变量或设定参数的两个或多个源策略的组合；所述基本策略具有所述策略集中各个源策略共有的基本动作或是为相邻两个源策略之间的过渡动作。17.根据权利要求13所述的基于情境感知的策略配置方法，其特征在于，还包括如下步骤：自所述策略集中选取部分或全部的源策略和/或基本策略，创建策略选项集；在所述策略选项集中的每一个策略选项包括：一源策略或一基本策略、该源策略或基本策略所适用的状态集和终止函数。18.根据权利要求17所述的基于情境感知的策略配置方法，其特征在于，基于一目标任务的节段或场景，从所述策略集中调用与所述节段或场景相关的部分或全部的源策略和/或基本策略，为所述的部分或全部的源策略和/或基本策略创建策略选项集。19.一种基于情境感知的策略配置系统，其特征在于，包括：策略决定模块，用于基于情境信息和价值函数，从一策略集中调用一策略；所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的，任一...

【专利技术属性】
技术研发人员：张崇洁，李斯源，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人