当前位置: 首页 > 专利查询>清华大学专利>正文

基于情境感知的策略配置方法及策略配置系统技术方案

技术编号:19824284 阅读:27 留言:0更新日期:2018-12-19 15:36
本申请公开一种基于情境感知的策略配置方法及策略配置系统,其中,所述策略配置方法包括:当实施一目标任务时,实时感知目标任务的情境,并根据相应的情境信息和策略所属的价值函数,从一策略集中调用最优的策略,其中,所述策略集包括多个策略,所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的。如此,不仅可大大加快新的目标任务的学习,更可实现目标任务整体上的最佳学习效果。

【技术实现步骤摘要】
基于情境感知的策略配置方法及策略配置系统
本申请涉及一种基于情境感知的策略配置方法及策略配置系统。
技术介绍
近来,迁移学习已经得到的广泛的关注和研究。迁移学习是一种运用已知存在的知识对不同但相关领域问题进行求解的新的机器学习方法。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型,进而解决资源相对缺乏的目标领域的问题,即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。因此,迁移学习被认为是一种能够解决数据分布不一致所造成模型性能下降的有效学习策略,这一方法在目前的自然语言处理、语音识别、图像识别、视频分析等领域有着广泛的应用。不过,在现有的迁移学习中,主要的工作是聚焦于针对某一任务从众多习得的策略中去找到最优的或相似度最高的单一策略用来实施迁移,例如通过测量马尔科夫决策过程(MarkovDecisionProcesses,MDP)的相似度或者应用多臂赌博机(multi-armedbandit)方法进行在线探索。这种单一策略迁移的学习方式限制了迁移学习的表现,因为更多的时候,针对某一任务,并非该任务下的所有节段或场景对于所选定的那一个策略而言都是最优的,而且,其他多种不同的策略对于该任务也很可能是有用的。
技术实现思路
鉴于以上相关技术的缺失,本申请的目的在于公开一种基于情境感知的策略配置方法及配置系统,用于解决相关技术中迁移学习多是采用单一策略而导致的学习效果欠佳等问题。为实现上述目的及其他目的,本申请的第一方面公开一种基于情境感知的策略配置方法,包括以下步骤:实施一目标任务,基于情境信息和价值函数,从一策略集中调用一策略;所述策略集包括多个策略,所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的,任一个所述策略具有一价值函数。本申请的第二方面公开一种基于情境感知的策略配置系统,包括:策略决定模块,用于基于情境信息和价值函数,从一策略集中调用一策略;所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的,任一个所述策略具有一价值函数;策略执行模块,用于执行所述策略决定模块调用的一策略。本申请的第三方面公开一种计算机可读存储介质,存储有基于情境感知配置策略的计算机程序,所述计算机程序被执行时,实现如前所述基于情境感知的策略配置方法中的各个步骤。本申请的第四方面公开一种数据处理设备,包括:至少一个存储器;至少一个处理器;至少一个程序,其中,所述至少一个程序被存储在所述至少一个存储器中并被配置为由所述至少一个处理器执行指令,所述至少一个处理器执行所述执行指令使得所述数据处理设备执行如前所述基于情境感知的策略配置方法中的各个步骤。如上所述,本申请的基于情境感知的策略配置方法及策略配置系统,具有以下有益效果:提供一策略集,所述策略集中包括自相关任务中习得的多个策略,当实施一目标任务时,实时感知目标任务的情境,并根据相应的情境信息和策略所属的价值函数,从一策略集中调用最优或最相似的策略。如此,在实施一目标任务时,在目标任务的不同情境下,可从策略集中调用与当前情境相适用的最优或最相似的一策略,充分利用了策略集中各个策略的知识,不仅可大大加快新的目标任务的学习,更可实现目标任务整体上的最佳学习效果。附图说明图1显示为本申请基于情境感知的策略配置方法在一实施例中的流程示意图。图2显示为图1中步骤S13的细化流程图。图3显示为本申请基于情境感知的策略配置方法在另一实施例中的流程示意图。图4显示为图3中步骤S33的细化流程图。图5显示为本申请基于情境感知的策略配置方法在又一实施例中的流程示意图。图6显示为图5中步骤S53的细化流程图。图7显示为本申请基于情境感知的策略配置系统在一实施例中的结构示意图。图8显示为本申请基于情境感知的策略配置系统在另一实施例中的结构示意图。图9显示为本申请基于情境感知的策略配置系统在另一实施例中的结构示意图。图10显示为应用本申请基于情境感知的策略配置方法在另一示例场景中的示意图。图11显示为图10中智能体自初始位置至目标的完整轨迹的状态示意图。图12显示为应用本申请基于情境感知的策略配置方法在另一示例场景中的示意图。图13显示为图12中智能体自初始位置至目标的完整轨迹的状态示意图。图14显示为本申请的数据处理设备在一实施例中的结构示意图。具体实施方式以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效。在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本公开的精神和范围的情况下进行组成以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由本申请的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。虽然在一些实例中术语第一、第二等在本文中用来描述各种元素,但是这些元素不应当被这些术语限制。这些术语仅用来将一个元素与另一个元素进行区分。例如,第一预设阈值可以被称作第二预设阈值,并且类似地,第二预设阈值可以被称作第一预设阈值,而不脱离各种所描述的实施例的范围。第一预设阈值和预设阈值均是在描述一个阈值,但是除非上下文以其他方式明确指出,否则它们不是同一个预设阈值。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元素、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元素、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元素、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。迁移学习是一种运用已知存在的知识对不同但相关领域问题进行求解的新的机器学习方法。在相关技术中,针对新的任务,一般是聚焦于针对某一任务从众多习得的策略中去找到最优的或相似度最高的单一策略用来实施迁移,这种单一策略迁移的学习方式限制了迁移学习的表现,不能达到最佳学习效果。有鉴于此,本申请公开一种基于情境感知的策略配置方法及策略配置系统,提供一策略集,所述策略集中包括自相关任务中习得的多个策略,当实施一目标任务时,实时感知目标任务的情境,并根据相应的情境信息和策略所属的价值函数,从一策略集中调用最优或最相似的策略。如此,在实施一目标任务时,在目标任务的不同情境下,可从策略集中调用与当前情境相适用的最优或最相似的一策略,充分利用了策略集中各个策略的知识,不仅可大大加快新的目标任务的学习,更可实现目标任务整体上的最佳学习效果。所述基于情境感知的策略配置方法可由例如为计算机设备等数据处理设备来执行。所述计算机设备可以是以下合适的设备,诸如手持计算机设备、平板计算机设备、笔记本计算机、桌上型计算机、服务器等。计算机设备可包括以下一个或多个部件:显示器、输入装置、输入/输出(I/O)端口、一个或多个处理器、存储器、非易失性存储设备、网本文档来自技高网...

【技术保护点】
1.一种基于情境感知的策略配置方法,其特征在于,包括以下步骤:实施一目标任务,基于情境信息和价值函数,从一策略集中调用一策略;所述策略集包括多个策略,所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的,任一个所述策略具有一价值函数。

【技术特征摘要】
1.一种基于情境感知的策略配置方法,其特征在于,包括以下步骤:实施一目标任务,基于情境信息和价值函数,从一策略集中调用一策略;所述策略集包括多个策略,所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的,任一个所述策略具有一价值函数。2.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,还包括创建或调用一策略集的步骤。3.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,还包括更新价值函数中的价值的步骤。4.根据权利要求3所述的基于情境感知的策略配置方法,其特征在于,所述更新价值函数中的价值的步骤包括:在实施目标任务过程中,根据调用的一策略执行一个或多个动作而得到对应的状态;基于所述一个或多个动作和所述状态,利用价值函数计算得到调用的策略的价值以及所述策略集中其他策略的价值函数的价值。5.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,所述从一策略集中调用一策略的步骤包括:当执行的当前策略的价值函数的价值为最大时,继续执行当前策略;当执行的当前策略的价值函数的价值小于所述策略集中的其他策略时,终止当前策略,将当前策略予以返回,从所述策略集中调用价值函数的价值为最大的一策略予以执行。6.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,还包括为每一个策略设定一终止函数且更新所述终止函数中终止值的步骤。7.根据权利要求6所述的基于情境感知的策略配置方法,其特征在于,当执行的当前策略的价值函数的价值小于所述策略集中其他策略的价值函数的价值时,所述执行的当前策略的终止函数的终止值增加。8.根据权利要求7所述的基于情境感知的策略配置方法,其特征在于,所述从一策略集中调用一策略的步骤包括:当执行的当前策略的终止函数的终止值达到终止要求时,终止当前策略,将当前策略予以返回,从所述策略集中调用价值函数的价值为最大的一策略予以执行。9.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,所述策略集包括源策略,所述源策略是在与所述目标任务相关的源任务中学习得到的;基于情境信息和价值函数,从一策略集中调用一策略的步骤包括:基于情境信息,从所述策略集中调用价值函数达到最优的一源策略。10.根据权利要求9所述的基于情境感知的策略配置方法,其特征在于,所述策略集中部分或全部的源策略是基于所述目标任务而人为设计。11.根据权利要求9所述的基于情境感知的策略配置方法,其特征在于,还包括如下步骤:自所述策略集中选取部分或全部的源策略,创建策略选项集;在所述策略选项集中的每一个策略选项包括:一源策略、该源策略所适用的初始状态集和终止函数。12.根据权利要求11所述的基于情境感知的策略配置方法,其特征在于,为所述策略集中部分或全部的源策略创建策略选项集的步骤还包括:基于一目标任务的节段或场景,从所述策略集中调用与所述节段或场景相关的部分或全部的源策略。13.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,所述策略集包括源策略和基本策略,所述源策略是在与所述目标任务相关的源任务中学习得到的;基于情境信息和价值函数,从一策略集中调用一策略的步骤包括:基于情境信息,从所述策略集中调用价值函数达到最优的一源策略或一基本策略。14.根据权利要求13所述的基于情境感知的策略配置方法,其特征在于,所述策略集中部分或全部的源策略是基于所述目标任务而人为设计。15.根据权利要求13所述的基于情境感知的策略配置方法,其特征在于,所述策略集中部分或全部的基本策略是基于所述目标任务学习得到或由人为设计。16.根据权利要求13所述的基于情境感知的策略配置方法,其特征在于,所述基本策略选自如下至少一者:所述基本策略为与所述目标任务对应的特定策略;所述基本策略为一组合策略,所述组合策略为某一源策略、带有随机变量或设定参数的某一源策略、两个或多个源策略的组合、带有随机变量或设定参数的两个或多个源策略的组合;所述基本策略具有所述策略集中各个源策略共有的基本动作或是为相邻两个源策略之间的过渡动作。17.根据权利要求13所述的基于情境感知的策略配置方法,其特征在于,还包括如下步骤:自所述策略集中选取部分或全部的源策略和/或基本策略,创建策略选项集;在所述策略选项集中的每一个策略选项包括:一源策略或一基本策略、该源策略或基本策略所适用的状态集和终止函数。18.根据权利要求17所述的基于情境感知的策略配置方法,其特征在于,基于一目标任务的节段或场景,从所述策略集中调用与所述节段或场景相关的部分或全部的源策略和/或基本策略,为所述的部分或全部的源策略和/或基本策略创建策略选项集。19.一种基于情境感知的策略配置系统,其特征在于,包括:策略决定模块,用于基于情境信息和价值函数,从一策略集中调用一策略;所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的,任一...

【专利技术属性】
技术研发人员:张崇洁李斯源
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1