设置媒体帧输出质量的方法和系统技术方案

技术编号:2853214 阅读:241 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于设置下一个媒体帧的输出质量的方法和系统,包括:应用程序装置,用于提供下一个媒体帧的多个输出质量的输出质量;以及控制装置,用于根据自学控制策略来设置下一个媒体帧的输出质量,该自学控制策略利用处理时间和在先媒体帧的输出质量来确定下一个媒体帧的输出质量。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种设置下一个媒体帧的输出质量的方法;其中,由媒体处理应用程序提供输出质量;以及该媒体处理应用程序被设计用来提供下一个媒体帧的多个输出质量。本专利技术进一步涉及一种设置下一个媒体帧的输出质量的系统;包括应用程序装置,用于提供下一个媒体帧的多个输出质量的输出质量。本专利技术进一步涉及一种被设计用来执行这种方法的计算机程序产品。本专利技术进一步涉及一种包括这种计算机程序产品的存储设备。本专利技术进一步涉及一种包括这种系统的电视机。WO2002/019095中公开了这种方法和系统的一个实施例。此处,描述了运行算法的方法以及描述了在像VCR、DVD-RW、硬盘这样的系统上或在互联网链接上的一种可升级可编程处理设备。该算法被设计用来处理例如在提供多个质量等级的处理时的视频帧这样的媒体帧。每个质量等级需要大量的资源。取决于不同质量等级的不同需要,将可用资源的预算指定给该算法以便提供能够接受的媒体帧的输出质量。然而,媒体流的内容会随着时间的变化而改变,这导致了随着时间变化的媒体处理算法的资源需求的不同。由于资源是有限的,可能会发生错过截止期限。为了缓和这一点,媒体算法可以在比默认质量等级低的质量等级中运行,导致了相应较低的资源需求。本专利技术的一个目的是提供一种根据开头段落所述的以一种改进方式来设置媒体帧质量的方法。为了实现这个目的,该方法包括根据自学控制策略来设置下一个媒体帧的输出质量,该自学控制策略利用处理时间和在先媒体帧的输出质量来判断下一个媒体帧的输出质量。权利要求2中描述了根据本专利技术方法的一个实施例,其中该方法包括处理在先媒体帧;判断包括所处理的在先媒体帧的相对进度值、所处理的在先媒体帧的按比例预算值、以及所处理的在先媒体帧的输出质量的状态;根据该状态以及下一个媒体帧的可能输出质量来判断收益。权利要求3中描述了根据本专利技术方法的一个实施例,其中收益是基于多个被错过的截止期限、在先媒体帧的输出质量、以及质量改变的。权利要求4中描述了根据本专利技术方法的一个实施例,其中确定有限数量个状态的收益,该有限数量个状态由按比例预算值的有限集合和相对进度值的有限集合来确定。权利要求5中描述了根据本专利技术方法的一个实施例,包括减少状态的数目,其中通过减少仅在所处理的在先媒体帧的输出质量方面不同的那些状态而确定状态的收益。本专利技术的一个目的是提供一种根据开头段落所述的以一种改进方式来设置媒体帧输出质量的系统。为了实现这个目的,该系统包括控制装置,用于根据自学控制策略来设置下一个媒体帧的输出质量,该自学控制策略利用处理时间和在先媒体帧的输出质量来判断下一个媒体帧的输出质量。权利要求7和8描述了根据本专利技术系统的实施例。如由以下图中所示那样,从下文所述实施例中本专利技术的这些及其他方面将变得显而易见并且参考下文所述实施例来阐明本专利技术的这些及其他方面。附图说明图1示出了加强学习中的代理环境交互;图2示出了基本的可升级视频处理任务;图3通过时间线的例子示出了任务的处理行为;图4通过时间线的另一个例子示出了任务的处理行为;图5示出了b=P/2的时间线例子;图6示出了b=P/2的时间线另一个例子;图7显示了马尔可夫策略空间中的一个平面;图8示出了三个质量等级的状态空间的例子;图9以示意图方式示出了根据本专利技术系统的主要部分。图1示出了加强学习(Reinforcement Learning)中的代理环境交互。加强学习(RL)是一种从交互中有意图地学习的计算方法,例如参见R.S.Sutton和A.G.Barto的Reinforcement Learninganintroduction,MIT Press,Cambridge,MA 1998。它是学习做什么-怎么将状态映射到操作上-以便最大化数字收益信号。学习器和决策制定器被称作是代理。将包括代理之外所有事物的它与之交互的东西称作是环境。不告诉代理要采取哪些操作,但是必须通过试验这些操作来发现哪些操作会产生最大收益。操作可能不仅影响直接收益而且影响下一个情形以及由此而影响所有后续收益。试错法搜索和延迟收益这两个特性是RL的两个最主要的区别特征。不是通过将学习方法特性化而是通过将学习问题特性化来定义RL。认为非常适合于解决那个问题的所有方法都是RL方法。RL中的任务之一是调查和利用之间的权衡。为了获得许多收益,RL代理必须习惯于选择它过去试验过的和认为在产生收益中有效的操作。但是为了发现这种操作,不得不尝试它之前没有选择过的操作。代理不得不利用它早已知道的东西以便获得收益,但是它也不得不调查以便将来做出更好的操作选择。进退两难的局面是在任务不失败的情况下通常既不仅仅进行调查又不仅仅进行利用。代理必须尝试各种操作以及逐渐地喜爱那些看起来最佳的操作。在随机任务上,必须多次尝试每种操作以获得它预期收益的可靠估计量。除代理和环境之外,人们可以识别RL系统的三个主要子元素策略、收益函数以及值函数。策略定义了在给定时刻所执行的代理方法。策略是从环境状态到那些状态中所采取操作的映射。通常,策略可能是随机的。收益函数定义了RL问题中的目标。它将环境的每个感知状态(或状态-操作对)映射到表示那个状态内在需求的一个数目,即收益。RL代理的唯一目的是为了将它在长期运行中收到的总收益最大化。收益函数可能是随机的。值函数指定了在长期运行中什么是好的。状态的值是代理可期待从那个状态开始到将来进行累加的收益总量。然而收益确定了环境状态的直接、内在需求,值表示在考虑很可能跟随在应用该策略之后的状态之后的状态长远需求、以及在那些状态中可获得的收益。值必须从代理在其整个使用期限中制定的观测值序列中被估计以及重新估计。代理100和环境102不断地交互,代理100选择操作而环境102响应那些操作并向代理呈现新情形。环境102也产生收益,即代理100试图随着时间的变化而最大化的特定数值。在每个离散时间步进序列t=0,1,2,3,…处代理100和环境102进行交互。在每个时间步进t,代理100收到环境状态的某些表示st∈S,其中S是环境状态集合,并且在那个基础上选择一种操作,at∈A(st),其中A(st)是状态st中可获得的操作的集合。一次时间步进以后,在某种程度上由于它的操作,代理100收到一个数字收益, 以及环境状态st+1的新表示。在每个时间步进t,代理100实现了从状态到选择每个可能操作的可能性的映射。将这个映射称作代理的策略并且由πt来表示这个映射,其中πt(s,a)是如果st=s则at=a的可能性。策略也可能是确定性的,其意味着将每个状态映射到单个操作。RL方法指定了代理100如何根据它的经验改变它的策略。大概说来,代理的目标是为了将它长期运行中收到的收益总量最大化。在RL中,根据从环境102向代理100传送的特定收益信号而形式化代理100的目标。在每个时间步进t>0,收益是简单的数字, 非正式地,代理100的目标是为了将它收到的收益总量最大化。这意味着不是最大化直接收益而是最大化长期运行中累积的收益。如果预计代理100要执行,则必须以这样一种方法向它提供收益以致在最大化收益中代理100也将实现该目标。因此,必须建立收益以便收益与目标相平衡。RL代理的目标是为了将它在长期运行中收到的收益最大化。通常,预计最大化期望报酬,其中将本文档来自技高网...

【技术保护点】
设置下一个媒体帧的输出质量的方法,其中由媒体处理应用程序来提供输出质量;媒体处理应用程序被设计用来提供下一个媒体帧的多个输出质量;以及根据自学控制策略来设置下一个媒体帧的输出质量,该自学控制策略利用处理时间和在先媒体 帧的输出质量来确定下一个媒体帧的输出质量。

【技术特征摘要】
【国外来华专利技术】EP 2003-4-23 03076189.41.设置下一个媒体帧的输出质量的方法,其中由媒体处理应用程序来提供输出质量;媒体处理应用程序被设计用来提供下一个媒体帧的多个输出质量;以及根据自学控制策略来设置下一个媒体帧的输出质量,该自学控制策略利用处理时间和在先媒体帧的输出质量来确定下一个媒体帧的输出质量。2.根据权利要求1的方法,该方法包括处理在先媒体帧;判断状态,其包括所处理的在先媒体帧的相对进度值;所处理的在先媒体帧的按比例预算值;以及所处理的在先媒体帧的输出质量;根据该状态以及下一个媒体帧的可能输出质量来判断收益。3.根据权利要求2的方法,其中收益基于多个被错过的截止期限、在先媒体帧的输出质量、以及质量改变。4.根据权利要求2的方法,其中确定对于有限数量个状态的收益,该有限数量个状态由按比例预算值的有限集合和相对进度值的有限集合来确定。5.根据权利要求2的方法,包括减少状态的数目,通过减少仅在所处理的在先媒体帧的输出质量方面不同的那些状...

【专利技术属性】
技术研发人员:WFJ维哈格CC伍斯特
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1