一种样本数据处理方法、样本数据处理装置及电子设备制造方法及图纸

技术编号:20364394 阅读:30 留言:0更新日期:2019-02-16 17:12
本申请公开了一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质,其中,该样本数据处理方法包括:计算重播缓冲区的各个样本数据的绝对时间差分误差值;分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级;将优先级高于预设优先级的样本数据作为待训练的样本数据。通过本申请方案,可基于样本数据的优先级对重播缓冲区的样本数据进行数据剪枝操作,使得重播缓冲区保留更有价值的样本数据。

【技术实现步骤摘要】
一种样本数据处理方法、样本数据处理装置及电子设备
本申请属于信息处理
,尤其涉及一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质。
技术介绍
深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法是当前较为受欢迎的深度学习算法。在智能体通过该DDPG算法进行训练的过程中,需要使用到大量的样本数据进行训练。这些大量的样本数据被存储于重播缓冲区中,当需要使用到样本数据时,将通过批处理的方式在重播缓冲区中对样本数据进行随机采样。然而,重播缓冲区中的样本数据是按顺序获取并存放的,这将导致重播缓冲区中的样本数据高度相关,使得在对样本数据随机采样时,容易采样到高度相关的样本数据,导致无法基于采样得到的样本数据获得更好的训练效果,一定程度上影响了智能体的训练效率。
技术实现思路
有鉴于此,本申请提供了一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质,可使得重播缓冲区中保留更有价值的样本数据,以提升训练效果。本申请的第一方面提供了一样本数据处理方法,包括:计算重播缓冲区的各个样本数据的绝对时间差分误差值;分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级;将优先级高于预设优先级的样本数据作为待训练的样本数据。本申请的第二方面提供了一种样本数据处理装置,包括:计算单元,用于计算重播缓冲区的各个样本数据的绝对时间差分误差值;确定单元,用于分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级;筛选单元,用于将优先级高于预设优先级的样本数据作为待训练的样本数据。本申请的第三方面提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上第一方面的方法的步骤。本申请的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上第一方面的方法的步骤。本申请的第五方面提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。由上可见,通过本申请方案,首先计算重播缓冲区的各个样本数据的绝对时间差分误差值,然后分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级,最后将优先级高于预设优先级的样本数据作为待训练的样本数据。在本申请方案中,可基于样本数据的优先级对重播缓冲区的样本数据进行数据剪枝操作,使得重播缓冲区保留更有价值的样本数据。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的样本数据处理方法的实现流程示意图;图2是本申请实施例提供的样本数据处理装置的结构框图;图3是本申请实施例提供的电子设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。本申请实施例中所提供的样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质具体可基于DDPG算法设计,为了更好对本申请实施例所提出的样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质作出解释及说明,此处先对上述DDPG算法作出介绍。上述DDPG算法是一种无模型的、非策略的行为(actor)-批评家(critic)算法,其通过使用深度函数逼近器,可以在高维连续的动作空间中学习策略。上述DDPG算法利用两种神经网络,对actor和critic进行近似。上述DDPG算法只需要一个简单的行为-批评家体系结构和强化学习算法,及可通过很少的“移动部件”完成更多的扩展、间接更难的问题并构建更大的网络。在强化学习算法中,定义每一个时间步长为t,智能体所接受到的一个观测为xt,所采取一个行为为at并接受一个奖励值rt。一般来说,环境可能是部分观察到的,所以针对观察的整个历史,可通过定义st=(x1,a1,……,at-1,xt-1)来描述环境的状态。在理想状态下,假定环境能够被完全观察到,则st=xt。一个代理的行为是由策略π定义的,它将状态映射到行为上的概率分布为S→P(A)。此处,将其建模为马尔可夫决策过程(MarkovDecisionProcess,MDP),具有状态空间S,行为空间A,初始状态分布p(s1),转换p(st+1|st,at),以及奖励函数r(st,at)等参数。将上述策略π应用于MDP中用于定义马尔可夫链,并用Eπ来表示该马尔可夫链的期望。从一个状态返回的值被定义为折扣未来回报的总和,表达为其中,折扣因子γ∈[0,1]。上述强化学习的目标是学习一种策略,它能最大程度地从开始状态Eπ[R1]获得预期的回报。动作值函数Q用于表示在状态st和之后的策略π中所采取的动作at的期望回报。其中,上述Q函数定义为:上式中的各项参数已在前文中有所解释,此处不再赘述;通过Bellman方程可以得到:Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]其中,如果目标策略是确定性的,则可以将其描述为一个函数μ:S←A,并避免内部期望:为了将上述DDPG算法从离散空间应用到连续状态空间,设计了两种深度神经网络。在DDPG算法中,actor和critic都通过带参数的深度神经网络(DeepNeuralNetwork,DNN)来近似。对上述critic网络的训练为基于最小化的损失函数L,具体通过下式表示:在上述中,i表示的为之前的参数t,也即是说,在上式中,以i来表示t。继续通过θQ参数化函数近似器,其中yi表示为:yi=r(si,ai)+γQ′(si+1,μ′(si+1|θμ′)|θQ′)进一步地他,通过DDPG算法更新actor网络的参数,所采用的公式为:以上即为DDPG算法的实现流程,在上述DDPG算法中,将在重播缓冲区中缓存通过actor网络所得到的数据(st,at,rt,st+1)作为样本数据。为了说明本申请所提出的样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质的技术方案,下面通过具体实施例来进行说明。实施例一下面对本申请实施例提供的一种样本数据处理方法进行描述,请参阅图1,本申请实施例中的样本数据处理方法包括:在步骤101中,计算重播缓冲区的各个样本数据的绝对时间差分误差值;在本申请实施例中,可以是在重播缓冲区每次接收并缓存新的样本数据时,就计算该样本数据的时间差分误差值(TemporalDifferenceError,TD-Error)的绝对值,上述TD-Error隐含反映了代理可以从该样本数据中学习的程度,可以认为,上述TD-Error的绝对值越大,则通过该样本数据修正语气动作值的正确率越高,也即该样本数据更本文档来自技高网...

【技术保护点】
1.一种样本数据处理方法,其特征在于,包括:计算重播缓冲区的各个样本数据的绝对时间差分误差值;分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级;将优先级高于预设优先级的样本数据作为待训练的样本数据。

【技术特征摘要】
1.一种样本数据处理方法,其特征在于,包括:计算重播缓冲区的各个样本数据的绝对时间差分误差值;分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级;将优先级高于预设优先级的样本数据作为待训练的样本数据。2.如权利要求1所述的样本数据处理方法,其特征在于,所述将优先级高于预设优先级的样本数据作为训练样本,包括:在待训练的样本数据中,依次计算每一样本数据与其它样本数据的相似度;基于每一样本数据与其它样本数据的相似度,确定待丢弃的样本数据;将所述待丢弃的样本数据从所述待训练的样本数据中随机丢弃。3.如权利要求2所述的样本数据处理方法,其特征在于,所述在待训练的样本数据中,依次计算每一样本数据与其它样本数据的相似度,包括:针对待训练的样本数据中的任一样本数据,根据高斯核函数计算所述样本数据与各个其它样本数据的欧式距离;基于所述样本数据与各个其它样本数据的欧式距离,根据预设归一化计算公式计算得到所述样本数据的归一化反惟一性值,其中,所述归一化反惟一性值指示了所述样本数据与其他样本数据的相似度。4.如权利要求3所述的样本数据处理方法,其特征在于,所述高斯核函数包括:其中,上述G(ti,tj)的计算结果为样本数据ti与样本数据tj的欧式距离,所述σ为高斯核函数的宽度参数;定义独特值vi为:则所述预设归一化计算公式包括:其中,P(reserveti)为样本数据ti的归一化反惟一性值,N为待训练的样本数据的总数量。5.如权利要求1至4任一项所述的样本数据处理方法,其特征在于,所述计算重播缓冲区的各个样本数据的绝对时间差分误差值,包括:获取所述重播缓冲区已被占用的空间容量;当所述...

【专利技术属性】
技术研发人员:程俊向卉张锲石
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1