一种样本数据处理方法、样本数据处理装置及电子设备制造方法及图纸

技术编号：20364394 阅读：30 留言：0更新日期：2019-02-16 17:12

本申请公开了一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质，其中，该样本数据处理方法包括：计算重播缓冲区的各个样本数据的绝对时间差分误差值；分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级；将优先级高于预设优先级的样本数据作为待训练的样本数据。通过本申请方案，可基于样本数据的优先级对重播缓冲区的样本数据进行数据剪枝操作，使得重播缓冲区保留更有价值的样本数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种样本数据处理方法、样本数据处理装置及电子设备
本申请属于信息处理
，尤其涉及一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质。
技术介绍
深度确定性策略梯度(DeepDeterministicPolicyGradient，DDPG)算法是当前较为受欢迎的深度学习算法。在智能体通过该DDPG算法进行训练的过程中，需要使用到大量的样本数据进行训练。这些大量的样本数据被存储于重播缓冲区中，当需要使用到样本数据时，将通过批处理的方式在重播缓冲区中对样本数据进行随机采样。然而，重播缓冲区中的样本数据是按顺序获取并存放的，这将导致重播缓冲区中的样本数据高度相关，使得在对样本数据随机采样时，容易采样到高度相关的样本数据，导致无法基于采样得到的样本数据获得更好的训练效果，一定程度上影响了智能体的训练效率。
技术实现思路
有鉴于此，本申请提供了一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质，可使得重播缓冲区中保留更有价值的样本数据，以提升训练效果。本申请的第一方面提供了一样本数据处理方法，包括：计算重播缓冲区的各个样本数据的绝对时间差分误差值；分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级；将优先级高于预设优先级的样本数据作为待训练的样本数据。本申请的第二方面提供了一种样本数据处理装置，包括：计算单元，用于计算重播缓冲区的各个样本数据的绝对时间差分误差值；确定单元，用于分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级；筛选单元，用于将优先级高于预设优先级的样本数据作为待训练的样本数据。本申请的...

【技术保护点】
1.一种样本数据处理方法，其特征在于，包括：计算重播缓冲区的各个样本数据的绝对时间差分误差值；分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级；将优先级高于预设优先级的样本数据作为待训练的样本数据。

【技术特征摘要】
1.一种样本数据处理方法，其特征在于，包括：计算重播缓冲区的各个样本数据的绝对时间差分误差值；分别根据各个样本数据的绝对时间差分误差值确定各个样本数据的优先级；将优先级高于预设优先级的样本数据作为待训练的样本数据。2.如权利要求1所述的样本数据处理方法，其特征在于，所述将优先级高于预设优先级的样本数据作为训练样本，包括：在待训练的样本数据中，依次计算每一样本数据与其它样本数据的相似度；基于每一样本数据与其它样本数据的相似度，确定待丢弃的样本数据；将所述待丢弃的样本数据从所述待训练的样本数据中随机丢弃。3.如权利要求2所述的样本数据处理方法，其特征在于，所述在待训练的样本数据中，依次计算每一样本数据与其它样本数据的相似度，包括：针对待训练的样本数据中的任一样本数据，根据高斯核函数计算所述样本数据与各个其它样本数据的欧式距离；基于所述样本数据与各个其它样本数据的欧式距离，根据预设归一化计算公式计算得到所述样本数据的归一化反惟一性值，其中，所述归一化反惟一性值指示了所述样本数据与其他样本数据的相似度。4.如权利要求3所述的样本数据处理方法，其特征在于，所述高斯核函数包括：其中，上述G(ti,tj)的计算结果为样本数据ti与样本数据tj的欧式距离，所述σ为高斯核函数的宽度参数；定义独特值vi为：则所述预设归一化计算公式包括：其中，P(reserveti)为样本数据ti的归一化反惟一性值，N为待训练的样本数据的总数量。5.如权利要求1至4任一项所述的样本数据处理方法，其特征在于，所述计算重播缓冲区的各个样本数据的绝对时间差分误差值，包括：获取所述重播缓冲区已被占用的空间容量；当所述...

【专利技术属性】
技术研发人员：程俊，向卉，张锲石，
申请(专利权)人：深圳先进技术研究院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人