A sample playback data access method and device are disclosed. Configuration record information table, batch information table, data content table; For any data to be stored, the following storage operations are performed: allocate record identification for the data to be stored according to the record information table; allocate batch identification for the data to be stored according to the batch information table; and according to the storage structure of the data content table, The allocated record identification, batch identification and the content of the data to be stored are stitched together, and the stitching results are written into the data content table; the record information table and batch information table are updated.
【技术实现步骤摘要】
一种样本回放数据存取方法及装置
本说明书实施例涉及机器学习
,尤其涉及一种样本回放数据存取方法及装置。
技术介绍
目前,人工智能已经成为各个行业的研究热点,机器学习(或深度学习)算法是实现人工智能的关键技术,目前一些算法已经开始应用于解决实际业务需求。同时研究人员也发现,除算法之外的一些其他周边问题,例如数据存取、硬件资源占用等,在新的应用场景下也产生了新的需求,一些传统的成熟方案已经不再适用。以强化学习中样本回放需求为例,在强化学习中,为了进行训练需要对之前的行为样本进行回放以作为模型学习的输入。样本回放在强化学习中起到连接行为收益与迭代训练之间的桥梁作用,为了提升学习效果,样本回放可以采用多种回放策略,例如顺序回放、随机回放、按批次回放、按指定概率抽样回放等等。这些策略在理论算法上都是支持的,并且在实验环境中都能够分别顺利实现,然而在实际应用中,需要在一个业务场景中灵活切换各种回放策略,有时还需要考虑分布式业务环境、数据吞吐量庞大等实际问题,目前并没有方案能够满足这些需求。
技术实现思路
针对上述技术问题,本说明书实施例提供一种样本回放数据存取方法及装置,技术方案如下:根据本说明书实施例的第1方面,提供一种样本回放数据存储方法,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;对于任一条待存储数据,执行以下操作:根据记录信息表,为所述待存储数据分配记录标识 ...
【技术保护点】
1.一种样本回放数据存储方法,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;对于任一条待存储数据,执行以下操作:根据记录信息表,为所述待存储数据分配记录标识;根据批次信息表,为所述待存储数据分配批次标识;根据数据内容表的存储结构,对所分配的记录标识、批次标识以及所述待存储数据的内容进行拼接、并将拼接结果写入数据内容表;对记录信息表、批次信息表进行更新。
【技术特征摘要】
1.一种样本回放数据存储方法,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;对于任一条待存储数据,执行以下操作:根据记录信息表,为所述待存储数据分配记录标识;根据批次信息表,为所述待存储数据分配批次标识;根据数据内容表的存储结构,对所分配的记录标识、批次标识以及所述待存储数据的内容进行拼接、并将拼接结果写入数据内容表;对记录信息表、批次信息表进行更新。2.根据权利要求1所述的方法,所述为所述待存储数据分配批次标识,包括:判断所述待存储数据与上一条存储的数据批次是否相同;如果是,则为所述待存储数据分配与上一条存储的数据相同的批次标识;否则为所述待存储数据分配新的批次标识。3.根据权利要求1所述的方法,针对一条待存储数据,拼接两条记录并写入数据内容表,所述两条记录分别为:携带批次标识的记录,用于实现按批次回放需求;不携带批次标识的记录,用于实现全局回放需求。4.根据权利要求1所述的方法,所述记录信息表,还用于存储已写入的样本回放数据的记录总数;所述对记录信息表进行更新,还包括:对所述记录总数进行更新。5.根据权利要求1所述的方法,所述批次信息表,还用于存储已写入的样本回放数据的批次总数;所述对批次信息表进行更新,还包括:对所述批次总数进行更新。6.根据权利要求1所述的方法,针对所述数据内容表,预先配置允许存储的样本回放数据的记录数量最大值;所述为待存储数据分配记录标识,包括:以所述记录数量最大值为计数周期,为待存储数据分配记录标识。7.根据权利要求1所述的方法,针对所述数据内容表,预先配置允许存储的样本回放数据的批次数量最大值;所述为待存储数据分配批次标识,包括:以所述批次数量最大值为计数周期,为待存储数据分配批次标识。8.根据权利要求1所述的方法,所述记录信息表、批次信息表、数据内容表,利用业务标识字段作为关联字段,以支持多种业务数据的复用存储。9.一种样本回放数据读取方法,该方法包括:确定回放需求为:随机选取记录回放;根据记录信息表,获得已写入的样本回放数据的记录总数sum;生成随机数数组,所述随机数数组中包括从sum个记录标识中选取的n个随机值,其中n为回放所需的样本记录数量;遍历所述随机数数组执行以下步骤,得到n条样本回放数据记录:以数组中的任一数值作为记录标识,从数据内容表中读取具有该记录标识的样本回放数据。10.根据权利要求1所述的方法,所述回放需求具体为:按照指定概率随机选取记录回放;所述方法还包括:针对所得到的每条样本回放数据记录,确定为该条样本记录指定的被选中概率;生成一随机值,如果该随机值小于该条记录的指定被选中概率,则保留该条记录,否则丢弃该条记录;若保留的记录总数未达到n,则重复所述生成随机数数组步骤、所述遍历步骤以及所述保留/丢弃步骤,直到保留的记录数量达到n。11.一种样本回放数据读取方法,该方法包括:确定回放需求为:随机选取批次回放;根据批次信息表,获得已写入的样本回放数据的批次总数batch_sum;生成随机数数组,所述随机数数组中包括从batch_sum个记录标识中选取的n个随机值,其中n为回放所需的样本批次数量;遍历所述随机数数组执行以下步骤,得到n个样本回放数据批次:以数组中的任一个数值作为批次标识,从数据内容表中读取具有该批次标识的样本回放数据。12.一种样本回放数据存储装置,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;所述装置包括:标识分配模块、内容写入模块、信...
【专利技术属性】
技术研发人员:魏宏,张晓明,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。