一种样本回放数据存取方法及装置制造方法及图纸

技术编号:18940720 阅读:27 留言:0更新日期:2018-09-15 11:06
公开了一种样本回放数据存取方法及装置。配置记录信息表、批次信息表、数据内容表;对于任一条待存储数据,执行以下存储操作:根据记录信息表,为所述待存储数据分配记录标识;根据批次信息表,为所述待存储数据分配批次标识;根据数据内容表的存储结构,对所分配的记录标识、批次标识以及所述待存储数据的内容进行拼接、并将拼接结果写入数据内容表;对记录信息表、批次信息表进行更新。

A sample playback data access method and device

A sample playback data access method and device are disclosed. Configuration record information table, batch information table, data content table; For any data to be stored, the following storage operations are performed: allocate record identification for the data to be stored according to the record information table; allocate batch identification for the data to be stored according to the batch information table; and according to the storage structure of the data content table, The allocated record identification, batch identification and the content of the data to be stored are stitched together, and the stitching results are written into the data content table; the record information table and batch information table are updated.

【技术实现步骤摘要】
一种样本回放数据存取方法及装置
本说明书实施例涉及机器学习
,尤其涉及一种样本回放数据存取方法及装置。
技术介绍
目前,人工智能已经成为各个行业的研究热点,机器学习(或深度学习)算法是实现人工智能的关键技术,目前一些算法已经开始应用于解决实际业务需求。同时研究人员也发现,除算法之外的一些其他周边问题,例如数据存取、硬件资源占用等,在新的应用场景下也产生了新的需求,一些传统的成熟方案已经不再适用。以强化学习中样本回放需求为例,在强化学习中,为了进行训练需要对之前的行为样本进行回放以作为模型学习的输入。样本回放在强化学习中起到连接行为收益与迭代训练之间的桥梁作用,为了提升学习效果,样本回放可以采用多种回放策略,例如顺序回放、随机回放、按批次回放、按指定概率抽样回放等等。这些策略在理论算法上都是支持的,并且在实验环境中都能够分别顺利实现,然而在实际应用中,需要在一个业务场景中灵活切换各种回放策略,有时还需要考虑分布式业务环境、数据吞吐量庞大等实际问题,目前并没有方案能够满足这些需求。
技术实现思路
针对上述技术问题,本说明书实施例提供一种样本回放数据存取方法及装置,技术方案如下:根据本说明书实施例的第1方面,提供一种样本回放数据存储方法,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;对于任一条待存储数据,执行以下操作:根据记录信息表,为所述待存储数据分配记录标识;根据批次信息表,为所述待存储数据分配批次标识;根据数据内容表的存储结构,对所分配的记录标识、批次标识以及所述待存储数据的内容进行拼接、并将拼接结果写入数据内容表;对记录信息表、批次信息表进行更新。根据本说明书实施例的第2方面,提供一种样本回放数据读取方法,该方法包括:确定回放需求为:随机选取记录回放;根据记录信息表,获得已写入的样本回放数据的记录总数sum;生成随机数数组,所述随机数数组中包括从sum个记录标识中选取的n个随机值,其中n为回放所需的样本记录数量;遍历所述随机数数组执行以下步骤,得到n条样本回放数据记录:以数组中的任一数值作为记录标识,从数据内容表中读取具有该记录标识的样本回放数据。根据本说明书实施例的第3方面,提供一种样本回放数据读取方法,该方法包括:确定回放需求为:随机选取批次回放;根据批次信息表,获得已写入的样本回放数据的批次总数batch_sum;生成随机数数组,所述随机数数组中包括从batch_sum个记录标识中选取的n个随机值,其中n为回放所需的样本批次数量;遍历所述随机数数组执行以下步骤,得到n个样本回放数据批次:以数组中的任一个数值作为批次标识,从数据内容表中读取具有该批次标识的样本回放数据。根据本说明书实施例的第4方面,提供一种样本回放数据存储装置,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;所述装置包括:标识分配模块、内容写入模块、信息更新模块,对于任一条待存储数据:所述标识分配模块,用于根据记录信息表,为所述待存储数据分配记录标识;以及根据批次信息表,为所述待存储数据分配批次标识;所述内容写入模块,用于根据数据内容表的存储结构,对所分配的记录标识、批次标识以及所述待存储数据的内容进行拼接、并将拼接结果写入数据内容表;所述信息更新模块,用于对记录信息表、批次信息表进行更新。根据本说明书实施例的第5方面,提供一种样本回放数据读取装置,该装置包括:回放需求确定模块,用于确定回放需求为:随机选取记录回放;记录总数确定模块,用于根据记录信息表,获得已写入的样本回放数据的记录总数sum;数据读取模块,用于生成随机数数组,所述随机数数组中包括从sum个记录标识中选取的n个随机值,其中n为回放所需的样本记录数量;遍历所述随机数数组执行以下步骤,得到n条样本回放数据记录:以数组中的任一数值作为记录标识,从数据内容表中读取具有该记录标识的样本回放数据。根据本说明书实施例的第6方面,提供一种样本回放数据读取装置,该装置包括:回放需求确定模块,用于确定回放需求为:随机选取批次回放;批次总数确定模块,用于根据批次信息表,获得已写入的样本回放数据的批次总数batch_sum;数据读取模块,用于生成随机数数组,所述随机数数组中包括从batch_sum个记录标识中选取的n个随机值,其中n为回放所需的样本批次数量;遍历所述随机数数组执行以下步骤,得到n个样本回放数据批次:以数组中的任一个数值作为批次标识,从数据内容表中读取具有该批次标识的样本回放数据。本说明书实施例所提供的技术方案,将样本回放数据的记录信息和批次信息进行抽离,并配置专用的表项分别存储记录信息和批次信息;在需要进行样本回放时,可以灵活地实现各种常见的样本回放策略,从而更好地满足实际业务应用需求。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1a及图1b是本说明书实施例的样本回放数据存储方法的流程示意图;图2是本说明书实施例的样本回放数据存取系统的整体架构示意图;图3是本说明书实施例的一种样本回放数据读取方法的流程示意图;图4是本说明书实施例的样本回放数据存储装置的结构示意图;图5是本说明书实施例的第一种样本回放数据读取装置的结构示意图;图6是本说明书实施例的第二种样本回放数据读取装置的结构示意图;图7是本说明书实施例的第三种样本回放数据读取装置的结构示意图;图8是用于配置本说明书实施例装置的一种设备的结构示意图。具体实施方式为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。强化学习(reinforcementlearning),又称再励学习、评价学习等,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。在强化学习过程中,计算机会在没有任何提示的情况下尝试选择一系列行为并得到对应的结果,通过判断这个结果的优劣来为之前的行为进行评价,该评价会用来反馈给行为方以调整之前的行为,算法的目标是调整这些行为以得到最好的评价,通过不断调整,使得计算机能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。强化学习的样本回放是利用行为数据作为原始样本,并根据不同的本文档来自技高网...

【技术保护点】
1.一种样本回放数据存储方法,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;对于任一条待存储数据,执行以下操作:根据记录信息表,为所述待存储数据分配记录标识;根据批次信息表,为所述待存储数据分配批次标识;根据数据内容表的存储结构,对所分配的记录标识、批次标识以及所述待存储数据的内容进行拼接、并将拼接结果写入数据内容表;对记录信息表、批次信息表进行更新。

【技术特征摘要】
1.一种样本回放数据存储方法,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;对于任一条待存储数据,执行以下操作:根据记录信息表,为所述待存储数据分配记录标识;根据批次信息表,为所述待存储数据分配批次标识;根据数据内容表的存储结构,对所分配的记录标识、批次标识以及所述待存储数据的内容进行拼接、并将拼接结果写入数据内容表;对记录信息表、批次信息表进行更新。2.根据权利要求1所述的方法,所述为所述待存储数据分配批次标识,包括:判断所述待存储数据与上一条存储的数据批次是否相同;如果是,则为所述待存储数据分配与上一条存储的数据相同的批次标识;否则为所述待存储数据分配新的批次标识。3.根据权利要求1所述的方法,针对一条待存储数据,拼接两条记录并写入数据内容表,所述两条记录分别为:携带批次标识的记录,用于实现按批次回放需求;不携带批次标识的记录,用于实现全局回放需求。4.根据权利要求1所述的方法,所述记录信息表,还用于存储已写入的样本回放数据的记录总数;所述对记录信息表进行更新,还包括:对所述记录总数进行更新。5.根据权利要求1所述的方法,所述批次信息表,还用于存储已写入的样本回放数据的批次总数;所述对批次信息表进行更新,还包括:对所述批次总数进行更新。6.根据权利要求1所述的方法,针对所述数据内容表,预先配置允许存储的样本回放数据的记录数量最大值;所述为待存储数据分配记录标识,包括:以所述记录数量最大值为计数周期,为待存储数据分配记录标识。7.根据权利要求1所述的方法,针对所述数据内容表,预先配置允许存储的样本回放数据的批次数量最大值;所述为待存储数据分配批次标识,包括:以所述批次数量最大值为计数周期,为待存储数据分配批次标识。8.根据权利要求1所述的方法,所述记录信息表、批次信息表、数据内容表,利用业务标识字段作为关联字段,以支持多种业务数据的复用存储。9.一种样本回放数据读取方法,该方法包括:确定回放需求为:随机选取记录回放;根据记录信息表,获得已写入的样本回放数据的记录总数sum;生成随机数数组,所述随机数数组中包括从sum个记录标识中选取的n个随机值,其中n为回放所需的样本记录数量;遍历所述随机数数组执行以下步骤,得到n条样本回放数据记录:以数组中的任一数值作为记录标识,从数据内容表中读取具有该记录标识的样本回放数据。10.根据权利要求1所述的方法,所述回放需求具体为:按照指定概率随机选取记录回放;所述方法还包括:针对所得到的每条样本回放数据记录,确定为该条样本记录指定的被选中概率;生成一随机值,如果该随机值小于该条记录的指定被选中概率,则保留该条记录,否则丢弃该条记录;若保留的记录总数未达到n,则重复所述生成随机数数组步骤、所述遍历步骤以及所述保留/丢弃步骤,直到保留的记录数量达到n。11.一种样本回放数据读取方法,该方法包括:确定回放需求为:随机选取批次回放;根据批次信息表,获得已写入的样本回放数据的批次总数batch_sum;生成随机数数组,所述随机数数组中包括从batch_sum个记录标识中选取的n个随机值,其中n为回放所需的样本批次数量;遍历所述随机数数组执行以下步骤,得到n个样本回放数据批次:以数组中的任一个数值作为批次标识,从数据内容表中读取具有该批次标识的样本回放数据。12.一种样本回放数据存储装置,配置记录信息表、批次信息表、数据内容表;所述记录信息表,用于存储最新写入的样本回放数据的记录标识;所述批次信息表,用于存储最新写入的样本回放数据的批次标识;所述数据内容表,用于存储样本回放数据,每条样本回放数据以记录标识和批次标识共同构成标识字段;所述装置包括:标识分配模块、内容写入模块、信...

【专利技术属性】
技术研发人员:魏宏张晓明
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1