【技术实现步骤摘要】
信息展示方法、策略网络训练方法、设备及存储介质
[0001]本申请涉及网络信息展示
,特别涉及一种信息展示方法、策略网络训练方法、设备及存储介质。
技术介绍
[0002]在网络内容推送场景,比如广告展示场景中,信息提供方可以通过两种方式在信息展示系统上投放信息,分别为通过约定展示数量的方式投放,以及,通过竞价方式投放。
[0003]在相关技术中,对于按照不同方式投放的两种信息,信息展示系统对这两种信息的展示分别进行控制。比如,信息展示系统首先预测系统中的信息展示机会,并将预测得到信息展示机会分配给按照不同方式投放的两种信息;当一个信息展示机会来临时,信息展示系统在对应投放方式的信息中选择一个信息进行展示。
[0004]然而,上述对这两种信息的展示分别进行控制的方案会导致系统中的信息展示机会得不到充分利用,进而导致信息展示的网络资源利用率较差。
技术实现思路
[0005]本申请实施例提供了一种信息展示方法、策略网络训练方法、设备及存储介质,可以提高信息展示的网络资源利用率,该技术方案如下:
[0006]一方面,提供了一种信息展示方法,所述方法包括:
[0007]获取信息展示请求,所述信息展示请求用于请求在指定的信息展示位上展示信息;
[0008]获取所述信息展示请求的候选信息集合,所述候选信息集合中包含第一类型信息和第二类型信息;所述第一类型信息是具有展示次数要求的信息,所述第二类型信息是通过资源付出来竞争展示机会的信息;
[0009]获取所述信息展 ...
【技术保护点】
【技术特征摘要】
1.一种信息展示方法,其特征在于,所述方法包括:获取信息展示请求,所述信息展示请求用于请求在指定的信息展示位上展示信息;获取所述信息展示请求的候选信息集合,所述候选信息集合中包含第一类型信息和第二类型信息;所述第一类型信息是具有展示次数要求的信息,所述第二类型信息是通过资源付出来竞争展示机会的信息;获取所述信息展示请求的候选信息集合中的各个信息的展示得分;所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率;所述第一类型信息的所述展示得分,是通过目标策略网络对所述第一类型信息的状态数据进行处理后得到的;所述目标策略网络是通过对样本环境进行强化学习探索得到的,所述样本环境是由至少两个历史信息展示请求的候选信息集合中的信息构成的;基于所述各个信息的展示得分获取目标信息;将所述目标信息推送至所述指定的信息展示位进行展示。2.根据权利要求1所述的方法,其特征在于,所述状态数据包括信息级数据、整体数据和流量维度特征数据中的至少一种;所述信息级数据包括:对应的信息的标识、对应的信息展示位的标识、对应的信息的已播放量、对应的信息的播放量要求、对应的信息的播放速度、以及对应的信息的播放量上限中的至少一种;所述整体数据包括:系统中的所述第一类型信息的整体缺量率、系统中的所述第一类型信息的平均点击率、系统中的所述第二类型信息的平均点击率、以及系统中的所述第二类型信息的平均资源付出量中的至少一种;所述流量维度特征包括:对应的信息展示请求匹配的地域数据、对应的信息展示请求匹配的性别数据、以及对应的信息展示请求匹配的年龄数据中的至少一种。3.根据权利要求1或2所述的方法,其特征在于,所述获取信息展示请求之前,还包括:获取所述历史信息展示请求的候选信息集合中的各个指定样本信息的状态数据;所述指定样本信息是所述历史信息展示请求的候选信息集合中的所述第一类型信息;通过第一策略网络对所述各个指定样本信息的状态数据进行处理,获得样本展示策略;所述样本展示策略用于指示所述历史信息展示请求的候选信息集合中的目标样本信息;通过所述样本展示策略对所述样本环境中的信息的状态数据进行更新;基于更新前后的所述样本环境中的信息的状态数据,获取奖励函数值;基于所述奖励函数值对价值网络进行更新;通过所述价值网络对所述样本展示策略的评价结果,对所述第一策略网络进行更新;基于更新后的所述第一策略网络,获取所述目标策略网络。4.根据权利要求3所述的方法,其特征在于,所述基于更新前后的所述样本环境中的信息的状态数据,获取奖励函数值,包括:基于更新前后的所述样本环境中的信息的状态数据,获取增益参数得分,所述增益参数得分包括所述样本环境中的所述第一类型信息的整体缺量率的得分、所述样本环境中的所述第一类型信息的平均点击率的得分、以及所述样本环境中的所述第二类型信息的平均资源付出量的得分中的至少一种;
基于所述增益参数得分获取所述奖励函数值。5.根据权利要求4所述的方法,其特征在于,所述基于所述增益参数得分获取所述奖励函数值,包括:对所述增益参数得分中的各项得分进行加权处理,获得加权处理结果;基于所述加权处理结果获取所述奖励函数值。6.根据权利要求4所述的方法,其特征在于,第一策略网络包括优先策略网络和混排策略网络;所述样本展示策略包括所述优先策略网络输出的优先展示策略,以及所述混排策略网络输出的混排展示策略;所述优先展示策略是优先从所述第一类型信息中选择所述目标样本信息的策略;所述混排展示策略是基于所述展示得分对所述第一类型信息和所述第二类型信息进行混合排序并选择所述目标样本信息的策略;所述基于更新前后的所述样本环境中的信息的状态数据,获取增益参数得分,包括:基于第一状态数据获取第一增益参数得分,所述第一状态数据是通过所述优先展示策略对所述样本环境中的信息的状态数据进行更新前后的状态数据;基于第二状态数据获取第二增益参数得分,所述第二状态数据是通过所述混排展示策略对所述样本环境中的信息的状态数据进行更新前后的状态数据;所述基于所述增益参数得分获取所述奖励函数值,包括:获取所述第二增益参数得分相对于所述第一增益参数得分的提升比例;基于所述提升比例,获取所述奖励函数值。7.根据权利要求6所述的方法,其特征在于,所述基于更新后的所述第一策略网络,获取所述目标策略网络,包括:将更新后的所述第一策略网络中的所述混排策略网络,获取为所述目标策略网络。8.根据权利要求4所述的方法,其特征在于,所述基于所述奖励函数值对价值网络进行更新,包括:获取连续n个所述历史信息展示请求对应的奖励函数值;n≥2,且n为整数;对连续n个所述历史信息展示请求对应的奖励函数值进行累加,获得累加奖励函数值;基于所述累加奖励函数值,对所述价值网络进行更新。9.根据权利要求8所述的方法,其特征在于,所述对连续n个所述历史信息展示请求对应的奖励函数值进行累加,获得累加奖励函数值,包括:基于指定的衰减系数,对连续n个所述历史信息展示请求对应的奖励函数值进行累加,获得所述累...
【专利技术属性】
技术研发人员:谭斌,
申请(专利权)人:腾讯科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。