模型训练和选择推荐信息的方法和装置制造方法及图纸

技术编号:22187013 阅读:23 留言:0更新日期:2019-09-25 03:52
本发明专利技术实施例提出一种模型训练和选择推荐信息的方法和装置,模型训练的方法包括:获取历史用户的场景特征和历史推荐列表,历史推荐列表包括按时序排列的多个历史推荐项以及各历史推荐项的真实反馈值;将场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联构建训练样本;第二历史推荐项处于第一历史推荐项的下一时序;利用多个训练样本对初始模型进行训练,得到预测模型,预测模型用于获取推荐项的预测反馈值。本发明专利技术实施例由于利用上一时序历史推荐项的真实反馈值和下一时序历史推荐项作为训练样本训练模型,因此能够实现基于上一时序的反馈进行快速适应学习,在训练样本量较少的情况下仍能够得到准确获取推荐项预测反馈值的模型。

Method and Device for Model Training and Selection of Recommendation Information

【技术实现步骤摘要】
模型训练和选择推荐信息的方法和装置
本专利技术涉及互联网
,尤其涉及一种模型训练和选择推荐信息的方法和装置。
技术介绍
在信息过载的互联网时代,个性化推荐受到学术界和工业界的重视。个性化推荐是指不需要用户提供明确的需求,通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息,并从用户的实际行为中得到推荐反馈。然而,不同用户的兴趣千差万别,他们的行为模式非常多样,难以只用一个模型就能概括所有用户的个性。而且当用户的训练样本量很少时,模型很难快速准确地对不同用户进行建模。
技术实现思路
本专利技术实施例提供一种模型训练和选择推荐信息的方法和装置,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种模型训练的方法,包括:获取历史用户的场景特征和历史推荐列表,所述历史推荐列表包括按时序排列的多个历史推荐项,以及各所述历史推荐项的真实反馈值;将所述场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联,构建训练样本;所述第二历史推荐项处于所述第一历史推荐项的下一时序;利用多个所述训练样本对初始模型进行训练,得到预测模型,所述预测模型用于获取推荐项的预测反馈值。在一种实施方式中,利用多个所述训练样本对初始模型进行训练,得到预测模型,包括:利用初始模型获取每个所述历史推荐项的预测反馈值;计算每个所述历史推荐项的预测反馈值和真实反馈值之间的误差;根据计算结果,调整所述初始模型的参数,得到所述预测模型。在一种实施方式中,所述初始模型包括循环神经网络或深度神经网络。在一种实施方式中,所述场景特征包括用户画像、用户发送请求时的网络环境和用户偏好信息中的至少一个。在一种实施方式中,所述历史推荐项包括推荐项特征,所述推荐项特征包含推荐类型特征、推荐内容特征和推荐格式特征中的至少一个。第二方面,本专利技术实施例提供了一种选择推荐信息的方法,包括:将目标用户的场景特征、历史推荐列表、所述历史推荐列表中最后一个历史推荐项的真实反馈值以及候选推荐项集合输入预测模型中,以获取所述候选推荐项集合中每个候选推荐项的预测反馈值;所述预测模型采用第一方面任意实施方案中所述方法得到的预测模型;根据每个所述候选推荐项的预测反馈值,选取至少一个所述候选推荐项作为所述目标用户的推荐信息。在一种实施方式中,还包括:获取目标用户的请求;根据所述目标用户的请求,获取所述目标用户的场景特征、历史推荐列表以及候选推荐项集合。在一种实施方式中,根据每个所述候选推荐项的预测反馈值,选取至少一个所述候选推荐项作为所述目标用户的推荐信息,包括:对预测反馈值符合阈值要求的各候选推荐项进行打分;根据打分结果,选取得分最高的候选推荐项作为所述目标用户的推荐信息。在一种实施方式中,还包括:将作为所述目标用户的推荐信息的候选推荐项加入所述历史推荐列表中,作为最新历史推荐项。第三方面,本专利技术实施例提供了一种模型训练的装置,包括:获取模块,用于获取历史用户的场景特征和历史推荐列表,所述历史推荐列表包括按时序排列的多个历史推荐项,以及各所述历史推荐项的真实反馈值;构建模块,用于将所述场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联,构建训练样本;所述第二历史推荐项处于所述第一历史推荐项的下一时序;训练模块,用于利用多个所述训练样本对初始模型进行训练,得到预测模型,所述预测模型用于获取推荐项的预测反馈值。在一种实施方式中,训练模块包括:获取子模块,用于利用初始模型获取每个所述历史推荐项的预测反馈值;计算子模块,用于计算每个所述历史推荐项的预测反馈值和真实反馈值之间的误差;调整子模块,用于根据计算结果,调整所述初始模型的参数,得到所述预测模型。第四方面,本专利技术实施例提供了一种选择推荐信息的装置,包括:第一获取模块,用于将目标用户的场景特征、历史推荐列表、所述历史推荐列表中最后一个历史推荐项的真实反馈值以及候选推荐项集合输入预测模型中,以获取所述候选推荐项集合中每个候选推荐项的预测反馈值;所述预测模型采用第三方面任意实施方式中所述装置得到的预测模型;选取模块,用于根据每个所述候选推荐项的预测反馈值,选取至少一个所述候选推荐项作为所述目标用户的推荐信息。在一种实施方式中,还包括:第二获取模块,用于获取目标用户的请求;第三获取模块,用于根据所述目标用户的请求,获取所述目标用户的场景特征、历史推荐列表以及候选推荐项集合。在一种实施方式中,选取模块包括:打分子模块,用于对预测反馈值符合阈值要求的各候选推荐项进行打分;选取子模块,用于根据打分结果,选取得分最高的候选推荐项作为所述目标用户的推荐信息。在一种实施方式中,还包括:更新模块,用于将作为所述目标用户的推荐信息的候选推荐项加入所述历史推荐列表中,作为最新历史推荐项。第五方面,本专利技术实施例提供了一种模型训练的终端,所述模型训练的终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述模型训练的终端的结构中包括处理器和存储器,所述存储器用于存储支持所述模型训练的终端执行上述模型训练的方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述模型训练的终端还可以包括通信接口,用于与其他设备或通信网络通信。第六方面,本专利技术实施例提供了一种选择推荐信息的终端,所述选择推荐信息的终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述选择推荐信息的终端的结构中包括处理器和存储器,所述存储器用于存储支持所述选择推荐信息的终端执行上述选择推荐信息的方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述选择推荐信息的终端还可以包括通信接口,用于与其他设备或通信网络通信。第七方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储模型训练和/或选择推荐信息的终端所用的计算机软件指令,其包括用于执行上述模型训练和/或选择推荐信息的方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:本专利技术实施例由于利用上一时序历史推荐项的真实反馈值和下一时序历史推荐项作为训练样本训练模型,因此能够实现基于上一时序的反馈进行快速适应学习,在训练样本量较少的情况下仍能够得到准确获取推荐项预测反馈值的模型。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示出根据本专利技术实施例的模型训练的方法的流程图。图2示出根据本专利技术实施例的模型训练的方法的步骤S300的具体流程图。图3示出根据本专利技术实施例的模型训练的方法的应用示例的流程图。图4示出根据本专利技术实施例的选择推荐信息的方法的流程图。图5示出根据本专利技术另一实施例的选择推荐信息的方法的流程图。图6示出根据本专利技术另一实施例的选择推荐信息本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,包括:获取历史用户的场景特征和历史推荐列表,所述历史推荐列表包括按时序排列的多个历史推荐项,以及各所述历史推荐项的真实反馈值;将所述场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联,构建训练样本;所述第二历史推荐项处于所述第一历史推荐项的下一时序;利用多个所述训练样本对初始模型进行训练,得到预测模型,所述预测模型用于获取推荐项的预测反馈值。

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:获取历史用户的场景特征和历史推荐列表,所述历史推荐列表包括按时序排列的多个历史推荐项,以及各所述历史推荐项的真实反馈值;将所述场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联,构建训练样本;所述第二历史推荐项处于所述第一历史推荐项的下一时序;利用多个所述训练样本对初始模型进行训练,得到预测模型,所述预测模型用于获取推荐项的预测反馈值。2.根据权利要求1所述的方法,其特征在于,利用多个所述训练样本对初始模型进行训练,得到预测模型,包括:利用初始模型获取每个所述历史推荐项的预测反馈值;计算每个所述历史推荐项的预测反馈值和真实反馈值之间的误差;根据计算结果,调整所述初始模型的参数,得到所述预测模型。3.根据权利要求1所述的方法,其特征在于,所述初始模型包括循环神经网络或深度神经网络。4.根据权利要求1所述的方法,其特征在于,所述场景特征包括用户画像、用户发送请求时的网络环境和用户偏好信息中的至少一个。5.根据权利要求1所述的方法,其特征在于,所述历史推荐项包括推荐项特征,所述推荐项特征包含推荐类型特征、推荐内容特征和推荐格式特征中的至少一个。6.一种选择推荐信息的方法,其特征在于,包括:将目标用户的场景特征、历史推荐列表、所述历史推荐列表中最后一个历史推荐项的真实反馈值以及候选推荐项集合输入预测模型中,以获取所述候选推荐项集合中每个候选推荐项的预测反馈值;所述预测模型采用如权利要求1-5任一项所述方法得到的预测模型;根据每个所述候选推荐项的预测反馈值,选取至少一个所述候选推荐项作为所述目标用户的推荐信息。7.根据权利要求6所述的方法,其特征在于,还包括:获取目标用户的请求;根据所述目标用户的请求,获取所述目标用户的场景特征、历史推荐列表以及候选推荐项集合。8.根据权利要求6所述的方法,其特征在于,根据每个所述候选推荐项的预测反馈值,选取至少一个所述候选推荐项作为所述目标用户的推荐信息,包括:对预测反馈值符合阈值要求的各候选推荐项进行打分;根据打分结果,选取得分最高的候选推荐项作为所述目标用户的推荐信息。9.根据权利要求8所述的方法,其特征在于,还包括:将作为所述目标用户的推荐信息的候选推荐项加入所述历史推荐列表中,作为最新历史推荐项。10.一种模型训练的装置,其特征在于,包括:获取模块,用于获取历史用户的场景特征和历史推荐列表,所述历史推荐列表包括按时序排列的多个历史推荐项,以及各所述...

【专利技术属性】
技术研发人员:陈雅雪方晓敏王凡何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1