模型训练和选择推荐信息的方法和装置制造方法及图纸

技术编号：22187013 阅读：23 留言：0更新日期：2019-09-25 03:52

本发明专利技术实施例提出一种模型训练和选择推荐信息的方法和装置，模型训练的方法包括：获取历史用户的场景特征和历史推荐列表，历史推荐列表包括按时序排列的多个历史推荐项以及各历史推荐项的真实反馈值；将场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联构建训练样本；第二历史推荐项处于第一历史推荐项的下一时序；利用多个训练样本对初始模型进行训练，得到预测模型，预测模型用于获取推荐项的预测反馈值。本发明专利技术实施例由于利用上一时序历史推荐项的真实反馈值和下一时序历史推荐项作为训练样本训练模型，因此能够实现基于上一时序的反馈进行快速适应学习，在训练样本量较少的情况下仍能够得到准确获取推荐项预测反馈值的模型。

Method and Device for Model Training and Selection of Recommendation Information

全部详细技术资料下载

【技术实现步骤摘要】
模型训练和选择推荐信息的方法和装置
本专利技术涉及互联网
，尤其涉及一种模型训练和选择推荐信息的方法和装置。
技术介绍
在信息过载的互联网时代，个性化推荐受到学术界和工业界的重视。个性化推荐是指不需要用户提供明确的需求，通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足他们兴趣和需求的信息，并从用户的实际行为中得到推荐反馈。然而，不同用户的兴趣千差万别，他们的行为模式非常多样，难以只用一个模型就能概括所有用户的个性。而且当用户的训练样本量很少时，模型很难快速准确地对不同用户进行建模。
技术实现思路
本专利技术实施例提供一种模型训练和选择推荐信息的方法和装置，以解决现有技术中的一个或多个技术问题。第一方面，本专利技术实施例提供了一种模型训练的方法，包括：获取历史用户的场景特征和历史推荐列表，所述历史推荐列表包括按时序排列的多个历史推荐项，以及各所述历史推荐项的真实反馈值；将所述场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联，构建训练样本；所述第二历史推荐项处于所述第一历史推荐项的下一时序；利用多个所述训练样本对初始模型进行训练，得到预测模型，所述预测模型用于获取推荐项的预测反馈值。在一种实施方式中，利用多个所述训练样本对初始模型进行训练，得到预测模型，包括：利用初始模型获取每个所述历史推荐项的预测反馈值；计算每个所述历史推荐项的预测反馈值和真实反馈值之间的误差；根据计算结果，调整所述初始模型的参数，得到所述预测模型。在一种实施方式中，所述初始模型包括循环神经网络或深度神经网络。在一种实施方式中，所述场景特征包括用户画像、用户发送...

【技术保护点】
1.一种模型训练的方法，其特征在于，包括：获取历史用户的场景特征和历史推荐列表，所述历史推荐列表包括按时序排列的多个历史推荐项，以及各所述历史推荐项的真实反馈值；将所述场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联，构建训练样本；所述第二历史推荐项处于所述第一历史推荐项的下一时序；利用多个所述训练样本对初始模型进行训练，得到预测模型，所述预测模型用于获取推荐项的预测反馈值。

【技术特征摘要】
1.一种模型训练的方法，其特征在于，包括：获取历史用户的场景特征和历史推荐列表，所述历史推荐列表包括按时序排列的多个历史推荐项，以及各所述历史推荐项的真实反馈值；将所述场景特征、第一历史推荐项的真实反馈值以及第二历史推荐项关联，构建训练样本；所述第二历史推荐项处于所述第一历史推荐项的下一时序；利用多个所述训练样本对初始模型进行训练，得到预测模型，所述预测模型用于获取推荐项的预测反馈值。2.根据权利要求1所述的方法，其特征在于，利用多个所述训练样本对初始模型进行训练，得到预测模型，包括：利用初始模型获取每个所述历史推荐项的预测反馈值；计算每个所述历史推荐项的预测反馈值和真实反馈值之间的误差；根据计算结果，调整所述初始模型的参数，得到所述预测模型。3.根据权利要求1所述的方法，其特征在于，所述初始模型包括循环神经网络或深度神经网络。4.根据权利要求1所述的方法，其特征在于，所述场景特征包括用户画像、用户发送请求时的网络环境和用户偏好信息中的至少一个。5.根据权利要求1所述的方法，其特征在于，所述历史推荐项包括推荐项特征，所述推荐项特征包含推荐类型特征、推荐内容特征和推荐格式特征中的至少一个。6.一种选择推荐信息的方法，其特征在于，包括：将目标用户的场景特征、历史推荐列表、所述历史推荐列表中最后一个历史推荐项的真实反馈值以及候选推荐项集合输入预测模型中，以获取所述候选推荐项集合中每个候选推荐项的预测反馈值；所述预测模型采用如权利要求1-5任一项所述方法得到的预测模型；根据每个所述候选推荐项的预测反馈值，选取至少一个所述候选推荐项作为所述目标用户的推荐信息。7.根据权利要求6所述的方法，其特征在于，还包括：获取目标用户的请求；根据所述目标用户的请求，获取所述目标用户的场景特征、历史推荐列表以及候选推荐项集合。8.根据权利要求6所述的方法，其特征在于，根据每个所述候选推荐项的预测反馈值，选取至少一个所述候选推荐项作为所述目标用户的推荐信息，包括：对预测反馈值符合阈值要求的各候选推荐项进行打分；根据打分结果，选取得分最高的候选推荐项作为所述目标用户的推荐信息。9.根据权利要求8所述的方法，其特征在于，还包括：将作为所述目标用户的推荐信息的候选推荐项加入所述历史推荐列表中，作为最新历史推荐项。10.一种模型训练的装置，其特征在于，包括：获取模块，用于获取历史用户的场景特征和历史推荐列表，所述历史推荐列表包括按时序排列的多个历史推荐项，以及各所述...

【专利技术属性】
技术研发人员：陈雅雪，方晓敏，王凡，何径舟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人