The invention discloses a method, device and storage medium for resource optimization based on artificial intelligence methods, which include: training strategy model based on the idea of reinforcement learning; when the need to generate a combination of resources, to obtain each candidate resource score; according to each candidate resource score and the strategy model, select M a candidate candidate resource in resources from various components of the combination of resources, M is a positive integer greater than one. By adopting the scheme of the invention, the income of the resource combination can be improved.
【技术实现步骤摘要】
基于人工智能的资源组合优化方法、装置及存储介质
本专利技术涉及计算机应用技术,特别涉及基于人工智能的资源组合优化方法、装置及存储介质。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。在feed流、搜索产品等场景中,资源组合优化问题是一个很常见也很重要的问题。比如,在feed流场景中,在每次向用户推荐资源时,会展现一个资源组合(约20个新闻)给用户浏览,用户可点击其中感兴趣的部分。资源组合优化问题即指如何对这个资源组合进行优化,以使得最终的收益最大,如使得用户的点击次数最多。现有技术中,通常采用以下方式来获取上述资源组合:首先,利用一个打分模型(rankmodel)分别对各候选资源进行打分,从而分别获取到各候选资源的资源评分;之后,按照预定规则分别对各候 ...
【技术保护点】
一种基于人工智能的资源组合优化方法,其特征在于,包括:训练得到基于强化学习思想的策略模型;当需要生成资源组合时,分别获取各候选资源的资源评分;根据各候选资源的资源评分以及所述策略模型,从各候选资源中选出M个候选资源组成所述资源组合,M为大于一的正整数。
【技术特征摘要】
1.一种基于人工智能的资源组合优化方法,其特征在于,包括:训练得到基于强化学习思想的策略模型;当需要生成资源组合时,分别获取各候选资源的资源评分;根据各候选资源的资源评分以及所述策略模型,从各候选资源中选出M个候选资源组成所述资源组合,M为大于一的正整数。2.根据权利要求1所述的方法,其特征在于,训练得到所述策略模型包括:在利用训练样本对所述策略模型进行训练的过程中,当所述策略模型每生成一个资源组合时,则确定出所述资源组合的收益评分,并按照所述收益评分对所述策略模型的模型参数进行调整,直至达到收敛。3.根据权利要求2所述的方法,其特征在于,所述确定出所述资源组合的收益评分包括:将所述资源组合输入给预先训练得到的评估模型,得到所述评估模型给出的所述资源组合的收益评分。4.根据权利要求1所述的方法,其特征在于,所述分别获取各候选资源的资源评分包括:针对每个候选资源,分别将所述候选资源的指定特征输入给预先训练得到的打分模型,得到所述打分模型给出的所述候选资源的资源评分。5.根据权利要求1所述的方法,其特征在于,所述根据各候选资源的资源评分以及所述策略模型,从各候选资源中选出M个候选资源组成所述资源组合包括:将各候选资源的资源评分及各候选资源的指定特征输入给所述策略模型,得到所述策略模型给出的所述资源组合。6.根据权利要求3所述的方法,其特征在于,该方法进一步包括:从各候选资源中选出M个候选资源组成所述资源组合之后,将所述资源组合发送给所述评估模型,得到所述评估模型给出的所述资源组合的收益评分。7.根据权利要求6所述的方法,其特征在于,该方法进一步包括:得到所述评估模型给出的所述资源组合的预估指标;所述预估指标包括:点击次数预估。8.一种基于人工智能的资源组合优化装置,其特征在于,包括:预处理单元以及优化单元;所述预处理单元,用于训练得到基于强化学习思想的策略模型;所述...
【专利技术属性】
技术研发人员:吴泽衡,王凡,方晓敏,何径舟,周古月,温佩怡,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。