一种基于自适应微调策略的跨领域序列推荐方法技术

技术编号:24169316 阅读:91 留言:0更新日期:2020-05-16 02:26
本发明专利技术提供一种基于自适应微调策略的跨领域序列推荐方法。该方法包括:构建序列推荐模型,根据用户在源领域的行为训练该序列推荐模型,获得用于反映用户在源领域行为习惯的预训练序列推荐模型;结合用户在目标领域的行为习惯对所述预训练序列推荐模型的部分已训练参数进行调整,获得调整的序列推荐模型;在目标领域,根据给定的用户行为序列,利用所述调整的序列推荐模型向用户进行推荐。本发明专利技术能够实现跨领域的序列推荐,提高了跨领域序列推荐的鲁棒性和精准性。

A cross domain sequence recommendation method based on adaptive fine tuning strategy

【技术实现步骤摘要】
一种基于自适应微调策略的跨领域序列推荐方法
本专利技术涉及序列推荐
,尤其涉及一种基于自适应微调策略的跨领域序列推荐方法。
技术介绍
随着电子商务、网上服务平台及网上交易等互联网业务的普及,网上用户行为分析和推荐已成为研究的热点问题。例如,会话是服务器端用来标识用户的一种机制,如用户点击了一系列商品或者浏览了一系列网页,服务器端为该用户创建特定的会话,跟踪其点击浏览行为,可以理解为会话就是具有时序关系的用户浏览记录序列。序列推荐系统(或称会话推荐系统)是推荐系统中的一个重要分支,其目的是通过分析用户的历史会话序列,对用户进行精准推荐。在现实生活中用户往往在某个领域有丰富的浏览记录,在其他领域浏览记录却非常少,在这样的领域内为用户进行精准推荐就变得十分困难,形成一种冷启动场景,因此如何利用用户在有丰富浏览记录的源领域的信息,用于在形成冷启动场景的目标领域为用户进行精准推荐,是一项非常有意义的研究,这就是跨领域序列推荐系统,其用于解决冷启动场景下的精准推荐问题。在现有的技术中,能够较好地实现单个领域内的序列推荐功能,但在跨领域序列推荐中却无法发挥作用。例如,目前的序列推荐模型有腾讯公司的GfNextItNet,其结合了遮蔽语言模型和空洞卷积神经网络,能够对用户历史会话序列进行建模,在序列推荐系统中发挥出优异的效果。然而,在现有的跨领域序列推荐解决方案中,都是通过在用户源领域数据上先预训练一个简单的序列推荐模型,再在目标领域数据上对预训练模型微调所有参数,来进行跨领域序列推荐。现有技术主要存在以下问题:1)、在预训练序列推荐模型过程中无法做到在拥有用户丰富浏览记录的源领域上预训练出一个性能良好的序列推荐系统,不能很好地建模用户在源领域上的浏览习惯;2)、在微调预训练模型过程中选择微调所有参数是非常耗时以及耗费存储空间的工作,模型参数量巨大,训练十分耗时,也十分耗费存储空间,无法满足现实要求;3)、微调过程中微调所有参数的模型在训练过程中很容易过拟合,训练很不稳定,容易丢失掉预训练模型中的重要信息,鲁棒性较差。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种基于自适应微调策略的跨领域序列推荐方法,能够解决在目标领域向用户进行精准推荐的技术问题。本专利技术提供一种基于自适应微调策略的跨领域序列推荐方法。该方法包括以下步骤:构建序列推荐模型,根据用户在源领域的行为训练该序列推荐模型,获得用于反映用户在源领域行为习惯的预训练序列推荐模型;结合用户在目标领域的行为习惯对所述预训练序列推荐模型的部分已训练参数进行调整,获得调整的序列推荐模型;在目标领域,根据给定的用户行为序列,利用所述调整的序列推荐模型向用户进行推荐。在一个实施例中,根据以下子步骤获得所述预训练序列推荐模型:构建所述序列推荐模型,该序列推荐模型包括多个空洞卷积神经网络残差块、与该多个空洞卷积神经网络残差块连接的空洞卷积输出层、与空洞卷积输出层连接的Softmax层;基于所构建的序列推荐模型,输入用户在源领域的行为序列,随机遮蔽其中多个项目,利用遮蔽语言模型和所述多个空洞卷积神经网络残差块,预测所遮蔽项目的位置,经训练获得所述预训练序列推荐模型。在一个实施例中,所选择的遮蔽项目数量是用户行为序列总项目数量的30%-40%,所选遮蔽项目中80%被直接遮蔽,10%保持不变,10%被替换。在一个实施例中,根据以下子步骤获得所述调整的序列推荐模型:构建自适应微调模型,该自适应微调模型包括一个策略网络和一个微调网络,其中,所述策略网络用于根据用户在源领域的行为序列获得调整的策略动作序列,所述微调网络用于根据用户在源领域的行为序列以及所述调整的策略动作序列决定需进行调整的已训练参数,以进行目标领域的推荐。在一个实施例中,所述策略网络包括一个空洞卷积神经网络残差块,用户源领域行为序列在经过该空洞卷积神经网络残差块后,利用Gumbel-softmax采样策略进行采样得到策略动作序列。在一个实施例中,所述微调网络包括多个空洞卷积神经网络残差块,其中空洞卷积神经网络残差块的数量和所述预训练序列推荐模型中空洞卷积神经网络残差块的数量相等,将所有的空洞卷积神经网络残差块复制一份,其中一份作为复用层,另一份作为微调层,该复用层的参数数值与所述预训练序列推荐模型中对应的参数数值相同,而该微调层的参数数值在训练过程变化。在一个实施例中,策略动作的数量与所述微调网络中空洞卷积神经网络残差块的数量相等,用于指导所述微调网络在每一个空洞卷积神经网络残差块选择进入复用层或者微调层。在一个实施例中,通过最大化正例选择概率、最小化负例选择概率联合优化所述微调网络和所述策略网络。与现有技术相比,本专利技术的优点在于:在跨领域序列推荐系统中创新地提出一种自适应微调策略,针对每一个用户的行为序列,采取一种自适应微调策略替代微调所有参数,根据用户自身行为习惯对预训练序列推荐模型进行选择性微调,最终学习到的模型可以在跨领域序列推荐系统中展现出良好的效果,解决了冷启动场景中的精准推荐问题。附图说明以下附图仅对本专利技术作示意性的说明和解释,并不用于限定本专利技术的范围,其中:图1是根据本专利技术一个实施例的基于自适应微调策略的跨领域序列推荐方法的流程图;图2是根据本专利技术一个实施例的序列推荐模型的示意图;图3是根据本专利技术一个实施例的自适应微调模型的示意图。具体实施方式为了使本专利技术的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本专利技术,并不用于限定本专利技术。在本文示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。本专利技术提供一种基于自适应微调策略的跨领域序列推荐方法,能够在目标领域向用户进行精准推荐。为了清楚起见,尽管本文有时以会话为例进行介绍,但应理解的是,所介绍的方法和原理除了适用会话序列外,也适用于其他的用户行为序列。简言之,本专利技术实施例的跨领域序列推荐方法包括:根据用户源领域的会话序列,训练一个能够良好建模用户浏览习惯的预训练序列推荐模型,框架整体基于GfNextItNet,结合遮蔽语言模型和由多个残差块堆叠而成的空洞卷积神经网络,达到良好的预训练效果;结合用户目标领域的浏览数据,对预训练序列推荐模型进行微调,采取一种自适应微调策略替代微调所有参数,训练一个策略网络,让每一条训练数据在训练过程中都能自适应地选择复用或者微调预训练模型中的参数,使得模型能更好地针对不同用户定制相应的微调策略,以达到更好的推荐性能;利用已经训练好的模型,为用户提供精准的跨领域序列推荐服务,解决冷启动场景下的精准推荐问题。具体本文档来自技高网
...

【技术保护点】
1.一种基于自适应微调策略的跨领域序列推荐方法,包括以下步骤:/n构建序列推荐模型,根据用户在源领域的行为训练该序列推荐模型,获得用于反映用户在源领域行为习惯的预训练序列推荐模型;/n结合用户在目标领域的行为习惯对所述预训练序列推荐模型的部分已训练参数进行调整,获得调整的序列推荐模型;/n在目标领域,根据给定的用户行为序列,利用所述调整的序列推荐模型向用户进行推荐。/n

【技术特征摘要】
1.一种基于自适应微调策略的跨领域序列推荐方法,包括以下步骤:
构建序列推荐模型,根据用户在源领域的行为训练该序列推荐模型,获得用于反映用户在源领域行为习惯的预训练序列推荐模型;
结合用户在目标领域的行为习惯对所述预训练序列推荐模型的部分已训练参数进行调整,获得调整的序列推荐模型;
在目标领域,根据给定的用户行为序列,利用所述调整的序列推荐模型向用户进行推荐。


2.根据权利要求1所述的基于自适应微调策略的跨领域序列推荐方法,其特征在于,根据以下子步骤获得所述预训练序列推荐模型:
构建所述序列推荐模型,该序列推荐模型包括多个空洞卷积神经网络残差块、与该多个空洞卷积神经网络残差块连接的空洞卷积输出层、与空洞卷积输出层连接的Softmax层;
基于所构建的序列推荐模型,输入用户在源领域的行为序列,随机遮蔽其中多个项目,利用遮蔽语言模型和所述多个空洞卷积神经网络残差块,预测所遮蔽项目的位置,经训练获得所述预训练序列推荐模型。


3.根据权利要求2所述的基于自适应微调策略的跨领域序列推荐方法,其特征在于,所选择的遮蔽项目数量是用户行为序列总项目数量的30%-40%,所选遮蔽项目中80%被直接遮蔽,10%保持不变,10%被替换。


4.根据权利要求1所述的基于自适应微调策略的跨领域序列推荐方法,其特征在于,根据以下子步骤获得所述调整的序列推荐模型:
构建自适应微调模型,该自适应微调模型包括一个策略网络和一个微调网络,其中,所述策略网络用于根据用户在源领域的行为序列获得调整的策略动作序列,所述微调网络用于根据用户在源领域的行为序列以及所述调整的策略动作序列决定需进行调...

【专利技术属性】
技术研发人员:陈磊杨敏原发杰吕子钰李成明
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1