一种网页推荐方法及系统技术方案

技术编号:24996314 阅读:20 留言:0更新日期:2020-07-24 17:58
本发明专利技术涉及一种网页推荐方法及系统。该方法包括:根据q学习建立q_table;根据q_table采取一个动作给用户推荐一个网页;计算推荐网页之前的收益;计算推荐网页之后的收益;计算即时收益;判断所述即时收益是否为零;若是,则给用户推荐这个网页;若否,更新q_table,根据更新后的q_table采取一个动作,重新给用户推荐一个网页。本发明专利技术根据即时收益来更新q_table中的q值,采用当前最大一步化收益给用户推荐网页,使当前推荐的网页更精准。而且把用户分为偏好特定专业领域的用户和偏好广泛领域的用户,网页推荐也更为精准。

【技术实现步骤摘要】
一种网页推荐方法及系统
本专利技术涉及网页推荐
,特别是涉及一种基于强化学习的网页个性化推荐方法及系统。
技术介绍
随着科学技术的不断发展,机器学习时代的到来,人们已经逐渐从信息匮乏的时代走向了信息过载的时代。在互联网领域,目前的浏览器为了给用户推荐网页,会统计用户的历史浏览记录,将历史浏览记录中浏览次数较多的网页作为用户最可能访问的网页推荐给用户,方便用户从上述网页中直接选择想要浏览的网页。这样相对于用户在地址栏中输入网址或者通过搜索引擎搜索网页的方式,可以大大简化用户对于网页的访问过程,提高用户对于网页的访问效率。然而此种推荐方案虽然能够在一定程度上预测用户欲要浏览的网页,但由于该方案未考虑到兴趣广泛涉猎各种领域的用户,也未考虑到用户在特定时间段的特定浏览习惯,网页推荐的准确度很低。因此,如何将不同的网页精准地推荐给不同的用户,是目前亟需解决的问题。
技术实现思路
本专利技术的目的是提供一种网页推荐方法及系统,能够将不同的网页精准地推荐给不同用户。为实现上述目的,本专利技术提供了如下方案:一种网页推荐方法,包括:利用强化学习中的q学习建立q_table;所述q_table的行代表状态,所述q_table的列代表动作,所述q_table的列数为候选推荐网页的数量,所述q_table的q值为在所述状态下采取动作时获得的最大预期奖励;根据所述q_table采取一个动作向用户推荐一个网页;计算推荐所述网页之前的收益;具体包括:利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之前的第一收益;利用中介中心度计算偏好广泛领域用户采用推荐所述网页之前的第二收益;根据所述第一收益和所述第二收益计算所述推荐所述网页之前的收益;计算推荐所述网页之后的收益;根据所述推荐所述网页之前的收益和所述推荐所述网页之后的收益计算即时收益;判断所述即时收益是否为零;若是,则给用户推荐所述网页;若否,则根据所述即时收益和所述q_table中的q值更新q_table,然后返回根据所述q_table采取一个动作向用户推荐一个网页的步骤。可选的,所述根据所述q_table采取一个动作向用户推荐一个网页,具体包括:获取所述q_table采取一个动作之前产生的随机值;判断所述随机值是否大于等于设定阈值;若是,则向用户推荐所述q_table中q值最大值时动作所对应的网页;若否,则随机给用户推荐网页。可选的,所述利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之前的第一收益,具体包括:根据公式计算偏好特定专业领域用户采用推荐所述网页之前的第一收益;其中,bou为第一收益;为抽象图中第s节点的邻居节点的集合,抽象图为所述网页及所述网页之间的链接抽象成的图,所述抽象图包括节点和连边;pru为第s节点和第u节点之间的链接分数,ω为重启概率,ru为从不同节点游走的概率,若从第s节点开始游走,又回到了第s节点,则ru=1,否则ru=0,为从所有节点预期回报的向量,为第u节点的邻接矩阵中的列向量,|N(u)|为第u节点的邻居节点的数量。可选的,所述利用中介中心度计算偏好广泛领域用户采用推荐所述网页之前的第二收益,具体包括:根据公式计算偏好广泛领域用户采用推荐所述网页之前的第二收益;其中,CB(u)为第二收益;v表示抽象图中的节点;s、u和t为所述抽象图中三个不同节点;σst为第s节点和第t节点之间最短路径的数量;σst(u)为所述最短路径中经过第u节点的数量。可选的,所述根据所述第一收益和所述第二收益计算所述推荐所述网页之前的收益,具体包括:根据公式R0=βbou+(1-β)CB(u)计算所述推荐所述网页之前的收益;其中,R0为所述推荐所述网页之前的收益,β为用户对专业领域的偏好程度。可选的,所述计算推荐所述网页之后的收益,具体包括:利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之后的第三收益;利用中介中心度计算偏好广泛领域用户采用推荐所述网页之后的第四收益;根据所述第三收益和所述第四收益计算所述推荐所述网页之后的收益。可选的,所述根据所述推荐所述网页之前的收益和所述推荐所述网页之后的收益计算即时收益,具体包括:根据公式R=R1-R0计算即时收益;其中,R为即时收益;R0为所述推荐所述网页之前的收益;R1为所述推荐所述网页之后的收益。可选的,所述根据所述即时收益和所述q_table的q值更新q_table,具体包括:根据公式q=(1-α)qn-1+α(R+γqmax)更新q_table;其中,α为学习因子,qn-1为q_table中的原始值,γ为折扣因子,qmax为q_table中q值的最大值。一种网页推荐系统,所述系统包括:q_table建立模块,用于利用强化学习中的q学习建立q_table;网页推荐模块,用于根据所述q_table采取一个动作向用户推荐一个网页;第一收益计算模块,用于利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之前的第一收益;第二收益计算模块,用于利用中介中心度计算偏好广泛领域用户采用推荐所述网页之前的第二收益;推荐之前收益计算模块,用于根据所述第一收益和所述第二收益计算所述推荐所述网页之前的收益;推荐之后收益计算模块,用于计算推荐所述网页之后的收益;即时收益计算模块,用于根据所述推荐所述网页之前的收益和所述推荐所述网页之后的收益计算即时收益;判断模块,用于判断所述即时收益是否为零;推荐模块,用于当所述即时收益为零时给用户推荐所述网页;更新模块,用于当所述即时收益不为零时,根据所述即时收益和所述q_table中的q值更新q_table,并返回网页推荐模块。可选的,所述推荐之后收益计算模块包括第三收益计算单元、第四收益计算单元和收益计算单元,其中:所述第三收益计算单元用于利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之后的第三收益;所述第四收益计算单元用于利用中介中心度计算偏好广泛领域用户采用推荐所述网页之后的第四收益;所述收益计算单元用于根据所述第三收益和所述第四收益计算所述推荐所述网页之后的收益。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术根据q学习建立q_table;根据q_table采取一个动作给用户推荐一个网页;根据偏好特定专业领域用户的收益和偏好广泛领域用户的收益计算推荐所述网页之前的收益;计算推荐所述网页之后的收益;根据所述推荐所述网页之前的收益和所述推荐所述网页之后的收益计算即时收益;判断所述即时收益是否为零;若是,则给用户推荐所述网页;若否,则根据所述即时收益和所述q_table中的q值更新q_table,根据更新后的q_table采取一个动作,重新给用户推荐一个网页。本文档来自技高网...

【技术保护点】
1.一种网页推荐方法,其特征在于,包括:/n利用强化学习中的q学习建立q_table;所述q_table的行代表状态,所述q_table的列代表动作,所述q_table的列数为候选推荐网页的数量,所述q_table的q值为在所述状态下采取动作时获得的最大预期奖励;/n根据所述q_table采取一个动作向用户推荐一个网页;/n计算推荐所述网页之前的收益;具体包括:利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之前的第一收益;利用中介中心度计算偏好广泛领域用户采用推荐所述网页之前的第二收益;根据所述第一收益和所述第二收益计算所述推荐所述网页之前的收益;/n计算推荐所述网页之后的收益;/n根据所述推荐所述网页之前的收益和所述推荐所述网页之后的收益计算即时收益;/n判断所述即时收益是否为零;/n若是,则给用户推荐所述网页;/n若否,则根据所述即时收益和所述q_table中的q值更新q_table,然后返回根据所述q_table采取一个动作向用户推荐一个网页的步骤。/n

【技术特征摘要】
1.一种网页推荐方法,其特征在于,包括:
利用强化学习中的q学习建立q_table;所述q_table的行代表状态,所述q_table的列代表动作,所述q_table的列数为候选推荐网页的数量,所述q_table的q值为在所述状态下采取动作时获得的最大预期奖励;
根据所述q_table采取一个动作向用户推荐一个网页;
计算推荐所述网页之前的收益;具体包括:利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之前的第一收益;利用中介中心度计算偏好广泛领域用户采用推荐所述网页之前的第二收益;根据所述第一收益和所述第二收益计算所述推荐所述网页之前的收益;
计算推荐所述网页之后的收益;
根据所述推荐所述网页之前的收益和所述推荐所述网页之后的收益计算即时收益;
判断所述即时收益是否为零;
若是,则给用户推荐所述网页;
若否,则根据所述即时收益和所述q_table中的q值更新q_table,然后返回根据所述q_table采取一个动作向用户推荐一个网页的步骤。


2.根据权利要求1所述的一种网页推荐方法,其特征在于,所述根据所述q_table采取一个动作向用户推荐一个网页,具体包括:
获取所述q_table采取一个动作之前产生的随机值;
判断所述随机值是否大于等于设定阈值;
若是,则向用户推荐所述q_table中q值最大值时动作所对应的网页;
若否,则随机给用户推荐网页。


3.根据权利要求1所述的一种网页推荐方法,其特征在于,所述利用个性化网页排名计算偏好特定专业领域用户采用推荐所述网页之前的第一收益,具体包括:
根据公式计算偏好特定专业领域用户采用推荐所述网页之前的第一收益;
其中,bou为第一收益;为抽象图中第s节点的邻居节点的集合,抽象图为所述网页及所述网页之间的链接抽象成的图,所述抽象图包括节点和连边;pru为第s节点和第u节点之间的链接分数,ω为重启概率,ru为从不同节点游走的概率,若从第s节点开始游走,又回到了第s节点,则ru=1,否则ru=0,为从所有节点预期回报的向量,为第u节点的邻接矩阵中的列向量,|N(u)|为第u节点的邻居节点的数量。


4.根据权利要求3所述的一种网页推荐方法,其特征在于,所述利用中介中心度计算偏好广泛领域用户采用推荐所述网页之前的第二收益,具体包括:
根据公式计算偏好广泛领域用户采用推荐所述网页之前的第二收益;
其中,CB(u)为第二收益;v表示抽象图中的节点;s、u和t为所述抽象图中三个不同节点;σst为第s节点和第t节点之间最短路径的数量;σst(u)为所述最短路径中经过第u节点的数量。


5.根据权利要求4所述的一种网页推荐方法,其特征在于,所述根据所述第一收益和所述第二收益计算所述推荐所述网页之前的收益,具体包括:
根据公式R0=βbou+(1-...

【专利技术属性】
技术研发人员:宿红毅赵赫闫波郑宏
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1