一种基于兴趣感知和用户相似度的新闻推荐方法技术

技术编号：35022172 阅读：24 留言：0更新日期：2022-09-24 22:51

本发明专利技术涉及一种基于兴趣感知和用户相似度的新闻推荐方法，属于计算机自然语言处理技术领域。本方法首先通过并行卷积神经网络对新闻的标题、正文和实体进行学习以获得初始新闻表征。然后通过门控循环单元和嵌入层捕获并融合用户短期和长期兴趣表征，以全面学习用户表征。同时，利用双重注意力机制捕获朋友对用户兴趣的影响，并通过用户的不同属性信息增强用户的表征。最后，联合新闻表征、用户表征和增强的用户表征进行推荐。本方法充分利用了多种用户属性信息，可以获取到更全面的用户表征、更准确的用户偏好表示，提高用户的满意度。提高用户的满意度。提高用户的满意度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于兴趣感知和用户相似度的新闻推荐方法

[0001]本专利技术涉及一种基于兴趣感知和用户相似度的新闻推荐方法，属于计算机自然语言处理

技术介绍

[0002]随着互联网的飞速发展，新闻网站或移动终端APP中的新闻数量越来越多，用户很难从中挑选自己出真正想要阅读的新闻，这个问题被称为信息过载。
[0003]新闻推荐技术，可以有效缓解信息过载，帮助用户从众多的资源中筛选新闻并推送其可能感兴趣的新闻。为了吸引更多的流量到它们的网站，新闻网站和媒体纷纷在其商业系统中嵌入推荐算法，为每个用户定制新闻，提升用户体验。
[0004]向新闻读者推荐适当且相关的新闻，是一项具有挑战性的任务。不同于其他推荐领域(如推荐电影、音乐和书籍等)，新闻推荐具有阅读时间短、保质期短、及时性要求非常高以及极易受社交媒体影响等特点。这就要求在进行新闻推荐时，要考虑新闻的报道时间、新颖性、受欢迎程度以及未来趋势等因素。
[0005]新闻推荐领域的另一个重要挑战是高度动态的用户行为。新闻读者可能会有长期或短期的偏好，这些偏好会随着时间逐渐或突然地演变。另外，由于虚假新闻的存在，导致在进行新闻推荐时候，更加看重新闻内容的质量。
[0006]有研究人员将新闻推荐视为一个点击率预测任务，即，给定一个用户未读过的新闻，并预测用户点击这个新闻的概率。最早的新闻推荐相关工作，是运用机器学习方法对用户和新闻文本进行建模。之后，深度学习和自然语言处理技术被用于新闻文本中的语义学习，进一步提高了推荐的准确率。近几年，研究人员又将...

【技术保护点】

【技术特征摘要】
1.一种基于兴趣感知和用户相似度的新闻推荐方法，其特征在于，包括以下步骤：步骤1：利用多通道CNN，学习包括新闻标题、新闻正文和新闻实体在内的新闻文本表征；步骤2：挖掘用户的长期和短期兴趣偏好，获得初始用户表征；步骤3：构建异构图；对于一个异构图，每个节点的节点类型包括用户居住地域、用户使用设备、用户使用系统以及用户阅读环境；根据节点类型不同，节点之间的关系也不同；根据不同的用户属性，直接从原数据集中提取基于用户属性的解释三元组，用于推荐解释；步骤4：根据不同的解释依据，采样对应的邻居；步骤5：利用邻居增强用户表征；利用内部注意力机制，学习不同朋友对用户的影响；步骤6：利用用户属性增强用户表征；利用外部注意力机制学习不同属性增强的用户表征；步骤7：对于每个用户，将步骤2得到的初始用户表征和步骤6得到的基于属性增强的用户表征拼接起来，得到最终用户表征；步骤8：将步骤1得到的新闻表征和步骤7的得到的最终用户表征相乘，再经过一个softmax函数，得到所有新闻的预测概率分布；其中，概率分布的每一项表示对应的新闻被用户点击的概率，并取概率值最大的前K个新闻作为当前用户的推荐项目，K由用于自行设定；根据步骤7，得到注意力权重最大的值对应的用户属性，即，用户对这种用户属性关注度最高，称为推荐给用户的解释；步骤9：使用真实的概率分布与步骤8得到的预测概率分布之间的交叉熵，作为损失函数来训练模型；步骤10：判断迭代次数是否满足预先设置的迭代数，或者步骤9的损失值是否小于设定的阈值；如果迭代次数满足预设的迭代数，或者损失值小于设定阈值，则结束训练流程，如果不满足，则返回步骤1继续下一轮迭代训练；结束训练之后，即可得到概率值最大的前K个新闻组成的推荐列表。2.如权利要求1所述的一种基于兴趣感知和用户相似度的新闻推荐方法，其特征在于，步骤1包括以下步骤：步骤1.1：利用多通道CNN中的标题通道，学习新闻标题表征；首先使用词嵌入生成固定长度的词向量，之后将标题的所有词表征依次拼接获取标题嵌入矩阵，然后对标题嵌入矩阵进行卷积运算获得标题特征图，最后把标题特征图送入最大池化层，得到有效的标题特征；步骤1.2：利用多通道CNN中的正文通道，学习新闻正文表征；首先使用与标题通道共享的词嵌入层来生成固定长度的词向量，然后使用卷积核从标题嵌入矩阵获取正文特征图，最后采取最大池化层从正文特征图中获取到有效的正文特征；步骤1.3：利用多通道CNN中的实体通道，学习新闻实体表征；首先使用独热编码获得每个实体表示向量，并将这些独热编码向量通过实体嵌入层转换为低维嵌入；然后将所有低维嵌入进行拼接作为实体嵌入向量，最后把实体嵌入向量送
到全连接层来学习实体表示；步骤1.4：将标题表征、正文表征和实体表征实现拼接并输入全连接层，获取全面的新闻表征。3.如权利要求1所述的一种基于兴趣感知和用户相似度的新闻推荐方法，其特征在于，步骤2包括以下步骤：步骤2.1：获取用户的短期兴趣表征；首先使用嵌入层将用户近期连续点击序列初始化为低维向量，然后采用GRU处理低维向量，以捕获用户的短期兴趣表示；步骤2.2：获取用户的长期兴趣表征；首先使用嵌入层将用户全部点击历史序列初始化为低维向量表示，然后把低维向量通过稠密层，获取用户的长期兴趣表示；步骤2.3：把用户短期兴趣和用户长期兴趣拼接起来，得到初始用户表征。4.如权利要求3所述的一种基于兴趣感知和用户相似度的新闻推荐方法，其特征在于，GRU为使用带有Gated Recurrent Unit的递归神经网络。5.如权利要求1所述的一种基于兴趣感知和用户相似度的新闻推荐方法，其特征在于，步骤5包括如下步骤：步骤5.1：利用居住在同一地域的邻居增强用户表征；对于给定用户，首先基于用户居住地域这一属性采样邻居；然后利用注意力机制，计算每个邻居的注意力权重，即，将邻居的向量表示和用户向量表示进行点积操作，然后将采样的所有邻居的点积结果进行相加，得到点积和，再将每个邻居的点积结果除以点积和，得到每个邻居的注意力权重；最后把得到的注意力权重和邻居向量表示相乘，得到新的邻居表示向量，并把所有新的邻居表示向量相加，得到最终基于用户居住地域的邻居增强用户表征；步骤5.2：利用使用同一设备的邻居增强用户表征；对于给定用户，首先基于用户使用设备这一属性采样邻居；然后利用注意力机制，计算每个邻居的注意力权重；最后把得到的注意力权重和邻居向量表示相乘，得到新的邻居表示向量，并把所有新的邻居表示向量相加，得到最终基于用户使用设备的邻居增强用户表征；步骤5.3：利用使用同一系统的邻居增强用户表征；对于给定用户，首先基于用户使用系统这一属性采样邻居；然后利用注意力机制，计算每个邻居的注意力权重；最后把得到的注意力权重和邻居向量表示相乘，得到新的邻居表示向量，并把所有新的邻居表示向量相加，得到最终基于用户使用系统的邻居增强用户表征；步骤5.4：利用处于同种阅读环境的邻居增强用户表征；对于给定用户，首先基于用户阅读环境这一属性采样邻居；然后利用注意力机制，计算每个邻居的注意力权重；最后把得到的注意力权重和邻居向量表示相乘，得到新的邻居表示向量，并把所有新的邻居表示向量相加，得到最终基于用户阅读环境的邻居增强用户表征。6.如权利要求1所述的一种基于兴趣感知和用户相似度的新闻推荐方法，其特征在于，
步骤6中，利用注意力机制，将不同属性的邻居增强的用户表示向量和新闻向量表示进行点积操作，然后将不同属性的点积结果进行相加，得到点积和，再将每种属性的点积结果除以点积和得到每种属性的注意力权重；最后把得到的注意力权重和邻居增强的用表示向量表示相乘，并把相乘结果相加，得到不同属性增强的用户表征。7.如权利要求1所述的一种基于兴趣感知和用户相似度的新闻推荐方法，其特征在于，在步骤1中，对于给定的一条长度为m的新闻标题首先使用词嵌入生成长度固定的嵌入向量拼接所有词嵌入向量，获得标题嵌入矩阵拼接所有词嵌入向量，获得标题嵌入矩阵表示向量空间，d1表示嵌入向量维度，t表示标题；然后，使用卷积核对标题嵌入矩阵W
t
进行卷积运算，提取标题特征图进行卷积运算，提取标题特征图h1为卷积核尺寸大小，表示第i个标题特征图；之后，将标题特征图送入池化层，降低维度并进一步提取标题特征最后把它们依次拼接，得到最终的新闻标题表征k1为卷积核数量；对于给定固定长度为n的新闻正文b表示正文，表示权重参数，其处理方式和新闻标题类似；通过词嵌入处理得到正文嵌入矩阵通过词嵌入处理得到正文嵌入矩阵d2表示嵌入向量维度；通过卷积操作得到正文特征之后通过池化操作得到正文表征，并把它们进行拼接得到最终正文表征k2为卷积核数量，表示第i个正文表征；对于固定长度为l新闻实体e表示实体，表示权重参数；首先通过嵌入层学习长度为l的实体嵌入向量d3表示嵌入向量维度；然后通过全连接层学习实体嵌入向量得到实体表征k3为卷积核数量，为权重矩阵，为偏重矩阵，ReLU表示激活函数；最后，把新闻标题表征c
t
、新闻正文表征c
b
...

【专利技术属性】
技术研发人员：施重阳，任少君，赵舒鑫，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人