当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于多维度特征的新闻推荐方法技术

技术编号:33134562 阅读:68 留言:0更新日期:2022-04-17 00:57
本发明专利技术公开一种基于多维度特征的新闻推荐方法,方法首先构建新闻特征提取器,提取新闻特征r

【技术实现步骤摘要】
一种基于多维度特征的新闻推荐方法


[0001]本专利技术涉及新闻推荐
,尤其涉及一种基于多维度特征的新闻推荐方法。

技术介绍

[0002]随着互联网技术的发展和人们生活需求的提高,阅读新闻的用户数量一直在增加,人们对新闻类app的推荐效果也有着越来越高的要求。
[0003]专利CN102929928A提出,使用标题和正文内容去得到主题特征向量,然后根据新闻的主题特征向量和用户行为数据去构造新闻模型和用户模型,然后在根据时间特征去进行个性化推荐。虽然一定程度上考虑了多种特征,如标题、正文、时间特征,但在模型中真正用于特征抽取的只有标题和正文,并未真正的体现出多维,提出的时间特征,也只是用于推荐时的一种策略筛选,且用户在点击新闻时一般是先看到标题,才去看正文的,并未符合人们的阅读习惯。
[0004]专利CN111061856A提出,从新闻文本中识别出实体,将其与知识图谱中的实体相匹配,利用知识表示学习模型得到实体和关系的向量表示,用卷积神经网络融合新闻的词向量和实体向量,从中学习新闻的特征,以注意力机制去得到用户特征,再将候选新闻特征、用户特征和路径特征为输入,使用多层感知机计算候选新闻的点击概率,最终实现个性化推荐。该专利技术提出的使用知识图谱中的实体和关系,虽然在AUC和F1上有很好的提升,但是在实际工程中,并不是所有的新闻app,都会事先去搭建知识图谱,如果知识图谱没有建立或者过于稀疏,那么推荐效果就会降低。
[0005]由于上述技术方案均不能满足人们对新闻阅读推荐问题的需求,因此提出一种新的推荐方法是有必要的。

技术实现思路

[0006]针对上述现有技术的不足,本专利技术提供一种基于多维度特征的新闻推荐方法。
[0007]为解决上述技术问题,本专利技术所采取的技术方案是:一种基于多维度特征的新闻推荐方法,具体过程如下:
[0008]步骤1:构建新闻特征提取器,提取新闻特征r
a
,过程如下:
[0009]步骤1.1:获取新闻,从新闻标题的文本中提取实体信息和关系信息,构建知识图谱;并从构建的知识图谱中学习实体向量和关系向量,计算每个实体的上下文向量的平均值,具体过程如下:
[0010]步骤1.1.1:基于命名实体识别技术对新闻标题进行实体抽取,将抽取得到的实体组合成新闻实体集合;
[0011]步骤1.1.2:将新闻标题和对应的实体输入到PCNN中进行关系抽取,形成三元组(h,r,t);其中,h为头部实体、t为尾部实体,h和t均来自新闻实体集合,r为关系,由PCNN抽取后得到;
[0012]步骤1.1.3:以三元组(h,r,t)为基础构建知识图谱;
[0013]步骤1.1.4:使用知识图谱特征学习方法,从构建的知识图谱中学习实体向量和关系向量;
[0014]步骤1.1.5:提取每个实体的上下文信息,即获取每个实体在图谱中的邻居,并计算每个实体的上下文向量的平均值。
[0015]具体计算公式如下:
[0016][0017]context(e)={e
i
|(e,r,e
i
)∈G or(e
i
∈G)}
[0018]其中,context(e)为实体e的上下文集合,e
i
是context(e)的第i个实体向量表示,r为实体间的关系,G为知识图谱,为为实体e的上下文向量的平均值。
[0019]进一步的,为了防止所述知识图谱中边的数量少且缺乏多样性,对知识图谱进行扩展,引入和知识图谱中的实体距离在阈值内的实体和相关的边来增加边的数量。
[0020]步骤1.2:获得新闻标题中每个词的词向量,与实体向量和实体的上下文向量的平均值一同映射到相同维度的向量空间中,并输入到动态多卷积核CNN中进行特征提取,得到相应的词特征、实体特征和实体上下文特征,具体过程如下:
[0021]步骤1.2.1:将新闻标题[w1,w2,...,w
n
]中的每个词w
i
与其词向量实体向量e
i
、实体上下文向量平均值一一对应,如果没有匹配到实体向量和上下文向量,则用零向量代替;
[0022]步骤1.2.2:使用映射函数将词向量、实体向量和上下文向量映射到d维的向量空间中,使三种向量的维度统一,得到词向量序列实体向量序列[e1,e2,...e
n
]、实体上下文向量序列
[0023]具体的映射函数如下:
[0024]g(e)=tanh(Me+b)
[0025]其中,M∈R
d
×
k
为转换矩阵,k为转换前的维度,d为转换后的维度;b为偏置常量,e为实体向量。
[0026]步骤1.2.3:分别将词向量序列、实体向量序列、实体上下文向量序列,输入到动态多卷积核CNN中,在经过ReLU激活函数得到的特征分别用多卷积核CNN中,在经过ReLU激活函数得到的特征分别用表示;
[0027]步骤1.2.4:在步骤2.3得到的特征上分别使用注意力权重,
[0028]得到:
[0029][0030][0031]其中,表示第i个词向量的权重值,V
w
和v
w
是计算向量权重时的投影参数,q
w
是计算向量权重时的注意力查询向量,为经过ReLU激活函数得到的词特征;采用同样的方法得到第i个实体向量对应的权重值和第i个实体上下文向量对应的权重值
[0032]步骤1.2.5:分别将词向量、实体向量和实体上下文向量乘以各自对应的权重值并进行求和计算,分别得到词特征r
w
、实体特征r
e
和实体上下文特征
[0033]具体的计算公式如下:
[0034][0035][0036][0037]步骤1.3:分别计算步骤2得到的词特征、实体特征、实体上下文特征相应的权重值,并分别乘以对应的词特征、实体特征和实体上下文特征,然后相加得到最终的标题特征r
t
,过程如下:
[0038]步骤1.3.1:计算词特征上的权重αw,公式如下:
[0039][0040][0041]其中,U
w
、u
w
为计算特征权重时的投影参数,q
w
是计算特征权重时的注意力查询向量;采用同样的方法计算得到实体特征对应的权重α
e
和实体上下文特征对应的权重
[0042]步骤1.3.2:计算最终的标题特征,公式如下:
[0043][0044]其中,r
t
为最终的标题特征。
[0045]步骤1.4:使用k

means均值聚类算法对新闻标题的文本进行聚类分析,获取聚类后的质心,并将k个质心对应到k个类别,得到新闻标题文本聚类的类别特征表示r
cq

[0046]进一步的,所述新闻标题文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维度特征的新闻推荐方法,其特征在于,包括如下步骤:步骤1:构建新闻特征提取器,提取新闻特征r
a
;步骤2:构建用户特征处理器,将每篇新闻经过注意力网络得到的注意力权重乘以各自经过步骤1的新闻特征提取器提取得到的新闻特征,得到用户特征u;步骤3:将用户特征u和新闻特征r
a
相乘得到每篇新闻的点击概率得分步骤4:随机从多个用户的交互记录中抽取K篇用户未点击的新闻作为负样本,抽取一篇用户点击过的新闻作为正样本,所有的用户数据组合在一起构成训练集,计算训练集正样本的点击概率得分p
i
,并定义点击率损失函数L;步骤5:将多个用户的交互记录输入深度学习的batch中,重复执行步骤1至步骤4进行深度学习模型的训练;步骤6:将用户历史浏览新闻和候选新闻输入步骤5训练好的深度学习模型中,进行首页推荐或个性化推荐。2.根据权利要求1所述的基于多维度特征的新闻推荐方法,其特征在于,所述步骤1的过程如下:步骤1.1:获取新闻,从新闻标题的文本中提取实体信息和关系信息,构建知识图谱;并从构建的知识图谱中学习实体向量和关系向量,计算每个实体的上下文向量的平均值;步骤1.2:获得新闻标题中每个词的词向量,与实体向量和实体的上下文向量的平均值一同映射到相同维度的向量空间中,并输入到动态多卷积核CNN中进行特征提取,得到相应的词特征、实体特征和实体上下文特征;步骤1.3:分别计算步骤2得到的词特征、实体特征、实体上下文特征相应的权重值,并分别乘以对应的词特征、实体特征和实体上下文特征,然后相加得到最终的标题特征r
t
;步骤1.4:使用k

means均值聚类算法对新闻标题的文本进行聚类分析,获取聚类后的质心,并将k个质心对应到k个类别,得到新闻标题文本聚类的类别特征表示r
cq
;步骤1.5:从新闻中获取一幅配图,对图像进行转化得到RGB图,将RGB图像颜色空间转换到HSV颜色空间,并对其中的色调H、饱和度S和亮度V进行计算,得到图像的颜色特征;步骤1.6:对于每幅图像f(x,y)计算其几何不变矩,并使用几何不变矩来描述图像的形状特征;步骤1.7:对于每幅图像f(x,y)计算其灰度共生矩阵,并使用灰度共生矩阵来描述图像的纹理特征;步骤1.8:分别计算每一张新闻图像的颜色、形状和纹理特征的特征相似度,并根据特征相似度计算结果动态调整阈值,建立每一张新闻图像特征的知识图谱子图,把所有知识图谱子图链接到一起,得到新闻图像特征的知识图谱;步骤1.9:将图像的颜色、形状和纹理特征表示为知识图谱中的头实体向量和尾实体向量,特征之间的相似度表示为关系向量,将头实体向量、尾实体向量和关系向量使用TransE0模型进行过滤;步骤1.10:将图像的颜色、形状和纹理特征进行线性融合得到图像的特征向量D;步骤1.11:获取新闻类别ID,并获取该类别ID所对应的初始特征,将初始特征输入到Dense中得到新闻类别ID的特征表示r
ca

步骤1.12:将新闻类别ID的特征r
ca
、新闻标题文本聚类的类别特征r
cq
、新闻标题特征r
t
、图像特征D用注意力机制融合在一起,作为最终的新闻特征r
a
。3.根据权利要求2所述的基于多维度特征的新闻推荐方法,其特征在于,所述步骤1.1的过程如下:步骤1.1.1:基于命名实体识别技术对新闻标题进行实体抽取,将抽取得到的实体组合成新闻实体集合;步骤1.1.2:将新闻标题和对应的实体输入到PCNN中进行关系抽取,形成三元组(h,r,t);其中,h为头部实体、t为尾部实体,h和t均来自新闻实体集合,r为关系,由PCNN抽取后得到;步骤1.1.3:以三元组(h,r,t)为基础构建知识图谱;步骤1.1.4:使用知识图谱特征学习方法,从构建的知识图谱中学习实体向量和关系向量;步骤1.1.5:提取每个实体的上下文信息,即获取每个实体在图谱中的邻居,并计算每个实体的上下文向量的平均值。4.根据权利要求2或3所述的基于多维度特征的新闻推荐方法,其特征在于,为了...

【专利技术属性】
技术研发人员:郭楠李金辉高燊高天寒
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1