一种基于知识感知的新闻推荐方法技术

技术编号:23932911 阅读:49 留言:0更新日期:2020-04-25 02:06
本发明专利技术公开了一种基于知识感知的新闻推荐方法,属于人工智能与网络信息大数据技术领域。首先从新闻文本中识别出实体,将其与知识图谱中的实体相匹配,利用知识表示学习模型得到实体和关系的向量表示。然后,用卷积神经网络融合新闻的词向量和实体向量,从中学习新闻的综合特征。对于每个候选新闻,基于用户浏览历史与候选新闻间的相关性,使用注意力网络动态构建用户特征。同时,考虑已点击新闻中的实体与候选新闻中的实体间的路径,利用长短期记忆网络从路径中生成路径特征。最后以候选新闻特征、用户特征和路径特征为输入,用多层感知机制计算用户点击候选新闻的概率,达到推荐目的。本发明专利技术能够有效发掘新闻之间的知识关联,显著优于传统方法。

A method of news recommendation based on knowledge perception

【技术实现步骤摘要】
一种基于知识感知的新闻推荐方法
本专利技术涉及一种基于知识感知的新闻推荐方法,属于人工智能与网络信息大数据

技术介绍
随着移动互联网的普及,越来越多的人选择通过移动互联网获取新闻资讯。对于新闻内容平台来说,构建一个能够捕获用户阅读兴趣并向其推送相关信息的个性化新闻推荐系统,显得至关重要。一般而言,在新闻推荐场景下,需要注意以下几点:第一,新闻具有很强的时效性,更迭速度很快,基于传统的协同过滤方法并不适用。第二,用户通常会对一些特定话题的新闻内容感兴趣,如何根据用户的浏览历史为用户构建兴趣偏好模型,并在此基础上判断候选新闻是否符合用户偏好,是解决问题的关键。第三,新闻内容中往往包含大量的命名实体,这些实体背后隐含的常识信息,对于建立推荐模型有着很大的帮助。目前,主流的新闻推荐方法,通常先从新闻文本中提取特征向量来表征该新闻,根据用户点击过的新闻特征构建出用户兴趣特征,并基于这些特征进行推荐。然而,文本特征通常是基于单词在语料库中的共现关系来构建的,无法体现单词背后隐含的知识层面的关联。
技术实现思路
本专利技术的目的是为了解决现有的基于文本特征的新闻推荐模型难以捕获文本中隐含的知识关联的问题,创造性地提出一种基于知识感知的新闻推荐方法。本专利技术所述方法,首先从新闻文本中识别出实体,将其与知识图谱中的实体相匹配,利用知识表示学习模型得到实体和关系的向量表示。然后,使用一种知识感知的深度网络DKPN(DeepKnowledgePathNetwork)建立推荐模型。具体地,用一个卷积神经网络来融合新闻的词向量和实体向量,从中学习新闻的综合特征。对于每一个候选新闻,基于用户的浏览历史与候选新闻之间的相关性,使用一个注意力网络动态地构建用户特征。同时,为了更好地刻画用户点击过的新闻与候选新闻之间的关联,额外考虑了已点击的新闻中的实体与候选新闻中的实体之间的路径,利用长短期记忆网络来从路径中生成路径特征。最后,以候选新闻特征、用户特征和路径特征为输入,用一个多层感知机来计算用户点击候选新闻的概率,进而达到推荐目的。有益效果本专利技术方法与现有技术相比,具有如下有益效果:传统的基于文本特征的新闻推荐方法仅参考了单词在语料库中的共现关系,无法捕获文本中隐含的知识关联,当单词的共现关系不能较好地描述它们之间的关联时,模型的效果会受到限制。而本专利技术将知识图谱作为辅助信息融合到推荐模型中,能够有效地发掘新闻之间的知识关联,在F1-score、AUC等指标上显著优于传统方法。附图说明图1是本方法的流程图;图2是DKPN模型的整体框架图;图3是KCNN的结构图;图4是注意力网络结构图。具体实施方式下面结合附图和实施例对本专利技术作详细说明。如图1所示,一种基于知识感知的新闻推荐方法,包括以下步骤:步骤1:将数据集划分为训练集和测试集。其中,训练集用于优化参数,测试集用于测试效果。例如,通过在BingNews数据集上实施验证试验。数据集中的每条记录包含用户ID、新闻标题、用户是否点击以及时间戳等信息。步骤2:提取新闻文本中的实体知识信息。具体包括以下步骤:步骤2.1:使用实体链接技术,将新闻文本中的单词与知识图谱中的实体进行链接并消歧,得到新闻实体集合。步骤2.2:基于新闻实体集合,从原始的知识图谱中构造出一个知识图谱子图,并从原图中抽取所有实体之间的边。由于此种边的数目可能相对较少且缺乏多样性,将该子图扩展一跳,即,引入所有和这些实体距离为1的实体及相关的边。步骤2.3:使用知识图谱特征学习方法(如TransE、TransD等),从扩展的知识子图中,学习实体向量和关系向量。步骤2.4:由于单独学习的实体向量用于推荐模型会存在信息损失,为了更好地在知识图谱中定位实体,需要为每个实体提取其额外的上下文信息。一个实体e的上下文,是指它在知识图谱中的邻居的集合,即:context(e)={e′|(e,r,e′)∈G∨(e′,r,e)∈G}(1)其中,e、e′均表示实体,r表示关系,G表示知识图谱。由于上下文实体和当前实体有着紧密的语义和逻辑联系,上下文的使用也会为当前实体提供更多互补的信息,并辅助对当前实体的标识。因此,将实体e的上下文向量定义为它的上下文实体的向量的平均值:其中,ei是实体e的上下文实体集合context(e)的第i个实体的向量表示。步骤3:根据实体知识信息,构建新闻点击预测模型。具体包括如下步骤:步骤3.1:构建新闻特征。具体包括如下步骤:步骤3.1.1:对于一个新闻标题[w1,w2,...,wn],将每个单词wi与其词向量wi、实体向量ei以及实体上下文向量一一对应,若没有相应的实体向量和实体上下文向量,则用零向量替代。同时,为解决词向量和实体向量的兼容性问题,引入映射函数g():g(e)=tanh(Me+b)(3)其中,M∈Rd×k是一个转换矩阵,b为偏置常量,该函数将k维的实体向量和实体上下文向量映射到d维的向量空间中,与词向量一致。类似于RGB三通道输入,将词向量、映射后实体向量和映射后的实体上下文向量堆叠后,得到三通道输入W:其中,Rd×n×3表示d×n×3的实张量空间,R为实数空间。步骤3.1.2:用一个知识感知的卷积神经网络(KCNN),从W中提取新闻特征。如图3所示。首先,通过卷积核h∈Rd×l×3提取卷积特征,进行卷积操作后得到相应特征其中,*为卷积操作,b为偏置常量,f为非线性映射函数(通常采用tanh函数),Wi:i+l-1表示卷积核h的窗口所覆盖的部分输入。卷积核h对整个W进行卷积操作后可得一组特征然后,对ch进行最大池化操作,从ch的分量中选取最大值作为高层特征:对于包含m个卷积核的卷积神经网络,新闻标题t的最终特征为:步骤3.2:构建实体路径特征。对于知识图谱中的一条包含L个实体的路径其中el是路径中的第l个实体,关系rl在路径中连接实体el和实体el+1,实体el和关系rl对应的向量分别记为el∈Rk和rl∈Rk。利用长短期记忆网络LSTM提取知识图谱中指定的两个实体之间的路径特征,LSTM接受一个向量序列作为输入。对于路径中的每个实体el,按照下式构造LSTM的第l个输入xl:其中,为连接运算符,将实体向量el和关系向量rl连接为一个2d维的向量xl。对于最后一个实体向量eL,用一个零向量与其相连接。LSTM中间层各项变量计算如下:zl=tanh(Wzxl+Whhl-1+bz)fl=σ(Wfxl+Whhl-1+bf)il=σ(Wixl+Whhl-1+bi)ol=σ(Woxl+Whhl-1+bo)(9)cl=fl⊙cl-1+il⊙zlhl=ol⊙tanh(cl)其中,本文档来自技高网...

【技术保护点】
1.一种基于知识感知的新闻推荐方法,其特征在于,包括以下步骤:/n首先,从新闻文本中识别出实体,将其与知识图谱中的实体相匹配,利用知识表示学习模型得到实体和关系的向量表示;/n然后,使用一种知识感知的深度网络DKPN建立推荐模型,具体地,用一个卷积神经网络来融合新闻的词向量和实体向量,从中学习新闻的综合特征;/n对于每一个候选新闻,基于用户的浏览历史与候选新闻之间的相关性,使用一个注意力网络动态地构建用户特征;同时,考虑已点击的新闻中的实体与候选新闻中的实体之间的路径,利用长短期记忆网络来从路径中生成路径特征;/n最后,以候选新闻特征、用户特征和路径特征为输入,用一个多层感知机来计算用户点击候选新闻的概率,据此向用户进行新闻推荐。/n

【技术特征摘要】
20190606 CN 20191049530951.一种基于知识感知的新闻推荐方法,其特征在于,包括以下步骤:
首先,从新闻文本中识别出实体,将其与知识图谱中的实体相匹配,利用知识表示学习模型得到实体和关系的向量表示;
然后,使用一种知识感知的深度网络DKPN建立推荐模型,具体地,用一个卷积神经网络来融合新闻的词向量和实体向量,从中学习新闻的综合特征;
对于每一个候选新闻,基于用户的浏览历史与候选新闻之间的相关性,使用一个注意力网络动态地构建用户特征;同时,考虑已点击的新闻中的实体与候选新闻中的实体之间的路径,利用长短期记忆网络来从路径中生成路径特征;
最后,以候选新闻特征、用户特征和路径特征为输入,用一个多层感知机来计算用户点击候选新闻的概率,据此向用户进行新闻推荐。


2.如权利要求1所述的一种基于知识感知的新闻推荐方法,其特征在于,提取新闻文本中实体知识信息的方法为:
步骤2.1:使用实体链接技术,将新闻文本中的单词与知识图谱中的实体进行链接并消歧,得到新闻实体集合;
步骤2.2:基于新闻实体集合,从原始的知识图谱中构造出一个知识图谱子图,并从原图中抽取所有实体之间的边;将该子图扩展一跳,即,引入所有和这些实体距离为1的实体及相关的边;
步骤2.3:使用知识图谱特征学习方法,从扩展的知识子图中,学习实体向量和关系向量;
步骤2.4:为每个实体提取其额外的上下文信息,一个实体e的上下文,是指它在知识图谱中的邻居的集合,即:
context(e)={e′|(e,r,e′)∈G∨(e′,r,e)∈G}(1)
其中,e、e′均表示实体,r表示关系,G表示知识图谱;
将实体e的上下文向量定义为它的上下文实体的向量的平均值:



其中,ei是实体e的上下文实体集合context(e)的第i个实体的向量表示。


3.如权利要求1所述的一种基于知识感知的新闻推荐方法,其特征在于,使用实体知识感知的深度网络DKPN建立推荐模型的方法为:
步骤3.1:构建新闻特征;
具体包括如下步骤:
步骤3.1.1:对于一个新闻标题[w1,w2,...,wn],将每个单词wi与其词向量wi、实体向量ei以及实体上下文向量一一对应,若没有相应的实体向量和实体上下文向量,则用零向量替代;同时,为解决词向量和实体向量的兼容性问题,引入映射函数g():
g(e)=tanh(Me+b)(3)
其中,M∈Rd×k是一个转换矩阵,b为偏置常量,该函数将k维的实体向量和实体上下文向量映射到d维的向量空间中,与词向量一致;将词向量、映射后实体向量和映射后的实体上下文向量堆叠后,得到三通道输入W:



其中,Rd×n×3表示d×n×3的实张量空间,R为实数空间;
步骤3.1.2:用一个知识感知的卷积神经网络,从W中提取新闻特征:
首先,通过卷积核h∈Rd×l×3提取卷积特征,进行卷积操作后...

【专利技术属性】
技术研发人员:刘琼昕覃明帅宋祥王佳升徐建祥卢士帅
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1