一种基于词嵌入和多值形式概念分析的论文推荐方法及装置制造方法及图纸

技术编号:24010722 阅读:28 留言:0更新日期:2020-05-02 01:39
本发明专利技术提供一种基于词嵌入和多值形式概念分析的论文推荐方法及装置,包括建立对象为论文、属性为所有论文的关键词的形式概念背景表;从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念;计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;获取用户关键词,计算所述用户关键词的第二中心向量;计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。相对于现有技术,本发明专利技术更好地描述了论文与关键词的关联性,提高了论文推荐的效率和精准性。

A paper recommendation method and device based on word embedding and multi value formal concept analysis

【技术实现步骤摘要】
一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
本专利技术涉及推荐
,特别是涉及一种基于词嵌入和多值形式概念分析的论文推荐方法及装置。
技术介绍
随着互联网技术的高速发展,越来越多的学术网站出现并被科研工作者所使用,比如著名的中国知网、百度学术、万方数据库等。在用户进行搜索时,提供相关的搜索语句,网站就会从大量的论文数据中快速的获取相关论文,并推荐给用户,这无疑使科研人员之间的交流和获取信息变得格外容易和方便。但学术网站在提供极大便利的同时,信息过载已经成为科研工作者所面临的主要困境之一,科研工作者难以快速从大量的推荐论文中获取有效信息,因此如何提高推荐的精准度和效率成为了难题。目前,现有技术中有大量通过词嵌入实现论文推荐的聚类算法,主要是利用Word2Vec、GloVe等通过浅层神经网络实现词嵌入的工具,将论文中的关键信息映射到带有语义关系的向量,并通过层次聚类、密度聚类等聚类算法进行词向量聚类,获取推荐论文。但是,上述方法在处理大量文本时有非常高的时空复杂度,并且不能全面地描述论文与关键词之间的关系,导致论文的推荐效率和精准度均较低。
技术实现思路
为克服相关技术中存在的问题,本专利技术实施例提供了一种基于词嵌入和多值形式概念分析的论文推荐方法及装置。根据本专利技术实施例的第一方面,提供一种论文推荐方法,包括如下步骤:建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;获取用户关键词,计算所述用户关键词的第二中心向量;计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。相对于现有技术,本专利技术(申请)实施例利用形式概念分析的原理进行形式概念的提取,将具有相同的对应关系的论文和关键词进行整合,更全面地描述了论文与关键词的关联性,并且,避免了形式概念分析中概念格的生成,降低了算法的时空复杂度,提高了推荐效率。同时,通过词向量技术将关键词转换为词向量,能够更好地计算出用户关键词与形式概念中关键词的相似度,进一步提高了论文推荐的精准性。在一个可选的实施例中,所述对应关系包括:每篇所述论文具有该关键词的概率;所述相同的对应关系包括:每篇所述论文具有该关键词的概率大于第一阈值。通过引入概率的计算,实现了多值形式概念分析,使得在论文推荐的过程中,不仅仅关注论文原有的关键词,也同时关注论文具有该关键词概率较高的关键词,提高论文推荐的精准度。在一个可选的实施例中,获取每篇论文中具有每个关键词的概率的步骤包括:将所有关键词转换为词向量;计算每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的余弦相似度;获取每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的最大余弦相似度,得到每篇所述论文具有该关键词的概率。通过计算余弦相似度作为论文具有关键词的概率,能够更好地反映了关键词的词向量之间的相似度,进一步提高论文推荐的精准度。在一个可选的实施例中,每个形式概念中内涵里的关键词数量和外延里的论文数量都至少大于1,且每个形式概念中的内涵里的关键词数量和外延里的论文数量的乘积大于第二阈值。通过对关键词数量、论文数量、以及关键词数量与论文数量的乘积值的限定,使得抽取的形式概念更具有代表性,更能够反应论文的共性特征。在一个可选的实施例中,所述计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量,包括步骤:计算每个所述形式概念中每个所述关键词的词向量;根据如下公式计算每个所述形式概念的第一中心向量:其中,若vi表示关键词的词向量,n表示关键词的数量,则Vcenter1表示每个形式概念的第一中心向量。通过计算形式概念内关键词的词向量的第一中心向量,实现了将多个关键词用统一的向量表示,降低了算法复杂度,提高了推荐效率。在一个可选的实施例中,所述获取用户关键词,计算该用户关键词的第二中心向量,包括步骤:获取用户关键词;计算每个所述用户关键词的词向量;根据每个所述用户关键词的词向量,通过如下公式计算出所述用户关键词的第二中心向量:其中,vi表示用户关键词的词向量,n表示用户关键词的数量,Vcenter2表示用户关键词的第二中心向量。通过计算用户关键词的词向量的第二中心向量,实现了将多个用户关键词用统一的向量表示,降低了算法复杂度,提高了推荐效率。在一个可选的实施例中,所述获取用户关键词,包括步骤:获取用户的个人信息文档、行为偏好文档和检索要求文档;将所述个人信息文档、所述行为偏好文档和所述检索要求文档进行结巴分词,得到初始用户关键词;根据所述初始用户关键词,通过关键度计算公式计算出所述初始用户关键词的关键度;获取所述初始用户关键词的关键度大于第三阈值的初始用户关键词作为所述用户关键词。相较于仅根据用户检索词进行论文推荐的方法,通过获取用户的个人信息、行为偏好、检索要求等,更全面地确定了当前用户的初始用户关键词,并通过计算初始用户关键词的关键度,获取用户关键词,使得最终获取的用户关键词更能够反应用户的检索需求,从而能够为用户提供更精准的论文推荐。在一个可选的实施例中,根据所述初始用户关键词,通过如下关键度计算公式,计算出所述初始用户关键词的关键度:TF-IDFi=TFi×IDFi|wi|表示初始用户关键词wi在文档中出现的次数,示所有初始用户关键词出现的次数之和;|D|表示文档的总数,|{j:wi∈D}|表示出现初始用户关键词wi的文档数。通过上述关键度计算公式,能够使关键度的计算更为准确,更能够反应初始用户关键词的关键程度。在一个可选的实施例中,所述计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文,包括步骤:根据如下距离公式计算所述第二中心向量与每个第一中心向量之间的距离:其中,若第一中心向量表示为(x11,x12,x13...x1m),第二中心向量表示为(x21,x22,x23...x2m),m表示第一中心向量和第二中心向量的维度,则d表示第一中心向量与第二中心向量的距离。根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。通过引入欧式距离的计算中心向量的距离,从而更精准地反应第一中心向量与第二中心向量的相似度。根据本专利技术实本文档来自技高网...

【技术保护点】
1.一种基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,包括步骤:/n建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;/n从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;/n计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;/n获取用户关键词,计算所述用户关键词的第二中心向量;/n计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。/n

【技术特征摘要】
1.一种基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,包括步骤:
建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
获取用户关键词,计算所述用户关键词的第二中心向量;
计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。


2.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于:
所述对应关系包括:每篇所述论文具有该关键词的概率;
所述相同的对应关系包括:每篇所述论文具有该关键词的概率大于第一阈值。


3.根据权利要求2所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,获取每篇论文中具有每个关键词的概率的步骤包括:
将所有关键词转换为词向量;
计算每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的余弦相似度;
获取每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的最大余弦相似度,得到每篇所述论文具有该关键词的概率。


4.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于:
每个形式概念中内涵里的关键词数量和外延里的论文数量都至少大于1,且每个形式概念中的内涵里的关键词数量和外延里的论文数量的乘积大于第二阈值。


5.根据权利要求1至4任意一条所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量,包括步骤:
计算每个所述形式概念中每个所述关键词的词向量;
根据如下公式计算每个所述形式概念的第一中心向量:



其中,若vi表示关键词的词向量,n表示关键词的数量,则Vcenter1表示每个形式概念的第一中心向量。


6.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述获取用户关键词,计算该用户关键词的第二中心向量,包括步骤:
获取用户关键词;
计算每个所述用户关键词的词向量;
根据每个所述用户关键词的词向量,通过如下公式计算出所述用户关键词的第二中心向量:

【专利技术属性】
技术研发人员:蒋运承朱星图詹捷宇马文俊刘宇东李亚扬
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1