【技术实现步骤摘要】
一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
本专利技术涉及推荐
,特别是涉及一种基于词嵌入和多值形式概念分析的论文推荐方法及装置。
技术介绍
随着互联网技术的高速发展,越来越多的学术网站出现并被科研工作者所使用,比如著名的中国知网、百度学术、万方数据库等。在用户进行搜索时,提供相关的搜索语句,网站就会从大量的论文数据中快速的获取相关论文,并推荐给用户,这无疑使科研人员之间的交流和获取信息变得格外容易和方便。但学术网站在提供极大便利的同时,信息过载已经成为科研工作者所面临的主要困境之一,科研工作者难以快速从大量的推荐论文中获取有效信息,因此如何提高推荐的精准度和效率成为了难题。目前,现有技术中有大量通过词嵌入实现论文推荐的聚类算法,主要是利用Word2Vec、GloVe等通过浅层神经网络实现词嵌入的工具,将论文中的关键信息映射到带有语义关系的向量,并通过层次聚类、密度聚类等聚类算法进行词向量聚类,获取推荐论文。但是,上述方法在处理大量文本时有非常高的时空复杂度,并且不能全面地描述论文与关键词之间的关系,导致论文的推荐效率和精准度均较低。
技术实现思路
为克服相关技术中存在的问题,本专利技术实施例提供了一种基于词嵌入和多值形式概念分析的论文推荐方法及装置。根据本专利技术实施例的第一方面,提供一种论文推荐方法,包括如下步骤:建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;从所述形式概 ...
【技术保护点】
1.一种基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,包括步骤:/n建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;/n从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;/n计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;/n获取用户关键词,计算所述用户关键词的第二中心向量;/n计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。/n
【技术特征摘要】 【专利技术属性】
1.一种基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,包括步骤:
建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
获取用户关键词,计算所述用户关键词的第二中心向量;
计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
2.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于:
所述对应关系包括:每篇所述论文具有该关键词的概率;
所述相同的对应关系包括:每篇所述论文具有该关键词的概率大于第一阈值。
3.根据权利要求2所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,获取每篇论文中具有每个关键词的概率的步骤包括:
将所有关键词转换为词向量;
计算每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的余弦相似度;
获取每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的最大余弦相似度,得到每篇所述论文具有该关键词的概率。
4.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于:
每个形式概念中内涵里的关键词数量和外延里的论文数量都至少大于1,且每个形式概念中的内涵里的关键词数量和外延里的论文数量的乘积大于第二阈值。
5.根据权利要求1至4任意一条所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量,包括步骤:
计算每个所述形式概念中每个所述关键词的词向量;
根据如下公式计算每个所述形式概念的第一中心向量:
其中,若vi表示关键词的词向量,n表示关键词的数量,则Vcenter1表示每个形式概念的第一中心向量。
6.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述获取用户关键词,计算该用户关键词的第二中心向量,包括步骤:
获取用户关键词;
计算每个所述用户关键词的词向量;
根据每个所述用户关键词的词向量,通过如下公式计算出所述用户关键词的第二中心向量:
技术研发人员:蒋运承,朱星图,詹捷宇,马文俊,刘宇东,李亚扬,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。